|
|
www.design-reuse-china.com |
To achieve the edge AI, we must first break through the "memory wall"
Nitin Dahad, EE Times, Jul. 10, 2018 – 为快速成长的人工智慧(artificial intelligence;AI)应用实现高效率的运算性能,必须解决「记忆体墙」(memory wall)的瓶颈,并推动新的架构解决方案;这是法国CEA Tech旗下技术研究机构Leti关注的重点领域。 Leti执行长Emmanuel Sabonnadiere在Leti年度创新会议上接受《EE Times》访问时表示,业界需要一种高度整合的整体途径,将AI从软体和云端移至边缘(edge)的嵌入式晶片。 Sabonnadiere说:「边缘确实需要一些创新,采用除了CMOS以外的不同架构,从结构上整合至系统,并从云端实现自主性——例如针对自动驾驶车,您需要云端尽可能地独立作业。」 他认为恩智浦(NXP)可望成为驱动在边缘实现更多运算的一项关键指标,因而针对高通(Qualcomm)并购恩智浦一案发表评论:「你觉得高通为什么要买下恩智浦?它是为了(边缘运算)的感测,而将数位置于感测之后。」 为了解决运算架构典范,Sabonnadiere期望能在Let与史丹佛大学(Stanford University)电气工程和电脑科学系教授Subhasish Mitra带领的团队合作中取得一些突破。 Mitra的研究已经进展一段时间了,专注于为庞大资料和密集互连应用探索记忆体内处理(processing-in-memory)的新架构。这项研究获得了美国国防部先进研究计划局(DARPA)、国家科学基金会(NSF)、Semiconductor Research、STARnet SONIC和史丹佛大学SystemX联盟的成员公司共同资助 - Sabonnadiere谈到晶片验证时说:「我们深信这是解决『超越摩尔定律』(more-than-Moore)挑战的前进方向,并且已经要求Mitra教授打造这一研究展示了。」 在会议上,Mitra表示,庞大的资料超级风暴正袭卷而来,而其运算需求远超过处理能力,因此必须使用支援先进3D整合的运算奈米系统架构。 Mitra说:「资料必须经过处理才能创造决策,但目前还有太多我们无法处理的『暗黑』资料。以Facebook为例,它必须采用256个Tesla P100 GPU,才能在1小时训练好ImageNet,这在以前大约需要几天的时间。」 提高运算性能的选择 那么目前提高运算性能的选择是什么? Mitra说,其一是要有一个更好的逻辑开关——但这方面的实验展示并不多。第二种是使用设计「技巧」,例如多核心、加速器或电源管理技巧。但他也补充说,可用的技巧并不多,而且当实施这些技巧而使设计变得更复杂,甚至会使验证变得更困难。另一个挑战则是Mitra所谓的「记忆体墙」。 Mitra说:「各种类型的庞大资料应用中,一个共同点就在于记忆体墙——系统需要更有力地存取记忆体。」 Mitra说,这就是专注于记忆体的运算概念所在,也是与Leti合作的关注重点——Sabonnadiere希望将在这方面取得突破。它使用先进3D整合使得运算更接近于资料。该晶片采用碳奈米管(CNT),因为Mitra表示它们是唯一可以超越CMOS和电阻式随机存取记忆体(RRAM)的技术。 RRAM和碳奈米管彼此垂直建构,形成具有逻辑层和记忆体层交错的密集3D电脑架构。在这些分层之间插入超密走线,应该就能以这种3D架构解决通讯的瓶颈。 Mitra将这个问题比喻为从旧金山(San Francisco)到加州柏克莱(Berkeley)之间的交通挑战——由于只有三座桥梁可以穿越两个都市,因而造成了交通堵塞。然而,如果打造更多的桥梁——或者在他提出的3D架构情况下,就能够解决多奈米级交错层间过孔的瓶颈。 记忆体和软体2.0的突破 Leti首席科学家Barbara De Salvo表示,业界并未充份重视新兴记忆体技术,这些技术通常仍被视为利基技术。 De Salvo说:「在记忆体领域,业界仍持续采用传统技术。而像电阻式RAM、磁阻式RAM和相变记忆体等新兴技术仍未被充份利用。但它可望在实现新型架构方面带来巨大突破。」De Salvo并补充说,在未来几年,在软体中使用深度学习和AI也可能中在运算方面取得重大突破。 她说:「我指的是一个使用深度学习和机器学习来开发软体的新概念。软体是一个系统中最昂贵的部份之一。透过使用深度学习产生软体,以前需要花六个月的一些任务现在可以只需要几天的时间。」