|
|
www.design-reuse-china.com |
Demystifying the new ecology of AI chips, what did the big leads from Qualcomm/Intel/Huawei/ say ?
国际电子商情 李晋, Mar. 20, 2019 –
其实该业内人士的观点,的确反映了当前AI芯片产业的一些现状。经过几年时间的沉淀,真正有实力的企业开始实现产品落地。
魏少军:AI Chip 0.5至 2.0的演变
中国半导体行业协会IC设计分会理事长、清华大学微纳电子系魏少军教授表示,当前的AI服务基本都在云上,很少出现在其他地方,其原因在于先驱者们在云上做了大量工作,这些工作包括:智慧家庭、图像认知、智慧医疗、AI翻译等。
不过,从"云"走向"边",从Cloud到Edge是必然的现象。魏教授举例表示,Google在2018年峰会上提出,无论怎样的AI都要从现实社会中摄取,把原始数据转化成语义化的数据,再让Cloud来处理。"这是必然现象。"他也补充说:"目前,AI走向边缘的过程主要以‘通用’为主驱动力,但是从未来几年发展看,终端应用为主或将占主导地位,专用AI芯片将起到非常重要的引领作用,这也是未来发展的重要方向。"
另外,魏教授还谈到‘软件定义芯片’的话题,他从软、硬件的可编程性来切入。"最好的架构能解决能量效率的问题,什么样的芯片具备这样的架构?我们把软、硬件的可编程性分为四个象限。传统的CPU、DSP在第二象限,专用集成电路在第三象限,FPGA、EPLD在第四象限。第一个象限具备很好的软、硬件可编程性,如果这两者都成立,就是‘软件定义芯片’。"
最后,魏教授畅想了AI Chip 2.0的愿景以及实现路径。"AI Chip 0.5是非常早期的阶段,像Intel CPU、Nvidia GPU、AD的DSP,这些产品不是作为AI Chip而出现的;AI Chip 1.0包括Google的TPU、MIT Eyeriss、Nvidia SCNN、KAIST UNPU,这类产品专门为AI设计,是一种领域专用的东西或某种拓展。AI Chip 1.5开始探索通用性,像Tsing Micro Thinker、Wave Computing DPU都属于1.5,它们具备半通用、可重构、可配置的特性,也可能兼顾了两个内容;而AI Chip 2.0到今天为止还没有答案,也许是通用、自适应、具备智慧化的东西。"他说道。
李维兴:5G成就AI,AI成就5G
高通技术副总裁李维兴围绕着终端侧AI介绍了高通对人工智能、云端、终端侧的看法和产品规划。他的核心观点是:5G和AI的关系密不可分,一方的进步推动另一方的发展。
2018年,高通正式成立Qualcomm人工智能研究院,关注AI产品研发、制造以及与合作伙伴的项目。截至今日,高通共发布了四代AI平台。第一代骁龙820是高通首个针对AI Engine的平台,用CPU的方式将AI的使用场景呈现出来;第二代骁龙835支持Caffe 2,通过它支持神经网络的SDK开始使用CPU、GPU、DSP。第三代骁龙845支持的项目非常多,通对iOS端的支持将人工智能的运算做到更优化。
第四代骁龙855集成了Kryo 485 CPU、Adreno 640 GPU、Hexagon 690处理器、骁龙X24调制解调器、全新的Spectra 380 ISP以及WiFi、蓝牙模块、安全模块等。在AI方面,855支持第四代多核Qualcomm人工智能引擎AI Engine,可实现7 TOPs运算,性能是845的三倍。值得注意的是,Hexagon 690处理器增添了一个全新设计的Hexagon张量加速器,四个Hexagon向量扩展内核,还增加了四线程标量内核。基于此,骁龙855成为2019全球5G发布重要的平台。
他还认为,AI训练、推理可在云端做,也可往终端走。"大家对与云相关的使用场景都非常振奋,但后续的规模化需要与半导体及软件行业提供联结的使用机会。传感器一定在边缘,实时接触也在边缘。如何保持工厂和汽车自动化的个性化,保护好隐私,维持可靠性?将AI运算分布到全网是必然趋势。"他说。
最后,李维兴表示,5G可将AI从云端加上边缘化,AI的使用场景可将5G的商业模式开发出来。研发、投资,将无线、通讯、边缘计算通过感知、推理、行动的过程中迭代是高通在5G+AI领域上可为业界做出的贡献。
Andrew Grant:Imagination AI芯片方案助力自动驾驶
Imagination Technologies视觉及AI部门高级总监Andrew Grant为现场观众描述了云端的工作,还解释了智能物联网和边缘设备的如何运作原理。他表示,在智能摄像头监控、智能驾驶以及其他更多的领域都会使用到边缘设备,其演讲主要围绕这些领域展开。
Imagination的AI芯片方案可以面向监控摄像头、智能汽车以及智慧城市的边缘设备进行拓展。Andrew 认为,当前智能汽车是非常热的话题,神经网络在汽车上的应用,可让ADAS、汽车自动化、摄像头监测等性能得到明显提升,而精准地识别前方路况,需要车载配件以及神经网络相互协调工作。
在智能汽车上,Imagination的PowerVR可支持自动驾驶的路径规划、道路标志识别、导航、司机疲劳监测预警等功能,当汽车与摄像头通过车联网连接在一起时,在车联网的辅助下,智慧交通将成为可能。不过,自动驾驶水平从最低级到最高级也代表着越来越高的要求、越来越强大的功能,其所需的算力也将涨至500+Tops,这需要低能耗、高算力的芯片。
同时,Andrew 以智能相机为例,探讨了边缘与云的关系。他表示,单一的智能相机能检测到移动的物体,但不能区别鸟和可疑的人。如果它在神经网络和加速器上面,我们就可以把这个视频放在神经网络上,就能知道他们在做什么。这就是边缘更强大带来的益处,这个边缘可以去帮助云,同时云也可以帮助边缘。
未来在车上可能会有6-12个屏幕,这需要训练GPU,让汽车可去运行8个独立的处理器。并且,当一个处理器坏掉,也不影响其他处理器的运行。"相互独立运行非常重要,能带来更好的性能,使系统更加灵活,这应该是未来的主流。" Andrew 表示:"不同的处理器、CPU、解决方案都是非常重要的,但是我们认为的GPU还有神经网络的加速器,把二者结合会带来更好的结果。"
最后,Andrew强调,PowerVR的处理速度是移动CPU的100+倍。Imagination PowerVR 3NX IP的单核设计支持0.6-10Tops的计算性能,通过多核结构最多提供高达160Tops的计算性能,可以满足对算力要求的汽车领域的需求。
戴金权:大数据分析可与人工智能相统一
英特尔高级首席工程师、大数据技术全球CTO戴金权表示,英特尔一直致力于提供从端到端,包括设备端、边缘、网络到数据中心端到端完整的解决方案或者计算架构。为此,他重点介绍了英特尔的开源项目Analytics Zoo。
"我们在英特尔做了很多工作,包括Analytics Zoo项目,该项目能够将大数据分析和人工智能统一起来。此前,在大数据分析和人工智能当中,没有一种解决方案能够解决所有问题。"他表示。
直到今日,英特尔的至强服务器仍是大数据分析和人工智能的基础架构。包括:Cascade Lake,至强可扩展处理器,以及一些新功能的支持,构成了一个非常基础、应用广泛的人工智能+大数据分析的应用平台。
那么,如何在基础的平台上利用Apache Spark来构建人工智能?英特尔开发、开源了基于Apache Spark分布式深度学习的框架BigDL。BigDL在大数据的平台上提供了一个原生的深度学习的图像,可让用户直接在现有大数据Spark上运行深度学习的应用,同时为底层大规模分布式硬件集群做了大量的优化。
对于大多数用户来说,尤其在生产系统当中,基于Apache Spark这样的大数据集群仍然是生产数据、大量硬件资源的聚集地。更高效利用这些生产数据和硬件资源,能够将新的人工智能的应用支持起来。
王孝斌:HiAI 2.0的现状及优势
华为无线终端芯片业务部副总经理王孝斌分享了华为在端侧AI、HiAI上的进展情况。端侧的Machine Learing会让手机越来越智能,预计到2022年,80%的手机会具备端侧AI的能力。
HiAI是基于集成NPU使用专业的指令集和计算库,高效执行神经网络的算子。在AI时代,专业的NPU张量计算最适合AI的应用。HiAI采用了很多种优化方法,尽量将计算在本地完成,由此实现快速简洁有效的推理预算。
去年,华为推出了HiAI 2.0,跟着麒麟980发货,目前服务的消费者已经超过了6000万。据悉,HiAI2.0平台包括HiAI Foundation芯片能力、HiAI Engine应用能力与HiAI Service服务能力,分别对应的是芯、端、云上的开放平台。
在芯片能力方面,因为麒麟980的关系,HiAI2.0平台的AI算力更强。以图像识别为例,麒麟970的每分钟图片识别率为2000张,而麒麟980则增加到4500张。HiAI2.0能够支持轮廓、姿态细粒度的物理识别,可进行视频的处理,做到了精准象素级的分割。
另外,HiAI2.0还具备以下优势:算法方面有较大提升,支持的算子数增加到了147个;支持当下几乎所有的主流模型,包括TensorFlow、CoreML、Caffe2、ONNX、PaddlePaddle、MindSpore等;在工具链方面也有提升;在兼容性方面可兼容INT8。同时,HiAI2.0的开发周期也有了非常大的提升。芯片级Foundation开发周期缩短到一个星期,基于云的Service由周期缩短到1天,HiAI Engine周期缩短到一个小时。
欧阳剑:2019年"昆仑"将会在内部大规模使用
百度主任架构师欧阳剑介绍了百度近年来在AI芯片上的工作,重点讲述了百度"昆仑"芯片。
"AI时代的摩尔定律非常高,在数据和模型复杂度方面,每两年就有量子级的提高。此背景下,专用处理器是必经之路。"欧阳剑还介绍,过去的百度一直在探索一条适合自己发展的AI处理器的路。2011年左右,在做GE FPGA的架构器;2013年,在FPGA基础上诞生了性能AI处理器;2017年,基于FPGA架构的AI处理器具备了CT tops性能,并有了1000+片FPGA的部署规模。同年,百度提出了XPU的架构,该架构是普适的AI计算架构,可用在云端、自动驾驶、边缘计算,具有很高的计算能力、高通用性、灵活性;2018年,百度发布了"昆仑",其性能比之前提高了30倍。
"昆仑"芯片基于三星14nm制程工艺,有很高的内存带宽,性能达到260 tops,具有极大的通用性和灵活性,该芯片既能做训练也可做预测。未来百度将会把"昆仑"应用于自动驾驶领域,利用XPU强大的计算能力和车载配件共同推动自动驾驶汽车的发展。欧阳剑还透露,2019年"昆仑"将会在百度内部大规模使用。
Chris Nicol:将助力AI从数据中心到边缘设备
Wave computing高级副总裁兼CTO Chris Nicol介绍了Wave研发的DPU。据了解,Wave的DPU芯片,可将软件接入到芯片,能存取外部内存上的数据信息。DPU芯片内部集成了大量Cluster,每个Cluster内包含8个DPU算术单元、16个处理元素和存储器。其中,处理单元用全局异步、局部同步设计实现,没有时钟信号,由数据流驱动。处理单元与CGRA可同时运行计算。
Chris还提到了联合学习,在数据中心训练一个大型模型,将其分布到不同的边缘设备上。边缘设备也具备训练的能力,可在数据中心训练好的模型基础上持续训练学习,同时边缘设备可将后续学习的结果再传回数据中心,有助于数据中心模型的进一步分析和训练。未来,Wave将把AI从数据中心扩展到边缘设备。
钱诚:寒武纪的目标是做到端云一体
寒武纪副总裁钱诚表示,目前在云端做智能处理要解决的问题最终可以归结为能效比的瓶颈问题,已有的ASIC、ASIP、FPGA、GPU、CPU的能效大约集中在每秒100-1000亿次能效比区间,再往上非常困难。
现在瓶颈有三方面的问题:1.摩尔定律等物理定律功效渐渐减弱,现在设计在相同面积的情况下功耗是上升的。2.多核并行方面渐渐成为瓶颈,比如说现在做超级系统就50%左右的并行效率。3.应用场景发生变化,云端的重要性已经变得越来越突出。
这需要性能功耗比高、通用性强的芯片。实际上,当芯片设计得越通用其能效就越低,要同时满足这两个条件是非常困难的。
为解决这个问题,现在业界的做法是主要集中在领域专用的架构。这个架构需要支持非常高的性能功耗比,采用的电路都是领域专用的。不过又要兼顾通用性,无法做到像CPU一样对所有计算具备强有力的加速,只适合在某一领域里对某一大类的算法做加速,这就是现在的领域专用架构。
寒武纪的目标是希望能够在云端做到端云一体。很多端以后都会发展成多元具像的具体设备,比如:手机可以是浏览器、阅读器、收音机、电视、摇控器等等。这些设备显然是需要通用的智能处理能力,同时要使云端训练好的模型和框架严丝合缝地移植到具体的终端设备上,现在很多设备做不到,希望未来的端云一体能做到。