人工智能新硬件，打开群体智能大时代-丿卿果儿的专栏

人工智能新硬件，打开群体智能大时代

2018-03-09 13:39:50栏目：科技 IP属地：IP未知

人工智能新硬件，打开群体智能大时代

电影《超能陆战队》中成为大反派最大助力的“微磁机器人”可能给许多人留下了十分深刻的印象：看似简单无力的小小机器人在达到一定数量之后，就可以自由组合成各种能够帮助人类的神奇工具，这或许将成为未来生活的真实写照。能够汇集多个简单智能机器并解决复杂问题的形式，被称作“群体智能”。这种智能模式能够在任何连接到互联网，并拥有人工智能的设备中运行，而不仅仅局限于机器人这一形式。

2017年7月公布的我国《新一代人工智能发展规划》中指出2020的目标之一：大数据智能、跨媒体智能、群体智能、混合增强智能、自主智能系统等基础理论和核心技术实现重要进展，人工智能模型方法、核心器件、高端设备和基础软件等方面取得标志性成果。而现实中的群体智能例子还包括基于群体编辑的维基百科、基于群体开发的开源软件、基于众问众答的知识共享、基于众筹众智的万众创新、基于众包众享的共享经济等等。

基于人工智能的新硬件，是另一种群体智能的方向。一般消费者能够接触到的新款智能手机、智能电视以及智能汽车，已经搭载了内置机器学习能力的芯片，这些设备能够为用户提供更精准的搜索和翻译结果、图像识别、以及驾驶辅助功能，为人们带来诸多方便。而当这些人工智能芯片不仅能够接入网络，并能够互相通信时，那么这些人工智能就有可能汇集成一个更大的机器智能体。这个智能体能够解决更加复杂的问题、如城市交通、自动化仓储管理、0日病毒及其变种的自我防御等。然而就目前而言，并非所有的设备都内置了搭载人工智能技术的芯片。在人工智能发展已成不可逆的大趋势下，为更多的设备插上人工智能的翅膀，成为了半导体研发厂商的关键方向。

作为老牌半导体设计厂商，ARM也在加速AI芯片布局，为群体智能大时代的到来打好基础。在硬件层面，ARM在2017台北国际电脑展前夕推出基于ARM DynamIQ技术的全新处理器，包括ARM Cortex-A75 CPU、ARM Cortex-A55 CPU和ARM Mali-G72高端GPU。新产品不仅为ARM芯片带来针对人工智能任务的技术优化，同时DynamIQ big.LITTLE还提升了芯片的配置灵活性，以适应不同强度的任务处理需求；而在软件层面，2017年3月14日，ARM发布了免费的开源工具ARM Compute Library，其中包含适用于ARM Cortex CPU和Arm Mali GPU架构的图像处理、计算机视觉和机器学习优化工具，开发者能够通过这套开源工具快速高效地针对各种ARM的CPU和GPU芯片进行功能创新。

由于ARM DynamIQ技术带来的高度灵活性，以及ARM Compute Library提供的丰富工具，使得ARM在主流级和入门级芯片中内建人工智能技术成为可能。同时ARM考虑到，专门开发全系列的机器学习处理器之前，首先要把机器学习扩散到已有的所有芯片中，因此ARM于在3月6日在北京发布了面向主流市场和入门级市场的Mali多媒体套件，包括Mali-G52 GPU（简称Mali-G52）和Mali-G31 GPU（简称Mali-G31），以及针对显示和视频播放效果进行优化的Mali-D51显示处理器以及Mali-V52视频处理器。

其中，Mali-G52采用了8个执行引擎的设计，提升了芯片的整体吞吐量，使得图形性能相比前代产品性能密度提高了30%；同时，Mali-G52还引入了对 Int8 点积加速的支持，使得该产品的机器学习能力相比上一代产品提升了3.6倍。那么Mali-G52是如何做到大幅提升机器学习能力的呢？机器学习重要的就是要做推理演绎，即通过训练出的机器学习算法模型，计算出新的预测结果。而Int8 点积能够做到在不需要高位数精度运算的条件下演绎出同样准确的推理结果，同时不消耗更多的内存和带宽需求。因此，Mali-G52能够在保证更优能耗的前提下大幅提升机器学习能力。

此外，随Mali-G52同时推出的，面向入门市场的Mali-G31是目前ARM最小处理器，尺寸相比Mali-G51缩小了20%，但通过引入ARM高端产品线的Biforst架构，使得产品性能密度提升了20%；而针对屏幕显示的Mali-D51显示处理器在无缝、高效内容投射方面，内存访问延迟性能提升50%；针对视频播放优化的Mali-V52视频处理器能使所有主流设备的解码性能提升两倍，实现4K流畅播放。通过这些GPU、显示处理器和视频处理器，配合ARM具有高度配置灵活性的DynamIQ处理器产品，ARM SoC能够分别为高端级、主流级和入门级处理器产品带来更高的性能，同时也将人工智能带到了主流用户身边。

人工智能正不断改变人们的日常生活。ARM针对人工智能芯片的发展也远未止步。2018年初，ARM正式公开Project Trillium，该项目包含一组高度可扩展处理器的ARM IP组合：ARM机器学习处理器和ARM目标检测处理器。这两项产品均为移动设备设计，并提供增强的机器学习和神经网络功能。其中，ARM机器学习处理器可以提供每秒超过4.6万亿次的运算能力；ARM目标检测处理器是专门为高效识别人或物体而设计，在全高清分辨率下可以做到实时每秒60帧的检测，性能可以达到传统DSP的80倍。此外，配合ARM Compute Library和符合ARM Cortex微处理器软件接口标准的神经网络内核CMSIS-NN，ARM神经网络（NN）软件库专门为神经网络运算（NN）进行了优化，并可无缝地把TensorFlow、Caffe和Android NN等神经网络框架和全系列的ARM Cortex CPU、ARM Mali GPU 和机器学习处理器高效连接在一起。未来，ARM机器学习产品系列还将满足不同应用场合的需求，包括从传感器、智能音箱，到移动设备、家庭娱乐以及其它领域的应用。

根据IDC的一项调查显示，在所有已经出货并具有人工智能的产品中，90%是基于ARM技术。这表明ARM已然将人工智能技术纳入自己的产品核心战略之中。ARM副总裁暨计算产品事业部总经理 Nandan Nayampally曾表示：“考虑到ARM技术已被全球70%的人口所使用，实现安全的、无处不在的人工智能已经成为ARM的基础指导性设计原则……为此，我们需要赋予从网络节点到云端的计算以更快速、更高效和更安全的分布式智能（Distributed Intelligence）。”很明显，ARM也正将人工智能与云计算相结合，汇集各种搭载人工智能技术设备的点滴智能，打开群体智能大时代的大门。