在顶级学术会议上“教老外说中文”-陈天石、科工力量-观察者网

【本文转自微信公众号“科工力量”（ID：guanchacaijing）】

不久前，百度首席科学家吴恩达在社交媒体上发表了一封公开信，宣布自己从百度辞职。吴恩达在公开信中称，百度的人工智能水平在很多方面已经达到了世界级水准。在过去的两年中，他在百度的两个最大的成就是无人驾驶汽车和DuerOS语音交互计算平台。

吴恩达

据媒体报道，谷歌为了满足自身运算量的需求，并没有去建立更多的运算中心，而是开发了适用于AI计算的高性能专用硬件—TPU。谷歌在一篇论文中提到，其自主研发的TPU在性能上一点不输英特尔，甚至在某些性能上还有所超越。

近年来与人工智能相关的产品如雨后春笋般冒出来，从谷歌、百度这样的大公司，到像寒武纪这样的初创公司，都在积极开发与人工智能相关的产品，那么，目前各家人工智能的产品究竟怎么样？

对此，科工力量日前专访了寒武纪科技创始人、首席执行官陈天石教授。

陈云霁与陈天石（右）

科工力量：谷歌需要使用上万个中央处理器运行7天来训练一个识别猫脸的深度学习神经网络。科大讯飞曾经采用大量CPU来支持大规模数据预处理，运行GMM-HMM等经典模型的训练，在千小时的数据量下，效果也不理想。这种结果的原因是什么？

答：面对特定应用领域时，CPU等通用处理器往往性能不够好，效能比不够高。我常把通用处理器比作瑞士军刀，用途广泛但不够专注。当某个特定应用领域足够重要，市场容量足够大时，人们会有动机去设计制造更专用的处理器芯片。最新的例子就是深度学习处理器，可以说是为人工智能领域打造了一把专用的菜刀。

科工力量：据媒体报道，谷歌为了满足自身运算量的需求，开发了适用于AI计算的高性能专用硬件TPU。谷歌在一篇博文中提到，其自主研发的TPU在性能上一点不输英特尔，甚至在某些性能上还有所超越。

谷歌表示，相比类似的服务器级Intel Haswell CPU和NVIDIA K80 GPU，TPU在AI运算测试中的平均速度要快15-30倍。更重要的是，TPU的每瓦性能要比普通的GPU高出25-80倍。此外，谷歌工程师还为TPU开发了名为CNN1的软件，其可以让TPU的运行速度比普通CPU高出70多倍。

我还了解到现在Google 的Olivier Temam曾经和您合作研究过寒武纪Diannao系列芯片，对于谷歌这款TPU，您怎么评价？

TPU上的内部结构

答：Google这次在ISCA 2017上发表的TPU仍然沿用传统脉动阵列机的结构，从google的数据看，对某些特定workload效率还不够好。事实上，这类结构我们早在ISCA2015上发表的ShiDianNao就已经讨论过了（Google的同行也非常了解我们这个工作），同时MIT于2016年前后发表的Eyeriss也是类似的架构。

脉动阵列机在深度学习上优缺点现在已经逐渐被学术界和工业界所熟知，那就是做卷积时效果不错（可能在退化情形的卷积上也会遇到困难），但是做其他类型的神经网络运算，可能效率不是那么高，通用性不是那么的好。

寒武纪没有走脉动阵列机的技术路线，而是迈出了具有寒武纪特色的一条通用智能处理器之路。当然Google未来一定会持续更新TPU的架构，我们十分期待未来继续与国际工业界和学术界同行同台竞技。

值得一提的是，Google发布的TPU论文，全文共引用了寒武纪团队成员前期发表的6篇论文（世界范围内可能没有另外一系列工作受到Google同行如此程度的关注），并有专门的段落回顾我们这一系列工作，并且在提到DaDianNao/PuDianNao/ShiDianNao时还专门用英文注释这几个名字的含义（Big computer, general computer, vision computer），对我们前期工作显示了相当的尊重。

非常值得骄傲的是，我们早期与Olivier Temam教授共同开展的这一系列开拓性学术工作，已经成为智能芯片领域引用次数最多的学术论文，成为世界范围内研发智能芯片必读的文献。如您所提到的，与我们共同开展DianNao系列学术研究的Olivier Temam教授，他本人在几年前就已经加入了Google。相信他会把DianNao系列的学术思想融入TPU后续的版本，把TPU的事业继续推向新高度。我坚信，未来不论是寒武纪或是Google TPU的成功，都会让DianNao系列架构在处理器发展史上留下浓墨重彩的一笔。

据传Google发布的TPU论文获得了ISCA2017（国际处理器架构年会）的同行评议第一名。而去年的ISCA2016的同行评议得分最高论文正是由寒武纪团队七名核心成员与UCSB的谢源教授共同发表的关于Cambricon指令集的学术论文。而Cambricon正是寒武纪公司的英文商标，这次也随同对这篇论文的引用进入了Google TPU的论文。

科工力量：在人工智能芯片方面，Intel推出了针对深度学习市场的众核CPU Knights Mill，英伟达推出了GPGPU，而且还有了DGX-1这样的产品。那寒武纪芯片相对于Intel和英伟达的众核芯片和GPGPU有什么优势？

答：寒武纪商用处理器的架构，是专门为深度学习乃至机器学习重新设计的一套全新的架构，而并非用传统的CPU向量扩展、GPU架构或脉动阵列机架构旧瓶装新酒，去处理深度学习应用。与这类架构相比，寒武纪处理器的运算效率更高，性能功耗比更高，在智能领域的通用性更好。寒武纪商用处理器很快会在终端和云端先后投入商用。

科工力量：阿尔特拉展示的一款可以用于深度学习和科学计算的FPGA其双精浮点性能为1.5TFlops。虽然性能稍弱一些，但是性能功耗比却非常惊艳，以达到50GFlops/W，是Intel众核芯片的四倍有余，如果将FPGA用于机器学习，那么整个系统对于基于标准CPU和GPU的服务器有明显的性能功耗比优势，在大规模部署后可以大幅节省电费开销。

那么对于FPGA在人工智能领域的前景您怎么看？FPGA相对于寒武纪有什么优势和劣势？

答：传统来说，FPGA主要大规模应用于处理器芯片研发过程中的验证阶段，用于在流片前检验处理器设计的正确性。近年来，FPGA常被应用于新兴的应用领域，取得了一定的效果。我个人的观点是，FPGA迭代速度快，能够快速切入刚刚兴起的领域。但当这个领域的重要性不断凸显，FPGA最终会被专用芯片所替代，因其运算速度和性能功耗比与专用芯片相比仍有较大差距。

科工力量：除了众核芯片、GPGPU、FPGA来做人工智能芯片，还有的厂商选择DSP，那么选择DSP又有何优劣呢？

答：现在的许多DSP方案所采用的的架构其实类似于Google所使用的脉动阵列架构，其优缺点与之类似。

科工力量：目前，国内从事人工智能研发的公司或单位中，好像从事软件开发的公司偏多，比如百度深度学习研究室、讯飞超脑、出门问问、云知声、智齿科技、格灵深瞳、图普科技等，但从事人工智能专用芯片开发的就寥寥无几了。

您是怎么看待这个现象的？

答：智能芯片是一个需要极深技术积累和极高资本投入的领域，对于普通商业公司来说门槛太高，因此大家不敢轻易去尝试也是值得理解的。寒武纪公司源自中国科学院计算技术研究所，这个有着60年历史的国立研究所在芯片和超级计算机研发方面一直有深厚积累。创办一年以来，寒武纪公司可以说是站在巨人的肩膀上，集万千宠爱于一身，承载了政府、中科院和投资人的殷切期望，我们也深感重担在肩。未来寒武纪团队会坚定地走下去，争取在下一个十年为人工智能领域的国内外同行做好垫脚石。

科工力量：您和陈云霁老师的学术研究成果在2014年—2016年横扫体系结构学术圈，在顶级学术会议上教老外说中文的Diannao系列： Diannao（电脑）是ASPLOS'14最佳论文（亚洲第一次）DaDiannao（大电脑）是MICRO'14最佳论文（美国以外国家的第一次）PuDiannao（普电脑）、ShiDiannao（视电脑）、还有指令集Cambricon等后继工作都连中ASPLOS、ISCA。

目前，国内还没有其他研究小组能在ASPLOS ISCA MICRO几大旗舰级学术会议中最佳论文、最佳论文候选、评分最高论文轮着拿。请问您和您的团队是怎样做到的？

DianNao结构

DaDianNao版图

答：我和陈云霁在学术上获得的一系列成果，并没有太神奇的地方。主要要感谢我们团队长期辛苦工作的同事和同学（许多人年纪轻轻，在处理器架构领域的造诣却是世界级的），要感谢中国科学院和计算所的长期支持，要感谢与我们一道开拓深度学习硬件加速这个全新学术领域的Google的Olivier Temam教授，以及南大周志华教授、USCB谢源教授等长期学术合作者。我要感谢我和陈云霁的博士导师陈国良院士（中国科技大学）、姚新教授（南方科技大学计算机系主任）和胡伟武研究员（中科院计算所总工程师、龙芯中科总裁），正是在恩师们的教导下，我们才有机会同时了解处理器架构和人工智能这两个艰深的领域，才有机会从事交叉领域的研究。

目前我国的处理器架构领域学术和工程水平不断提高，在许多领域的研究和工程水平已经和国际同行难分伯仲。我坚信国内同行的共同努力最终一定会带动我国整个处理器行业的跨越式发展。我们作为青年学术研究者和创业者，必须向各位前辈同行多多学习，紧密合作，共同为我国处理器事业的发展尽绵薄之力。

科工力量：寒武纪研发自定义的指令集Cambricon，支持常用的Caffe和TensorFlow编程框架，这两者有何特殊意义？

答：支持Caffe和TensorFlow是主动融入主流的智能生态。而处理器的生态，更有赖于底层的指令集。我们希望以自有指令集为抓手，不仅主动融入主流智能生态，更要围绕寒武纪建立一套自主的智能生态，力争为中国的智能产业添砖加瓦。