曙光寒武纪联手全球首款神经元计算服务器有何特色-沙超群、科工力量-观察者网

10月24日，2017中科曙光智能峰会在青岛盛大开幕。包括中国工程院原常务副院长、院士潘云鹤，中国工程院院士、曙光公司董事长李国杰、中国工程院院士潘德炉在内的一大批专家和企业界代表参加大会。在大会上，曙光发布了全球首款在推理应用上采用神经元计算的服务器产品；以及能够快速释放计算能力的人工智能管理平台SothisAI。那么，这款搭载了20片寒武纪芯片的服务器有何独到之处呢？人工智能管理平台SothisAI又用怎样的用武之地？我们邀请了曙光公司副总裁沙超群为大家答疑解惑。

潘云鹤院士

科工力量：作为服务器厂商，曙光为何这么重视人工智能？

沙超群：了解曙光的朋友们都知道，曙光这家公司从李院士和历军总裁创立之初，我们专注于计算，在过去的高性能计算、云计算、大数据处理等通用计算，我们都是专注在计算领域，别得也干不了，计算我们干得还不错。今年国务院也印发了我国人工智能的发展规划，人工智能技术是信息产业发展的新方向，也是我们曙光所从事的高性能计算机发展的未来新的应用领域。曙光在未来大型计算机的研发和应用过程中，人工智能也一定是最重要的发展方向。

科工力量：曙光已经有哪些应用和产品？

沙超群：曙光在过去几年当中，高度重视人工智能技术和产品发展。我们已经在一些超级计算机的应用方面，大量采用了人工智能的技术。比如新疆的云计算中心通过超级计算机进行实时视频图像的分析和处理，以便为平安城市等带来社会效益。同时，曙光的百城百行云计算发展计划当中，城市数据已经经过了近十年的积累，形成了比较大规模的数据量。在曙光的发布会上，我们公布了三款产品，分别是“PHANERON”推理专用服务器、曙光的X860-LE全浸没式液冷的AI训练专用服务器和曙光人工智能管理平台SothisAI。

在2016年数据中国加速计划的会议上，曙光和寒武纪签约了战略合作，经过一年的时间，两个研发团队研发出了一款“PHANERON”推理专用服务器，这是世界首款在推理应用上采用神经元计算的服务器产品，这个名字的意思大概是这样的，是取自“显生宙”的词头，象征着采用神经元进行在线推理计算。

科工力量：这款“PHANERON”推理专用服务器有什么特别之处么？

沙超群：这样一款产品在4U空间中部署20个人工智能前端推理模块，能够为推理提供强大的计算支持，单位节点峰值推理计算能力达到120TFlops，还通过提高密度来降低总体服务器的部署数量，可显著降低项目总体投资。今天推理用的在线服务器产品，由于它的应用模式，大概一台机器可以顶上20台通用的服务器产品，也就是1：20，大家可以想象在成本空间的节约上，优势非常大。

其实更让我个人兴奋的不是这款产品，而是计划明年年底推出PHANERON2这个产品，性能提升5-6倍，那时候一台这样的服务器可以顶上100台通用的服务器产品。

李国杰院士

科工力量：能介绍下曙光的X860-LE全浸没式液冷的AI训练专用服务器么？

沙超群：在机器学习方面，我们由于需要大量图片深度分析，最早从提供2U，到现在是8U，一个2U的设备空间基本没有办法解决散热。数据中心42U可以放20台这样的设备，功耗是60千瓦，大概在一个柜子里面，500瓦的电炉子，可以放120个电炉子。风冷解决方案对该量级的散热问题已经束手无策。

曙光的X860-LE全浸没式液冷的AI训练专用服务器就是专门解决能耗和噪音的问题，我们把它浸没在液体当中，通过蒸发把热量带走。这个产品有两个特点：第一个是业界最高密度的GPU的训练平台。它是世界上PUE（注：Power Usage Effectiveness的简写，是评价数据中心能源效率的指标）最低的训练的服务器产品，它的PUE能到1.02。刚刚谈到了噪音的问题，这个系统第二个特点就是零噪音。

回到PUE的问题，今天我们的数据中心大概PUE会在1.6-2.0，我们这个产品的PUE是1.02。大概算一下，一个300瓦的GPU，在制冷方面的能耗节约大概180瓦，如果现在PUE是1.6的话，一个GPU每年省电是1200元。今天很多客户这种GPU的采购已经是2万片-3万片，仅仅在这一块的节能就是巨大的，同时也节约了大概两三千万的运营费用。

科工力量：曙光开发人工智能管理平台SothisAI的目的是什么？

沙超群：曙光开发人工智能管理平台SothisAI，做这个平台有两个目标：第一个目标是让AI尽量简单化。今天做AI计算的时候，需要做大量硬件异构的配置，需要研究不同的框架，不同的框架里要部署不同的软件，还要进入大量的数据进行训练，这个过程当中非常复杂，非常难用。我们的想法是让它简单化，容易化，调动自动化，只需要简单配比就可以初步使用AI平台来计算。我们希望用户用完以后说“这就是AI，不是那么难”，这就是我们的名字为什么起SothisAI的原因。第二个目标就是支持更多的生态发挥好更好的性能。

科工力量：人工智能管理平台SothisAI有何独到之处？

沙超群：曙光构建的人工智能平台，包括硬件，软件和服务等方面。

硬件计算平台能支持CPU，GPU，FPGA，ASIC等不同类型的芯片，面向训练和推理不同的应用场景做了全面覆盖和优化，在硬件的平台的制冷散热方面，已经能够支持浸没液冷等先进技术，走在了业界前列。

在软件方面，曙光投入了很大精力，面向不同芯片优化函数库等基础软件环境，相比通用软件环境有显著的性能提升。库的优化会大大提升我们的计算力。针对吸收矩阵、重力矩阵，针对DNN、CNN等做了很多优化，大部分的性能测试中采用我们的库，性能可以提升20%-30%。

曙光也提供人工智能管理平台软件，能整合曙光优化的性能函数库，支持Caffe，TensorFlow等主流的深度学习框架，以云的方式提供使用接口，可以简化人工智能环境的部署和运维，简化业务的使用流程，也利用在高性能计算领域积累的经验，优化底层硬件资源的调度效率，这个平台软件也在和传统高性能计算和大数据技术进行整合，最终能提供一个超融合的先进计算平台，在这方面也是领先业界的。

曙光信息产业股份有限公司副总裁沙超群博士

科工力量：之前提到曙光的SothisAI平台支持各种FPGA、ASIC、GPU。那么，您认为英伟达的GPU、阿尔特拉的FPGA、中科院寒武纪这些芯片，用于人工智能的话，有什么差异？

沙超群：这些同类产品基本上在在线推理环境中存在竞争。

NVIDIA的GPU是传统的推理加速产品，依赖于GPU在训练市场的主导地位，训练使用的小功耗GPU产品，算法移植最简单，通用性最好，用户的接受度最好。

FPGA产品相比GPU，具有功耗低、可编程性好等优点，作为集成电路领域中一种半定制电路，既解决了全定制电路的不足，又克服了原有可编程逻辑器件门电路数有限的缺点，可以针对推理应用进行高效的适配，FPGA以并行运算为主，以硬件描述语言来实现，达到最优的执行效果。中科院寒武纪推出的推理芯片，基于硬件和指令集两个方面来适配深度学习，具有良好的技术平台，可以利用指令集积极适配推理算法，并且在硬件层面上发挥神经网络的最高效率。

科工力量：曙光的智慧城市云在引入人工智能之后，和以往相比会有怎样的改变？

沙超群：曙光已经运营的四十多个城市的运算中心，以前好多各种云计算服务，底层是曙光的云计算操作系统。而在今天的AI城市，会插入一个人工智能调动平台，会分装很多架构，会提供很多标识好的数据。比如有人脸识别的应用或者语义切割的应用，可以到我们这个平台上进行资源申请，进行你自己算法的优化。同时你觉得这些开源的数据还不够，你有自己专用的数据，可以把数据拿过来，采用你的数据对你的算法进行优化，我们提供这种服务。

科工力量：在超算上我们将众核CPU、GPU作为加速器，那是否可以将寒武纪作为加速器，搭建专门跑人工智能的高性能计算机？

沙超群：业内有类似的计划。曙光预计未来几年研制出世界上最大的地球数值模拟装置，这个装置建设之后，国家也会要求这个装置公开运营做公开服务，我们也想今天有大量的科学家采用深度学习的算法，采用我们的计算资源训练自己的很多模型和算法去优化，未来当地球数值模拟装置开放公开服务的时候，希望有更多算法进来，通过人工智能和深度学习，预测和发现极端气候和极端天气，更好地防灾减灾，也能够解密更多的地球密码，人类的起源，让我们探索更多的未知。

扫码关注微信公众号“科工力量”，中国工业科技新闻的权威观察家