“天河三号”后,神威E级超算原型机在济南正式部署启用

来源:观察者网

2018-08-06 16:13

【文/观察者网 尹哲】紧接着“天河三号”而来的,是神威E级超算。

“E级超算”(Exascale)是指百亿亿次超级计算机,被公认为“超算界下一顶皇冠”。据新华社报道,5日,神威E级超算原型机在国家超级计算济南中心完成部署,并正式启用。这距离“天河三号”E级原型机在国家超级计算天津中心通过项目课题验收刚刚过去两周。

观察者网注意到,出于投入巨大、分摊风险的考虑,我国E级计算机研制计划第一期主要为“关键技术”研究,并安排了三个E级原型样机的研制。第二期将具体研制E级计算机。

除“天河三号”、神威E级之外,中国三大“超算军团”里还有中科曙光。

从披露的进度看,前两台均计划在2020年完成研制部署,将先于美日等国跨越百亿亿次量级台阶。

8月5日,在国家超级计算济南中心,工作人员在查看神威E级原型系统运转情况。新华社记者 郭绪雷 摄

“能够上路的概念车”

新华社报道称,神威E级超算原型机由国家并行计算机工程技术研究中心联合国家超级计算济南中心等团队,经过两年多的关键技术攻关与突破,最终成功研制并部署投用。

该原型机硬件、软件和应用三大系统中,处理器、网络芯片组、存储和管理系统等核心器件全部为国产化

其中,系统软件由完全自主研发的神威睿思操作系神威睿智编译器等构建;运算系统全部采用“神威26010+”众核处理器,高速互连网络系统全部采用申威网络交换芯片申威消息处理芯片,这些关键部件均具备完全自主知识产权;存储和管理系统由申威多核处理器构建,实现对该领域产品的国产化替代。

8月5日,在国家超级计算济南中心,工作人员在巡视存储设备运转情况。新华社记者 郭绪雷 摄

“神威E级超算原型机,就好比是一台能够上路的概念车。”山东省计算中心(国家超级计算济南中心)主任杨美红表示,原型机的成功研制,对E级计算机研制方案和技术路线进行了全面系统验证,为E级计算机的研制成功铺平了道路。

另外,《齐鲁晚报》引述国家超级计算济南中心副主任潘景山的话说,神威E级计算机预计于2020年完成研制部署,将率先跨越百亿亿次量级台阶。

8月5日,在国家超级计算济南中心,工作人员在查看存储设备运转情况。新华社记者 郭绪雷 摄

国家超级计算济南中心已部署有“神威·蓝光”超算系统。

作为我国首台全部采用国产CPU和系统软件构建的千万亿次计算机,“神威·蓝光”已运行7年。

数据上,神威E级超算原型机的运算能力已达到“神威·蓝光”的三倍,体积仅为后者的九分之一,能耗同比下降75%。

截至目前,神威E级超算原型机已完成包括全球气候变化、海洋数值模拟、生物医药仿真、大数据处理和类脑智能等12个领域的35项重大计算任务,未来应用前景非常广阔。

打破美方禁运

“天河”系列超算一直由国防科技大学(下称:国防科大)牵头研制。

观察者网此前报道,运算速度预计可达“天河二号”10倍以上的“天河三号E级原型机系统”已在国家超级计算天津中心完成研制部署,并于7月22日顺利通过项目课题验收,将逐步进入开放应用阶段。

这是7月26日拍摄的“天河三号”E级原型机全貌。新华社记者 毛振华 摄

“天河三号”超算原型机首次亮相于今年5月16-18日举行的第二届世界智能大会。

根据澎湃新闻当时的报道,该系统采用自主的飞腾处理器天河高速互联通信麒麟操作系统,实现了芯片的全国产化,告别了前代的英特尔芯片。

而之所以替代英特尔芯片能够在当时引起轰动,是因为在2015年4月9日,美国商务部宣布对包括国防科大和国家超级计算天津中心等在内的4家中国超算机构禁运Intel至强Xeon处理器和Xeon Phi加速器

(观察者网注:另两家为国家超级计算长沙中心,国家超级计算广州中心。)

正如前文所描述的那样,这项禁运目前已经被打破。

7月26日,《科技日报》引述该项目相关负责人的话称,“天河”系列超算已经全面掌握五大自主核心技术,即具有自主知识产权的四大芯片和自主操作系统,所有核心技术和产品不再被国外“卡脖子”

据他介绍,这四大芯片分别为通用CPU、加速器CPU、互连通信路由芯片和互连接口芯片,并且已经装配在“天河二号”2期系统中。

基于此,“天河三号”超算将对这四大芯片进行全面升级。

该负责人进一步指出,“天河三号E级原型机系统”还实现了四大自主创新,即三款芯片——“迈创”众核处理器(Matrix-2000+)、互连接口芯片、路由器芯片;四类计算、存储和服务结点,10余种PCB电路板;新型的计算处理、高速互连、并行存储、服务处理、监控诊断、基础架构等硬件分系统;系统操作、并行开发、应用支撑和综合管理等软件分系统

因此,该原型机关键技术的突破和系统研制,将“全面为‘天河三号’整机系统提出了计算、访存、通信性能平衡的设计方案。”

上述负责人补充道:“未来‘天河三号’E级超算将对已经设计生产的三款计算、互联通信核心芯片再进行全面升级,同时基于飞腾CPU设计新的多核CPU,实现可支持海量数据存储的层次式存储系统,对适用高性能计算和高效大数据处理的柔性体系结构进一步优化。”

在上述原型系统的基础上,“天河三号”超算有望于2020年研制成功,其运算能力将比“天河一号”提高200倍,存储容量提高100倍。

低调的曙光

与“天河”与“神威”的你追我赶相比,中科曙光属于较为低调一员。

除了在2016年7月4日宣布正式启动由其牵头的E级高性能计算机原型系统研制项目外,中科曙光一直以来并未披露很多关于E级超算的研制进展。

项目启动当天,该企业介绍了超融合自适应并行处理体系结构(HCAPP)和全浸没式相变液冷技术(整台超算浸没在冷却液中),但是其采用的CPU和加速器等内容寥寥。

《环球时报》7月27日报道认为,曙光E级可能会采用中科院体系内研发的CPU和加速器(比如龙芯系列),其最终部署时间也将会在2020年以后。

同日,微信公众号“新智元”则透露:“曙光E级原型机将于近期完成项目验收,预计在8-9月,所有三台原型机都将完成最终验收。”

对于曙光E级超算的架构,观察者网专栏作者铁流给出了自己的推断。

他指出,曙光E级原型机是基于“自主X86架构,考虑到海光和曙光的关系,基本上CPU将采用前者的X86 CPU,也就是AMD Zen的国产化版本”。

观察者网也梳理发现,第一财经今年3月报道称:“成都海光高端通用服务器芯片项目,总投资12.9亿美元,开展国产通用服务器CPU芯片设计与产业化,2017年新增投资国产化先进GPU项目、‘先进微处理器技术国家工程实验室’项目和国家核高基‘超级计算机处理器研制’专项,与成都联手打造国产化高性能计算芯片的技术和产业中心。”

对此,铁流分析道:“在2017年,国内单位引进了AMD的GPU技术,而且相关报道里和超算项目联系在一起,那么曙光超算的方案极有可能是CPU+GPU,而且是AMD CPU国产化版本+GPU国产化版本。”

美砸超百亿追赶,日2021年部署

说完中国的,我们自然更关心海外,尤其是美日等国E级超算的发展情况。

美国E级计算项目(Exascale Computing Project,ECP)网站截图,下同

今年4月9日,美国能源部长里克·佩里(Rick Perry)宣布了一项关于超级计算机研制的征询方案(RFP),将可能投入最多18亿美元(约合人民币123亿元),在2021-2023年开发至少2台部署于美国能源部国家实验室的E级超算。

此举的目的,是“巩固美国在E级计算时代的领导地位”。

该方案下发展的新超算系统,将成为去年6月佩里授权开发的美国首台E级超算——“极光(Aurora)”的后续系统。

新闻稿提到,“极光”正在美国阿贡国家实验室(Argonne National Laboratory,ANL)研制,计划于2021年上线。

征询方案将参考届时的需求,评估在2022-2023年对“极光”升级,以及发展后续系统的可能性。

该方案(RFP)是被称为“珊瑚(CORAL)”的三个美国国家实验室——“橡树岭(Oak Ridge National Laboratory)”、“阿贡(Argonne National Laboratory)”、“利弗莫尔(Lawrence Livermore National Laboratory)”合作的产物。

他们认为,这笔“投资”可以支持至少两种超算架构的研发,平均成本在4-6亿美元。除此之外,还能可能产生第3种系统架构,或与前两种相似,或不同。

该计划的具体金额将由国会定夺。

至于日本,据“TOP500”的报道,2016年,富士通和日本理化学研究所(RIKEN)承诺为该国开发首台E级超算——“后京”(Post-K),并计划在2020年部署。

然而,在宣布计划几个月后,该项目负责人石川裕(Yutaka Ishikawa)博士承认,“后京”的部署可能会延迟两年。

图源:社交网络

不过,在今年6月,富士通宣布已完成“后京”计算芯片原型研制并开始测试。

对此,“TOP500”指出,根据其进展,日本已经走在了2021年部署E级超算的轨道上。

本文系观察者网独家稿件,未经授权,不得转载。

责任编辑:尹哲
超算 济南
观察者APP,更好阅读体验

伊朗外长否认以空袭:除非遭重大袭击,否则不予回应

重庆通报“燃气费异常”:燃气集团党委书记被免职

“伊以都在降调”,国对国直接打击结束?

以色列“有限复仇”:选在了伊朗核计划中心

以色列“报复”开始:伊朗多地传出爆炸声