科工力量:龙芯3A4000工艺不变性能翻倍,怎么做到的?

来源:观察者网

2019-12-25 08:35

科工力量

科工力量作者

提供对中国高新技术企业和产品的专业点评

【文/科工力量专栏作者 铁流】

日前,龙芯在国家会议中心举办龙芯中科2019产品发布暨用户大会。这次大会最大的亮点就是龙芯发布了3A4000处理器。

3A4000与3A3000一样,都采用28nm工艺,虽然工艺相同,但在性能上实现了性能翻倍。相对于那些在性能提升上高度依赖台积电先进工艺和国外技术支持的CPU,龙芯完全依靠自身的设计能力实现CPU性能翻倍,这在国内是极其罕见的,充分证明了自主研发后劲,展现出龙芯厚积薄发的功力。

龙芯28nm CPU超越16nm ARM CPU

芯片的性能主要在芯片的设计和芯片的制造,就设计这一块,主要靠IC设计公司,就制造这一块,则主要仰仗台积电这类晶圆厂。诚然,部分设计工作和制造结合的很紧密,如果磨合的好的话可以威力倍增,比如英特尔用45nm工艺就可以把CPU主频做到2.5G以上,而国内ARM阵营IC设计公司把CPU做到2.5G以上则需要台积电7/10/12/16nm工艺配合。

因此,如果一家公司采用落后工艺,CPU性能反而超越了采用先进工艺的CPU,那么,这足以说明这家采用落后工艺的CPU公司,其具备比较强的CPU设计能力。就这一点来说,龙芯与国内ARM阵营的友商就形成了这种对比。

以某ARM CPU来说,其IPC在过去5年里提升相对有限,堪称英特尔挤牙膏:

2014—2015年的某款CPU(28nm)单核性能为11左右(@2G),换算一下5.5/G;

之后的一款多核服务器CPU(28nm)的单核性能为12.4(@2G),换算一下6.2/G;

之后把工艺换成了16nm,出了一款多核服务器CPU,单核性能为13(@2.4G),换算一下5.4/G;

最近出了一款四核桌面芯片,2.6G主频下定点16.5,换算一下是6.3/G。如果主频满血到3.0Ghz,那么定点应该在19分左右。

另一家ARM CPU,其采用16nm工艺的时候,一款是买A57做SoC设计,还有一款是买A72做SoC设计。即便是A72那一款,单核定点成绩也在17至18左右。

相比之下,采用28nm工艺的龙芯3A4000,单核定点18+(@1.8G),2G主频下可以达到20+。

之所以在主频落后的情况下,龙芯还能在性能上反超,根源就是龙芯在微结构设计水平上具有较强的能力。CPU的性能,不能只看工艺和主频,微结构设计水平也非常关键,当年英特尔P4处理器主频高达3G,但性能就是不行,并荣获“高频低能”的“美誉”。这两款ARM CPU性能略逊色于龙芯3A4000,主要就是其微结构逊色于龙芯设计的GS464V,因而导致其主频更高,但芯片性能略逊一筹。

龙芯延用28nm根源是囊中羞涩和发展规划

不知为何,一些媒体因为龙芯采用28nm工艺就鄙夷龙芯技术不行,然而,这种观点是值得商榷的,上28nm工艺还是7nm工艺,技术方面的因素偏少,钱方面的因素偏多,一些公司财大气粗,或者获得国家资源倾斜较多,自然有钱用台积电先进工艺。而龙芯在体量上无法与大公司相比,在获得国家扶持方面也非常有限,在十二五之后,核高基等顶层设计重点扶持技术引进的X86和ARM CPU,技术引进企业获得了鼎力扶持。

由于国家断奶,龙芯只能在市场上摸爬滚打,依靠自己赚取的利润和投资人的注资过日子。直到2015年,终于实现自收自支,自负盈亏。在有国家队背景的几家CPU公司中,拿不到政策资金补助,反而只能去拿横琴利禾博股权投资基金、鼎晖投资、中海投资、北工投资等单位的风投,国内唯独龙芯一家。

正是因为在资金上不宽裕,因而每一笔钱必须省着花,自然要精打细算,选择最具性价比的工艺。

另外,选择28nm工艺与龙芯的发展规划也有很大关系,按照龙芯的规划,是一代提升工艺,一代提升CPU核,龙芯3A2000、3A4000都是提升CPU核,3A3000和3A5000是提升制造工艺,选择28nm这样比较成熟的工艺,有助于降低CPU核升级中不确定因素带来的风险,一旦发现问题,改进设计缺陷后重新流片的成本也低。在GS464V经过3A4000验证后,就可以直接升级工艺流片,这样就能降低3A5000研制的风险,提升3A5000的研发进度。某种程度上,3A4000其实是3A5000的垫脚石,为3A5000的研制做验证。

展望龙芯3A5000

在龙芯3A4000的CPU核经过实践验证后,龙芯3A5000流片也水到渠成。此前,采用12/16nm的龙芯3A5000的测试片已经完成流片,这足以说明采用先进工艺流片对龙芯而言没有什么技术障碍,完全只是钱的问题,在当年开始研发3A4000的时候,龙芯财力有限,而且12/16nm工艺流片成本很贵。随着12/16nm工艺流片费用下降,以及龙芯这几年营收的增长,龙芯也有能力采用12/16nm工艺流片。参考龙芯3A2000到龙芯3A3000工艺升级的进度,龙芯3A5000的进度也会比较快。根据现场发布的PPT,龙芯3A5000将在2020年中流片,最迟年底前就会有成品。

必须说明的是,3A4000的工艺是28nm,潜力很大,换12/16nm工艺提升主频就能把单核性能提升到25分——龙芯3A5000对内核小改后,换12/16nm工艺,性能有望达到25至27分,龙芯PPT里30分的规划偏乐观。

另外,PPT上还有一个点值得关注,那就是龙芯7A2000桥片,龙芯7A1000桥片只是解决有无问题,一些接口都显得比较有历史的厚重感,而7A2000桥片则进行了升级,并搭配龙芯3A/B5000于2020年下半年问世。

从龙芯的发展历程看,可以很清晰的看出一条CPU迭代演进和IPC提升的轨迹。龙芯选择一代提升微结构,一代提升工艺,2012年以前的龙芯3A1000和龙芯3B1500,其IPC为3/G左右(定点),2015年的3A2000是微结构升级,IPC为6.5/G,2016—2017年3A3000是小改微结构后升级工艺,IPC为7+/G,2019年的3A4000是微结构升级,IPC则达到了10+/G。

这种一步一个脚印的发展轨迹,是国内那些宣称自主研发的ARM CPU所不具备的。那些技术引进的ARM CPU,第一款产品往往是横空出世,之后IPC多年提升有限,这种现象与其宣称是完全自主研发、自主可控是存在一定出入的。一些ARM CPU采用先进工艺后,在性能上反而被龙芯用老旧工艺反超,足以说明自主研发虽然道路更加坎坷,但发展后劲更足。

(作者微信公众号 tieliu1888)

责任编辑:柳叶刀
龙芯 3A40000 28nm工艺 性能翻倍 自主设计 工艺与成本
观察者APP,更好阅读体验

“看看,这就是美国的警察”

习近平会见布林肯:中美应彼此成就,而不是互相伤害

“宁愿关闭在美业务也不卖”

王毅见布林肯,对美方提出三个“不要”

胜利会师!