观察者网

解密科大讯飞研究院:三大“门派”合力攻坚AI高地

2018-04-27 08:40:36

据21世纪经济报道4月27日报道,随着深度神经网络、机器学习方法的进步,DNN、RNN、CNN等深度学习方法的不断完善,人工智能成为共识的科技趋势。

具体来看,人工智能既包括感知智能,如语音合成、语音识别、图像识别、多语种语音处理等技术,也包括认知智能,例如自然语言理解、知识表达、逻辑推理、自主学习等。

在国内的人工智能企业中,科大讯飞以语音起家,从感知智能拓展至认知智能领域。2017年,哈工大讯飞实验室(HFL)获得斯坦福大学发起的SQuAD机器阅读理解挑战赛全球第一名;同年10月,在国际自动驾驶领域权威评测集Cityscapes中,科大讯飞获得平均81.4%的精度,取得了该项评测的第一名。

整体而言,科大讯飞一直持续“平台+赛道”的发展战略,平台是讯飞开放平台,赛道目前是医疗、教育、智慧城市、汽车、智能服务、消费者,之后会继续夯实在这些赛道的布局。近日,在应用落地上,科大讯飞推出了翻译机2.0版本,在智能硬件领域做更多探索,其背后则离不开各大研究院的投入和支持。

三大研究院

科大讯飞早在1999年就已经成立,公司立身之本是语音交互技术。2000年,科大讯飞被认定为国家863计划成果产业化基地,与中国科学技术大学、中国社会科学院共建实验室。

4月10日,科大讯飞执行总裁胡郁接受21世纪经济报道记者采访时说道:“我是科大讯飞研究院的创始人,公司刚成立的时候有一个技术研发部,2005年时科大讯飞进行体制的调整,成立了事业部,原来很多技术研发部的人就进入到事业部,当时的研究院只有5个人。经过十多年的发展,我们的研究院已经成为国内创新性能力最强、投入产出比最高的研究院之一。”

如今,科大讯飞的研究院主要有三个,分别是AI研究院、云计算研究院和大数据研究院。其中,AI研究院主要进行语音识别(英语、汉语、维吾尔语、藏语及方言)、语音合成、认知智能、机器翻译、图像识别等技术研究。

科大讯飞云计算研究院副院长张致江4月25日向21世纪经济报道记者介绍道:“云计算研究院主要分为IaaS、Paas、AI服务三个小组,其中IaaS小组与浪潮于4月26日联合发布的AI Booster(浪潮代号darwin)是一款面向于AI应用的16卡计算集群,能够有效提升AI应用中的语音识别、翻译等深度神经网络模型的训练效率,目前已经在科大讯飞的多个AI研究中进行试点。”

“大数据研究院主要的研究小组包括平台研发、个性化学习、计算广告、城市大数据、医疗大数据、政法大数据等。” 4月25日,科大讯飞大数据研究院执行院长谭昶回复记者时表示,“讯飞大数据能力平台Odeon(奏乐堂) 日均执行15000任务、100TB数据,通过Odeon实现数据闭环完整能力:收集、存储、计算、数据服务。”

而研究院的细化,也是根据科大讯飞研发需求而产生的结果。 “在建立研究院的过程,我们积累了非常多的经验,自然而然就发现,研究、工程、系统、数据要紧密地结合在一起。所以我们不断地推进一体化,把这些要素打通。这既是讯飞做得好的原因,也是自发成立新研究院的原因。”胡郁解释道,“原来的研究院就变成了人工智能研究院,后来又成立了大数据研究院和云计算研究院。后来发现这也符合ABC(AI、Bigdata、Cloud)研究院的这一趋势。”

他进一步指出:“表面上看是三大研究院,其实背后是研发的组织逻辑,必须是全公司各个事业部的资源共享。而且研究院很好地支撑了各个业务,我们要求研究院团队走到业务当中去,直接解决业务问题。”

研发能力也是科大讯飞的核心竞争力。查阅财报可知,讯飞科技的研发人员数量从2008年的450人增至2017年的5739人,增加了近12倍。公司研发人员的数量占比在10年中一直在60%上下,2017年该比例为66.28%。

从研发投入金额来看,自2008年以来资金逐年增长,2017年达到11.45亿元,10年以来研发的总投入约为38.75亿元;再看研发占营收的比例,从2010年开始,该比例就保持在20%以上,其中2013年占比29.24%,为近年最高数值。

不过,在能力输出上科大讯飞也经受考验。正如其他中国最早一批科技企业一样,由于创立时间早,2C的消费者用户和使用场景都很少,大多公司都面向2B行业,甚至BAT一开始都包含大量2B业务。后来的科大讯飞,那时候公司名还叫做安徽中科大讯飞信息科技有限公司,主要的方向也是2B的语音产品。科大讯飞被消费级用户广泛知晓还是在2C的讯飞语音输入法声名鹊起之后。2017年11月,中国新一代人工智能发展规划暨重大科技项目启动会宣布,依托科大讯飞公司建设智能语音国家新一代人工智能开放创新平台。同时,也进一步开启了市场对于科大讯飞人工智能发展未来的想象。

两大难题攻坚战

科大讯飞最主要的产品技术方向包括语音交互,机器翻译,文本识别。语音交互是科大讯飞的老本行,包括语音识别、语音合成等,另外,采用日趋成熟的自然语言理解,为语音交互提供了更强的支撑。

最为大众所熟知的应用就是林志玲的导航语音,和普通用户所理解的“播放林志玲录音”不同,科大讯飞是通过语音技术合成出林志玲的声音。先提取到林志玲个人的纯声,再通过机器学习提取林志玲声音的特征,通过声学波形合成出仿真声音。该技术的难点之一,就是如何能够骗过耳朵达到真人说话的效果。

可以说在语音合成方面,科大讯飞成绩斐然。比如2016年9月国际多通道语音分离和识别大赛第四届大赛结果:科大讯飞包揽了本届CHiME赛事,六麦克风、双麦克风和单麦克风场景下的语音分离和英文识别任务的最好成绩。

除了语音技术,2014 年科大讯飞正式启动了讯飞超脑计划,研发实现具有深层语言理解、全面知识表示、逻辑推理联想、自主学习进化等高级人工智能的智能系统。交互能力也从语音延伸到人脸、手势等多模态交互。2015年,科大讯飞还正式布局了图像识别、大数据以及脑科学等多项新技术方向 。2016年,其图像识别理解技术 、机器翻译技术 、机器阅读理解技术也进一步提升。

谈及当前的技术攻坚,胡郁告诉记者,研究院正在相互配合解决两大问题。“一个是交互,不管是图像还是语音交互都在做大量的研究;另一个就是专家系统,就需要和行业进行结合,需要行业的大数据、云计算。”

而这两大难题需要三大研究院交织在一起进行攻克。在专家系统的建设方面,他举例道,在云计算方面,输入法的产品采用公有云服务。但是要做行业专家知识的时候,由于行业的知识很宝贵甚至敏感,对安全要求高,所以不能在自己的公有云上做,要由私有云上提供服务,而且私有云必须具备学习的能力,所以研究院要部署公有云、私有云两套体系。

而在大数据和人工智能的关系上,胡郁说道:“大数据追求的是相关性,而不是追求逻辑和因果;但是人工智能恰恰相反,最重要的就是需要有逻辑和因果,比如认知智能是特别需要讲求这两点。因此,大数据中必须有一维是人工判断后的结果,成为有因果性和逻辑性的数据,再送给机器学习算法,才能够训练机器。所以人工智能所需要的大数据和一般的大数据是不一样的,研究院之间也需要相互依存、相互支持,而不是说单独地做人工智能或者大数据。语音、图像、自然语言理解、机器智能,都是这样进行研究。”

但在实际应用方面,包括科大讯飞在内的我国技术和国际巨头依然有差距。

比如语音合成在技术方面从20世纪60年代就开始起步,而产品领域,特别是2C消费产品化才是近几年的商业实现。最知名的产品包括苹果的Siri以及其配套的音响HomePod、谷歌的Google Assistant、亚马逊的Alexa和配套音响Echo、微软Cortana,甚至包括阿里天猫精灵和背后的语音系统AliGenie。京东商城和讯飞则合作推出叮咚(DingDong)智能音箱系统。其中亚马逊的Echo销量总量达到3000万台,但国内全部厂商销量加起来也只是300万量级。

这其中很大的原因是背后的整个AI系统不同。讯飞目前采用的是Android模式,通过技术输出进入2B市场。比如灵犀语音助手由中移动负责运营,叮咚智能音箱则与京东合作。但Alexa更像苹果模式,硬件和软件,支撑的系统和商业化应用服务都自己闭环完成,这样可以通过实现具体场景大规模发挥语音的商业价值,比如直接通过Echo购买东西,实现硬件也赚钱,服务也赚钱。但讯飞目前能力主要是语音层面,由于不容易形成商业闭环,实现整套商业应用差距还比较大。

分享到
来源:21世纪经济报道 | 责任编辑:于文凯
专题 > IT新浪潮
IT新浪潮
小编最近文章
《新闻联播》用了6分多钟来缅怀他
英国曾断言神经毒剂为俄制,如今把推文删了…
商务部:调整美国及部分欧盟公司进口乙二醇和二甘醇反倾销税
朝媒高度评价金正恩访华
为修路让道 村民花20多万移楼房40米
风闻·24小时最热
网友推荐最新闻
相关推荐
切换网页版
下载观察者App
tocomment gotop