谷歌AI助手“成精了”,国内这三家企业是这样看的

来源:观察者网

2018-05-11 14:12

【文/观察者网 尹哲】“成精了!”近日,广大网友对谷歌I/O上所展示的AI语音助手发出了由衷赞叹。

的确,谷歌再一次让其他企业的人工智能,看上去像人工智障。昨天,抱着对国内语音技术发展情况的好奇,观察者网先后联系了科大讯飞、云知声、思必驰等语音产业龙头企业,听听看他们怎么评价谷歌AI助手的表现。

先来回顾下谷歌AI助手的表现:

“我们在考虑向谷歌学习”

昨天,云知声副总裁康恒对观察者网表示,从谷歌DEMO的效果看,非常惊艳。

云知声副总裁康恒。资料图

他特意提到,谷歌应用所选择的场景十分巧妙——由机器主导,人类来应答和完成任务。而以往大部分是机器满足人类需求,这在实现上会更加复杂。

据他分析,谷歌出彩之处在于:1、足以乱真的自然语音合成技术,并配合自然的口语插入和节奏控制;2、预定场景下的上下文理解能力,在展示中能实现预约任务。

对于外界关心的“国内外差距”,康恒表示,谷歌在技术创新方面还是领先全球半个身位的,有很多顶尖的科学家专注在原创技术突破方面,加上数据和计算优势,这是其他公司很难短期内超越的。

但是,国人也无需妄自菲薄。

视频中,谷歌演示的交互对话涉及语音识别、语音合成、语义理解、自然语言生成等技术

康恒以云知声为例,目前这些技术均有积累和储备。如今,AI行业均面临着场景落地和优化才能最终实用的挑战。

观察者网也注意到,在I/O大会上,谷歌CEO桑达尔·皮查伊(Sundar Pichai)承认,挑战仍然很大。

随后,在介绍未来的发展方向时,康恒说,“目前,识别与合成技术已经日趋成熟,最难的还是自然语言理解、认知和自然语言生成,是未来几年需要重点突破的,整个行业都是”。

事实上,在推进产业化同时,国内企业一直密切关注和跟进国内外最新的技术进展。

据康恒介绍,云知声在深度学习、远讲识别、深度学习超算平台等,都是国内最先实现产业化应用的。

虽然还没有做出像谷歌DEMO中出现的系统,但他透露:“我们在考虑向谷歌学习!

“作为宣传者,谷歌教育用户意义非常大”

谷歌的厉害之处在于,别人也能做到的事,它可以比别人做得更快。

昨天,思必驰对观察者网解读称,谷歌展示的是未来智能语音服务的发展方向。但在特定场景中,经过大量训练,实现谷歌AI助手的效果并不遥远。

另一方面,与谷歌相比,由于中英文语言逻辑存在差异,国内外企业侧重点也存在不同。

思必驰相关人士坦言,谷歌侧重英文市场。实际上,中英文语音交互中,无论是在语法句法,还是思维逻辑都存在很大不同。

“但不同之中却有相同”,该人士提到,“在自然语言处理等技术中,深度学习、认知计算和大数据等技术都是AI应用的基础,也是行业共同研究和应用的对象”。

他认为,在国际上,中国的基础研究水平属于先进,但是离领先还有较大差距;在应用研究及实际产业应用属于先进,与第一名没有太大差距,甚至部分已经领先。

DEMO中,谷歌AI助手完成了预约理发和预约热门餐厅,这两种服务的实现都是基于实际应用场景的。

不单是思必驰,国内外语音市场,都会将这种场景下的人性化智能服务作为发展方向。

“因为语音助手的应用,必然是如谷歌那样,让人类变懒,让机器更加智能。因此,谷歌今天所展示的技术并不出人意料”。

但不容忽视的是,上述人士强调,“谷歌作为宣传者,在教育用户方面的意义是非常大的”

譬如,此前,谷歌推出阿尔法狗(AlphaGo),第一次将人工智能普及到普罗大众。

“这次技术展示,再次让用户感受到了在语音助手的重要意义,让人工智能技术以更为直观的样子呈现到大众面前,也为人工智能消费级产品的推广做了铺垫”!

(翻页看科大讯飞)

“多场景下,语音交互矛盾越发突出”

作为目前唯一在A股上市的语音企业,科大讯飞对于谷歌AI助手是怎样看的?

昨天,科大讯飞对观察者网表示,谷歌的演示视频很好地展示了未来生活中的语音交互技术,是未来人机交互主要发展趋势。

“本届I/O大会上,谷歌AI助手的新功能特性,主要体现在语音交互过程中,系统回复的拟人性”。

与此同时,科大讯飞还提到了“全双工交互”这一名词。

据他们介绍,“全双工交互”是指,在设备扬声器发声时,且不关闭麦克风的情况下,用户可以打断设备的播放,进行语音识别和语义理解。

为此,对方特地向观察者网提供了一段讯飞AIUI的演示视频:

视频3分30秒处,演示全双工交互

视频显示,在连续对话过程中,该语音助手不仅在发声的同时听懂了中文指示,而且顺利完成了多项任务。

不过,正如讯飞前文所述,在拟人化方面,谷歌仍处于领先。

另据对方透露,早在2015年底,讯飞就发布了AIUI。其中全双工交互的特性,也是本次I/O大会中谷歌助手的一大亮点。

然而,困难和挑战总是存在的。目前,在诸多场景下,语音交互仍面临许多矛盾。

讯飞坦言,在少量受限场景下,AI能够实现对口语化语言的理解,并且已经实现产品的落地。

“但是随着支持的场景越来越多,在交互中,语音识别效果和语义理解歧义性等问题越来越突出”。

事实上,对于AI的想象,我们不能仅仅停留在语音助手层面。在医疗领域,AI的脚步声已经非常近了。

譬如,本届谷歌I/O大会上,其AI可以在糖尿病视网膜病变和心血管风险方面帮助诊断,还能帮助医生预测患者再次入院的可能性。

无独有偶,今年3月,科大讯飞在生物医学成像领域顶级学术会议ISBI举办的IDRiD眼底图分析竞赛中,在病灶分割的四个子项目中均跻身三甲,更是在其中最难的一项中摘得第一。

眼底图四种病灶示意图

科大讯飞对观察者网指出,通过调研,高水平医生看一份眼底图、找到一个微动脉瘤需耗时4-5分钟;而讯飞系统只需要5秒。并且,速度仍有优化空间。

科大讯飞医学影像辅助诊断系统

本文系观察者网独家稿件,文章内容纯属作者个人观点,不代表平台观点,未经授权,不得转载,否则将追究法律责任。关注观察者网微信guanchacn,每日阅读趣味文章。

责任编辑:尹哲
谷歌 中国企业 人工智能 视频新闻
观察者APP,更好阅读体验

“中国报价太香,加税50%都吓不跑美国买家”

挺巴抗议席卷全美高校,大批学生遭逮捕

习近平主持召开新时代推动西部大开发座谈会

种地要先交钱?官方再通报:镇党委副书记被免

习近平:为基层减负要明确权责,不能什么事都压给基层