谷歌AI助手“成精了”，中企进展如何？-观察者网

【文/观察者网尹哲】“成精了！”近日，广大网友对谷歌I/O上所展示的AI语音助手发出了由衷赞叹。

的确，谷歌再一次让其他企业的人工智能，看上去像人工智障。昨天，抱着对国内语音技术发展情况的好奇，观察者网先后联系了科大讯飞、云知声、思必驰等语音产业龙头企业，听听看他们怎么评价谷歌AI助手的表现。

先来回顾下谷歌AI助手的表现：

“我们在考虑向谷歌学习”

昨天，云知声副总裁康恒对观察者网表示，从谷歌DEMO的效果看，非常惊艳。

云知声副总裁康恒。资料图

他特意提到，谷歌应用所选择的场景十分巧妙——由机器主导，人类来应答和完成任务。而以往大部分是机器满足人类需求，这在实现上会更加复杂。

据他分析，谷歌出彩之处在于：1、足以乱真的自然语音合成技术，并配合自然的口语插入和节奏控制；2、预定场景下的上下文理解能力，在展示中能实现预约任务。

对于外界关心的“国内外差距”，康恒表示，谷歌在技术创新方面还是领先全球半个身位的，有很多顶尖的科学家专注在原创技术突破方面，加上数据和计算优势，这是其他公司很难短期内超越的。

但是，国人也无需妄自菲薄。

视频中，谷歌演示的交互对话涉及语音识别、语音合成、语义理解、自然语言生成等技术。

康恒以云知声为例，目前这些技术均有积累和储备。如今，AI行业均面临着场景落地和优化才能最终实用的挑战。

观察者网也注意到，在I/O大会上，谷歌CEO桑达尔·皮查伊（Sundar Pichai）承认，挑战仍然很大。

随后，在介绍未来的发展方向时，康恒说，“目前，识别与合成技术已经日趋成熟，最难的还是自然语言理解、认知和自然语言生成，是未来几年需要重点突破的，整个行业都是”。

事实上，在推进产业化同时，国内企业一直密切关注和跟进国内外最新的技术进展。

据康恒介绍，云知声在深度学习、远讲识别、深度学习超算平台等，都是国内最先实现产业化应用的。

虽然还没有做出像谷歌DEMO中出现的系统，但他透露：“我们在考虑向谷歌学习！”

“作为宣传者，谷歌教育用户意义非常大”

谷歌的厉害之处在于，别人也能做到的事，它可以比别人做得更快。

昨天，思必驰对观察者网解读称，谷歌展示的是未来智能语音服务的发展方向。但在特定场景中，经过大量训练，实现谷歌AI助手的效果并不遥远。

另一方面，与谷歌相比，由于中英文语言逻辑存在差异，国内外企业侧重点也存在不同。

思必驰相关人士坦言，谷歌侧重英文市场。实际上，中英文语音交互中，无论是在语法句法，还是思维逻辑都存在很大不同。

“但不同之中却有相同”，该人士提到，“在自然语言处理等技术中，深度学习、认知计算和大数据等技术都是AI应用的基础，也是行业共同研究和应用的对象”。

他认为，在国际上，中国的基础研究水平属于先进，但是离领先还有较大差距；在应用研究及实际产业应用属于先进，与第一名没有太大差距，甚至部分已经领先。

DEMO中，谷歌AI助手完成了预约理发和预约热门餐厅，这两种服务的实现都是基于实际应用场景的。

不单是思必驰，国内外语音市场，都会将这种场景下的人性化智能服务作为发展方向。

“因为语音助手的应用，必然是如谷歌那样，让人类变懒，让机器更加智能。因此，谷歌今天所展示的技术并不出人意料”。

但不容忽视的是，上述人士强调，“谷歌作为宣传者，在教育用户方面的意义是非常大的”。

譬如，此前，谷歌推出阿尔法狗（AlphaGo），第一次将人工智能普及到普罗大众。

“这次技术展示，再次让用户感受到了在语音助手的重要意义，让人工智能技术以更为直观的样子呈现到大众面前，也为人工智能消费级产品的推广做了铺垫”！

（翻页看科大讯飞）

“多场景下，语音交互矛盾越发突出”

作为目前唯一在A股上市的语音企业，科大讯飞对于谷歌AI助手是怎样看的？

昨天，科大讯飞对观察者网表示，谷歌的演示视频很好地展示了未来生活中的语音交互技术，是未来人机交互主要发展趋势。

“本届I/O大会上，谷歌AI助手的新功能特性，主要体现在语音交互过程中，系统回复的拟人性”。

与此同时，科大讯飞还提到了“全双工交互”这一名词。

据他们介绍，“全双工交互”是指，在设备扬声器发声时，且不关闭麦克风的情况下，用户可以打断设备的播放，进行语音识别和语义理解。

为此，对方特地向观察者网提供了一段讯飞AIUI的演示视频：

视频3分30秒处，演示“全双工交互”

视频显示，在连续对话过程中，该语音助手不仅在发声的同时听懂了中文指示，而且顺利完成了多项任务。

不过，正如讯飞前文所述，在拟人化方面，谷歌仍处于领先。

另据对方透露，早在2015年底，讯飞就发布了AIUI。其中全双工交互的特性，也是本次I/O大会中谷歌助手的一大亮点。

然而，困难和挑战总是存在的。目前，在诸多场景下，语音交互仍面临许多矛盾。

讯飞坦言，在少量受限场景下，AI能够实现对口语化语言的理解，并且已经实现产品的落地。

“但是随着支持的场景越来越多，在交互中，语音识别效果和语义理解歧义性等问题越来越突出”。

事实上，对于AI的想象，我们不能仅仅停留在语音助手层面。在医疗领域，AI的脚步声已经非常近了。

譬如，本届谷歌I/O大会上，其AI可以在糖尿病视网膜病变和心血管风险方面帮助诊断，还能帮助医生预测患者再次入院的可能性。

无独有偶，今年3月，科大讯飞在生物医学成像领域顶级学术会议ISBI举办的IDRiD眼底图分析竞赛中，在病灶分割的四个子项目中均跻身三甲，更是在其中最难的一项中摘得第一。

眼底图四种病灶示意图

科大讯飞对观察者网指出，通过调研，高水平医生看一份眼底图、找到一个微动脉瘤需耗时4-5分钟；而讯飞系统只需要5秒。并且，速度仍有优化空间。

科大讯飞医学影像辅助诊断系统

本文系观察者网独家稿件，文章内容纯属作者个人观点，不代表平台观点，未经授权，不得转载，否则将追究法律责任。关注观察者网微信guanchacn，每日阅读趣味文章。