谷歌翻译重返中国大陆，国内AI比得过吗？-余亮-观察者网

上周我在虎嗅撰文致意吴恩达先生的离职，文中有两处提到谷歌翻译和百度翻译的对比：一处是说百度领先谷歌一年上线基于NMT神经网络的翻译系统，一处是说百度翻译的使用体验不如谷歌方便。巧的是几天后，3月29日，谷歌翻译APP就重返中国大陆，引起一片欢腾。

此次谷歌优化了中国大陆地区的用（bú）户（yóng）体（fan）验（qiáng），有网友一边感叹，一边还顺带怀念了谷歌全家。同时中国各家翻译软件菊花一紧，纷纷被动或主动出来做对比。

遗憾，全是段子。

在段子手国度，此事很快演变成狂欢。人们拿出各种网络用语虐各家翻译软件，对比结果。有人说，与谷歌翻译比，中国的翻译软件都是垃圾，比如“你是猪啊”，百度、有道都看不懂，就谷歌明白：

也有反怼谷歌的。知乎上有人认为搜狗翻译更能理解中文。连谷大白话老师也上阵笑侃，拿出“不明觉厉”、“活久见”，“朝阳群众”、“啪啪啪”调戏谷歌，结果显示搜狗翻译更走心。

我觉得，这种事，各方都能找出几个例子来证明对方不行自己行，玩玩可以，别太当真。而且如果一味强调本地段子翻译准，就好比问对方茴香豆的“茴”字有几种说法，没什么实际价值。

翻译就是一切

巴别塔的典故传了不知道多少遍，可见翻译应该是个普世的工作。相比段子，我更想把技术人的想法“翻译”出来，谈谈国内各巨头到底在和谷歌比拼什么。

夸张点说，“翻译”是人类信息文明的一切。

翻译背后是语言，语言的本质是符号，符号是对信息的编码。翻译就是符号的“编码”和“解码”。从一种语言翻译到另一种语言，就是对一种编码进行解码，再重新编码为另一套体系。

人类文明萌芽于符号（语言），赫拉利老师在《人类简史》中就强调，我们的智人祖先正是因为有了完备的语言，才能组织起来，击败身体强壮的尼安德特人。

现代文明无不基于符号的流通、利用。法国哲学家、符号学家鲍德里亚善于“翻译”当代生活。比如《消费社会》一书就把消费行为当作一种语言行为——你消费任何商品都是在表达某种意思。以往经济学家强调商品的使用价值和交换价值，鲍德里亚看到的是：

商品的物质“使用价值”不再重要，符号价值才重要。商品就是一种语言符号，消费成了一种言说。爱漂亮衣服，爱打折标签，你是凡客。吃西少肉夹馍、骑摩拜单车，你是创业狗。

今天的人类生活更是进入了“过度”符号化的时代。

信息技术的发展可以描述为数据符号“侵袭”自然生活。正如最近讯飞轮值总裁胡郁在演讲中谈到“自然宇宙”与“数字宇宙”的关系。想想，“宅男”、“二次元”的另一面就是“真实”生活退后，人们都生活在经过互联网编码后的世界里。

在这种时代，依赖符号运作的机器反而如鱼得水。因为它们的一切运行以符号（代码、函数、数据、标签）为基础。追溯计算机的发明，无非是人类把自己的意图翻译成机器可以理解的语言，促成机器的行动。如今做feed流的公司，利用机器算法给每条资讯打上成百的属性标签，通过用户点击行为反测用户的消费偏好，这难道不是鲍德里亚消费社会理论的机器化实现？

一切信息都是“语言”，一切语言传递都是编码——解码。所以，“翻译”成了人工智能的关键。

观察当下AI大企业，技术线路都有清晰的两块，一块是图像识别、语音识别方向，一块是自然语言处理方向。从阿里的小黄图牛皮藓鉴别、讯飞的语音识别，甚至到百度的无人车，更多利用前者。从百度的搜索、翻译、度秘到阿里的机器客服、搜狗的输入法，更多基于后者。看AI人才也可分这两类。吴恩达与酷炫的图像识别（识猫）、无人车相关，王海峰、王小川则与低调的自然语言处理相关。

二者是并列的关系吗？新任百度AI技术平台体系（AIG）负责人王海峰说过一段话：

相对于看、听和行动的能力，语言是人类区别于其他生物最重要的特征之一。视觉、听觉和行为不仅是人特有的，动物也会有，甚至比人强，但是语言是人特有的。AlphaGo对于普通人来讲是非常震撼的一件事情，我们也认为它是一个挺大的成绩。但是我们也不能忽略，它的规则是明确的，空间是封闭的，为围棋训练出来的程序下象棋就不好用。基本来讲是一个可解的问题，但是语言的很多问题是更难解的。

几天前有文章《百度大清洗》谈百度结构大调整，用了“王海峰的崛起”这样的小标题。我以为应该从自然语言处理技术重要性来理解。

机器翻译的进化

翻译，是“自然语言处理”的最重要分支，也是比较难的一支。人工智能在早期就是符号智能，人把各种规则变成符号算式输入机器，结果深挖下去发现规则比恒河沙粒还多，累死了自己。

最早的机器翻译方法就是基于词和语法规则。注意，人类并不了解大脑是如何工作的，但是依然工作得很好。反过来，人类自己语言熟练，不代表人能理解自己语言神经是怎么运作的。这就导致依赖人工规则的翻译软件笑话百出。即便现在，谷歌、百度也无法避免下面这样的翻译错误：

（百度）

后来出现了“统计机器翻译方法”（SMT），也就是通过对大量的平行语料进行统计分析，找出常见的词汇组合规则，避免奇怪的组合。

SMT翻译短语效果好，但是翻译句子就一般。近几年基于神经网络的翻译模型（ NMT）崛起。与AlphaGo的神经网络原理类似，NMT模拟人脑神经的层级结构，具有多层芯片网络，从基础层开始，越是基础的层级就越是只处理局部的任务，把提炼出的局部模式传递给下一层。下一层再对上一层接收来的信息进行汇总和进一步抽象，自动识别出总体规则、模式。人不了解那些规则也没关系，反正交给机器了，只要结果正确即可。这就是端到端的翻译。

但是无论SMT还是NMT，前提是数据量要大。简单的说，规则都是用函数表示的。假定给你一个未知函数f(x)，我告诉你当x=5，f(x)=250，你能推导出函数式f(x)到底是什么吗？显然不能，可是如果给你100个x的具体值，及其对应的f(x)的值，你就可以通过数学学科里的逼近计算或者拟合函数推导出一个近似的函数f(x)。如果让机器去做这个推导，那就叫做“机器学习”。吴恩达的著名项目机器识别猫，就是输入了数百万猫的照片（x），告诉机器输出结果是猫这个语词，机器自己找到了图像形状到“猫”这个词之间的推导规则。

（从无数散点数据中近似地拟合出一条函数曲线）

在翻译界的常识是：机器翻译是突然爆发的，原因在于互联网带来的大数据。前谷歌工程师吴军在《智能时代》里说过，2005年，谷歌翻译在美国翻译界大赛上异军突起，秒杀老牌翻译公司，靠的就是更多的数据。因为谷歌有互联网，有网上人类提供的海量翻译例句。

十年后机器翻译第二次爆发。百度和谷歌一前一后上线NMT神经网络翻译系统。相比SMT聚焦于局部信息（短语），NMT更擅长利用全局信息——在对整个句子的信息解码、编码后，才生成结果。所以无论是语音识别还是翻译，你会发现句子长一点，机器识别和翻译的效果就会更好一点。

比如，语序问题是“翻译”头疼的问题，中文会把所有的定语都放在中心词前面，英文则会倒装，以往机器常混淆这个顺序。 NMT通过基于深度学习的神经网络，向人类较好地学习到语序模式，长句翻译比以往流畅多了。

在谷歌和腾讯都工作过的吴军，却认为在搜索、翻译领域，排在前面的就是谷歌和百度，别人很难追上这俩。因为他们都是搜索引擎起家，先发优势明显。谁积累的数据多、算法训练成熟，谁就赢者通吃。搜狗搜索技术不弱，且有微信搜索的优势，但是搜索结果依然被人诟病（甚至被诟病的机会也比百度少得多），就是因为起步晚，吃了马太效应的亏。

为了优化对人类语言世界的理解，谷歌和百度都构建了庞大的知识图谱，知识点之间不断生成的关系非后来者能追。

段子手的调侃也抓住了一些本质——由于长期被排除在中国市场之外，谷歌缺少中文数据。去年谷歌的“你画我猜”游戏风靡一时，我看那其实就是一种数据采集和训练模式。你的每一次绘画和判定都是在教育谷歌的图像识别系统更精准。谷歌善于用喜闻乐见方式，既做到PR也做到技术提升。

谷歌翻译进入大陆，以后用的人越多，它的段子也可能翻译越准，所以比段子没什么好得意的。人类之间存在文化壁垒，但是对于没文化的机器，一切壁垒都会击穿，或者说一切文化它都能学会，从推特上的种族歧视言论到中国的神段子。真正要比拼的只有技术深度和产品体验的积累。

很多人欢呼谷歌翻译归来，不一定是关心技术，那意思“翻译”出来就是：谷歌终于回来了，我当年的香没有白烧。

仅从技术角度来讲，我说一切都是翻译。语音识别也是一种翻译（从声音信号翻译到文字符号，或者从一种发音翻译到另一种发音）。机器人的文艺世界也离不开翻译。英特尔、百度等公司都推出过机器写诗游戏，经常真假难辨。试分辨下面两首诗哪一首是人写的：

（答案在文章最后）

听王海峰介绍过机器写诗的原理。出乎很多人的意料，这个写诗系统正是用翻译模型来做的。在系统看来，当已经有了第一句诗，那么写作第二句诗的过程就是一个翻译过程——根据第一句寻找合适的对应语句：

首先根据用户 Query（诗歌题目）对要生成诗歌的内容进行规划，预测得到每一句诗的子主题，每一个子主题用一个单词来表示。这个过程和人类创作诗歌比较相似，诗人在创作之前往往会列出提纲，规划出每一句诗要描写的核心内容，然后再进行每句诗的创作。主题规划模型在生成每一句诗的时候，同时把上文生成的诗句和主题词一起输入来生成下一句诗。在这里，主题词的引入可以让生成的诗句不偏离主题，从而使整首诗都做到主题明确，逻辑顺畅。

基于主题规划的诗歌生成框架（写诗 2.0 版本）如图所示:

图：写诗 2.0 框架（来源于论文 Wang et al. 2016），有兴趣读者可以参考“机器之心”上这篇有趣文章，另外我不同意诗人写诗是先给每一句列提纲的。

翻译技术无处不在，这样我们才能从技术角度理解为什么亚马逊、谷歌、百度都无比重视智慧音箱产品，那就是一个人机对话系统，在人与机器世界之间充当翻译官角色。

还有“实物翻译”和“拍照翻译”功能，目前谷歌和百度在做。实物翻译主要是图像识别技术，拍照识别物体是什么并提供相关资料。拍照翻译，谷歌的产品体验看似很好，拍照时候翻译结果直接融入实物，有种虚拟现实的效果。界面极简，初见时效果很惊艳。下图是我用谷歌翻译APP拍摄一本杂志的截图，封面上部分中文被“变成”了英文。

据传，百度翻译原本也打算这样做，但最终选择了更复杂的交互方式——拍照后，需要用户用手指涂抹照片相应部位才会出现翻译效果。效果不够酷炫，不过注意，在对谷歌最初的新鲜感过去之后你会发现，谷歌拍照翻译在目前状态下无法令画面静止下来，无法按下拍照按钮。画面动个不停，只能即时查看。百度翻译则能获得稳定、可保存（截图）的效果。

除了技术，产品体验是一个重要竞争场所。

（百度工程师话不多，但是翻译的界面有点话多。谷歌界面则极简）

善解人意，是翻译要求的品质，也是用户体验要求的品质。国内的技术型科技企业似乎都有产品体验弱的问题。比如讯飞的语音输入技术很强，但是输入法产品设计上就差了点，全键盘首屏缺少一些常用标点符号，也没有百度输入法和搜狗输入法那样方便调出的多重记录剪贴板。

讯飞手机输入法截图

我给双方都提过产品建议，谁会更快修改呢？（哥其实特别想做一个产品经理，迫不得已做了研究人员）

谷歌翻译APP重返大陆，想必会给国内企业带来冲击，对于改善用户体验是大好事。有竞争才有进步。

技术论剑

产品体验容易学，技术积累更是苦功夫。我相信技术人自己是绝不会只为段子翻译传神而沾沾自喜的。在自然语言处理方面，各家巨头都在比拼。

谷歌自不用说，2016年，谷歌人在《Nature》、《PNAS》、《JAMA》三大顶级科学期刊惊人地发表了218篇论文，绝大多数都关于人工智能领域。简直就是要争创“双一流”。

去年微软亚洲研究院的秦涛和他的团队，在机器翻译领域提出“对偶学习法”，听起来很有创意。目的是：利用没有标注的数据。要知道，一般机器学习需要人类标注过的数据。比如一张猫的图片需要人工打上“cat”文字标签，然后拿去训练机器。但是人工标注成本高，探求如何让机器自主学习就成了未来发展方向。

秦涛团队认为：很多人工智能的应用涉及两个互为对偶的任务，例如从中文到英文翻译和从英文到中文的翻译互为对偶、语音识别和语音合成互为对偶、基于图像生成文本和基于文本生成图像互为对偶、搜索引擎中给检索词查找相关的网页和给网页生成关键词互为对偶等等。这些互为对偶的任务可以形成一个闭环，使从没有标注的数据中进行学习成为可能。通过设定一个精巧的原始任务模型，对偶任务可以自反馈自学习。（有兴趣读者可以参考微软亚洲研究院主页上的这篇文章）

在自然语言的自主学习领域，最近百度也搞了个大新闻。余昊男、张海超、徐伟发表了一篇论文，提出了一个新的框架，把视觉识别和自然语言处理技术结合起来，让AI机器人在没有先验知识的情况下，自己学会理解人的命令并在迷宫中导航并定位物体。

他们把初始机器人称做婴儿智能体，用无数回合来迭代训练。在每个回合，只给出极少的像素和语言指令，通过梯度下降，端到端地从零开始训练，让AI在实验中自主学习环境的视觉表示，语言的句法和语义，以及如何在环境中给自己导航。比如要求智能体能够推广解释从未见过的命令和词汇。

我认为这是一项了不起的探索。为什么？前面我说人类进入了过度符号化世界，其实略有遗憾。过度符号化意味着脱离现实和实践。而这篇论文A Deep Compositional Framework for Human-like Language Acquisition in Virtual Environment旨在把AI从符号世界放入物理世界，认为只有物理世界的反馈才能让AI真正智能。研究团队认为：

有必要重温吴恩达的话：人工智能领域，很多创新都是中国人搞出来的。

那么中国企业还缺什么？古人云，做人要“世事洞明，人情练达”，改一下就可以送给中国AI企业：“技术洞明，产品练达”。技术好，还要转化为产品的体贴和话语的高度。当然，中国人总是与最好的比，要求很高，动力很足。

我听到百度基层的工程师朋友夸谷歌翻译好，我觉得，这是正确的态度。“翻译”乃国之重器，文明重器。想想严复当年对进化论的曲解翻译是如何影响中国救亡运动的？技术人或许也需要这样的高度。

附诗词对比答案：左边为百度写诗机器人的作品，右边为宋代诗人葛绍体所作