林志玲“献声”高德地图导航 女神语音包是怎么录制的?

来源:果壳网

2014-04-30 14:26

对于不少“开车一族”而言,手机里的地图类应用可谓是必不可少。去年,导航类APP“高德地图”邀请了台湾知名艺人林志玲来做代言。从此,高德地图用户可以享受志玲姐姐标志性嗲音的语音导航服务。“志玲祝你旅途愉快哦!”女神标志性的娃娃音让不少男粉丝听得浑身酥软,但这样一款软件占用的空间会不会很大呢?志玲姐姐“献声”高德地图,配音得花多少时间?会不会累坏?

日前,果壳网创始人“姬十三”(原名嵇晓华)提问:“高德导航里,林志玲的语音是怎么录制的?录的时候要念多少词和句子?”

怎样避免累死林志玲?(图为剧照)

简介为“香港凤凰U Radio音乐统筹,音乐节目主持人”的网友“加菲众”的回答获得了最多的赞。他表示,在App页面有林志玲的语音包下载,注明了大小是19MB。根据下图,“林志玲语音”是以.irf封装的文件,大小19.7MB。而普通话(男)只有4.6MB。

通过播放音质判断,其输出端采样率最多不超过64Kbps(又称比特率,指的是数字信号的传输速率,也就是每秒钟传送多少个千位(kb)的信息)。因此,音频总长估算最小值19MB/64KB=300秒,5分钟。而普通话版只有71秒。

相应地,当采样率变为32、16(8Kbps相当于电话的音质)的时候,音频总长估算最小值成倍上升为10分钟,20分钟。

通过视频: 

林志玲代言高德录音花絮

看得出,只有几页纸,包含一些导航以外的语音信息,如节日出行提醒等。这应当就是比默认语音数据量大的原因。

因此,他推测志玲的语音分为两部分:导航语音部分应该采用通用的、很完善波型合成技术,将元音、辅音及音调等采样,通过算法实现文语转换;这一部分要录入的内容很少,很可能是含有个人语音特征的一些基础发音。

而比较人性化的特殊提醒,时间总长在5分钟到20分钟左右,依照一般语速计,录制内容最多不会超过5000字,视频中录音稿只有几页纸,可以佐证这一点。

网友“傅里叶变黄油猫”进一步解释称,对于地名等有无数种变化的语音,使用TTS(Text to Speech,文本转语音)技术,应用很广泛,例如拨打10086使用自助语音应答,查询话费时,系统就会用TTS把余额报给你。Siri说话也是TTS。

汉语TTS实现比较简单,因为汉语拼音的读音非常有限,21个声母、37韵母、5个声调组合成不超过3000个读音,全部录一次,播语音时把每个字的读音串起来就可以了。

不过光是简单的字音组合会让TTS效果听起来很生硬,例如Google翻译的试听功能。为了让TTS效果更自然,需要用算法控制语速、处理多音字的问题,这是TTS技术含量最高的地方。目前汉语的TTS技术已经很成熟,听起来很自然,多音字准确率也相当高。

“黄恪”对比了不同的地图应用,称:“天气通跟高德不同。天气通的做法是录制语音片段,高德用的是合作方的技术,做法是数字化声音特征之后进行语音合成。所以高德的语音方案要比天气通语音包小而且灵活,但是制作成本也高得多。高德当时是找专人,跟了志玲姐姐几个月,贴身录音,然后把原始声音文件处理提取出数字特征。天气通的名人语音基本上是名人几分钟录出来的。墨迹天气跟高德,基本原理一样,但是没有高德那么土豪,所以没有名人语音。”

(观察者网整合自果壳网问答)

责任编辑:陈佳静
观察者APP,更好阅读体验

国际刑事法院忍无可忍:再威胁试试

省级督察组现场核实情况,遭故意封路阻挠

嫦娥六号成功发射!开启人类首次月球背面取样之旅

“美军还没撤,俄军就把这里占了”

土耳其暂停与以色列所有贸易