实时语音翻译,Skype如何做到同传的精准?

长久以来,人类都含有一个共同的夙愿:发明一个机器,实现全世界之间毫无障碍的自由交流。而毫无疑问,自由交流,在一个宣称为自由连接的互联网时代,更能够彰显它的价值。毕竟,同是地球人,同住地球村,当你我觅得彼此,却听不懂彼此的语言,实在有些尴尬

长久以来,人类都含有一个共同的夙愿:发明一个机器,实现全世界之间毫无障碍的自由交流。而毫无疑问,自由交流,在一个宣称为自由连接的互联网时代,更能够彰显它的价值。毕竟,同是地球人,同住地球村,当你我觅得彼此,却听不懂彼此的语言,实在有些尴尬。

微软旗下的Skype进行宣布,具备了实时语音翻译的翻译器Skype Translator中文预览版已经正式在中国的市场上推出了。其实,不同于母语间的人直接对话,让机器实时翻译,这些技术微软早在去年的时候就已经与公众见面了,只是那个时候还不支持中文。你知道,哪怕是对于机器,有大约一万个常用汉字以及各种语音语调的中文也颇具挑战性。但如今,包括微软和谷歌在内的科技巨头的发力,使得地球上使用人数最多的语言与使用最广泛的语言能够直接开展对话了。

Skype的翻译系统主要是分个三步骤:首先,把你的实时语音翻译成文字;然后,再把文字翻译成为另外一种语言的文字;最后,把文字转换成语音。其中,识别实时语音并转换成文字,一直是最棘手的部分。

如你所知,精准的实时语音翻译,有赖于强大的机器学习,也就是软件学习训练数据的能力。这些训练数据包括翻译的网页,配有字幕的视频,以及预先翻译且转录成文字的一对一谈话。Skype Translator通过记录对话来分析文本并且训练系统能够更好地“学习”语言——当准备好的数据录入系统后,机器学习软件会在这些对话和环境涉及到的单词中搭建一个统计模型,当你说话时,软件会在统计模型中寻找相似内容,然后应用到预先“学到”的转化程序中,得以让语音转换为文本,再从文本转换成另一种语言。

值得一提的是,与程序设定一般的朗诵不同,人会一边思考一边说话,会犯错,这种犯错在口语表达中的体现就是打磕巴,停顿,重复,或者频频出现如“嗯”“啊”“呃”之类的语气助词,针对于此,Skype Translator的机器学习模型也会处理这些停顿。在预览版中,用户可以看到部分语气词停顿被移除,而未被移除的部分则可能通过用户反馈进行再优化。

在数据进入系统之后,机器学习软件会为对话中的单词建立统计模型,当你说到某一个东西时,系统会在统计模型里寻找类似的单词,并响应之前做过的类似的翻译。实时语音翻译对用户对话的环境很敏感,稍有噪音干扰可能准确度就会降低很多。这一方面,深度神经网络有效的减少识别错误率,改善了系统的健壮性,让实时翻译能够有更大的应用范围。

不过,作为一项不断优化的技术,无论是微软的Skype Translator还是“老对手”谷歌的Google Translate,至少在现阶段,实时语音翻译技术应该还是谈不上完美的,系统对语音的识别准确率也有待完善。要知道,语言如同一只野兽,时刻都在变化,哪怕同一国家,因地域不同也有不同口音与俚语文化。这些问题可以通过更大范围的数据解决么?也许能,但还需要时间。

然而无论怎样,就像一位评测者所言:“整个体验就像是两名电话销售员在使用对讲机,不过在使用过程中,这样的抱怨将会被‘奇迹’带来的震惊所取代。”

Skype的机器学习原型通过预览阶段的大量数据进行训练,并优化语音识别(SR)和自动化机器翻译(MT)任务,这些优化包括去除语句中的不流利成分(比如“ahs”、“umms”和重复性的语言)、把文本分段成句子、增加标点符号、文本的大小写等等。

至于不同语言的文本翻译,Skype利用的则是和Bing翻译一样的引擎技术:语法和统计模型的结合使用,同时为特定语言进行特殊的训练。普通的文本翻译往往要求使用规范正确的书面语言,而Skype翻译系统不仅包括Bing翻译的引擎技术,还额外增加了一层口语化的语言业务。

此外,Skype还建立了一套自定义的串连整个流程的架构,以协调系统里多个部分间的运作。如何简单又高效的运作整个系统,也是一门不小的学问。

Skype的实时语音翻译系统还面临着很多挑战,比如语言的变化的速度很快,每个人说话的方式又很独特,这些都会为实时翻译造成不少的麻烦。但是,对于这一种可能会真正改变人们交流方式的科技产品,越来越多的人都为之激动。相信全人类的夙愿终会实现。