微软的语音翻译器将面世将我们带向新生活
文/vainvain微软研究院最新展示的“语音机器”,俨然是《星际迷航》中“宇宙翻译器”的雏形,它不仅能在演讲现场完成同声传译工作,还能顺畅地将演讲在声音和文本间相互转换。
http://i0.sinaimg.cn/IT/cr/2012/1206/1560257608.jpghttp://i2.sinaimg.cn/IT/cr/2012/1206/3750225064.jpghttp://i1.sinaimg.cn/IT/cr/2012/1206/311950752.jpg 科幻剧《星际迷航》中有一枚“宇宙翻译器”,使用者将其别在胸前的徽章里,不仅能听懂各种外星语言,还能将自己的语言转换为对方听得懂的语言,在宇宙间通行无阻。在剧中,这样的翻译器被设定为22世纪才得以问世。然而在10月底天津举行的“21世纪计算大会”上,微软首席研究官里克·雷斯特博士带来的语音机器,俨然已有了“宇宙翻译器”的雏形。
雷斯特的演讲主题叫做“语音机器翻译实时演示”。在演示中,语音机器不仅能完成同声传译工作,还能将演讲变成可编辑的双语文本。
演示的前半段稍显平淡。雷斯特博士开始演讲时,他头顶的三块大屏幕只亮了中间一块,实时播放演讲的画面,画面下方滚动的字幕甚至不如一般的电影字幕那样流畅,而是等雷斯特说完一句话以后,几个单词才一起“蹦”出来,完成一条字幕,;接着,左边的显示屏亮起来,变成一个黑色界面的写字板,滚动出现着放大了的演讲字幕,和中间画面保持同速,紧跟着,右边的屏幕亮了起来,同样是黑色写字板的界面,但内容却迥然不同。写字板分成上下两部分,在上面2/3的位置上,随着雷斯特继续演讲,他念到的英文单词被一个个提取出来,列在屏幕左边,单词所对应的中文词语随即出现在右列,看上去像一幅单词表。然后,在写字板下方,那些中文词语组成一条条完整的中文句子,正是演讲词的中译文,几乎和画面中的英文字幕同时显现,基本没有什么语法差错。随着中文字幕的滚动出现,台下2000多名观众爆发出阵阵欢呼和掌声。
在中文译文滚动出现了片刻之后,一个酷似雷斯特的声音响起,以标准普通话一句句重复雷斯特的演讲,直至演讲结束。
用计算机完成同声传译,这对于每天都被不断更新的新奇软件弄得眼花缭乱的普通用户而言,好似一项过于平实的技术,简直就像是翻译软件的升级版;但事实上,微软此次演示的新技术,包含着计算机语音识别和个性化语音合成两个技术的重要突破,可以说是自1997年以来这两项技术精确度最高的一次演示。这项技术甚至可以看作是未来通用型对话工具的前身,据雷斯特介绍,这项技术不仅能英译汉,还能翻译德语、西班牙语等26种语言。
新技术成功演示之后,雷斯特在微软的一篇官方博客上撰文称:“我们可能不必等到22世纪才获得一个类似《星际迷航》宇宙翻译器那样的设备,我们希望移除语言间的障碍,这样人与人互相理解的障碍也就消除了。”
语音机器的暗里乾坤
微软的语音机器看起来担当的是翻译的功能,但技术难点却是在口语的语音识别上。它实际上完成的是一系列整合工作,正如雷斯特博士所演示的那样,首先,计算机要识别人声,提取出正确的单词,翻译成相应的外语单词,再根据外语的语法形成句子,最后,还要经过从文本到语音的系统,以雷斯特自己的声音“说”出翻译后的句子。
在这一系列的过程中,翻译是其中最简单的部分,难的是如何让机器“听懂”人话。关于这项技术的研究,人类实际上已经为之奋斗了60多年了。
一开始,计算机研究者所用的方法是简单的模式匹配,即让计算机检查人类语音产生的波型,尽量寻找与之匹配的单词。这种方法有时候有效,但更多时候则淹没在各种相似或含混的音调中,不知所云。这样的系统无法运用于实际。
上世纪70年代末,一种叫做“隐式马尔可夫模型”(HMM)的计算方法令语音识别技术取得重大突破。在语音识别领域中,这实际上是一种思路的转向,即从语言发音的捕捉和模仿变成尽可能多地搜集语境,建立一种更为稳健的统计语音模型,帮助机器在人机对话中理解句子的意思;而在近几年中逐渐发展起来的“人工神经网络”则加速了语言识别技术的“自学”功能,通过大量对话,让研究人员能“训练”出更富有辨别力的语音识别机器。
当然,到目前为止,语音识别仍是一项进化中的技术。时至今日,即使是最佳语音系统,在任意语音的单词识别上出错率还高达20-25%,而微软的新技术又将这一错误率降低了30%,这意味这之前四五个单词中就会出现一个错误,而现在七八个单词中才会出现一个错误。
除了微软,谷歌最近也开始用神经网络技术发展其语音识别服务。然而微软的独特性在于,他们的语音机器同时整合了语音识别、文本翻译和个性化的语音合成等技术。微软的研究人员录下数小时中国人说话的语音,从中储备所需要的语汇,再从预先录制的英文演讲数据中提取雷斯特的声音属性,当雷斯特开始说英文时,系统便自动整合所有基础技术,提供一个语音到语音的体验—用雷斯特的声音说出对应的中文。在此之前,这类技术大多只能说出人工合成的文本,而无法对人声进行同步。
人工智能的“学习进度”
微软展示的这套系统目前还远远称不上完美,雷斯特博士本人也在微软的官方博客上这样表示。然而这套系统引人注目的地方在于它所能开辟的未来。雷斯特在写给《麻省理工科技创业》的邮件中提到,虽然他和微软亚洲研究院的研究员尚未用这套系统和公司之外的人进行过对话,但它“足以实现本不可能实现的交流。”
“我们还不知道这一技术能达到的精度极限,它太新了。随着我们用数据对系统进行‘训练’,它似乎会变得越来越出色。”雷斯特说。
这套技术还有望在人工智能领域取得进展。和人类一样,人工智能的“学习”也要基于一些官能的发展。目前的技术已经令计算机能看、能听、能思考,并且在与真实世界的接触中不断将这些能力精细化。苹果的Siri个人语音助理和谷歌的街景地图都是基于这样的思路展开研究的。接下来,人工智能需要和人更自然地交流,听从指令,完成驾驶汽车、在工厂劳作这类任务,而在自然用户界面(NUI)领域,对计算机来说最重要也最难的一点就是识别人类语音,与其自然交流,而微软展示的技术,正是有望攻克并完善这一环节。
页:
[1]