为世界各地人们提供跨语言的无障碍沟通,是Skype Translator一直以来所遵循的基本理念。因中文本身复杂的语法结构,对母语为英语的学习者来说一直较难掌握。Skype Translator中文预览版的发布,在一定程度上打破了中英文之间的沟通障碍,也昭示着微软在语音翻译领域的又一突破。整套实时语音翻译技术完全依托于微软在自然语言处理、机器翻译、语音识别及语音合成、深层神经网络(DNNs)等多领域的研发成果。
Skype Translator中文预览版翻译过程主要包括语音识别、文本校正、机器翻译、语音合成四大部分。微软研究院战略总监及技术顾问Vikram Dendi、微软亚洲研究院副院长张益肇在媒体沟通会上,详细解读了整个翻译过程及核心技术。
语音翻译过程中,语音识别是第一步。每个人都有自己的交流习惯,对话过程中饱含感情与思想,这是区别于人与机器交流的最大不同点。为了让Skype Translator营造出更贴进真实的对话场景,微软亚洲研究院与位于雷蒙德的微软研究院总部团队展开合作,将深层神经网络(DNNs)应用于语音识别领域。深层神经网络(DNNs)基于过去录入的数百万音频片段样本,对输入的语音进行分析,将其转为候选文本。通过该技术,语音识别错误率可降低30%左右。
语音被转换为文本后,下一步将是文本校正,如去除口语中的不连贯字词(如“啊”、“嗯”及其他重复措辞),将文本分解成句子,添加标点符号及大小写识别等一系列处理。“处理后得到的文本会进入一个由机器学习方法建立的统计机器翻译系统中,逐词和逐句进行翻译。系统会从各个维度(如,语言模型、翻译模型和调序模型)对候选译文进行打分和排序,最终输出一个最佳翻译。而这些模型需要使用海量规模,不同类型和不同领域的数据来进行训练。整个Skype Translator的中文文本到英文文本的自动翻译系统由微软亚洲研究院自然语言计算团队经过多年努力开发完成,其水平目前可谓顶尖可处理口语现象的翻译系统。”微软亚洲研究院首席研究员周明表示。
机器翻译完成后,便是决定Skype Translator用户体验的核心环节——语音合成。其关键点在于,将机器翻译完成的文字内容转化成自然的语音。张益肇表示,微软的研究人员还在努力提升合成后语音在情绪上的表达,以及说话时的抑扬顿挫。据悉,语音合成的所有项目均由微软在中国的研发团队完成,包括微软将近三十多种语言的语音合成引擎。
除了技术上的深度投入外,Skype Translator还十分重视用户反馈及功能细节改进。基于Skype每月拥有的3亿活跃用户,与用户深入交流,根据他们的使用反馈,不断提升产品的用户体验,是Skype一直努力在做的事情。据Vikram Dendi介绍,Skype Translator中文预览版所新增的不少新功能点,很多都来自于用户对以往版本的使用反馈。比如,新增了多种用户交流方式。之前的版本用户只限于文本间或语音间交流,现在则更加灵活,可以通过设置实现语音到文本的交流;还有,根据用户对干扰Skype Translator无法理解说话内容的情况反馈,而增加了新的辅助选项,发出提示引导用户通过不同的尝试解决这一问题。Vikram Dendi同时也希望获得更多中国用户的真实反馈,以进一步完善该技术。
目前Skype Translator已支持西班牙语、意大利语、中文(普通话)和英文四种语言的语音翻译功能。虽在某些方面仍有不足,但在拉近人与人之间的距离、节省沟通成本上确实迈出了重要一步!——PHP培训