微软技术院士,负责微软语音、自然语言和机器翻译工作的黄学东博士表示,这是自然语言处理领域的一项里程碑式的成就。“这是我们的情怀,是非常有意义的工作,”黄学东告诉新智元:“消除语言障碍,让人们能更好地沟通,非常有价值,值得我们多年来不断为此付出努力。”
黄学东骄傲地说,2015年微软率先在图像识别ImageNet数据集达到人类水平,2016年在Switchboard对话语义识别达到人类水平,2017在斯坦福问答数据集SQuAD上达到人类水平,今天又在机器翻译上达到人类水平,一路走来,微软的进步激动人心,“这是我们共同的成就,我们是站在同行的肩膀上往上走”。
黄学东表示,微软语音和NLP组在成立时,便立下了要在两年后将机器翻译做到人类专业水平的目标。如今,这一目标提前实现,“除了计算力的大幅提高,深度学习方法的提高,我们还结合了以前在Switchboard上取得的经验,数据也做了很多整理,比如去除低质量的训练数据,等等。”黄学东说。
“这既是技术上的突破,也是工程上的突破,是技术和工程的完美结合,只有把过程中的每一件事情都做好,才能得到这样的结果。”
NLP里程碑式突破:首个媲美人类专业译者的机器翻译系统
这次微软的翻译系统是在数据集WMT-17的新闻数据集newstest2017上取得了上述成果。WMT是机器翻译领域的国际顶级评测比赛之一。WMT数据集也是机器翻译领域一个公认的主流数据集。其中,newstest2017新闻报道测试集由产业界和学术界的合作伙伴共同开发,包括来自新闻评论语料库的约332K个句子对,来自联合国平行语料库的15.8M个句子对,以及来自CWMT语料库的9M个句子对。
虽然研究人员只进行了汉译英的测试,但黄学东表示,英译汉结果也应该并无不同。“从技术上说,汉译英和英译汉是相同的,只要有足够的数据。”
为了确保翻译结果准确且达到人类的翻译水平,微软研究团队还邀请了双语语言顾问,将微软的翻译结果与两个独立的人工翻译结果进行了比较评估(全部盲测)。黄学东告诉新智元:“当机器翻译质量很差的时候,使用BLEU评分还行,但是当机器翻译质量提高以后,就需要靠人类来评价。”
具体说,当100分是标准满分时,微软的系统得分69.9,专业译者68.6,而众包翻译得分为67.6。
机器翻译提前7年超越人类译者,人工智能再下一城
机器翻译是科研人员攻坚了数十年的研究领域,曾经很多人都认为机器翻译根本不可能达到人类翻译的水平。
2017年中旬,牛津大学面向机器学习研究人员做了一次大规模调查,调查的内容是他们对 AI 进展的看法。这些研究人员预测,未来10年,AI 将在许多活动中超过人类,具体预测见下表: