谷歌恐将全球翻译公司送进坟墓,黑科技树又点亮新技能

2016年09月29日 澳洲华人俱乐部


I am small & we are big

——聚会 | 朋友圈 | 工作 | 投资 | 维权 | 反歧视——


谷歌翻译实现了跨越式的突破,坐在电脑前的小呆呆感受到了阵阵寒意:机器统治人类的日子真的快到了吗?

不明白发生了什么事的群众请看下面的截图感受一下:

谷歌翻译的重大突破是什么?这一切是如何发生的?其实昨天谷歌就已经发表了相关论文,介绍了自己最新的神经机器翻译系统(GNMT),以及新系统的工作原理。


前天(9月27日),谷歌在 ArXiv.org 上发表论文《Google`s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation》,介绍谷歌的神经机器翻译系统(GNMT)。


昨天(9月28日),谷歌 Research Blog 发布文章对该研究进行了介绍,还宣布将 GNMT 投入到了非常困难的汉语-英语语言的翻译生产中,引起了业内的极大的关注。

原文作者:Quoc V. Le、Mike Schuster

以下为谷歌发出的介绍文章


十年前,我们发布了 Google Translate(谷歌翻译),这项服务背后的核心算法是基于短语的机器翻译(PBMT:Phrase-Based Machine Translation)。


自那时起,机器智能的快速发展已经给我们的语音识别和图像识别能力带来了巨大的提升,但改进机器翻译仍然是一个高难度的目标。


今天,我们宣布发布谷歌神经机器翻译(GNMT:Google Neural Machine Translation)系统,该系统使用了当前最先进的训练技术,能够实现到目前为止机器翻译质量的最大提升。我们的全部研究结果详情请参阅我们的论文《Google`s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation》。


几年前,我们开始使用循环神经网络(RNN:Recurrent Neural Networks)来直接学习一个输入序列(如一种语言的一个句子)到一个输出序列(另一种语言的同一个句子)的映射。其中基于短语的机器学习(PBMT)将输入句子分解成词和短语,然后在很大程度上对它们进行独立的翻译,而神经机器翻译(NMT)则将输入的整个句子视作翻译的基本单元。


这种方法的优点是:相比于之前的基于短语的翻译系统,这种方法所需的工程设计更少。当其首次被提出时,NMT 在中等规模的公共基准数据集上的准确度,就达到了可与基于短语的翻译系统媲美的程度。


自那以后,研究者已经提出了很多改进 NMT 的技术,其中包括模拟外部对准模型(external alignment model)来处理罕见词,使用注意(attention)来对准输入词和输出词 ,以及将词分解成更小的单元应对罕见词。尽管有这些进步,但 NMT 的速度和准确度还没能达到成为 Google Translate 这样的生产系统的要求。


我们的新论文描述了怎样克服让 NMT 在非常大型的数据集上工作的许多挑战、如何打造一个在速度和准确度上都足够能为谷歌 用户和服务带来更好的翻译体验的系统。



来自对比评估的数据,其中人类评估者对给定源句子的翻译质量进行比较评分。得分范围是 0 到 6,其中 0 表示「完全没有意义的翻译」,6 表示「完美的翻译」。


下面的可视化图展示了 GNMT 将一个汉语句子翻译成英语句子的过程。


该网络将该汉语句子的词编码成一个向量列表,其中每个向量都表征了到目前为止所有被读取到的词的含义(编码器(Encoder))。一旦读取完整个句子,解码器就开始工作——一次生成英语句子的一个词(解码器(Decoder))。


为了在每一步都生成翻译正确的词,解码器重点注意了与生成英语词最相关的编码的汉语向量的权重分布(「注意(Attention)),蓝色链接的透明度表示解码器对一个被编码的词的注意程度)。




使用人类评估的并排比较作为一项标准,GNMT 系统得出的翻译相比于之前基于短语的生产系统有了极大提升。


在双语人类评估者的帮助下,我们在来自维基百科和新闻网站的样本句子上测定发现:GNMT 在多个主要语言对的翻译中将翻译误差降低了 55%-85% 甚至更多。


今天除了发布这份研究论文之外,我们还宣布将 GNMT 投入到了一个非常困难的语言(汉语-英语)的翻译的生产中。


现在,移动版和网页版的 Google Translate 的汉英翻译已经在 100% 使用 GNMT 机器翻译了——每天大约 1800 万条翻译。GNMT 的生产部署是使用我们公开开放的机器学习工具套件 TensorFlow 和我们的张量处理单元(TPU:Tensor Processing Units),它们为部署这些强大的 GNMT 模型提供了足够的计算算力,同时也满足了 Google Translate 产品的严格的延迟要求。

汉语到英语的翻译是 Google Translate 所支持的超过 10000 种语言对中的一种,在未来几个月,我们还将继续将我们的 GNMT 扩展到远远更多的语言对上。

机器翻译还远未得到完全解决。GNMT 仍然会做出一些人类翻译者永远不出做出的重大错误,例如漏词和错误翻译专有名词或罕见术语,以及将句子单独进行翻译而不考虑其段落或页面的上下文。为了给我们的用户带来更好的服务,我们还有更多的工作要做。


但是,GNMT 代表着一个重大的里程碑。我们希望与过去几年在这个研究方向上有所贡献的许多研究者和工程师一起庆祝它——不管是来自谷歌还是更广泛的社区。


网友们戏称如谷歌,埃隆马斯克等所发布的前沿科技为黑科技,其实更多反映的是对科技进步的震惊。来来来,我们来看看谷歌曾经的黑科技们:

一、智能可穿戴设备的雷达感知手部动作技术

谷歌的Project Soli是其正在研发中的用于可穿戴设备的手势操作感应技术,它能利用微芯片雷达识别出细微的手指活动,旨在实现非触控用户界面操控。自去年Google I/O 2015现场公布了Project Soli,似乎已经有开发人员获得了谷歌最新的开发工具包。

  

  


二、互联网热气球,让发展中国家人民免费上网

Project Loon气球互联网项目是Google最神秘的部门Google X于2013年推出的一项计划,该计划试图通过热气球为世界上最偏远的地区覆盖网络,以及在灾后帮助人们提供互联网连接。

  

三、让人望而生畏的Atlas机器人

Google 旗下的一个军用机器人公司波士顿动力(Boston Dynamics)是专业做大型机器人的,可是他们最近又让这些庞然大物学习了一些新“技能”,例如抗打击、做家务、金鸡独立等。这个得多看点图:

  

  

  

  

  

  

四、把照片变立体

谷歌研发的新系统 DeepStereo可以通过人工智能技术将一系列照片无缝组合成为视频。DeepStereo 系统最大的不同在于,它可以猜测出图像的缺失部分,在空白处创造出来源图片中没有的新图像。据英国媒体 Register 报道,和传统动画利用视觉暂停的原理不同,DeepSteoreo 可以“想象出”两幅静止图像之间的画面。

  

五、无人驾驶汽车

说到神秘的谷歌 X 实验室里最为知名的作品,或许要数那辆短粗萌的无人驾驶汽车了吧。毕竟是一个已经有了初步成果,未来还需要频繁上路测试的项目,它理应得到最多关注。许多汽车制造商都已经开始了自己对无人驾驶汽车的研究,在这之中谷歌或许是走得最远的。尽管开发者也坦承要让无人驾驶汽车做到零事故非常困难,但走了这么远也没有出大事,足够让人印象深刻了。

  

  


六、太空电梯

或许正是这个“黑科技”的曝光,才让谷歌 X 一下子获得民间关注的。太空电梯这种技术实在是过于虚无缥缈,但谷歌却在研究它。不过即便这样我们也不要期待在可见的未来看到谷歌研制的太空电梯,因为现有的技术实在是跟不上科学家们的构思。制造太空电梯所需要的碳纳米管,至今其长度都没能超过一米。因此,谷歌 X 的研究者们只能继续关注材料技术的发展。

  

七、Calico延长人类寿命

即便现在医学如此发达,人类要面临衰老和健康问题。谷歌旗下的 Calico 正是要向死神挑战的公司。Calico 到底想要干什么?我们很难明了细节,毕竟这是一个长远的投资。它将致力于解决癌症、衰老和神经退行性疾病。或许当有一天它一波爆发,人类将迎来新的时代。

  

八、光速般的网络连接

Google Fiber提供超高速互联网和超过150个电视频道,你可以通过Google Fiber DVR一次性录制八个节目,并且通过Android或iOS设备中的应用程序去控制电视机。Google Fiber能够提供高达1000MB每秒的互联网连接速度,它与Verizon FiOS一样,是最快的美国互联网服务提供商之一。

  

九、无人机送快递

Project Wing是Alphabet希望通过无人驾驶飞机取代人工邮差的项目。谷歌于2014年递交的专利申请让我们可以更好地了解到Project Wing项目是如何工作的:无人机将会使用绞盘将包裹传递至地面中的微型机器人,然后这些机器人将会将包裹运送到一个安全的位置。

  

十、DNA数据云存储服务

2015年6月份,Google Genomics(谷歌基因组)宣布与博德研究所(Broad Institute)进行合作,两强联手推出基因组分析软件GATK(The Genome Analysis Toolkit)的云端版。谷歌基因组是谷歌公司为帮助科学界存储、处理和管理海量基因组数据而搭建的云端平台,于2013年3月份推出。科学家可利用谷歌云端提供的API接口,储存、处理、分析以及分享DNA序列。

  两者合作的核心目标是改进提升基因分析水平,从而在每一个体的基因特征基础上给出更有针对性、更个性化的诊疗方案,帮助治愈一些传统意义上的“绝症”。要达成这一目标,需要庞大数据来分析确认不同的治疗方法对特定基因图谱的影响,这就需要云计算发挥威力。

  



世界上所有伟大的公司都想改造世界,而谷歌不止一次的表示要致力于将世界变得更好。对于谷歌逆天的“黑科技”们,你有什么想说的?欢迎留言!



请在 ”澳洲华人俱乐部" 微信公众号(oz-club) 中回复 “6”

加入您所在地区的“澳洲华人俱乐部”微信群


打滚卖萌求关注(华人俱乐部微信公众号:oz-club) 欢迎留言 打小袋鼠



收藏 已赞