【美国基金会报告】10大领域AI超越人类时间表：机器智能大爆发,创业美国微信公众号文章

本文转自新智元【微信号：Al_era】

【导读】计算机在哪些领域已经超越了人类？准确地回答这个问题有助于我们更好地理解 AI 和自己。非盈利组织电子前哨基金会（EFF）的几位研究员整理了一份可能是目前最完善的资料，梳理了计算机已经超越人类水平的任务列表。一项项看过去，不啻纵览人工智能的发展，同时也能帮助我们将目光放到接下来要解决的问题上。列表持续更新，欢迎大家补充。

这是一个试验项目，旨在从AI研究的文献收集问题和指标/数据集，跟踪人工智能的进展情况。在这个项目页面你可以查看特定子领域，或查看AI/ML的整体进展现状。你可以把它作为报告你的新成果的地方，或作为寻找可以受益于新的数据集/指标的问题的地方，或作为一个数据科学项目的来源。

EFF 的研究人员 Peter Eckersley 和 Yomna Nasser 想要知道 AI 的发展进程，从而对其潜在应用得出更好的理解。在 EEF 的另外两名研究人员 Gennie Gebhart 和 Owain Evans 的辅助下，他们汇集了大量的资料——为了理解问题，先从收集资料开始。

除了零散的论文和文献，他们还参考了以下资料：

Rodrigo Benenson 的 "Who is the Best at X / Are we there yet?"
Jack Clark & Miles Brundage 的《AI 进步衡量指标》
Sarah Constantin 的《Performance Trends in AI》
Katja Grace《Algorithmic Progress in Six Domains》
瑞士计算机国际象棋协会《History of Computer Chess performance》
Qi Wu 等人《Visual Question Answering: A survey of Methods and Datasets》
Eric Yuan的《Comparison of Machine Reading Comprehension Datasets》

最终，Peter Eckersley 等人整理出一份海量的资料，可以用以下目录归纳：

1. 分类方法

2. 定义和导入数据的源代码

3. 问题，指标和数据集

A. 玩游戏

a. 抽象策略游戏

b. 实时视频游戏

B.视觉和图像建模

a. 图像识别

b. 视觉问题回答

c. 视频识别

d. 生成图像

C. 书面语言

a. 阅读理解

b. 语言建模

c. 会话

d. 翻译

D. 口语

a. 语音识别

E. 科学和技术的能力

a. 解决有限的，明确的技术问题

b. 阅读技术论文

c. 解决现实世界中的技术问题

e. 从规范生成计算机程序

F. 学会更好地学习

a. 概括

b. 迁移学习学习

c. One-shot学习

G. 安全与规范

a. “对抗实例”和对分类器的操控

b. 强化学习智能体的安全问题

c. 自动化黑客系统

d. 自动驾驶汽车的行人检测

H. 透明度和可解释性

I. 公平和偏见

J. 隐私问题

4. 到目前为止的分类标准和记录进度

A. 按类型/类别划分的问题和衡量标准

5. 如何为这个项目贡献

A. 导入数据的注意事项

分类方法

分类方法如下图所示：

问题（problem）描述了学习一类重要任务的能力。

指标（metrics）应该以“给定Y类训练数据，软件能够学习做X任务”的理想形式制定。

衡量（measurement）是一个特定算法（algorithm）在一个特定实例（instance）上以特定的指标（metric）能够得到的分数。

问题被标记了属性，例如：视觉，抽象游戏，语言，现实世界建模，安全，等。其中一些问题与人类表现有关（当然这是非常任意的标准，但我们熟悉这样的标准）：

agi：大部分正常人都可以做到的，AGI能够做到。
Super：人类能做到的最高水平，或人类组织能够做到的。
Verysuper：人类和人类组织目前都无法做到的。

一个问题可能有“子问题”，包含简单的案例和普遍性地解决问题的先决条件。

“指标”（metric）是衡量问题进展的一种方式，通常与测试数据集有关。给定的一个问题同参更会有几个metric，但有时是从0开始，并需要提出一些metric…

measure[ment]是在给定metric上，特定时间，特定代码库/团队/项目的得分。

视觉领域

1. 图像分类

视觉领域中，最简单的子问题可能是图像分类，也即让计算机识别图像中存在什么物体。从 2010 年到 2017 年，ImageNet 竞赛一直是业界密切关注的热点。

ImageNet 数据集示例

图像分类不仅包括识别图像中的单个物体，还包括对它们进行定位，并且确定哪些像素属于哪个物体。MSRC-21 指标是专门为此任务而建的：

MSRC-21 示例

2. 看图回答问题（Visual Question Answering）

理解图像涉及的不仅仅是识别其中的物体或实体，也包括从图像中识别事件、关系和场景。理解图像不仅需要进行图像识别，还要掌握语言、世界建模和“图像理解”（image comprehension）。目前在这方面有几个数据集。下图来自 VQA，其中图像来自 Microsoft COCO 图像集，问题和问答都是由 Amazon Mechanical Turk 工作人员提出的。

VQA 数据集示例

那么，在视觉领域，计算机都在什么时间、以什么方式超越人类了呢？

最具代表性的是，在图像识别任务上，2016 年，微软亚洲研究院（MSRA）首先超越人类水平（红色虚线，下同）。

其他，在较小的数据集任务中，比如 CIFAR-10 数据集图像识别任务，2015 年 ICML 论文“Striving for Simplicity：The All Convolutional Net”率先突破人类水平。

更早一些，在街景房屋编号数据集（SVHN）上，2013 年纽约大学，包括 Yann LeCun 在内的学者提出“Regularization of Neural Networks using DropConnect”，率先超越了人类水平。

不过，在看图问答问题方面，计算机距离人类水平还有一定距离。下图是 COCO VAQ 1.0 开放问答任务，根据目前统计结果，计算机距离人类水平还有十几个百分点。

玩游戏

总体上，游戏是一个高效的开放式研究框架，所有的智能都能在游戏中捕捉到。但是，抽象的游戏，比如象棋、围棋和跳棋等，可以在不需要人类世界或者物理世界知识的前提下玩。

虽然，这一领域大部分的游戏已经被计算机攻克，达到了超越人类的水平，但是现在仍然有一些游戏需要解决，特别是，考虑到不同的起点，一些游戏需要智能体从任意的抽象游戏中有效地学习规则（例如，对规则的文本描述或者是正确玩法的例子）。

1. 抽象的策略游戏

复杂的抽象策略游戏中，机器系统已经达到了超越人类的水平。其中一些是规则启发的和启发式的（heuristics），在一些例子中，则结合了机器学习的技术。

抽象策略游戏的代表之一是国际象棋，我们都记得 1997 年 5 月 11 日，IBM 的 Deep Blue 对战国际象棋大师卡斯帕洛夫并取得胜利。不过，Deep Blue 在这份统计中，并不算作计算机玩国际象棋超越人类（见图中 Deep Blue 红色拐点）。

根据这份统计，2006 年 5 月 27 日，英国计算机国际象棋程序 Rybka 1.164 bit 取胜才算开了先河。这之后，计算机国际象棋程序表现越来越好，公认超越人类水平。

2. 实时视频游戏

计算机视频游戏是一个非常开放的领域，很可能，现在或者未来的一些游戏过于复杂，进而成为“AI专属”的。同时，在一些进阶的游戏中，随着复杂度的不断增加，我们可能会看到很多有趣的进步。

Atari 2600 Alien：人类的平均水平在6800分左右。2015年3月，DQN模型的得分是在3000分左右。2015年11月底，DDQN得分逼近4000，Duel得分超过4500，但是距离人类水平都还有一定的差距。
Atari Amidar：人类的平均水平在1700分左右，2015年3月，DQN的得分只有700左右，2015年11月底，DDQN和Duel都超越了人类水平，得分分别为1700和2300左右。
Atari2600 Assault：人类的平均水平是1500分。DQN、DDQN和Duel都已经全面超越人类。
Atari 2600 Asterix：人类的平均水平是8000分。2015年3月，DQN的得分是6000分，2015年11月底，DDQN得分达到17000分，Duel得分近30000。
Atari 2600 Gravitar：人类的平均水平在2800分左右，DQN、DDQN和Duel的得分都在600以下。

注： DeepMind 首先在2015年初发布了 Nature文章，提出DQN。在2015年一年内提出了Double DQN，Dueling Network。后两者极大提升了DQN的性能，目前的改进型DQN算法在Atari游戏的平均得分是Nature版DQN的三倍之多。

语言和文本

语音识别

Switchboard上语音识别词错误率变化，衡量标准：Hub500

人类语音识别的词错率约为5.9%，放大上图可见，最右边的CNN-LSTM，Microsoft 2016等几个模型达到或接近人类水平。

图像生成

基于CIFAR-10数据集的图像生成模型，纵坐标表示图像熵（bits per pixel）。

2016年之后出现的PixelRNN和PixelCNN++生成模型实现了非常好的性能。

语言建模和理解

文本压缩（text compression）是衡量机器学习系统对人类语言建模的能力的一种方式。Shannon 1951年的经典论文（Prediction and Entropy ofPrinted English）提出英语字母的信息量在0.6~1.3比特之间：人类比传统的算法能更好地预测在一段文字中可能出现的下一个字符。更近一些的研究（Moradi 1998）提出与文本相关的信息量是每个字符1.3比特左右（不同的文本可能更高）。

Penn Treebank (英语句子语法解析时的困惑度)，纵坐标表示困惑度（perplexity）

Hutter Prize（编码英语文本时每个字符的信息量）

纵坐标表示信息熵，人类的表现是1.3比特左右。2016年之后的一些模型（Surprisal-Driven Zoneout，Recurrent Highway Networks等）达到了接近人类水平的表现。

语篇中的LAMBADA 词汇预测

纵坐标表示预测准确率，人类表现超过80%。最新的一些模型，只有MAGE (48)的准确率达到51.6%，其余均低于50%。

翻译

New-test-2014 En-Fr BLEU

New-test-2014 En-De BLEU

上面两图是以BLEU得分为指标的翻译模型进展，红色虚线表示人类专业译员的水平。当前最好的一些模型（MoE 2048，GNMT+RL）的BLEU得分基本上远低于人类的表现。

对话：Chatbots 和对话智能体

对话是衡量AI进步的经典指标。图灵测试是让一个人类去判断与真实的人聊天和与计算机聊天的差异。图灵测试更简单的变体是，判断者处理的是更加随意、更少探查性的各种方式的对话。

Loebner奖（TheLoebner Prize）是一个年度的活动，运行的是图灵测试的一个版本。自2014年设立以来，这个活动向参赛者提供标准形式的测试，并对结果进行评分（每个问题都以可信/半合理/不合理进行评级）。这个指标不是固定的，因为每年测试的问题都会变，这个指标某种程度上可以代表AI对话领域的进步。下面是2016年的示例：

Loebner 奖得分，纵坐标表示正确率

阅读理解

Facebook BABI 20 QA数据集是一个基本的（现在解决的）阅读理解任务的例子。它涉及学习回答简单的推理问题，如下图所示：

在bAbi 20 QA数据集上阅读理解模型的进展，纵坐标表示正确率

99%的正确率被标记为“非常好的表现”,最新的2个模型（QRN和EntNet）的准确率超过了99%，图中所有这些模型正确率均超过90%，具体如下：

阅读理解模型在其他数据集或指标的表现：

Reading comprehension MCTest-160-all

Reading comprehension MCTest-500-all

bAbi Children’s Book comprehension CBtestNE

bAbi Children’s Book comprehension CBtestCN

CNN Comprehension test

Daily Mail Comprehension test

Stanford Question Answering Dataset EM test

Stanford Question Answering Dataset F1 test

科学与技术能力

能够阅读和理解科学、技术、工程和医疗文件，虽然与普通阅读理解相关，但这些任务要困难得多，因此单独列出作为一类。其中一些也属于“超级智能”问题，因为在人类中，也只有极少部分的人能阅读 STEM 论文，更少部分的人能正确理解跨领域的 STEM 论文。

在科学与技术能力方面，计算机要超越人类，目前还没有很好的衡量标准，可以

1. 解决有限的，明确的技术问题

2. 阅读技术论文

3. 解决现实中的技术问题

不过，作者注意到一个特别有趣的问题，那就是计算机自动生成计算机程序。

4. 自动生成计算机程序

具体说，是从自然语言限制条件（通常会包含各种不确定性）中生成计算机程序。对此，现在至少有一个很好的衡量指标/数据集，那就是 DeepMind“card2code”数据集（https://github.com/deepmind/card2code），生成游戏《炉石传说》的魔法卡片的代码。

从下图可见，截止 2017 年 6 月，计算机距离无 Bug 程序部署这一标准尚有距离，更不用说人类标准了——以 100% 的正确率编写《炉石传说》魔法卡片的代码。

学会（更好地）学习

学会学习包括泛化和迁移学习的能力。机器学习系统在解决具体问题方面取得了长足的进展。但我们知道，人类有能力进行迁移学习学习——举一反三的能力。此外，人类的通用性也很强，一个人能够做各种各样的事情，并且根据情况要求学习新的事物。

这方面机器仍然不如人类。

安全防范问题

“安全”对于 AI 和机器学习系统可以代表许多事情。在某些情况下，是关于确保系统满足各种条件限制，一般或特别是某些关键的安保目的，例如自动驾驶车辆正确检测行人。

1. 对抗样本以及操控机器学习分类器

2. 强化学习智能体及类似系统的安全

3. 自动黑客系统（Automated Hacking System）

对于计算机安全而言，自动化工具在攻击性任务和防御性任务两方面都变得越来越有效。在防御方面，资源丰富的软件开发团队已经使用了模糊程序和静态分析工具，减少系统运行代码中的漏洞数量。在协助攻击和协助防御方面，DARPA 最近开始了“Cyber Grand Challenge 挑战赛”，衡量和提高智能体入侵系统或防御同一系统遭受入侵的能力。

这部分也包括一些明确的 AI 问题（比如学习在代码中发现可利用的漏洞），以及一些不那么明确的 AI 问题，例如确保将这种技术的防御版本（包括 fuzzer、IPS 等）在所有关键系统中都得到部署。

4. 行人检测

从图像或视频中检测行人是一类特定的图像分类问题，由于对自动驾驶汽车很重要而得到很多关注。这方面的许多指标都基于 Caltech pedestrians toolkit。

此外，还有 KITTI Vision Benchmark，后者还包括了汽车和骑自行车的人。

其他

1. 透明度，解释性和解释性

2. 隐私（决定哪些领域不使用技术）

3. 公平和偏见

做出有偏见的决策是简单的机器学习分类器和复杂的 ML 分类器都会出现的问题。主要原因包括忽略变量偏差、依靠包含了固有偏差的数据源进行训练，尝试在数据不足的情况下做出预测，以及在现实中部署系统，但这些系统在使用时会产生影响其行为的结果（参见 Goodhart's Law）。这些问题常见于刑事司法、教育政策、保险和贷款领域的评分系统和机器学习系统。

结语

调查发现共有个 50 问题，有33个问题目前还没有评价或衡量标准。