AI Edge：Google翻译的肤浅性 | Flash来为强化学习研究发挥余热

from Import AI & The Wild Week in AI

上周可怜的小D又出事故了，这周重新开始。

Google翻译的肤浅性

谷歌翻译使用了最先进的AI技术，但简单的测试表明，它离真正的理解还有很长的路要走。虽然这对这一领域的研究人员来说没有什么意外的，但将当前模型的局限性传达给公众也是很重要的。

这篇文章的作者是大名鼎鼎《哥德尔、艾舍尔、巴赫：集异璧之大成》的作者侯世达，所以我也非常感兴趣。

大概：作者主要通过英文与法语、德语、汉语之间的三个例子的翻译，来揭示了Google翻译当前不足之处。很多时候，并没有去理解句子，只是从字符到字符地解码。而侯世达认为，要真正做出一个好的翻译系统，那么如何让它像人类一样理解句子的意思，才是最重要的。

作为正在研究机器翻译的人来说，对其中很多批判还是有点不爽的，因为并没有从技术层面来进行批评，只是从结果。但是，侯世达要表达的观点我还是很赞同的。

更多：链接

研究人员用正在退出历史舞台的Flash来为强化学习研究发挥余热

AI Edge：Google翻译的肤浅性 | Flash来为强化学习研究发挥余热 | 吴教授启动他1.75个亿的AI Fund计划 ..._第2张图片

...FlashRL代表了另一种尝试，研究人员可以访问世界上大量Flash游戏，但最初的平台有缺陷...

挪威阿格德大学的研究人员发布了FlashRL，这是一个研究平台帮助人工智能研究人员熟悉用Flash编写的软件，这是一种过时的交互式媒体格式，定义了网络早期最受欢迎的游戏。该平台与OpenAI Universe有着类似的理念，试图为研究人员提供大量的新环境来测试和开发算法。

数据集： FlashRL有从网络上取得的“几千个游戏环境”。

工作原理：
FlashRL使用Linux库XVFB创建一个虚拟帧缓冲区，可用于图形渲染，然后在玩家中执行Flash文件，如Gnash。FlashRL可以通过为这个被称为pyVLC而设计的VNC客户端访问它，随后将API暴露给开发者。

测试:
研究人员通过训练一个神经网络来玩叫做 Multitask 的游戏，测试FlashRL。但是如果没有可比较的基线或基准，FlashRL在相对于其他系统的培训方面存在任何缺陷，则很难解决。一个好的做法可能是安装一套知名的游戏，如Atari Learning系统内的环境，然后为这些游戏提供基准。

阅读更多：

Flash游戏强化学习平台（Arxiv）
GitHub库

吴教授正式启动他1.75个亿的AI Fund计划

AI Edge：Google翻译的肤浅性 | Flash来为强化学习研究发挥余热 | 吴教授启动他1.75个亿的AI Fund计划 ..._第3张图片

这个新基金的投资者包括NEA，Sequoia，Greylock Partners和软银集团。吴先生作为普通合伙人领导该基金，Eva Wang担任合伙人兼首席运营官，Steven Syverud也加入合伙人行列。第一笔投资是吴教授的 landing.ai，目前尚不清楚吴教授的创业基金是以何种类型为目标的。

同时吴教授也终于放出了他deeplearning ai最后一节课，我会写些笔记的。

更多：链接

Facebook研究人员训练模型，来对人体进行前所未有的详细分析：

AI Edge：Google翻译的肤浅性 | Flash来为强化学习研究发挥余热 | 吴教授启动他1.75个亿的AI Fund计划 ..._第4张图片

...研究对军事，监视有重大影响（虽然没有在论文中讨论）...

Facebook的研究人员已经训练了一个名为 DensePose 的最先进的系统，它可以查看人的2D照片或视频，并自动创建所描绘的人的高清3D网格模型;可以有广泛的用途，并影响跨越多个领域。他们这样做的动机在于，他们认为这项技术在图形，增强现实或人机交互中是有价值的应用，也可能是对通用3D对象理解的垫脚石。但是，已发表的研究和即将出版的数据集对数字监测具有重要意义，这是本文研究人员尚未讨论的一个主题。

性能：
DensePose 可以为复杂的场景恢复高精度的对应场景，实时速度可达数十人：在GTX 1080 GPU上，我们的系统以240×320像素，20-26帧/秒或者800× 1100像素 4-5帧/秒的速度运行。它的表现大大超越了以前的先进系统，虽然在性能上仍然是亚于人类的。

免费数据集：
为了进行这项研究，Facebook创建了一个基于COCO的数据集，注释了其中包含50000个不同坐标的含有人物的图像，以帮助生成所描绘人物的3D地图。

技术：
研究人员采用多阶段深度学习的方法，首先确定一个对象内的感兴趣区域，然后将每个特定区域交给自己的深度学习管道，以提供进一步的对象分割和三维点预测，映射。对于任何给定的图像，每个人相对稀疏的标签，每人约100-150个注释。为了增加网络可用的数据量，他们使用监控系统在培训期间通过训练模型自动添加其他点，人为地增加数据。

使用的组件：
使用特征金字塔网络掩码R-CNN; 这两个版本都可以在Facebook刚刚发布的 Detectron 系统中使用。

为什么重要：
启用实时监视。这项研究有一个令人不安的暗示：同一个系统在监视体系结构中有广泛的用途，可能让操作人员分析大量的人群来确定他们的动作是否有问题 - -例如，这样的系统可以被用来向另一个系统发送信号，如果一定的运动组合被自动标记为预示抗议或骚乱。

我希望Facebook的研究人员觉得释放这样一个系统的效用超过了被其他恶意行为者滥用的可能性，但是这篇文章中没有提到这些问题，令人担忧。

Facebook甚至考虑过这个问题吗？他们是否在内部讨论这个用例？他们在发布这样的系统时是否有“信息危险”手册？我们不知道。作为一个社区，我们（包括像OpenAI这样的组织）需要更好地公开处理释放日益强大的系统的信息风险，以免我们为世界做出我们不想负责的事情。

阅读更多：密集的传闻：密集的人类姿态估计在野外（Arxiv）.
观看更多：DensePose的视频.

OpenAI 发布研究2.0挑战

AI Edge：Google翻译的肤浅性 | Flash来为强化学习研究发挥余热 | 吴教授启动他1.75个亿的AI Fund计划 ..._第5张图片

OpenAI发布了一批七个新的未解决的强化学习问题，这将需要发明新的想法。这是开始深度学习和强化学习研究的好地方，因为需要解决具体的问题。

更多：链接

用深度学习来研究表情符，来斗图吧！

AI Edge：Google翻译的肤浅性 | Flash来为强化学习研究发挥余热 | 吴教授启动他1.75个亿的AI Fund计划 ..._第6张图片

学会理解一个有着大量数据的新的对话系统领域...

表情符号已经成为世界人民用来表达情感的一种隐语了。同时表情符号也是用于深度学习分析很好的备选问题，因为它们由相对少量的不同“单词”组成，大约有1000个常用表情符号，而英语中的大多数文档的工作词汇却约为100,000个单词。

这意味着，比起传统语言组成的数据集，将表情符号映射到特定由语言和图片表达的含义时，只需要更少的数据，而且更容易进行研究。

现在，研究人员正在用互联网上最好的表情符号来源之一——Twitter上的无穷无尽的内容，来做实验。

“表情符号在检索任务方面有着独特的优势，表情符号的有限性使得对于可能的查询空间具有更高的确定性，此外，表情符号不受限与任何特定的自然语言，大多数表情符号是泛文化的“ 研究人员写道。

“Twemoji”数据集：为了分析表情符号，研究人员在2016年夏天爬了大约1500万个带有表情符号的推文，然后分析了这个“Twemoji”数据集以及两个派生数据集：

Twemoji-Balanced（一个较小的数据集，每个表情符号最多10多个例子，剔除了一些不常用的表情符号）
Twemoji-Images（包含了图像以及表情符号的大约一百万条推文）。然后，他们将深度学习技术应用于这个数据集，试图看看他们是否可以使用表情符号来完成预测和检索任务。

结果：研究人员使用双向LSTM来帮助完成表情符号和语言之间的映射; 用GoogleLeNet图像分类系统来找出表情符号和图像之间的关系; 并用这两者的结合来了解三者之间的关系。

他们还研究了，对于给定的推文或视觉内容来建议不同的表情符号。大多数结果还应该被视为早期基线，而不能被看做基准，表情符-文本预测精度的前五名准确率约为48.3％，而图像-文本-表情符预测的准确率就更低了只有40.3%左右。
为什么重要：本文是深度学习趋势的又一个好例子：技术已经变得非常简单，核心AI研究领域之外的研究人员也能使用诸如LSTM和预训练的图像分类器等基本组件，还重新研究当前领域问题，如通过表情符来理解语言学和检索任务。

更多：The New Modality: Emoji Challenges in Prediction,Anticipation, and Retrieval (Arxiv).

蒙古研究人员解决了一个深度学习模因问题，论香肠与美腿的不同：

模因：一个想法，行为或风格从一个人到另一个人的文化传播过程；文化的基本单位，通过非遗传的方式，特别是模仿而得到传递。

其实可以通俗地理解为“梗”

当互联网文化启发了AI研究论文时，奇怪的事情发生了..

AI Edge：Google翻译的肤浅性 | Flash来为强化学习研究发挥余热 | 吴教授启动他1.75个亿的AI Fund计划 ..._第7张图片

蒙古国立大学的研究人员发表了一篇研究论文，他们运用标准技术（通过微调和迁移学习）来解决现有的机器学习问题。新颖之处在于，他们的研究基于试图说明小狗和松饼图片之间的区别 - 几年前Twitter上的一个有趣的模因/笑话，随后成为一种深度学习模因。

为什么很重要：这篇论文最令人感兴趣的是，它表明了：

传统的学术问题和互联网产生的这些问题的边界开始变得模糊起来了
学者们利用互联网模因文化来吸引他人读他们的作品（也就是蹭热点）

更多：Deep Learning Approach for Very Similar Object Recognition Application on Chihuahua and Muffin Problem (Arxiv).

通过欺骗获得更好的AI系统：

邪恶的人类弄出狡猾的游戏来欺骗传统AI系统

AI Edge：Google翻译的肤浅性 | Flash来为强化学习研究发挥余热 | 吴教授启动他1.75个亿的AI Fund计划 ..._第8张图片

目前AI潮存在一个很大的问题，那就是AI系统只能看到目标的问题; 大多数系统往往只会无意识地追求目标，却不知道即使应用一点点人类所谓的常识，也能使它们取得更好的表现。

这个问题也是AI安全研究的主要动机之一，因为要弄清楚如何让AI系统追求更抽象的目标，或者在他们完成任务时加入更多类似于人类的推理之前，似乎得先处理一些安全性的问题。

测试：探索这些问题的一种方法是通过对现有算法进行测试，找出当前无意义的推理方法。 DeepMind已经通过其AI安全网格世界探索了这个，这个世界提供了一套环境来测试AI系统，以通过探索当前开发AI系统的方式，来优化特定的奖励函数。

现在，斯特拉斯克莱德大学，澳大利亚国立大学和纽约大学的研究人员也提出了自己的一套复杂的环境，称之为欺骗游戏 (Deceptive Game)。游戏以标准化的视频游戏描述语言（VGDL）实现，用于测试已经提交给通用视频游戏人工智能竞赛 (General Video Game Artificial Intelligence GVGAI)的AI。

研究人员想出了几种不同类型的欺骗游戏：

贪婪陷阱：通过对AI系统的行为立刻进行奖励，而将其导向错误的方向，这使得它之后不能获得更大的奖励。
平滑陷阱：大多数AI算法都是对解决难度平滑增加的任务进行优化，而不是那种需要解决更难的问题，承担更大的风险，但最终获得更大回报的任务。
一般陷阱：让人工智能学习关于环境中物体的一般规则 - 比如吃薄荷糖可以获得一个奖励，之后颠覆这个规则。例如说，与上述物体交互很多次，之前都是给予正面奖励，但是过了某个点之后，就对相同行为给出惩罚。

结果：在GVGAI竞赛中的AI往往采用各种不同的技术，而结果显示一些排名非常高的AI在这些新环境中的表现却非常差，而一些排名较低的代理商表现相当好。还有大多数AI都不能完成大部分的环境。

这里强调这篇文章的目的是提供一个足够的环境，让AI研究人员测试和评估自己的AI算法的性能，从而创建出另一个“AI安全基线”。这也可能进一步扩展GVGAI竞赛，让它变得更难。

更多：欺骗游戏（Arxiv）。
关于DeepMind之前的“AI安全网格世界”（Arxiv）。

AI Edge：Google翻译的肤浅性 | Flash来为强化学习研究发挥余热 | 吴教授启动他1.75个亿的AI Fund计划 ...