AI Edge:百度新自驾车数据集 | Stack Overflow 年度调查:对AI的担忧 | Allen AI 新的常识问答数据集秒杀传统算法 | 微软发布深度学习框架的“罗塞塔石碑”...

From Import AI
谢谢“极光火狐狸” 的赞赏,拿到过最开心的两块钱。 _

百度,丰田以及伯克利的研究人员组织自驾车挑战赛,来自百度新推出的自驾车数据集:

AI Edge:百度新自驾车数据集 | Stack Overflow 年度调查:对AI的担忧 | Allen AI 新的常识问答数据集秒杀传统算法 | 微软发布深度学习框架的“罗塞塔石碑”..._第1张图片

... ApolloScape 增加了中国自驾车研究人员的数据,另外百度说它已加入伯克利的 DeepDrive 自驾车 AI 联盟......

一个新的竞赛和数据集可能会给研究人员提供更好的方法来测试自驾车 AI 的功能和进展。

数据集

来自百度的 ApolloScape 数据集包含将近 200,000 张RGB图像,并有相应的逐像素语义注释。每一帧都有来自25个语义类的标注,包括:汽车,摩托车,人行道,交通锥,垃圾桶,植被等等。每幅图像的分辨率均为3384 x 2710,每帧间隔一米距离。截至2018年3月8日,已有8万张图片。

更多信息:Many of the researchers linked to ApolloScape will betalking at a session on autonomous cars at the IEEE Intelligent VehiclesSymposium in China

竞赛

新的 WAD 比赛将给人们测试和开发 ApolloScape 和 Berkeley DeepDrive (DeepDrive 数据集包含100,000个视频剪辑,每个视频剪辑大约40秒长,有一个关键帧得到标注) 的数据集上的AI 系统的机会。奖金大约为10,000美元,研究人员正在征集有关研究技术的论文:可驾驶区域分割(drivable area segmentation 能够找出场景的区域对应哪些标签,以及哪些区域安全); 道路物体检测(找出路上的东西); 学习从一个语义领域迁移到另一个语义领域,特别是从Berkeley数据集(在美国加利福尼亚州拍摄)的训练到 ApolloScape 数据集(在中国北京拍摄)。 更多: 关于'WAD'比赛

面对100,000+开发人员的调查显示对 AI 的担忧

AI Edge:百度新自驾车数据集 | Stack Overflow 年度调查:对AI的担忧 | Allen AI 新的常识问答数据集秒杀传统算法 | 微软发布深度学习框架的“罗塞塔石碑”..._第2张图片

......开发人员认为危险和令人兴奋的,以及谁该负责......

开发者社区 StackOverflow 发布了其社区年度调查结果,今年它问到了AI:

  • 开发人员认为“危险”的

    提高工作自动化程度(40.8%)

  • 开发人员认为“令人兴奋”的

    人工智能超越人类智能,也就是奇点 (Singularity)(28%)

奇点理论,一个根据技术发展史总结出的观点,认为未来将要发生一件不可避免的事件──技术發展将会在很短的时间内发生极大而接近于无限的进步

  • 谁需要考虑AI的后果:

    • 开发人员或创建AI的人员:47.8%

    • 政府或其他监管机构:27.9%

  • 不同的角色=不同的担忧

    技术专家们更倾向于说,比起奇点问题他们更关心公平问题,而设计师和移动开发人员倾向于更关心奇点。

阅读更多:开发者调查结果2018年(StackOverFlow)。

Allen AI 用新的常识问答数据集来让现在的算法跪一地:

AI Edge:百度新自驾车数据集 | Stack Overflow 年度调查:对AI的担忧 | Allen AI 新的常识问答数据集秒杀传统算法 | 微软发布深度学习框架的“罗塞塔石碑”..._第3张图片

...常识问题旨在挑战和挫败当今最优秀的算法...

在宣布了1.25亿美元的融资,还有如何致力于开展推动 AI 处理常识方面的研究后,艾伦人工智能研究所 (Allen Institute for Artificial Intelligence,简称AI2) 发布了一项新的 ARC 挑战和数据集,研究人员可以用其开发更智能的算法。

数据集

主要的 ARC 测试包含 7787 个自然科学问题,分为一组简单集和一组困难集。困难集是那些用基于检索的和词语共现算法不能正确回答的问题。同时,AI2 正在发布“ARC语料库”,其收集了1400万篇与ARC相关知识的科学相关句,以支持 ARC 算法的开发。这个语料库包含与95%挑战问题相关的知识。

神经网络基线模型

AI2还发布了三个基线模型,这些模型已经在挑战中进行了测试,在简单集中取得了一些成功,但却不能比困难集中的随机选择更好。这些模型包括 decomposable attention model(DecompAttn),Bidirectional Attention Flow(BiDAF)和 decomposed graph entailment model(DGEM)。

ARC中的问题旨在测试从定义到空间到代数知识的所有内容,鼓励使用能够抽象和概括大数据语料库概念的系统。

基线结果

ARC非常具有挑战性:AI2 以其神经网络方法为基准发现,简单问题的分数最高只为60%,更具挑战性的问题的分数最高只有27%

示例问题

“通过观察它可以确定哪种矿物性质?

(A)光泽[正确](B)质量(C)重量(D)硬度”。

SQUAD 接班人

ARC 可能是斯坦福问答数据集(SQUAD)和挑战的可行继任者; SQuAD 竞赛最近取得了一系列里程碑似的成果,从微软到阿里巴巴的再到科大讯飞都在开发 SQUAD 的解决方案,这些解决方案的表现接近人的表现(ExactMatch 为82%,F1为91%)。

对 SQUAD 主题领域的深入评估让我们更直观地了解,为什么这个测试的分数比 ARC 高得多 - 简而言之,SQUAD更容易些; 它将大量信息丰富的文本与诸如“大多数教师从哪里获得凭据?”等基本问题放在一起。可以从文本中就检索到,而不需要太多抽象。

为什么很重要

“我们发现所有测试的基线系统在挑战集中都不会超出随机基线,包括两个在 SNLI 和 SQuAD 上具有高性能的神经模型,” 研究人员写道。现在最大的问题是这个数据集在 Goldilocks 系谱上的位置 - 这是否太容易(请参考Facebook的早期记忆网络的测试)或太难或恰到好处?如果一个系统在ARC的更具挑战性的问题上得到75%左右的话,这似乎意味着理解和知识表示向前重要的一大步呢

更多:Think you have Solved Question Answering? Try ARC, theAI2 Reasoning Challenge (Arxiv).

更多:SQuAD: 100,000+ Questions for Machine Comprehension ofText (Arxiv)

微软发布深度学习框架的“罗塞塔石碑”:

罗塞塔石碑,Rosetta Stone.

原本只是一块刻有古埃及法老托勒密五世诏书的石碑,石碑上用希腊文字、古埃及文字和当时的通俗体文字刻了同样的内容,这使得近代的考古学家得以有机会对照各语言版本的内容后,解读出已经失传千余年的埃及象形文之意义与结构,而成为今日研究古埃及历史的重要里程碑。之后也指代类似的事物。

AI Edge:百度新自驾车数据集 | Stack Overflow 年度调查:对AI的担忧 | Allen AI 新的常识问答数据集秒杀传统算法 | 微软发布深度学习框架的“罗塞塔石碑”..._第4张图片

... GitHub repo为您提供以下几种不同方式显示的基本操作...

微软发布了一个GitHub仓库,其中包含了Caffe2,Chainer,CNTK,Gluon,Keras(后端CNTK / TensorFlow / Theano),Tensorflow,Lasagna,MXNet,PyTorch 和 Julia-Knet 等各个框架。 这里的想法是,如果你在其中一个框架中阅读一种算法,则可以使用这个算法来了解其他框架。

“我们今天发布的完整版本就像是一个深度学习框架的Rosetta Stone,展示了在不同框架中的模型构建端到端过程,” 研究人员在一篇博文中写道,该文章还提供了一些粗略的CNN和RNN的基准训练时间。

阅读更多:Comparing Deep Learning Frameworks: A Rosetta StoneApproach (Microsoft Tech Net).代码(Github)

进化算法对 AI 设计的奇怪,美妙,而又潜在的危险影响:

[图片上传失败...(image-e41654-1521681038341)]

...为什么AI安全社群可以从进化中学习...

一个国际研究人员组成的联盟发布了一些奇怪且经常有趣的发现,其中进化算法对其被要求解决的任务,找出了一些让人大跌眼镜的解决方案和技巧。该论文包含了一系列很有启发性的例子,其中算法颠覆了人类观察者的预期,其中包括:

  • 机会主义的空翻:当试图让生物进化进行跳跃时,一些智能体发现他们可以演变非常高的身体,然后空翻,获得与地面距离成比例的奖励。

  • 毫无意义的程序:当研究人员试图用GenProg 来进化代码以解决一个错误的数据排序程序时,GenProg 进化出了一个解决方案:该程序会返回一个空列表,因为空列表不能被计为负值因为它不包含任何内容。

  • 物理学黑客:一个机器人计算出正确的振动频率,以利用在物理模拟器的地板上发现摩擦bug,让它通过bug在地面上推动自身。

  • 进化总能找到出路:另一种类型的错误是即使研究人员认为这种方式是不可能的,进化也可能成功,就像一个六腿机器人能够在脚不接触地面的情况下快速行走一样(谜底揭晓:它翻转过来背靠地面,并用腿的运动来推动自己)。

  • 还有很多很多

研究人员认为,进化也可能反应 AI 安全中一些令人不安的问题。研究人员写道:“数字化进化中令人惊讶的创造性也具有其他跨领域的影响。例如,本文中”疯狂选择“的很多例子都与 AI 安全这样的新兴领域相关。 “因此,这些小故事可以充当进化的证据 - 无论是生物的还是计算的 - 都有内在的创造性,并且应该经常会是让人惊讶,高兴,甚至强过我们。”

更多:The Surprising Creativity of Digital Evolution: ACollection of Anecdotes from the Evolutionary Computation and Artificial LifeResearch Communities (Arxiv).

自从有了神经教练们,我们的 AI 性能也提高啦:

AI Edge:百度新自驾车数据集 | Stack Overflow 年度调查:对AI的担忧 | Allen AI 新的常识问答数据集秒杀传统算法 | 微软发布深度学习框架的“罗塞塔石碑”..._第5张图片

... 也就是,为什么我这有多名专家老师指导的小学生能打败你那有更大资源但没老师的高中生......

DeepMind 的研究展示了,如何通过传输预先训练的“教师”智能体的知识,来提高特定智能体对某项任务的绩效。该技术在训练 AI 智能体方面产生了显着的加速效应,并有些证据表明,被教授的智能体获得比没教的智能更高的性能

该技术有两个变种:单师和多师; 如预期的那样,通过多名教师进行过预训练的代理比单一训练的代理要更好。

奇怪而微妙

这种方法有一些特点对开发更复杂的 AI 智能体似乎有帮助:在一项任务中,DeepMind 用智能体测试如何用短期记忆来获得高分时。 '小'智能体(只有两个卷积层)通常无法学会使用记忆,因此也就无法达到某个阙值以上的分数,但通过与多位专业老师一起训练后的'小'智能体,却可以完成任务。

“这很让人惊讶,因为 Kickstarting 机制只能指导学生智能体采取哪个行动:它不会规定学生如何构建其内部记忆状态然而,学生只能通过记住下一轮开始前的信息来预测教师的行为,这对短期记忆的形成似乎是强大的监督信号,我们发现这与最好的人类教育者的教导方式非常相似:不告诉学生去想什么,而是简单地让学生在丰富的学习环境中为自己学习。“ 研究人员写道。

为什么很重要

像这样的趋势表明,科学家可以通过使用这种预先训练的技术来更好地评估新代理,从而加快自己的研究。这进一步证实了 AI 研究的关键输入将从预先标记的静态数据集转为计算。尽管应该指出,这里的数据隐含在研究人员可访问的程序性、可修改的模拟器形式中。更具推测性的是,这意味着可以使用教师混合训练复杂的智能体,这些智能体的能力远远超过其任何一位先辈的能力。

更多:Kickstarting Deep Reinforcement Learning (Arxiv).

你可能感兴趣的:(AI Edge:百度新自驾车数据集 | Stack Overflow 年度调查:对AI的担忧 | Allen AI 新的常识问答数据集秒杀传统算法 | 微软发布深度学习框架的“罗塞塔石碑”...)