第1107期AI100_机器学习日报(2017-09-29)

AI100_机器学习日报 2017-09-29

  • 深度学习框架Theano 宣布完成历史使命,即将退役 @wx:杨文
  • 2017年旧金山人工智能会议的亮点 @ChatbotsChina
  • GitHub项目推荐系统:根据你的GitHub加星项目自动推荐开源项目 @爱可可-爱生活
  • Scikit-Learn机器学习文本数据预处理 @爱可可-爱生活
  • TensorFlow模仿学习 @爱可可-爱生活

@好东西传送门 出品,由@AI100运营, 过往目录 见http://geek.ai100.com.cn

订阅:关注微信公众号 AI100(ID:rgznai100,扫二维码),回复“机器学习日报”,加你进日报群

微信公众号:rgznai100

本期话题有:

全部12 深度学习5 应用5 自然语言处理4 算法3 视觉3 资源3 入门2 公告板1 语音1

用日报搜索找到以前分享的内容: http://ml.memect.com/search/

今日焦点 (5)

wx:杨文 网页版 2017-09-29 23:57

入门 深度学习 算法 应用 资源 Geoffrey Hinton GPU Matt Rubashkin Python Yann Lecun Yoshua Bengio 崔立明 课程 数据科学 推荐系统

「动态 | 深度学习框架Theano 宣布完成历史使命,即将退役」AI科技评论按:作为七大深度学习框架之一的Theano在今天宣布即将不再更新,这也就意味着它将退出深度学习框架的竞争行列。在今天凌晨一点左右,Yoshua Bengio教授的一封邮件被贴了出来:Yoshua Bengio教授是深度学习领域大神之一。他连同Geoff Hinton以及 Yann LeCun教授,缔造了2006年开始的深度学习复兴。作为MILA 团队的负责人,他的一举一动都备受关注。此次公开的邮件截图更是轰动了整个AI媒体圈。邮件的大概意思就是说, Theano 在 1.0 版本发布之后,未来将终止开发,但仍会以最小成本维护一年。也就是说Theano在未来还可以用,但MILA团队将不再更新版本了。Theano这次的突然宣布停止更新,其实也并不是没有征兆。早前就有数据科学公司 Silicon Valley Data Science 的数据工程师 Matt Rubashkin(UC Berkeley 博士)对目前七大深度学习框架进行过对比,相比Tensorflow,Torch,Theano 的优势不太明显。开发者对其兴趣度排名也不是很高但开发者们对Theano的历史贡献表示一致认可,以下截取三位开发者的评论截图Theano为深度学习发展做出了重大贡献,它有着很详尽的文档教程,很容易被初学者理解和实现。很多后来出现的深度学习框架都是基于Theano的思想来做的。最后附上AI科技评论对Yoshua Bengio教授的原邮件的翻译:尊敬的用户和开发人员, 经过近十年的发展,我们很遗憾地宣布, 未来几周,在Theano开发1.0版本发布后, 我们将终结Theano 的项目。我们仍会以最低维护成本对Theano维持一年,但不会对其开发新特性。基于对开源软件的参与,用户可以继续使用,但MILA不会再在这上面投入精力和时间。过了维护时间也不再承诺提供维护和支持。支持深度学习研究的软件生态系统快速进化,且状态良好;开源软件成为规范,还有很多别的深度学习框架可选,满足着从探索全新想法到将其部署实现的全部需求;在激烈竞争中,行业参与者们支持着不同的软件堆栈。多年以来,我们都以 Theano 的创新深感自豪,其创新也正被其他框架继承和优化。比如,把模型表达为数学表达式、重写计算图以获得更优性能和内存使用、GPU 上的透明执行、更高阶的自动微分,正在全部成为主流。在这一背景下,我们认为继续维护 Theano 不再是推动全新研究与应用的最佳方式。即使来自学界、业界的贡献与支持在不断增加,但维持陈旧的代码库已经成为了创新的阻碍。MILA 仍然会致力于支持学者们实现最新发明(有时甚至是异想天开的想法),我们仍会通过其它方式遵循这一理念继续前进,在其他项目中为开源社区做出更多贡献。感谢所有一直支持 Theano 的朋友们,是你们的持续努力让这一框架不断完善。 — Yoshua Bengio AI科技评论报道————— 给爱学习的你的福利 —————3个月,从无人问津到年薪30万的秘密究竟是什么?答案在这里——崔立明授课【推荐系统算法工程师-从入门到就业】3个月算法水平得到快速提升,让你的职业生涯更有竞争力!长按识别下方二维码(或阅读原文戳开链接)抵达课程详细介绍~———————————————————— via: http://mp.weixin.qq.com/s?__biz=MzI5NTIxNTg0OA==&mid=2247487453&idx=3&sn=6f05415b6b5b4289dea64e3b3c47e4f2&scene=0#wechat_redirect

第1107期AI100_机器学习日报(2017-09-29)_第1张图片
ChatbotsChina 网页版 2017-09-29 16:05



2017年旧金山人工智能会议的亮点 http://t.cn/R0Y04DH ​

第1107期AI100_机器学习日报(2017-09-29)_第2张图片
爱可可-爱生活 网页版 2017-09-29 06:00

应用 推荐系统

【GitHub项目推荐系统:根据你的GitHub加星项目自动推荐开源项目】“GHRecommender – get personalized recommendations for GitHub projects” http://t.cn/R0l6MYl ref:《Building Recommender System for GitHub》by Andrey Lisin @andrey_lisin/building-recommender-system-for-github-a8108f0cb2bd”>http://t.cn/R0l6MYj
爱可可-爱生活 网页版 2017-09-29 05:52

自然语言处理 Jason Brownlee

【Scikit-Learn机器学习文本数据预处理】《How to Prepare Text Data for Machine Learning with Scikit-Learn | Machine Learning Mastery》by Jason Brownlee http://t.cn/R0l6voh ​
爱可可-爱生活 网页版 2017-09-29 05:34



【TensorFlow模仿学习】《Imitation Learning in Tensorflow (Hopper from openAI gym)》by Hamed Firooz http://t.cn/R0liLyv ​

第1107期AI100_机器学习日报(2017-09-29)_第3张图片

最新动态

2017-09-29 (7)

wx:奕欣 网页版 2017-09-29 23:57

入门 深度学习 视觉 算法 应用 知识工程 资源 自然语言处理 崔立明 杜毅 黄民烈 机器翻译 课程 钱桥 推荐系统 信息检索 许静芳 语言学 赵海舟 知识库 周昊 朱小燕

「搜狗清华斩获NTCIR-STC2冠军,如何在检索生成两大任务中脱颖而出?」AI科技评论:第十三届 NTCIR 评测比赛于近日正式公布了短文本对话任务(STC2)的赛果。本次比赛吸引了国内共有 11 家企业、29 所大学和研究所,包括 BAT 等企业,以及北京大学、中国人民大学等多所知名高校参与。搜狗搜索联合清华大学人工智能国家重点实验室组成的 SG01 战队首度参战,在 NTCIR13-STC2 评测比赛中以绝对优势排名第一。AI科技评论第一时间联系了冠军团队,了解本次比赛的个中细节。往期报道:搜狗搜索联合清华首战NTCIR13-STC2,以绝对优势排名第一据 AI 科技评论了解,SG01 的团队成员共 5 人,包括搜狗搜索研发部研究员赵海舟,杜毅,黎航宇,以及清华人工智能所的研究生钱桥和周昊。搜狗搜索总经理许静芳和清华大学朱小燕、黄民烈教授都对该团队进行了充分指导。在分工上,清华人工智能所与搜狗合作进行生成模型的设计与验证,另外搜狗还负责检索模型研发、系统搭建以及评测的工作。「搜狗在搜索领域有着十分深厚的技术基础,而清华人工智能所在生成式对话领域也有着丰富的研究基础,二者刚好互补,」钱桥向 AI 科技评论表示。NTCIR Workshop 是一个针对信息访问(IA)技术(包括信息检索、问题回答、文本摘要、提取等)的评估比赛,经过十余年的发展,现在已经成为一项国际重要赛事。在 2016 年,第十二届 NTCIR 中首次设置了基于中文、日文两种语料的评测新任务,即短文本对话任务(STC),这也是目前国际上唯一的开放域对话方面的评测比赛。从语料上讲,一个对话系统可以分为两种,即任务域语料以及开放域语料。任务域是指其对话内容可以被某一任务领域的语料所涵盖,比如订餐,天气查询等等,其对话意图以及语言的复杂性比较可控;开放域是指其对话内容没有限制,可以是生活中的任意对话场景,其对话意图十分广泛,可以说涵盖所有对话意图,语言复杂性也很高。AI 科技评论从官网获悉,本次赛事共分为两个子任务,即检索任务和生成任务。在检索任务中,研究者需要基于微博作为中文语料(或 Twitter 作为日语语料),并针对给定的一条新微博,通过给定的以往评论知识库检索到对应的连贯且有效的评论;而在生成任务中,则是希望参赛团队能根据给定帖子生成流畅、连贯且有意义的评论。根据规定,这一任务采用与第一个任务相同的知识库。生成器可通过使用统计机器翻译(SMT)模型或基于 RNN 的神经模型进行建模,当然,参赛团队也可以使用其它 NLG 方法。对于团队而言,检索任务和生成任务可以看作是完全不同的两个任务。「检索任务像是选择题,核心问题是语义相似度的计算。生成任务更漫无边际一些,要做自然语言的生成,并且还要保证与问题的逻辑相关性。」钱桥向 AI 科技评论表示,在问题层面,生成模型产出的结果可以通过检索模型进行重排序。在模型层面,二者都用到了深度学习模型,相互的借鉴是很有必要的。钱桥告诉 AI 科技评论,本次比赛所采用的所有模型都是基于 Seq2Seq 模型的,「它可以看作一个带有 Attention 的 RNN-Encoder-Decoder,此外我们还使用了 VAE 等模型。比赛中我们还使用了基于检索以及基于学习的方法对 Beam-Search 生成的结果进行重排序,从而挑选出更为合理的回复。」在基于检索的方法中,搜狗团队告诉 AI 科技评论,检索式的对话系统主要使用了 deep match 和 learning to rank 的技术,除此之外还加入了生成式的 seq2seq 模型的生成概率作为 feature 进行排序。由于这次比赛在过程中并没有组织公开的评测,而是在比赛结束后统一评测,钱桥表示,这使得 SG01 团队在比赛过程中只能跟自己比较,自己就是自己最强劲的对手。「在组长的安排下,我们每周都会组织一次评测工作,评测标准与大赛一致且都是人工评测。这个评测结果驱动着我们挑战现有的最好模型,从而创造更好的模型。」而在评审阶段,团队认为一条评论是否「合适」(符合评分标准)主要从两个方面入手,一是语法性和通顺性,第二是评论与原贴的逻辑关系的合适程度。除此之外,主办方还有更加详细的指标,如信息量和场景依赖等,但 SG01 团队表示,通过他们所进行的测试看来,前两点还是起了更加重要的作用。「技术上我们通过多个模型的集成学习来增加多样的评论候选列表,并且通过重排序模型进行后处理选出最合适的评论。」而在与钱桥交流的过程中,他认为生成式模型会是未来对话系统的主流。「检索式方法最大的问题就是不能根据特定的问题产生定制的回复,而且其数据库也很难涵盖所有的开放域的对话内容。从这两点来看,生成式的方法可以根据有限的语料学习到人类对话的模式,根据特定问题产生定制的回复,从技术上来讲有成为未来的主流对话系统的可能性。」比赛虽然已经告一段落,但 SG01 团队依然在为年底的 NTCIR-13 会议做准备。而从对话系统研究的角度来讲,团队正在尝试解决多轮对话系统中的一些问题,比如上下文一致性,话题相关性等,AI 科技评论也将持续关注,希望搜狗和清华人工智能所团队能继续针对这一领域给我们带来更多的惊喜。————— 给爱学习的你的福利 —————3个月,从无人问津到年薪30万的秘密究竟是什么?答案在这里——崔立明授课【推荐系统算法工程师-从入门到就业】3个月算法水平得到快速提升,让你的职业生涯更有竞争力!长按识别下方二维码(或阅读原文戳开链接)抵达课程详细介绍~———————————————————— via: http://mp.weixin.qq.com/s?__biz=MzI5NTIxNTg0OA==&mid=2247487453&idx=1&sn=67ba0ed8c660424968e6a80c535a697d&scene=0#wechat_redirect

第1107期AI100_机器学习日报(2017-09-29)_第4张图片
wx: 网页版 2017-09-29 21:07

公告板 会议活动 深度学习 视觉 语音 Monty Barlow 行业动态 会议 活动 智能汽车

「【AI也梵高】文森特系统用深度学习将涂鸦变成艺术创作」2017 年 11 月 8 日,在北京国家会议中心举办的 AI WORLD 2017 世界人工智能大会开放售票!早鸟票 5 折 抢票倒计时 9 天开抢。还记得去年一票难求的AI WORLD 2016盛况吗?今年,我们邀请了冷扑大师”之父 Tuomas 亲临现场,且谷歌、微软、亚马逊、BAT、讯飞、京东和华为等企业重量级嘉宾均已确认出席。AI WORLD 2017 世界人工智能大会“AI 奥斯卡”AI Top 10 年度人物、 AI Top10 巨星企业、AI Top10 新星企业、AI Top 10 创投机构、AI 创新产品五个奖项全部开放投票。谁能问鼎?你来决定。关于大会,请关注新智元微信公众号或访问活动行页面: http://www.huodongxing.com/event/2405852054900?td=4231978320026了解更多1新智元编译 来源:每日邮报编译:费欣欣 【新智元导读】剑桥顾问公司的研究人员开发了一个名叫“文森特”的AI系统,使用深度学习,能够自动将涂鸦补全成类似古典大师风格的作品。研究人员表示,文森特是首个能够实时解读用户绘制内容,并在用户停笔后将画作补完的系统,而且在平板上运行;除了艺术,还有更多潜在应用。 如果你喜欢艺术但下笔皆为灵魂画作,那么今天要介绍的这个项目肯定合你心意。 AI研究者创建了一个名叫“文森特”(Vincet)的系统——是的,就是梵高那个文森特——使用深度学习,将简笔画转变为“艺术品”。用户在平板上的涂鸦经过文森特之手(姑且这样表述),犹如梵高、塞尚和毕加索再临创作。 先来看一下效果: 再来一个: 据介绍,“文森特”是第一个能够实时解读(interpret)人类正在绘制的内容,然后帮人完成作品的系统。 为了设计文森特,研究人员使用了数千幅从文艺复兴时期到现在的绘画作品作为训练数据,让计算机学习对比度、颜色、纹理等信息。训练好的文森特可以解读画作线条的边缘,并运用这种理解来生成一个完整的画面。 要使用这个系统,用户只需直接在平板电脑上画画就好。文森特可以实时地解读用户绘制的不同线条,并在用户停笔后,在现有信息的基础上创建一张完整的图片。 忍不住再来一个,注意看自动补全的阴影和纹理效果: 文森特由剑桥顾问公司(Cambridge Consultants)的研究人员设计和制作。虽然机器学习/深度学习此前也被用于艺术创作(包括生成、编辑图像和音乐),但研究人员表示,文森特的独创性在于,它是第一个能实时解读内容并进行补完的系统。 剑桥顾问公司机器学习总监Monty Barlow先生表示:“我们所建造的产品对于原来的深度学习先驱是不可想象的。” “通过成功结合不同的机器学习方法,比如对抗训练,感知损失(perceptual loss)和堆叠网络的端到端的训练,我们创造了一个高度互动的产品,提炼出草图中精髓,然后用整个人类艺术史润色。” 研究人员认为,除了在艺术绘画方面大放异彩,类似文森特的技术还有一系列潜在的应用。例如,如果使用真实的和模拟的驾驶场景训练文森特,那么这个系统也可以用于无人驾驶汽车。 http://www.dailymail.co.uk/sciencetech/article-4928842/AI-computer-transforms-sketches-works-art.html 【扫一扫或点击阅读原文抢购“早鸟票”】AI WORLD 2017 世界人工智能大会购票二维码: via: http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652005547&idx=2&sn=4bf99c6247f8e80fabc0d4f3c025ed3a&scene=0#wechat_redirect

第1107期AI100_机器学习日报(2017-09-29)_第5张图片
wx:让创新获得认可 网页版 2017-09-29 19:55

视觉 算法 应用 资源 自然语言处理 PDF 分类 机器人 孙刚

「干货 | Momenta研发总监孙刚:Squeeze-and-Excitation Networks」 本文为9月28日晚,Momenta研发总监孙刚博士在将门技术社群分享“Squeeze-and-Excitation Networks”的内容回顾,分享了Momenta在ImageNet 2017 Image Classification中获得冠军的技术。 获取完整PDF+视频回顾>>关注“将门创投”(thejiangmen)微信公众号,回复“170929”获取下载链接。 ……获取完整PDF+视频回顾>>关注“将门创投”(thejiangmen)微信公众号,回复“170929”获取下载链接。 -END-现已涵盖CV、机器人、NLP、ML、IoT等多个当下火热的技术话题。我们每周邀请来自产学研的优秀技术人进行线上分享,目前群里已汇聚数千位上述领域的技术从业者。入群方式>>关注“将门创投”(id:thejiangmen)微信公众号,在后台回复关键词“技术社群”,提交入群申请表。通过审核后,我们会在第一时间发出邀请。 将门创投让创新获得认可!微信:thejiangmenservice @thejiangmen.com via: http://mp.weixin.qq.com/s?__biz=MzAxMzc2NDAxOQ==&mid=2650364155&idx=1&sn=6fc73db7fbbdf5f715a4a09ad055c668&scene=0#wechat_redirect

第1107期AI100_机器学习日报(2017-09-29)_第6张图片
PaperWeekly 网页版 2017-09-29 18:19



推荐一个论文集: 机器阅读理解数据集 60人关注 包含12篇论文 http://t.cn/R0TAs5T ​
新智元 网页版 2017-09-29 14:21

深度学习 GPU Python Yoshua Bengio

【新智元导读】今天,Theano的开发与维护者之一 Pascal Lamblin 贴出了一封邮件:Yoshua Bengio 宣布在发布Theano 1.0版本之后,终止Theano的开发和维护。Theano这些年来所提出的大多数创新,现在已经被其他框架采用和完善。例如,将模型表达为数学表达式,重写计算图以获得更好的性能和内存使用,GPU…全文: http://m.weibo.cn/5703921756/4157321132796098 ​
爱可可-爱生活 网页版 2017-09-29 08:38

深度学习 论文

‘Tensorflow Implementation of Programmable Agents’ by Jaesik Yoon GitHub: https ://github .com/jaesik817/programmable-agents_tensorflow ref:《Programmable Agents》[DeepMind] (2017) http://t.cn/RoVfQe6 ​

第1107期AI100_机器学习日报(2017-09-29)_第7张图片
PaperWeekly 网页版 2017-09-29 07:09

应用 自然语言处理 信息检索

Generating Sentences by Editing Prototypes 本文提出了一种新的文本生成模型,即先从大量的语料中学习生成出一个原型句子,然后再次编辑原型句子而形成最后的句子。相对传统的left-to-right beam search,本文提出的prototype-then-edit生成的句子质量更高。reddit讨论帖: http://t.cn/R0lKpcI 论…全文: http://m.weibo.cn/2678093863/4157212592997024 ​

你可能感兴趣的:(第1107期AI100_机器学习日报(2017-09-29))