大数据与机器学习周报 第9期:Google开源全球最精准自然语言解析器SyntaxNet

新闻

  1. 《Google开源全球最精准自然语言解析器SyntaxNet》:Google已经发布了开源的SyntaxNet自然语言神经网络框架,以帮助机器更好地理解自然语言。SyntaxNet中包括了Parsey McParseface,后者是一种专门用于“解剖”英语的语言解析器。Google称之为世界上最准确的语言解析器,并且已经放出了允许人们借助自有数据来训练SyntaxNet的全部代码

  2. 《Facebook首次公开其机器学习平台FBLearner Flow》:Tensorflow凭“谷歌”“开源”两个标签自2015年底发布以来便名震深度学习圈。而前年底Facebook就打造其专属ML平台FBLearner Flow,大幅提高员工工作效率。今天,FB工程师首次披露该平台细节,公司意欲进一步提高速度、效率,迈向ML自动化。虽然目前仍限内部使用,但不排除FB这款“Flow”未来也将开源。两大巨头的两股“Flow”如何较量?先从了解FBLearner Flow开始

  3. 《亚马逊开源深度学习工具DSSTNE》:亚马逊决定,跟随谷歌的脚步将自己的深度学习软件开源。当然,亚马逊的这套深度学习系统目前还有很大的局限性,比如不支持卷积神经网络,这导致了它不能用于图像识别,对于递归神经网络也支持不佳。然而,这套软件最大的亮点在于能同时支持两个图形处理器(GPU)参与运算,这是其他深度学习工具做不到的。亚马逊对于这套软件的性能很有信心,声称在亚马逊的云计算平台上,DSSTNE比谷歌等竞争对手的计算速度快了 2.1 倍

大数据

  1. 《用实例讲解Spark Sreaming》:数据流是一个数据持续不断到达的无边界序列集。流式处理是把连续不断的数据输入分割成单元数据块来处理。流式处理是一个低延迟的处理和流式数据分析。本篇文章用Spark Streaming +Hbase为列,Spark Streaming专为流式数据处理,对Spark核心API进行了相应的扩展

  2. 《什么是数据科学?如何把数据变成产品?》:据哈尔•瓦里安(HalVarian)说,统计学家是下一个性感的工作。五年前,在《什么是Web 2.0》里蒂姆•奥莱利(Tim O’Reilly)说“数据是下一个Intel Inside”。但是这句话到底是什么意思?为什么我们突然间开始关注统计学和数据?在这篇文章里,我会检视数据科学的各个方面,技术、企业和独特技能集合

  3. 《案例 :数据驱动精准化营销在大众点评的实践》:精准化营销一直以来都是互联网营销业务在细分市场下快速获取用户和提高转化的利器。在移动互联网爆发的今天,数据量呈指数增长,如何在移动和大数据场景下用数据驱动进行精准营销,从而提高营销效能,成为营销业务部门的主要挑战之一,同时也是大数据应用的一个重要研究方向。本文通过数据体系架构和技术实现案例,分享美团大众点评数据应用团队在这个方向上的一些尝试和实践经验

  4. 《Spark性能优化指南》:在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更快、性能更高

机器学习

  1. 《NLP技术在音乐产品的应用:Spotify战胜Apple Music的计划》:通过爬虫抓取点评音乐的网站与博客,用自然语言处理,分析出可能会走红的不知名的音乐人的作品;加上对用户听音乐行为的分析;再加上公司里的32个全职编辑的(手动)加持,精选出金曲新人榜(Fresh Finds)-- 这样能战胜Apple Music?

  2. 《人工智能风潮,近年AI企业竞相被收购》:在过去的3年中有超过20家致力于人工智能的私人企业被大公司竞相收购。Google, Amazon, Apple, IBM, Yahoo, Facebook, Intel等企业也位列抢购名单之中。截至目前,仅2016年已有4家人工智能企业被收购

  3. 《Siri 创始团队展示新一代语音助手 Viv,只办业务不聊天》:近日,给苹果语音助手取名 “Siri”、前 Siri 的创始成员 Dag Kittlaus 近日在纽约展示了全新项目--智能语音助手 Viv,声称将成为 “一起事情的智能交互入口”。(“the intelligent interface for everything.”)

  4. 《微软人工智能雄心 浅析R语言变化之路 》:以即将在6月1日发布的 SQL Server 2016 为代表,微软近期一系列动作大有将偏数据科学的R语言全面融入产品的雄心。为什么微软要把一门开放资源程序语言融入其最赚钱的旗舰商业数据库?总体看这与公司定位有关:微软已经决定,下一代的由云驱动的计算将以数据驱动的智能为特征,不管是平台、应用还是设备

感谢杜小芳对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至[email protected]。也欢迎大家通过新浪微博(@InfoQ,@丁晓昀),微信(微信号:InfoQChina)关注我们。

你可能感兴趣的:(大数据与机器学习周报 第9期:Google开源全球最精准自然语言解析器SyntaxNet)