西红柿还是猕猴桃丨数据工匠简报(9.12)

教程 | 西红柿还是猕猴桃?一个案例帮你入门机器学习

西红柿还是猕猴桃丨数据工匠简报(9.12)_第1张图片

机器学习已经在计算机科学领域存在了很长时间,其关注的重点是创造能够从数据中进行学习的算法,从而让我们可以解决不能直接通过人工编程解决的问题,比如面部识别。其中的基本思想是:我们不直接编写识别人脸的算法,而是编写能够间接地根据样本学习识别人脸的算法。这样的算法可以根据这些样本学习出一个能够量化是否构成一张脸的特征的算法。因为这样的系统基于样本进行学习,所以我们可以以一种连续的方式送入样本,从而使该算法可以连续地更新其内部模型。这将确保我们总是能够识别出面部,即使面部毛发的流行趋势发生了改变。机器学习的定义是非常宽泛的,即:能够从数据中学习并因此常被应用在语境中的算法。其中一些应用领域包括计算机视觉、语音识别和自然语言处理。机器学习常常和大数据系统联合在一起使用。比如说用于分析大量文本文档以提取主题。伦敦市运行着一个能够使用全市的摄像头追踪人群运动的系统。美国开发了一种使用固定于无人机上的单个摄像机临时地观察整座城市的系统。

为了理解机器学习的工作方式,我们将使用一个相当简单的案例进行说明。假设我们将要打造一台需要区分西红柿和猕猴桃的工业分拣机。这台工业机器使用了一款特别的测量设备——该设备使用激光来检测流水线上的物体的颜色,并将它们分成红色和绿色两类。这台分拣机必须使用这些信息来决定将一个目标放进西红柿箱或猕猴桃箱。一种能让我们区分不同类别的机器学习算法被称为分类器(classier)。


西红柿还是猕猴桃丨数据工匠简报(9.12)_第2张图片

零距离观察蚂蚁+阿里中的大规模机器学习框架

[站外图片上传中……(3)]
在蚂蚁金服&阿里云在线金融技术峰会上,周俊详细介绍了阿里巴巴大规模机器学习框架——参数服务器的设计理念以及优化方法,并结合支付宝、阿里妈妈直通车搜索广告等具体场景详解了参数服务器在蚂蚁金服和阿里内的应用;分享最后,他对大规模机器学习的未来发展做了展望。

本文根据蚂蚁金服的资深技术专家周俊在蚂蚁金服&阿里云在线金融技术峰会上《大规模机器学习在蚂蚁+阿里的应用》的分享整理而成。在分享中,周俊详细介绍了阿里巴巴大规模机器学习框架——参数服务器的设计理念以及优化方法,并结合支付宝、阿里妈妈直通车搜索广告等具体场景详解了参数服务器在蚂蚁金服和阿里内的应用;分享最后,他对大规模机器学习的未来发展做了展望。
[站外图片上传中……(4)]

静说SAS | 数据读入(三)

[站外图片上传中……(5)]
大家好!在前两期的静说SAS里我们了解了如何运用infile和proc import进行数据读入的一些常规方法,在上一期的番外篇里净云大师又给大家介绍了一些关于proc import的独家秘笈,本期我将结束数据读入部分,主要和大家介绍几种比较特殊但又在实际处理数据中常会碰到的数据读入问题:

  1. 一行不只一条观测数据怎么办?
  2. 如何批量读入数据?
  3. 巧妙使用列指示符

[站外图片上传中……(6)]


以上简讯由数据工匠提供,感兴趣的小伙伴可以通过扫描简报后的二维码链接原文,更多数据科学资讯尽在数据工匠,扫码关注Datartisan数据工匠公众号!如果你看到什么与“数据科学”有关的好文或者信息科技优质的文章,可以随手转发给我们,让更多热爱数据科学的小伙伴一起成长!
[站外图片上传中……(7)]

你可能感兴趣的:(西红柿还是猕猴桃丨数据工匠简报(9.12))