看看滴滴大牛是如何从码农到AI的华丽转身

作者简介

     网名:小猪观察员,来自浙江大学软件工程的硕士研究生。在滴滴研究院大数据领航项       目中扮演核心成员,是位资深数据挖掘、数据分析专家;


来自大神的自述: 

“本人码农一枚,因公司需要开发用户画像,开始接触机器学习。然后打开了另一扇门。个人认为机器学习对于码农来说应该是一门必修课,就犹如java一样,未来的开发中,机器学习会更加的普遍,成为一个个插件。

从2017年5月27日,在柯洁与阿尔法围棋的人机大战之后。深度学习火遍了整个业界。从2013年开始,机器学习就已经开始升温,只是在alphgo之后进入白炽化。本文主要是从一个码农的角度介绍如何入手学习机器学习,如有不妥之处,还望指点。”

机器学习关键

   机器学习关键是要弄明白四点: 
1)什么是机器学习 
2)机器什么时候可以学习。 
3)机器是怎么学习的,大部分情况我们都将注意力集中到这里。 
4)如何让机器学习更好,比如增加数据量,正则化,通过aggregation方式等等。 
推荐林轩田的机器学习基石和技法课程: 
https://www.csie.ntu.edu.tw/~htlin/course/ml15fall/ 
把各种机器学习算法都串起来了,从线性模型中的pla到svm到逻辑回归,然后到非线性模型,模型之间的关联,模型的优缺点都做了详细的描述。感觉入门还是很不错的,数学基础也不用太多。

机器学习定义


何为机器学习,何为学习。如果一个系统能够通过执行它的过程,而改善其性能,这就是学习。机器学习也有其他定义, “机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。 “机器学习是对能通过经验自动改进的计算机算法的研究”。 “机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。”

人类的学习又是如何的呢?当我们学习一个个单词,学习数学,几何,历史等等,识别他人的声音,辨别物体。形式化的说,我们大脑获取外界输入,听觉、视觉、触觉、味觉、嗅觉等输入信号,经过大脑神经网络处理,信号转换为相应特征,最后转换成知识存储大脑中。最后进行各种行为反应。


机器学习分类


机器学习从学习方法上,分为监督学习、非监督学习、强化学习以及半监督学习。          

监督学习

监督学习,是对于训练集有相应的正确输出。比如给定一组数据x:{房屋面积、朝向、精装修否},Y{房价}。然后给定一套房子的面积、朝向,输出房价。监督学习有如下两类:

分类问题,比如我们要从一堆人中辨别谁是好人,谁是坏人。这就是分类问题。简单的讲就是对一个问题,我们将其离散化到一个维度上。手写识别,典型的数据集是:[MNIST](http://yann.lecun.com/exdb/mnist/)。

回归问题,比如预测明天的温暖,根据今天以及最近一周的情况,给出明天的气温,湿度等。The target output is a real number or a whole vector of real numbers。

常用的监督学习算法有:xgboost、gbdt、LR、决策树、SVM、贝叶斯分类器、k邻近等。当然深度学习也可以算作是监督学习,比如卷积神经网络进行手写识别。

非监督学习

非监督学习,其实到现在为主基本数被忽略的对象,在未加标签的数据中,试图找到隐藏的结构。因为提供给学习者的实例是未标记的,因此没有错误或报酬信号来评估潜在的解决方案。因为就是给一堆数据给你,没有标记这个数据是好还是坏,一般采用聚类的方式。比如常见的k-means聚类、密度聚类等。

非监督学习可以用来降维,如LDA(线性判别分析)、PCA(主成分分析)。

强化学习

强化学习我这里采用Geoffrey Hinton  的定义:In reinforcement learning, the output is an action or sequence of actions and the only supervisory signal is an occasional scalar reward. 比如我们要训练机器下棋,电脑输出一个步骤,返回出这个棋局的好坏,如此反复循环,直到电脑能够记住怎么下棋才是好琪。 

常用的有蒙特卡洛强化学习、模仿学习等


学习资料进阶

作为一个从码农到学习机器学习的过程中,也是一个自我学习,自我探索的过程。

数学知识是必备的:线性代数、概率论、高等数数学,当然其他的比如信息论,统计学,能多学点就多学点喽


推荐如下的学习资料:

[统计学习方法](https://item.jd.com/10975302.html)

[机器学习](https://item.jd.com/11867803.html)

[深度学习](https://item.jd.com/13188291644.html)

MLAPP及PRML,参考链接:https://www.52ml.net/11578.html


视频推荐

Geoffrey Hinton :https://www.coursera.org/learn/neural-networks/home

Andrew Ng: https://www.coursera.org/learn/machine-learning/home

林轩田 :https://www.csie.ntu.edu.tw/~htlin/course/ml15fall/


看完这些差不多入门了,要想进一步提升,

**看论文

看论文

看论文**

https://arxiv.org/pdf/1603.02754.pdf

https://www.researchgate.net/publication/220416607_Distributed_Optimization_and_Statistical_Learning_via_the_Alternating_Direction_Method_of_Multipliers

https://arxiv.org/

http://www.gitxiv.com/  这个网站中是有源代码的,在git上可以找到。

等等




如果有关于学习、工作或者行业相关的问题想问大牛的,可以留言哦;小编汇总后会为您们专门咨询他哦。


今日赠言


相见即缘,留下您的脚步,分享您的行程!

推荐阅读:



python量化学习篇

用Python定投基金|看看巴菲特有坑我们吗?

用Python来分析股票|发现炒股软件里惊人内幕

诺贝尔奖得主教你如何分配炒股仓位 | python量化系列

(视频讲解!!!)python量化 | 10年翻400倍的炒股策略

一个10年翻400倍的策略 | Python量化投资

法码三因子选股模型,有多少人可以跑赢


python学习篇

优雅的Python

利用python操作Excel教程

让你的 Python 代码优雅又地道

Python笔记

python学习笔记

Python小知识:Python 迭代器与生成器

python函数简书

Python常用模块资料

Python 禅道

Python 字符串操作方法大全

Python的编码命名规则

python 数组的del ,remove,pop区别


机器学习篇

机器学习入门科普篇--系列二

机器学习算法的随机数据生成总结

python 数据清洗篇

python 数据清洗篇

想入门深度学习?先理解这25个概念!

自然语言处理中的Attention Model:是什么及为什么

用户画像之用户性别识别

机器学习入门科普篇--系列一

客户流失分析

全球变暖温度分析图

数据挖掘学习笔记--决策树C4.5

决策树你应该知道的几点

决策树的Python实现

机器学习之------K-Means(K均值)

机器学习算法与Python实践之(一)k近邻(KNN)

数据科学的完整学习路径

对线性回归、逻辑回归、各种回归的概念学习




你可能感兴趣的:(看看滴滴大牛是如何从码农到AI的华丽转身)