在阿里,一个完整的机器学习项目是这样运作的。


阅读本文大概需要 4 分钟。


大家好,我是 Chris,入行前 5 年在一家上市游戏公司做算法,从数据挖掘算法在业务线落地开始,涉及机器学习、深度学习,后来逐步负责整个算法团队建设。


现在在阿里,也是负责算法方面的工作,涉及到的领域涵盖 CV、NLP、网络发现等,业务线也扩展到广告、运营、客服、风控等各个方面。


这几年人工智能、机器学习大热,起步2万+的月薪让很多人心驰神往,很多外行的朋友找到我,认为自己的专业上限不高或者工作内容枯燥前景不好,“我可不可以转机器学习”?为了回答这个问题,我觉得有必要先解决一个实例:机器学习现在入行合适吗?


工业界的人工智能现状


在我从事(机器学习/深度学习)算法的这几年,人工智能发展太快了,不断打破了人们对于「计算机能做什么」的认知,并在人机博弈、计算机视觉、生物特征识别、无人驾驶、医学诊断等应用领域取得突破性进展,人才需求也进一步扩大。


目前,我国人工智能、深度学习等领域依然有很大的人才缺口,预计 2030 年就有超过 500 万人才缺口,应届生成为争夺高地,说各家公司砸钱“抢”人也毫不过分。


640?wx_fmt=png

2018年最新数据:python、大数据、人工智能从业者薪资表


李开复就说过,“在硅谷,做深度学习的人工智能博士生,现在一毕业就能拿到年薪 200 万到 300 万美元的录用通知,三大公司(谷歌、脸书和微软)都在用不合理的价钱挖人。而在我的身边,算法岗 2 年以上月薪 3 万(非一线大厂)的以上很常见。


哪些人适合机器学习?


时至今日,人工智能已经成为了独立学科,并且开始对本科学生开放,随着开源框架层出不穷,使得算法门槛逐渐降低,很多 AI 新人可在短时间内熟悉标准化的开源工具进行实战。


在我个人的经历中,以下几类学生从基础来讲,入行人工智能水到渠成:


①数学、统计等理工类应届生。理工类学生往往较好的数学基础,虽然数学理论运用在工程实践中优先级不是很高,但想要深入机器学习,理论知识往往决定了你能走多远。


②Python 及其它开发语言使用者。对于跨职业向人工智能发展的开发者来说,熟悉项目开发流程能很好地帮助我们理解算法原理和应用场景,尤其是 Python 语言使用者,优势十分明显。


③数据分析师。所有抛开数据的人工智能是伪科学,数据分析也是入门机器学习的必备技能。


④其它互联网岗位。在人人编程的年代,懂一点技术总没错。特别是作为用户和技术纽带的产品经理,懂人工智能技术在垂直领域有不小的职业加分项。


当然,我不是提倡盲目放弃本职工作转行去做机器学习/人工智能。热门的 AI 数据分析、数据挖掘、算法等岗位都需要对具体业务十分了解,而AI移动也在加速落地,各个领域都需要人工智能+的人才。打个比方,我们不是要做机器学习里懂金融的人,而应该成为金融里懂机器学习的人,这就是你的优势所在。


那么该怎么入门机器学习?


我们入门一门新技术时通常会搜集海量的学习资料,比如“机器学习从入门到进阶几百G的资料”、“机器学习必读的 100 本 PDF”,然后踏踏实实地放在网盘里。90% 的人感叹这些内容太多了,无从下手。


确实,机器学习不是以往传统的技术,它是一门融合概率论、线性代数、凸优化、计算机、神经科学等多方面的复杂技术,常常让人觉得晦涩难懂。但撇开学术界需求,其实大部分人最终不会从事算法研究,而会奋斗在一线应用领域。


如何入门机器学习的疑问,我建议从实际工程角度出发逆推出能力模型。我们先来用一个小型NLP项目流程来举例,让大家了解机器学习项目有哪些大的环节:


1.获取数据。包括业务部门、公司积累大量的文本数据和自己网上下载、爬取的数据,然后进行加工。


2.数据预处理。数据处理大概会占到整个50%-70%的工作量,通过数据洗清、分词、词性标注、去停用词四个大的方面来完成语料的预处理工作。


3.特征工程。做完语料预处理之后,接下来需要考虑如何把分词之后的字和词语表示成计算机能够计算的类型。把中文分词的字符串转换成数字,有两种常用的表示模型分别是词袋模型和词向量。


4.特征选择。构造好的特征向量,是要选择合适的、表达能力强的特征。特征选择是一个很有挑战的过程,更多的依赖于经验和专业知识,并且有很多现成的算法来进行特征的选择。


5.模型训练。对于不同的应用需求,我们使用不同的模型,传统的有监督和无监督等机器学习模型,如 KNN、SVM、Naive Bayes、决策树、GBDT、K-means 等模型;深度学习模型比如 CNN、RNN、LSTM、 Seq2Seq、FastText、TextCNN 等。


6.评价指标。训练好的模型,上线之前要对模型进行必要的评估,目的让模型对语料具备较好的泛化能力。


7.模型上线应用。模型线上应用,线下训练模型,然后将模型做线上部署,发布成接口服务以供业务系统使用。


我们可以看到一个机器学习项目的完成,开发者除了要具备数学编程语言基本能力外,实际上更多是对具体算法、模型运用要求,而且面对具体业务也要有相应的图像、语音、NLP等深度学习知识。


为了能具体解决初学者人工智能入门难的问题,我特地邀请了三位人工智能领域的专家,包括一位清华AI博士 @Beck Wang,一位计算机视觉方向的专家 @Angela,一位百度的数据挖掘工程师@熊猫酱,以具体工作流为核心,针对学习者各个机器学习核心能力进行培养,举办了一个为期8天的人工智能训练营。


640?wx_fmt=jpeg


我们将分别从各自擅长的领域:Python数据分析、机器学习理论、机器学习数学、算法工作流,以我们在大厂具体工作流逆向指导理论学习,规划学习路线,是不可多得的入门级课程,旨在为广大的AI爱好者和跨行学习者提供坚实的基础。


福利一:免费公开课

《0基础人工智能特训营

5 月 19 日 - 26 日


1.机器学习 5 月 19 日 (提供录播)

人工智能学习路线精讲与 AI 算法入门

 

2.Python 提高 5 月 21 日(提供录播)

跟大神一起重学 Python:数据应该这么玩


3.高等数学  5 月 25 日

从经典故事发散开,数学原来可以如此简单


4.实战演练  5 月 26 日 20:30

阿里专家:带你操盘大厂人工智能工作流

(*结课后可领取录播视频,时间较少的小伙伴也不必着急哦~)

学习形式:


1.全程直播形式

2.作业 1V1 批改

3.助教跟班

4.交流群答疑

5.结业测试


这里不仅仅有干货,还有导师尽心为你在线解答疑问,更有同伴一起相互监督鼓励,这些福利都限时免费,前两节已经有学员先睹为快!


640?wx_fmt=jpeg

▲课程体验反馈+群内交流答疑


福利二:学习资料

机器学习从入门到实战视频课程


另外,所有报名这门课程的同学,都可以获得由这份由我亲自整理的《机器学习从入门到实战视频课程》,包含 python基础、数据分析、大数据、机器学习、实战等五大类目的精华干货视频,课件和源码都能下载,以下是目录。

《机器学习从入门到实战视频课程》

 ——五大章节,63讲


一、Linux与python编程基础

1. vmware虚拟机的安装

2. centos6.9操作系统的安装

3. linux基本命令使用

4. python介绍

5. python安装

6. python环境安装

7. 第一个python程序

8. pycharm(Python开发神器)的使用

9. 变量、整型、浮点型、字符串类型

10. 空值、布尔值、列表、元组、字典、集合

11. if条件语句、input函数

12. 循环语句

13. 函数介绍、函数的定义、函数的调用、函数的参数

14. 函数的返回值

15. 全局变量和局部变量

16. 学生管理系统框架

17. 学生管理系统的增加和查看模块的编写

18. 学生管理系统的修改和删除、家庭作业


二、Python数据分析

19. Python数据科学入门

20. Python常用库介绍

21. 数据分析环境搭建

22. Numpy数据类型和索引的处理

23. NumpyAPI和矩阵运算

24. Numpy高级特性和通用函数

25. Panda概述和Serise

26. Pandas_DataFrame精讲

27. DataFrame和Series的索引


三、大数据与数据处理

28. 大数据是什么

29. 大数据,人工智能,机器学习三者的关系

30. 数据量与高并发(高并发一定是代表数据量大吗?)

31. hadoop精讲:HDFS简介,架构组成,实操演练

32. hadoop精讲:Mapreduce简介,Wordcount实例,框架流程

33. spark简介,环境搭建,集群安装,实例演示


四、机器学习入门

34. 机器学习简介

35. 机器学习开发环境

36. 机器学习IDE介绍

37. 机器学习基础理论与哲理

38. 机器学习算法分类

39. 机器学习常见任务

40. 数据清洗

41. 数据标准化

42. Python与Sklearn数据标准化实践

43. 机器学习中的相似性度量

44. KNN算法

45. 案例:基于 KNN (sklearn)的鸢尾花卉数据分类

46. 案例:基于 KNN(python)的鸢尾花卉数据分类

47. 一元线性回归

48. 多元线性回归

49. 多项式回归

50. sklearn线性回归实践

51. python线性回归实践

52. 案例:基于线性回归的广告收益分析实战

53. 逻辑回归分类算法

54. 二分类分类器处理多分类问题

55. 案例:基于逻辑回归(sklearn)的鸢尾花卉数据分类

56. 案例:基于逻辑回归(python)的鸢尾花卉数据分类


五、机器学习5大实战

57. 前言

58. 准备工作

59. 高端又一般的词云

60. DCgan人脸图片生成

61. 股票价格预测

62. Tensorflow物体检测

63. 天马行空的Deep Dream

当然任何资料都是辅助,训练营最重要的是能跟着老师们一起动手实操,了解大厂具体工作流,迈出人工智能的最坚实的一步!


福利领取

扫码添加助教小姐姐微信

回复“人工智能”即可领取

福利1:人工智能入门训练营资格

福利2:人工智能入门与进阶视频资源

交流群直播期间还会放出实物抽奖

640?wx_fmt=jpeg

你可能感兴趣的:(在阿里,一个完整的机器学习项目是这样运作的。)