一、为什么是列出一堆可以探索的书,而不是要去寻找一条路
机器学习的研究和应用已经有很长的时间了。随着人类的发展,数据和计算能力都在不断的增加,因此机器学习这几年变得异常火热,很多公司开始部署相关的部门。
常常在各种途径看到和多人问问题,有没有什么好的入门书籍或者资料;也看到一旦有前辈推荐一些好的学习材料的时候,很多人都在积极的下载和学习;机器学习相关的讲座也非常的火热。
从2013年年初,我也开始了机器学习方面的学习,我参加了北京的机器学习读书会,我不断的收集各类资料。我也一直在寻找一条既不难,又能持续下去的路,这么长时间我基本上一直在退缩,最开始李航前辈的《统计学习方法》,后来的《MLAPP》,我都看不懂。后来我又往下走,补充微积分,线性代数和概率的东西。有的时候又耐不住性子,去看PRML。
机器学习的书籍和paper很多,学习机器学习的人各自的基础以及学习目的不同;常常看到很多前辈给出的一些书单建议,我觉得就我自己来说,给出书单这样的方式不如给出一大堆书单的方式更好。要给书单,就要对书很了解,然后对于学习者的基础和目的有很好的了解,这样的做法会是快速但是有的时候贴切性不太好的一种办法。
我的观点是可以把一大堆经过别人评价的书,放在一起,就象一个儿童的玩具屋一样,我们适当的把受别的儿童喜爱的东西尽量多准备一些,然后适当的做一下分类,让孩子自己在这个屋子里探索,我们的目的是让他们玩的开心,我们的方式是给他足够的东西,让他保持兴趣并且能够走下去,而不是只给三种大多数儿童很喜欢玩的玩具,让他去从那些玩具里获得乐趣。
二、书籍清单和使用方法建议
1、深长难基础
A User’s Guide to Measure Theoretic Probability
A course in large sample theory
Bayesian Data Analysis 2nd
Introductory Functional Analysis with Applications
Matrix Computations(Golub,VanLoan,Hopkins,3rd Ed)
Monte CarloStatistical Methods
Probability and Random Processes, Geoffrey R. Grimmett, David R. Stirzaker, 3ed, OUP, 2001
Probability-Theoryand Examples
Elements_of_Large-sample_Theory
*Introductory Lectures on Convex Optimization1
*Asymptotic Statistics
*Introduction to Nonparametric Estimation
*Large-Scale_Inference
备注:根据Michael Jordan的建议书单整理。有基本没有找到电子版的书籍没有列出来。其中待星号的书籍是Michael Jordan第二次推荐的四本书中的俩本。关于第一批书单和第二批书单的不同,Michael Jordan是这样描述的“That list was aimed at entering PhD students at Berkeley,who I assume are going to devote many decades of their lives to the field, and who want to get to the research frontier fairly quickly. I would have prepared a rather different list if the target population was (say) someone in industry who needs enough basics so that they can get something working in a few months.”
2、浅短易基础
Thomas’ Calculus
Gilbert_Strang-Linear_Algebra_and_Its_Applications_4ed
Casella_Berger_Statistical_Inference
Convex optimization by Stephen;
Numerical Optimization
3、入门概论
Machine.Learning.with.R(2013.10).Brett.Lantz
Introduction to machine learning .Ethem
(Christopher M. Bishop) Pattern Recognition and Machine Learning
An introductio to statistical learning with applications in R Hastie
The Elements of Statistical Learning second edition
Pattern Classification .Duda
Machine.Learning.A.Probabilistic.Perspective,.Kevin.P..Murphy,.MIT.Press
统计学习方法.李航(没有电子版)
4、应用专论书籍
Web data mining,LiuBING
Data mining for scientific and engineering applications
Data Mining Techniques For Marketing, Sales, and Customer Relationship Management (2004)
Statistical Methods for Speech Recognition JELINEK
Computer Vision:Algorithms and Applications.Richard Szeliski
Multiple_View_Geometry_in_Computer_Vision__2nd_Edition
Computational advertising, AZ Border, 2008(没有找到电子版)
Foundations of Statistical Natural Language Processing
Speech_and_Language_Processing
Recommender Systems Handbook
Collective Intelligence
Mining.the.Social.Web(2nd,2013.10).Matthew.A.Russell.
Urban Computing-An overview-Yu Zheng
Data Mining in Bioinformatics
Statistics for Spatio-Temporal Data 2011
5、使用方法
1)可以以the five elements of effecetive thinking作为点睛书目,不然容易有迷路的感觉。
2)这个部分的学习可以作为“开眼”过程,结合行业,公司,职位等信息就可以确定下一步的兴趣目标了。
4)确定了大概的兴趣目标目标以后,需要根据具体情况补充一些关于模型和paper方面的资料。然后尽早开始代码和系统方面的实际工作。(我 认为比较有竞争力的求职者具备基础宽广扎实,同时及早的确定了自己的兴趣和目标,聚焦于特定的岗位和工作目标进行不断的提升优化的特点;常见的俩类误区一 是基础没有扎实就去挑战应用,结果做出来的东西很烂,做起来很慢;另外一类误区是成天打基础,但是由于缺乏目标而茫然,也没有针对具体的问题为基础和衔接 部分提出指导,也没有用具体的问题把知识进行锤炼,技能进行提升。)
5)我个人觉得企业创业,个人职业发展以及个人学习中最大的诱惑是选择了一个方向以后,因为太艰难而不断的动摇和转变方向;所以可以通过团队结伴学习,没有三次以上高水平的提升不考虑其他的方向,学习自己能够消化的简单资料等方式来确保自己坚持在这个道路上。
第三章 机器学习的职业规划
一、含义与方法
1、本文所说的“职业规划”是指经过对自我的认知,和行业,公司,职业的认知,确定一个或者几个工作目标,并进行相应的差距分析和提升的过程。
2、职业规划可以理解为一个匹配的过程;将个人和众多的备选职位进行匹配。按照传统的职业相关理论,结合机器学习者的思维习惯,本文把职业规划分为个人认知(相当于取人的feature),职业认知(相当于获取职业相关的信息和取出feature),以及人职匹配(相当于模型算法部分)三个部分。
3、本文的重点是职业认知部分。
二、机器学习相关的公司分析
1、大的有师傅的公司
这类公司主要是百度,阿里和腾讯。共同的特点是数据很大,机器学习的团队比较庞大,一般进去的同学都可以有师傅带着学习,进步会比较快。
但是三个公司的特点也有所不同。
百度是我认为在业务和技术之间匹配的最好,并且从基础到应用搭配的最好的公司。机器学习方面的能力对于百度的广告,搜索,移动搜索,LBS,应 用分发,移动音乐,移动阅读,移动新闻,图片搜索,语音输入,浏览器,视频等所有业务都非常重要;而百度也非常重视机器学习团队的搭建。目前在产品方面的 表现也非常不错。如果近期加入的团队一旦在基础研究以及产品化方面有巨大突破的话,百度的各个核心产品都可能大大的超出其他公司的产品。
百度的机器学习人才的需求种类最宽。
阿里目前的机器学习人才主要用在业务挖掘,广告和推荐方面。和阿里的业务非常的匹配;根据IPO公 告,以及近期的动作,阿里未来的业务发展方向主要是电商业务的区域扩张(向下是向县城扩张,向上是跨国业务的发展)以及产品品类的扩张(从实物产品的电商 向服务,金融方向的扩张。)从这种趋势来看,未来阿里的机器学习人才需求还是以业务挖掘,广告和推荐方面的人才需求为主(图像处理和NLP作为feutrue的提供者,也有需求)。
腾讯公司过去的主要业务是建立在社交网络之上的游戏,互联网增值服务(会员和道具之类的),广告等。根据年报,我认为腾讯今后的重点是在微信的基础上来发展盈利性业务,目前能够看到的业务有游戏,电商,支付,嘀嘀打车等;腾讯也单独把广告和视频业务提出来当做重点业务。
结合以上对于腾讯的业务分析和预测,以及之前对于腾讯的职位的一些认识,我认为腾讯今后对于机器学习类人才的需求主要有业务挖掘,广告算法,推荐等。
从业务上来看,三家公司都具有收入和利润基本都来自核心业务(百度主要来自于搜索广告;腾讯主要来自于游戏和增值服务,阿里主要来自于电商广告),同时有 向其他俩家的核心业务扩展的动作但是没有成功的特点(百度尝试过电商和社交;阿里尝试过社交,也正在做搜索;腾讯尝试过搜索,也在做电商)。
从战略和职位设置来看,百度是从基础到产品都做;而阿里和腾讯主要侧重于应用。
2、中等规模的团队搭建中的公司以及专业公司
有一些公司,相对于BAT来说,市场地位相对较弱,但是公司的市场地位也不错;同时机器学习的团队相对较小,或者布置的普遍程度相对较弱。
比如当当,携程,去哪儿,360,58同城,优酷,乐视。这类公司一般会设置俩类机器学习的岗位,一是业务挖掘类岗位,另外就是推荐和广告算法的团队。这类公司具有市场地位不够稳固,机器学习团队相对较弱或者较新的特点。
同样有一些中等规模的广告行业的专业公司,也有机器学习的团队,比如MediaV,品友互动等公司。这类公司主要的岗位是计算广告算法工程师。
3、小的专业公司
在移动互联网快速发展的今天,有一些专业性的小公司,产品本身对于机器学习技术的依赖性非常大,也设置了机器学习的岗位,这些小公司大多数是创业公司,业务发展的不确定性比较大,同时需要的机器学习人才和业务本身的相关性非常大。
比如口袋购物(主要需求的是推荐算法,广告算法,NLP和图像处理人才),今日头条(主要需要的是文本挖掘,推荐等人才),微博易(主要需要的是文本挖掘类人才),出门问问(主要需要的是语音识别,搜索的人才)。
不同类型的公司对于人才的要求不同,对于能够带给人才的东西也不同,各有优劣。同学们可以根据自己的情况灵活的选择,每类公司中都有非常好的公司和岗位!
三、机器学习相关的职位分析
从面临的问题和考核方式来看,机器学习的职位可以分为研发类和应用类俩大类。
研发就是专门寻找没有好的解决办法的问题寻找解决办法,一旦找到了解决办法以后就基本上不管如何实现,以及如何迭代的问题了。这类职位一般都带有“research”字样。这类岗位的主要考核结果可能是paper的质量和数量。
应用类机器学习职位在工作中距离用户更近,和机器和代码更近,更加侧重于应用比较成熟的方法不断的提升解决问题的效果。这类岗位主要的考核结果是基于系统的“率”,比如CTR预估工作的点击率,推荐算法的各种率等。
本文主要介绍应用类的职位。
1、互联网业务挖掘
使用的主要数据和要解决的问题:
参考《Data Mining Techniques For Marketing, Sales, and Customer Relationship Management》
。初级的业务挖掘人员的工作会离数据和算法更近;高级的业务挖掘人员会离用户和业务更近。
职位需求趋势:
这类职位的需求量非常大,基本所有的主要互联网公司都设置了这个岗位。这个岗位的名字常常有“分析师”,“数据挖掘工程师”等。
零售,金融,电信,制造业等行业对于互联网业务挖掘人员也持欢迎态度。近几年对于这类人才的需求很能会有非常大的增长。
薪水状况:
从我接触到的猎头职位的情况来看,在这个岗位上工作三四年,能够独立和业务部门以及技术部门沟通,并且能够灵活的应用数据为业务部门提出解释和建议的人才的年度薪水在20万元到35万元左右。
2年前见过大的互联网公司的分析总监给到50万元以上。
职业发展前景:
我个人认为人类曾经经历过火车时代,电力时代,汽车时代,电子时代;当下的时代是数据时代。具有良好的数据分析能力的人对于越来越多的企业具有至关重要的作用。根据海德思哲公司的分析,未来的企业领袖人物往往是business+science+technology三方面都很强的人,业务挖掘工程师的工作内容和其中的俩项密切相关。
2、推荐算法
使用的数据和要解决的问题:
参考《Recommender Systems Handbook》。
解决的核心问题是给用户想要的,不要给用户不想要的,降低用户找东西的难度,给用户更多的惊喜。
不同的互联网产品在不同的阶段,可以通过推荐系统解决不同的问题和实现不同的目标。
职位的设置情况和需求趋势:
相对业务挖掘岗位,有推荐算法职位的公司数量相对比较少。能够看到的一些公司如下。
电商:淘宝,当当,京东,口袋购物。
视频:优酷土豆,爱奇艺,风行在线,乐视。
音乐:豆瓣,虾米,网易云音乐,百度。
新闻APP:今日头条,网易新闻客户端,百度新闻,指阅。
阅读:盛大文学,掌阅科技。
团购:美团,糯米。
社交:微博,linkedin。
手机助手:豌豆荚,
LBS推荐:百度,高德。
相对电脑,手机的私密性更强,屏幕资源更小,可能会有更多的移动应用公司会部署推荐算法的岗位。
薪水状况:
我接触到的推荐算法负责人的职位(能够直接面对工程和产品部门,对推荐系统的效果负责),招聘方给到的年度薪在30万元到50万元左右。
职业发展前景:
移动互联网是近几年互联网行业最大的潜力细分领域,而推荐对于移动互联网的所有产品都有非常重要的作用,从这个角度来讲推荐算法工程师的职业前景非常不错。
在多个移动互联网的细分领域,推荐都处于核心地位,因此成熟的推荐算法人才创业的机会也比较多。
3、广告算法
使用的数据和要解决的问题:
参考《Computational advertising, AZ Border, 2008(没有找到电子版)》;另外刘鹏前辈也在做一些计算广告相关的课程,大家可以在网上搜索具体的课程内容。
数据主要是俩块,一块是用户的数据,除了公司自有的数据以外,也可以通过DMP(数据管理平台)获取到一些用户的数据;另外一块是关于广告的数据。
需要解决的问题就是把用户和进行更好的匹配,提升总体的市场效率。
其中CTR预估是非常重要的工作内容。
职位的设置情况和需求趋势:
和其他的职位相比,计算广告的公司数量比较集中。公司主要分为三类。
一类是有Exchange或者类似体量的公司(相当于有设局或者设立证券交易所的公司),有百度,淘宝,腾讯,搜狗,360,微软,雅虎。这类公司的流量很大,广告主的数量也很大,他们制定各自的市场内的游戏规则(主要是资源分配的办法以及结算办法。)
另外一类是DSP(Demand side platform),比如MediaV,品友互动,浪淘金等。这类公司本身没有大的流量,但是都在努力建立相对广告主更为有效的广告投放能力,主要从广告主挣钱。主要的目标是帮助广告主更有效率的把广告投放到目标群体身上。
第三类公司是类似五八同城,优酷,新浪微博这样的大媒体。或者多盟这样的SSP(Supply side platform)。这类公司自己有一定的流量,也有一些广告主客户。也需要有人来做市场效率的提升。
新增职业机会的来源,我能够看到的主要有以下几种。一种是在搜索市场上取得突破后需要建立商业变现体系的360;还有一些是来自于对淘宝模式模仿的电商公司,比如当当;还有一类是互联网广告公司的业务拓展和创新,比如SSP公司向DSP业务的拓展,或者互联网广告监测公司,或者广告生态种新的角色诞生带来的新职位机会。
近几年看到的互联网广告相关的变化主要有2个,一个是谷歌采用GSP(General second price)竞价方式并逐步被别的公司跟进;另外一个变化就是有些DSP公司大力倡导RTB(Real time bidding)。
这些变化都没有带来行业内计算广告人才需求量的急速增长。看未来,广告生态系统的逐渐完善而催生出的新的细分行业和公司,也没有看到能够带来大的新增职位的急速增长。
但是互联网广告行业面临的挑战和机会也很多,比如多屏互动的期望,以及广告主日益增长的需求,都对企业的创新提出了要求。
综合以上,计算广告行业未来的人才需求特点可能是“少而精”。
薪水状况:
广告目前是互联网行业最重要的收入来源。从百度公司和阿里集团招股书中就可以看出,这俩个公司收入的绝大部分都来自广告。
因此计算广告人才的薪水也非常的高。
我了解到的比较成熟的计算广告人才(同时在算法和工程方面很成熟)的年收入有50万元到150万元左右。
职位发展前景:
一旦进入计算广告行业,相对其他职位来说,创业机会较少。更有可能的是在行业内的少数几个公司成长。
该类人才的创业机会可能需要具备几个条件,第一是外围环境的重大变化导致的新类型公司的创立机会比较成熟,这个周期可能比较长;另外要有大量资金的支持;另外相对来说可能风险会比较大。
4、NLP
使用的数据和要解决的问题:
参考《Foundations of Statistical Natural Language Processing》,《Speech_and_Language_Processing》。
使用的数据主要是人们日常随意写出来的或者说出来的话。比如新闻,文章,微博上的话,qq的聊天,贴吧里的话,博客上的话,企业呼叫中心的对话等。
要解决的问题主要是对这些内容进行抽象,映射或者响应。比如信息抽取(命名实体识别,情感分析等),机器翻译,聚类,分类,自动问答等。
职位的设置情况和需求趋势:
目前看到的NLP岗位设置主要有以下几类。
一类是在搜索公司的query处理相关的工作。目前我了解到的工作主要分俩个部分,一个部分是做query的纠正,改写,或者近义词分析等;另外一类工作是做Topic model的研究,意思就是把用户的需求抽象在一个“model”上,而同时预先把网页到抽象到一个“model”上,然后在model内部挑选出用户最感兴趣的网页优先展示。
还有一类是研发机构的研究岗位,比如微软,富士通研发,三星通信等机构都有NLP的研发岗位。
第三类岗位就是一些专业性公司,比如口袋购物,微博易,今日头条,掌阅科技,简网世纪这样的公司。在这些公司里NLP和图像处理的工作地位类似,就是为下一步的处理提供feature。
从用户端来看,WEB2.0的出现,以及社交网络的大力发展,为NLP积累下了大量的数据,同时企业也越来越重视通过网络来倾听用户,以及和用户进行沟通;同时信息的急速增长,导致用户对于个性化产品的需求越发明显,也促进了NLP工作的推进和岗位的设置。
今后NLP的岗位会急速增长。增长的来源一部分来自于搜索引擎公司,根据李航前辈的微博,未来搜索突破可能来自俩个方向,一个方向是LTR(Learning to rank),另外的一个方向是Semantic match。我的理解可能semantic mtach需要大量的NLP的工作和人才。
另外一类职位我觉得来自于大量的已经产生的大量非结构化的数据处理相关的公司,以及从大量的语音识别转化出来的数据的利用相关的公司。这个具体是在哪个方向上不好说,但是我想趋势上一定是企业对于海量用户产而生的嘈杂的声音的理解和利用。数据的量还在不断的急速增加,NLP工作量和任务类型也在增加,最终导致岗位需求的增加。
薪水状况:
NLP人才的需求不象数据挖掘和推荐那样量大和紧缺,和其他的职位相比薪水比较温和。
我接触过的猎头职位,有公司愿意给工作2年左右的NLP工程师20到30万元的年度工资;也有创业公司愿意给NLP leader50万元以上的年度工资。
职位发展前景:
我预测NLP工程师在原公司的职业生命活力会比较强(数据,算法以及工作目标可能都会有新的挑战和机会进来);同时成熟的人才也会有很多创业机会可以考虑。
5、图像处理
使用的数据和要解决的问题:
参考《Computer Vision:Algorithms and Applications.Richard Szeliski》,《Multiple_View_Geometry_in_Computer_Vision__2nd_Edition》
面对的数据是图像,具体也会有处理静态图像和动态视频的区别。以及离线处理和在线处理的区别。
常见的要解决的问题有检测(就是看某个图片里是否有某类东西,比如是否有人脸),识别(就是输入一个图片,看这个图片和库里的哪个图片是一致的。)分割,拼接,3D重建,聚类,分类等。
职位的设置情况和需求趋势:
传统的图像处理岗位主要分布在类似智慧眼,汉王这样的IT公司和类似佳能,微软这样的研发机构中。
智慧眼和汉王这样的IT公司的产品,主要以行业用户为主,应用的场合有门禁,安全,社保识别等。
在大数据在中国兴起的前后,更多的互联网公司开始设立图像处理的岗位。其中百度是把图像和语音作为文字之外的新的搜索对象来看待的,设立了图像处理的岗位 并招聘了人才,但是具体如何产品化目前还不太清楚,目前看到的只有图搜,就是把图片拷贝到检索栏里,然后可以看到一些检索的结果。
淘宝以及一些其他的电商公司也设立了图像处理或者正在招聘相关的人才,主要的工作目标是为广告和推荐等应用提供feature。
与数据挖掘,推荐和NLP职位相比,图像处理的职位数量相对较少,发展相对比较滞后,能够看到的大众用户使用的产品相对比较少。
我个人的感觉是图像处理行业正处在一个爆发的前夕;象智能交通事故报告系统(自动对摄像头采集到的图像进行处理,即使在夜间也可以自动的识别出来重大事故 并且提醒交警去救援),自动驾驶,离群人群自动检测(比如机场和火车站的恐怖分子检测)等应用都具有足够的价值,目前系统能够做到的水平也非常接近商品 化。
我的判断是随着技术的突破和外围配套(包括法规或者硬件等)的成熟,图像处理的岗位会有大的爆发。
薪水状况:
相对其他职位来说,图像处理的职位比较少一些;同时薪水不是很高。但是未来的收入前景不错。
职位发展前景:
不论在公司内部的提升,还是未来创业的角度来看,图像处理工程师的发展机会都会越来越多。
其他相对比较小众的语音识别,语音合成,网页或者广告反作弊,urban computing,生物信息挖掘,金融数据挖掘,社交网络挖掘等职位就不在这里介绍了。
总体来说,机器学习的职位类型,职位的人才需求数量,以及能够应用的行业都在增加,前景大好!
以上为个人观点,难免有误,欢迎大家通过以下方式和我联系,进行指正或者补充,最终能够帮到更多的朋友成为专业,敬业,优秀,正直的靠辛勤劳动过上幸福生活的人!