【菜鸟窝阿里算法专家Chris】当机会出现时,多一种武器,就多一分机会。

阿里百度人工智能大神精讲的人工智能视频课程,领取地址:https://www.cniao5.com/course/10239
或欢迎勾搭运营小姐姐(微信 id:BT474849)免费领取63讲精品机器学习入门到实战视频哦~

除了人工智能和大数据,算法可能是被程序员们谈论最多的技能。

2019年校招,尽管很多一线大厂都缩减了编制,但算法工程师们再次一骑绝尘,阿里、腾讯、字节跳动等企业动不动就年薪百万,刚毕业就送股票,让一众开发岗们心里都十分不平衡。

近年来随着人工智能与大数据的发展和普及,特别是今日头条、抖音的崛起,让人们清醒得认识到推荐算法或者说算法的力量。这一新颖的职业,当前市场存在巨大的人才缺口,不断涌入的算法工程师满足不了HR小姐姐们日益增长的人才需求。一名基础扎实的、业务经验丰富的算法工程师是多少企业梦寐以求的。

今天,菜鸟窝邀请到在机器学习工程师VIP就业班级负责〖深度学习〗以及〖算法工程〗、大数据vip班负责〖spark mllib〗以及〖推荐系统实战〗的Chris老师Chris老师拥有丰富的一线大厂算法经验,熟悉智能算法、数据智能、机器学习/深度学习算法落地,对数据系统架构、业务场景建模等拥有丰富的经验,业务领域涵盖自然语言处理(NLP)、计算机视觉(CV)、知识图谱(知识推理)、序列建模等。
【菜鸟窝阿里算法专家Chris】当机会出现时,多一种武器,就多一分机会。_第1张图片
Chris老师目前任职于阿里,他是模式识别出身的科班硕士,公司里负责培训新员工的“老人”,但即使如此,他也会安排日均2小时来学习,在人工智能、数据科学领域技术日新月异的今天,Chris老师属于走在新技术前沿的那批人,追顶会(顶级学术会议)可能是他最热爱的一项运动。

Chris老师将算法工程师分为两类:第一类是能实际解决业务场景中问题的算法工程师,第二类是能依据当前企业的发展战略,创新性的开展算法工作。在这两类中,他偏爱第一种——运用算法的力量,将数据创造出价值的工作。而相对于工程的严谨,Chris老师总是在追逐更加有趣。

1.菜鸟窝: Chris老师您好,很高兴能获得您的采访,您可以简单介绍下您和您的职业经历吗?

Chris老师:您好,大家好。我是chris,求学期间主要研究方向是模式识别。职业生涯开始于某上市游戏发行企业,从数据挖掘算法在业务线落地开始,涉及机器学习、深度学习,后来逐步负责整个算法团队建设。在团队发展过程中,也同步负责一些数据架构方面工作。

后来加入BAT,也是负责算法方面工作,涉及到的领域涵盖CV、NLP、网络发现等。带过的项目很多,基本能覆盖广告、运营、客服、风控各个方面。

- 2.菜鸟窝: 您是在什么样的情况下进入到BAT,有什么样的机遇和努力呢?

Chris老师:最开始也是行业内朋友的推荐,后来猎头联系了多次后,根据自身的规划,选择进入BAT去接触更多的东西。

对于自身而言的话,主要是专业基础和对前沿的坚持关注吧。做好项目的前提下,不断巩固知识基础,保持对前沿发展的敏感性(其实就是得坚持追顶会)。持续学习的过程挺枯燥,在工作之余,每天会用两小时左右的时间去读论文,然后每月最少会挑一项基础知识进行专攻和巩固。很难很累,但是收获到知识的心情很愉快。

- 3.您是出于什么考虑加入菜鸟窝讲师团队?

Chris老师:加入菜鸟窝主要是考虑到两个方面,第一个方面是工作多年发现确实当前行业还存在很大需求,和小伙伴们一起攻克项目的时候希望团队能更加具有数据科学思维,所以想把自身总结的一些数据科学方法论表达出来。

第二个方面是希望能通过和大家的交流互动,为大家提供一些数据科学领域的工作经验。因为之前在企业也是会作为讲师负责对新入职的小伙伴进行长达两个月的算法基础、工作技能的培训。所以在构建知识体系、快速融入工作方面比较有经验。在这里希望与大家共同成长,达到双赢。

4.菜鸟窝:您是为什么选择了算法程序员这一职业,是从小的兴趣还是基于对大环境的了解?

Chris老师:主要是兴趣,大概是小学一年级就开始接触计算机,不出意外的也是走CS求学路线。兴趣确实是最好的老师,求学期间虽然专业课特别多且比较晦涩,但是兴趣支撑着自己去探索、去学习,国家级的奖学金、国家级的比赛也能顺其自然的拿到。得到丰富收获后,更大的激发了兴趣,成为源源不断的动力。

在选择硕士方向时,结合当时的各方信息,个人认为数据科学会在未来的30~50年蓬勃发展。所以选择当时没多少人选的模式识别,从今天回头来看,当时的看法还算基本正确。所以,眼界和选择有时候真的非常重要。

5.菜鸟窝:有很多人说大数据就是玩算法,您同意这种说法吗?说说你对算法的理解吧。

Chris老师:严格来说,当前对于数据科学领域确实没有一个权威的定义和划分方法。咱们大数据开发工程师能“玩”转算法,那当然是再好不过的一件事情了。

个人对于算法的理解,因为工作经历过不同角色,所以可以从两种不同身份来谈。

站在数据开发工程师的角度来说:算法是数据工程中的一个部分,数据工程最终的目的是确保项目产出的数据结果是可用的、可信的。用关联分析来举例,假设我们构建了某个超市的数据体系,需要产出每月的各个商品销量数据。那么我们从数据采集、数据传输、数据处理、数据加工等等一系列的工程手段,都是为了保证最终产出的数据是可信的。如果说我们加一个关联分析算法模块,不仅每月产出销量数据,还附带给出商品之间同时被销售的关系,那么我们就说提供了一份可用的数据,因为超市老板下个月就能调整商品的摆放,提高自己的收入。至于说关联分析的原理,选用哪种关联分析算法?我们作为数据开发工程师,会依据当前业务场景的数据量级、数据质量、工程预算来考虑。

站在算法研究工程师的角度来说:算法是提高效率和解决问题的思维方式最终产出的结果。最早人们结绳记事,因为没那么大数据量需要计算,随着现代社会信息化发展,信息过载的情况已经出现了很久。而出于生理的限制,我们能接受到的信息量是有限的,这时就需要算法来帮助我们做信息筛选了。举例来说,一个班只有10个人,成绩要从高到低排名,那咱们自个儿捣鼓一下也就算了,但是放在全国14亿人要排名,这就得有更加高效的排序“算法”来提供帮助了。同样的,我们要把一碗红豆和绿豆分开,大不了咱们挑一个小时,那如果是100吨混在一起的红豆绿豆呢?这时,CV(计算机视觉)和相关的视觉算法就会应运而生。

总而言之,算法不是“玄学”,更加不是靠术语名词堆砌起来的壁垒,它无处不在,只需要我们沉下心来探索与发现。

6.菜鸟窝:您(目前)的工作中主要涉及哪些数据算法知识,它和大数据有哪些嫁接?

Chris老师:人工智能领域的算法种类繁多,工作中主要涉及到的是数据挖掘、NLP(自然语言处理)、CV(计算机视觉)、网络发现方面的算法。从数据量级上来看,基本上工作中涉及到的算法因为业务场景的原因,都基于分布式存储和分布式计算这两大技术领域。

从个人而言,大数据技术例如hadoop、spark等,都是数据科学中的一系列思维方法,它们的出现都是为了解决当时通过现有技术无法处理的数据难题。用词频统计来举例,一万篇文档我们会调整单节点的程序采用更高效的内存管理算法来解决。那100亿篇文档,单节点已经无法在可接受的时间成本下满足要求了,理所当然我们会采用分布式存储和计算技术。随之而来的,就是底层数据结构的构建方式不同、计算工作流不同等一系列的差异化问题。对于算法来说,单节点的计算实现方法,和分布式计算的实现方法肯定也会随之出现区别,但是,算法的理念不会太大改变,它的原理不会太大改变。

结合算法和大数据工程技术来说,实际工作中大数据开发工程师最好能懂算法应用场景,算法工程师最好能懂大数据存储和计算的技术常识。这样的团队会具有更大的战斗力。

- 7.菜鸟窝:可以介绍下您在大数据vip课程负责的课程,以及它能带来的收获吗?

Chris老师:在大数据vip课程系列课程中,我主要负责spark mllib和推荐系统实战两个方面。希望能给大家带来如下收获。对于spark mllib,核心的目标是让大家了解基本的算法应用场景,掌握如何与算法工程师一起开展数据工作。具体来说是:

①掌握mllib中各个模块的作用和应用场景:以实际例子的方式,讲解算法工作中数据处理、特征工程、模型训练、评估、更新等过程所使用的模块。

②了解mllib中所提供的算法的基本概念和应用场景:从分类和聚类两方面介绍算法应用场景和基本原理,需要大家能理解和结合实际生产场景运用算法解决业务问题。

③掌握spark mllib工作流:工程实际的开发工作流程,如何与算法工程师进行协作,如何架构数据流。

对于推荐系统实战,核心目标是通过实际业务场景中的项目,使得大家掌握用推荐系统的基本原理和选型方法。具体来说是:

①了解推荐系统的概念:从需求方(领导和一线)、技术方(架构和开发)角度出发,详解推荐系统的意义和各方需求。

②掌握推荐系统在业务中的不同使用场景:在运营、客服、广告等不同业务线的角度,推荐系统的作用和设计结构的异同点。

③掌握推荐系统在不同场景下的技术组件选型方法:根据不同的数据源、数据量、业务场景,将会在推荐系统的各个模块中选用不同的技术组件

④实际开发一个业务场景中的推荐系统:预设一个完整的业务场景,使用脱敏数据完全开发一套最小可行的推荐系统。

⑤理解实际工作中的问题:通过讲解和大家主动思考,理解实际工作中用推荐统会面临的问题,同时了解面试常见问题。

整体而言,会和系列中其他分布式存储与计算技术的工程性有所区别,会稍微偏向概念和应用场景解析。核心就是为了让大家更具有竞争力,当业务出现问题场景,不仅是个项目,同时也是个人展现自身价值的机会。机会出现之时,咱们能多一种武器(算法),就对抓住机会多一分把握。

8.菜鸟窝:算法通常都是比较难和枯燥的,那么对于学习方法/工具老师有没有可以给学员们分享的。

Chris老师:如果是对于算法感兴趣,然后又怕自己是半路出家跟不上节奏。我推荐的学习方法是先读最前沿的顶会论文,看某个领域最新的成果,一开始读不懂是正常的,把每个读不懂的知识点去查清楚,去掌握所需的数学工具。反复这个过程,直到自己能读懂,最少是能理解最新论文是在讨论什么的程度。那么咱们就算在这一个细分领域里入门了。

对于工具,首先肯定是信息的来源,推荐大家从顶会论文和arxiv.org获取最新的成果信息。基础数学知识和专业知识可以来自各大学校的公开课。

但是对于实际工作中的问题,最好是能有“导师”这样的角色来全程帮助。因为基础的知识大部分我们能自学,而实际工作环境中的问题并不是通过教程能遇见的,毕竟“真传一句话,假传万卷书”。自然科学知识量极其庞大,导师不仅会提供学习方向的指导,最重要的是能提纲挈领的给出工厂建议,能少走很多弯路。

当然,一定要多总结归纳自己的知识体系,毕竟真正武装自己的不是手里的工具,而是思维的工具。

在任何领域里,学习一门新技术最难的永远不是基础的知识,而是在工程实践中,发现问题和解决的思维方式和技巧。无论是算法/机器学习的阿里Chris老师,还是负责python数据分析的百度数据挖掘专家@熊猫酱的,还是机器学习的15年计算机视觉经验的Tant老师,都是通过自己多年在一线领域的业务实践,总结出的一套学习方法教给我们。

你可能感兴趣的:(人工智能,深度学习,算法工程师,机器学习,神经网络)