大家好,我是让算法变得更简单的Giant。
最近腾讯进行了2022校招开奖,“白菜总包接近40W”的字眼非常提神。
看到消息我也很激动!2021校招中我有幸拿过腾讯的SSP,不过根据今年的行情怕是要被挂成麻花。
更让我感慨的是,一个在TEG前端研发实习的学妹,转正后拿到了68w总包!
这钱怎么算出来的?
相信你有所耳闻,腾讯 package(总包)= 月薪 * 16 个月 + 签字费 + 股票 + 房补。主要涨了base、股票,还有一线城市的房补从1.5k升到4K(南山区房东大妈已笑哭)
68 对标25k base和3w签字费。
越来越“离谱”的薪水,再次验证了我之前的想法:“计算机专业依然是普通人获得高薪的最优选择”。
当然,福利好带来的必然结果是想入行的人越来越多,研发、算法的门槛自然水涨船高。
之前也有很多大四或研一的学弟学妹问我,以后想从事DL算法工作应该如何规划研究生学习?
今年再来聊聊这个话题。相信我的建议能给你一些切实可行的帮助,避免错误的学习方法。
一、研究生启蒙
我研一的第一个任务是写爬虫,给高年级师兄提供深度学习训练语料。于是我很努力地学,从requests,beautifulsoup,scrapy到分布式集群部署,努力了3个月,终于实现了微博千万级评论自动抓取。
可我对机器学习还是一窍不通。因为我的认知停留在只要把内容从网页上爬下来,任务就结束了。
直到第4个月,一位学长悄悄问我,你只打算写爬虫吗?
我恍然大悟,心里对机器学习向往的火种被重新点燃。在同学的推荐下,我没有上来直接看西瓜书和花书,而是学习吴恩达和李宏毅老师的机器学习网课。
二、正确选择比单纯努力更靠谱
李老师讲课很喜欢用通俗易懂的比喻。例如最开始介绍监督学习时,他说“假如我们想要寻找一个函数映射,输入是一张图片,输出这张图片是什么类别。我们如何告诉机器想找的函数长什么样呢?我们需要给机器一些训练资料,不仅是大量图片,还要告诉机器,把这些图片丢进想找的函数,输出的结果是什么。例如给它看一张猫的图片,输出是Cat。你把心里想要的输出告诉机器,这件事情叫做打标签。”
“给了机器有label的资料以后,机器怎么学习呢?接下来机器会给函数一个loss,通过loss的大小机器就可以评估函数的好坏。比如现在丢了4张图片进去,输出的都是Dog。实际上这4张图片2张是Dog2张是Cat,所以 f1 这个函数只答对一半,正确率是50%。”
这样有趣又有干货的内容,会让学生觉得听课是一天中最快乐的事,越听越有动力。
相反,有些同学在入门阶段就开始看prml:《pattern recognition and machine learning》,虽然这本书内容足够经典,但一上来就讲概率图、隐变量、贝叶斯方法,如果数学不扎实或者对机器学习理论没有足够热爱,基本属于找虐。
这好比让一个刚接触英语的孩子,一周后要当着全校师生的面做一次口语汇报,孩子肯定会紧张和排斥。
所以想要学好机器学习或深度学习算法,首先是正确选择的问题。所谓谓“万事开头难”需要辩证看待,很可能不是事情本身很难,而是我们没选对方向。
除了网课,这里我强烈推荐一个 Kaggle 30天0门槛机器学习教程,不需要你具备任何的机器学习甚至Python基础,只需要每天抽出1小时。
参与这门课程你会以肉眼可见的速度发现自己的进步。例如学完第一天的课程,你将直接从kaggle青铜晋级到kaggle黄金段位。
kaggle-novice
kaggle-contributor
最后再分享几本我完整阅读并经过时间考验的算法书单:
机器学习:《hands on machine learning with keras and tf》、《统计学习方法》
深度学习:《动手学深度学习》、《Python深度学习》
经过上面的学习(视频、编程、书籍),相信你已经掌握了基本的机器学习和深度学习理论。现在,不妨参考我之前的推文做一个快速测试:
如果你是面试官,你怎么判断一个面试者的深度学习水平?
里面我将深度学习内容分为了基础篇和进阶篇,罗列了很多面试常考的知识点,方便你随时查漏不缺。
通过上面的分享,如果你对如何入门机器学习/深度学习还有疑问,可以添加我的微信 cs-yechen 交流。
三、彻底瓦解“越学越不会”
为了避免你“越学越不会”的后顾之忧,我们再来选择一个切实可行的研究方向。
我记得研一看完两位老师的网课还有几本书后,心里还是比较慌的。因为我没有系统的用机器学习完成一个实际任务。
在开始下一步前,我认真研究并总结了深度学习几个主要领域:
如果你喜欢语音交互,熟悉C++,可以选择语音识别、语音合成等研究课题;
如果你喜欢研究文本和对话,熟悉Python和爬虫,可以选择自然语言处理方向;
如果你喜欢图片与视频,熟悉Python,对算法落地也很感兴趣,可以选择计算机视觉方向;
如果你喜欢和数据打交道,熟悉各种脚本,可以选择数据分析和建模方向;
如果你数学和编程非常扎实,可以考虑强化学习和纯深度学习理论研究。
在清楚的了解自己后,我选择了NLP,并在实习公司参与了问答系统项目落地,从数据处理、模型搭建到评估指标统计、封装部署上线,跟着实操了一遍。
虽然偶尔有bug在办公室排查日志到半夜12点,但每天都能看到自己算法能力的进步。
我在很多回答里也分享过,专研一个领域有3种方法:
1)实习/项目
如果研一研二有机会去大厂实习,和优秀的人在一起,耳濡目染,是提升能力最便捷的方式之一。而且公司一般有充足的数据、训练资源,开发环境,解决了很多从事机器学习的潜在问题。
另外通过实习转正拿到校招offer的概率也要比常规秋招大很多。
除了少量大厂的research岗位,大部分算法岗都是以业务为导向。通过算法为业务赋能,提升收益率也是算法价值最直观的体现。
2)科研学术
这条路对于同学自身基础有一定要求,比如英语阅读写作过关,编程熟练等,其次最好有一个学术氛围浓厚的实验室,靠谱的导师。
作为过来人,我很清楚发论文如果单干是很苦逼的一件事。
所谓风险越大回报越大,如果硕士期间能发出几篇顶会,那毕业起点和天花板会非常高。被阿里星、天才少年、北斗计划等顶级offer看中的凤毛麟角中,可能就有你。
3)刷比赛
如果你觉得自己发paper还道行略浅,纯做项目又显单调乏味,强烈建议你在研究生期间参加1-2个算法比赛。
我有一个大二学弟,虽然就读于一所普通大学 (用他自己的话说:不知名四本),却已经在搜狐举办的文本匹配算法大赛中获得初赛第一,复赛第二,决赛第二的成绩,收到了多家公司抛来的橄榄枝。
参与比赛,你将获得编程能力全方位的锻炼。为了提升排名你会逼迫自己不断优化算法,阅读最前沿的论文,尝试最新的技术等等。
一旦通过努力获得了优秀的名次,不但有很大的成就感,也为简历增添了一大亮点。
目前的算法比赛主要集中在Kaggle、阿里天池、CCKS等平台上,其中Kaggle包含大量机器学习比赛,有成熟的社区开源生态,你可以在评论区学到很多热心网友分享的解题经验,同时比赛奖金诱人(单位:$)。
阿里天池、CCKS、CCF、百度AI大赛则以NLP、CV等深度学习比赛为主。另外,你可以参与LeetCode周赛,巩固自己的编程能力。
一般参与一个比赛的时间周期在1-3个月,如果精力有限,最好2-4人组队,众人拾柴火焰高。
四、总结
通过上面的学习方法,算法从入门到做出成果并不难,一句话概括:无他,唯坚持尔。
虽然你们从网上看到的数据都觉得DL太难了,做DL的人天都要塌了。但是,等等,为什么?为什么DL被你们说的这么卷,还有这么多人来做?
很简单,因为做深度学习越来越能获得高薪了。虽然大家都说深度学习已经是一片红海,但拿到高薪的人却更多了。虽然门槛越来越高,但大厂的福利却越来越好,创业公司的DL岗待遇也很滋润。
拿到offer的底层逻辑始终未变:扎实的基础+突出的亮点。认真把眼前的事情做好,一步一脚印,亮眼的offer自然水到渠成。
最后送你一段话:
生命的每一时刻,都面临着不同的选择。每一次选择,或大或小,都在重塑着我们的生命。如果说人生是一次不断选择的旅程,那么千帆阅尽最终留下的,就是一片属于自己的独一无二的风景。
最近我们建立了深度学习/NLP交流群!想要进交流群学习和唠嗑的同学,可以直接添加我的微信:cs-yechen。
添加时请备注:昵称+学校/公司。群里聚集了很多学术界和工业界大佬,欢迎来一起进阶,突破人生天花板~
后台回复关键词【进群】
加入NLP/算法求职交流群
后台回复关键词【书单】
获取100本AI算法好书!
你好,我是Giant,硕士毕业于浙江大学。公众号「NLP情报局」专注分享算法干货和成长故事,期待你的关注鸭。
您的“点赞/在看/分享”是我坚持的最大动力!
坚持不易,卖萌打滚求鼓励 (。◕ˇ∀ˇ◕)