一：前言

对于我来说2017年既是一个付出更多努力学习之年也是丰收之年。这一年我花费很多时间放在了Python语言和相关内容的学习上，同时也取得很好的成果——利用Python爬虫我取得了地平线机器人和阿里健康的实习。还一个很重要的收获是有了可爱的女朋友，感谢她陪伴我的每一天。

二：学习

（1）学习Python爬虫前的情况

本人专业机械设计及其自动化，但是大学之前一直是喜欢并且接触过一点编程开发相关内容，喜欢捣鼓计算机，手机相关东西，比如电脑软件破解，手机模拟脚本开发，流量代理 ... 大一的时候自学了一些前端，HTML CSS JS 及其开发和调试有一些基础了解。偶然的机会我看到Python爬虫的相关教程的文章，当时就觉得挺有意思，Python语言也很精简，上手快。不仅可以做爬虫还可以做数据挖掘、机器学习、Web 等等，心想：哇，这东西这么牛必须学一学，以后就业路子应该很广吧，就这样我开始踏上了Python学习之旅。

（2）Python爬虫学习

由于我个人平时喜欢收集资源，所以各种编程开发教学视频， PDF书籍，编程教学网站，资源网站我是不缺的，所以开始的学习的路走起来不是很累。在大二下学期开学开始没多久我就开始了Python爬虫的学习，那个时候我就准备了一下几样东西搭配学习：

1、PDF基础书籍《Python语言及其应用》
2、Python爬虫教学视频比如慕课网，极客学院，百度传课，网易云课堂等等...
3、文章教程 CSDN 伯乐在线博客园知乎等等...
4、答疑途径最基本的是百度、谷歌，当然学会使用搜索才是第一步，如果还不懂如何高效利用搜索引擎请再次百度一下吧。除了搜索引擎之外需要关注的还有 GitHub和Stack OverFlow 一个是可以找到很多学习的Demo和源代码，一个是国外的技术问答网站，很多编程问题都可以取搜索一下，如果没有答案也可以自己提问。

就是在这样的学习环境下我坚持了两个月左右，在这期间我一边学习一边记录自己的笔记（写在网易云笔记）和爬虫的16篇文章（放在）。期间利用课余和选修课时间泡在图书馆和教室中，对着别人的文章和视频思路写着代码。有时为了完成一个爬虫思路一两点还在不断修改代码，记得当时第一次接触Python socket编程和 Web socket学习就是不断尝试中学习，最后分别解决了两个直播网站数据的抓取（斗鱼和YY直播）。学习的时候每一次成功运行爬虫代码获取到对应的数据都非常开心，觉得这种努力很快就会有回报。所以很建议新手接触这样的编程，可以激励自己继续前行。

学习总结

1.要学会分辨学习资源的优劣，挑选好的资源可以更快更好的学习下去。
2.学习的时候要做好笔记，遇到好的文章，不同的解决方案，遇到的难点等等。
3.学会利用搜索解决问题，坚持不断尝试，而不是随便就问别人或者放弃。

三：实习

（1）实习前的情况

学了Python爬虫两月后也就快到大二的暑假了，在这之前听一个信管的同学说暑假要是可以实习对自己会有很大提高，对于我这样不是计算机相关专业的人以后找编程工作也方便一点。所以在暑假前我就打算好要么取做Python爬虫实习，要么暑假就去干点活赚钱维持下学期的生活费。然后我就在实习僧网站投了几家爬虫实习的职位，简历上的内容是我爬虫会相关的技术说明、和我的GitHub的地址也放进去了。没想没过几天就收到了北京地平线机器人的实习Offer，然后还收到了一家做招聘网站的公司的Offer，和老板交流过几次感觉人很好，如果有机会的话可以去工作。（同时感谢两家公司对我的信任，在我还没有任何实习经验而且还不是计算机相关专业的前提下愿意给我实习机会）

（2）地平线机器人实习

7月份炎热的夏天刚要开始我去了北京，开始了第一次实习经历。当时做爬虫的有三个实习生，都是爬虫不过负责的方向不一样，我当时负责语音和NLP相关数据的爬虫多一点。我的同事，mentor以及负责我们三个爬虫的项目经理人都超级好，公司里的其他交接工作的人都很友好，而且年龄普遍很低，放眼过去就感觉大家好像都是大学生似得。公司还经常分享技术还有每周的TGIF活动介绍新人和其他活动，每天有免费的零食，茶。
当时去之前我只是针对文本，图片数据，音频数据有抓取经验，但是对于性能和效率没有太多的考虑。在公司的几个月中不断熟悉爬虫的流程，提高的爬虫性能，优化代码逻辑。使用了爬虫的框架进行开发比如Scrapy 自己也做了分布式爬虫的学习。对于反反爬虫也做了很多学习，比如简单的是header cookie 代理ip，浏览器模拟，稍微难一点就是前端相关接口数据加解密，网页，app抓包分析等等。

再记录一下当时的居住饮食情况，公司是在中关村地铁口的海龙大厦，而我住的是黄村西大街，距离25个地铁站，去地铁还要先骑车几分钟。记得当时每天上下班都是很疲惫的，有时我坐着就睡着了，然后都睡醒了车还没到站 ⊙﹏⊙‖∣还好每天吃饭都是去美食街，好吃而且价格也很合适和在哈尔滨价格差不多。

离职的时候我的mentor和我聊了很久，给我介绍了以后的工作情况，还有帮我规划了大三下学期的学习计划以应对校招，我学到了很多东西，真的很感谢他。希望后面能继续在他的指导下继续前行。

（3）阿里健康的实习

寒假前我收到了几个实习Offer 最终还是选择了阿里健康，选择更进一步提高爬虫和相关技术，能在阿里实习也是一个机遇。目前还在实习中，主要工作就是爬虫和数据处理。在这段时间中我我接触了阿里的数据平台MaxComputer 以及pyodps、爬虫框架和机器学习处理平台PAI 。之前我用数据库是mongodb 和redis，对sql还没有用过几次，来了之后数据处理大多数是用sql处理还一部分是我用pyodps处理（里面有类似pandas处理数据的功能），数据保存的话100% odps表类sql 的一种表的存储。经过几天sql的基本操作也会了，随着时间的推移，我发现我的sql处理逻辑也越来丰富，函数利用、代码长度也变长很多。哈哈，这真是一种最直观的感觉。
实习的过程中自己每天也在学习机器学习和数据处理挖掘相关内容，为以后打下基础。

在这里的感觉和地平线机器人很不一样，人员的年龄，工作方式，团队管理等等很多方面都有较大不同。在这里开发工作节奏也比较快。我们搜索&算法组的师姐师兄还是很好的，有时实在解决不了的问题找他们帮忙也很热心给我解答。

四：总结

寒假在阿里实习期间还有过年穿插，但是这次没有回去，一方面是真的没到票，另一方面是很想在这里利用这几天时间学习，感觉还有很多技术需要补充，实习的要求门槛低一点，但是大公司校招还是高很多的，所以还要付出更多的努力。虽然自己暂时几年做爬虫但是看了很多的招聘介绍中很多都有 “有机器学习、数据挖掘、大数据处理优先”。对于这种情况，我选择继续跟进机器学习和数据挖掘部分，爬虫方面的进阶部分也会继续学习。
2017带给我带多惊喜，希望2018也能顺利学会更多想要的技术和找到心仪的校招公司。
加油！

我的2017年学习和实习年终总结