近期迷恋上了Python,不外乎“人生短暂,我用Python"。Python简洁,优雅,易懂。大数据分析的前期自然也是少不了数据收集的,做一些爬虫爬取数据是少不了的。主要学习资料:两网站慕课网和极客学院,两博客园崔庆才和廖雪峰。编程工具从Notepad 到Eclipse for Python再到Pycharm,衷心推荐Pycharm,功能强大,安装简单!
学习Python爬虫主要有以下知识点:
1、Python语言入门和基础,慕课网和极客学院有完整课程,讲练结合;
2、Python爬虫入门,推荐极客学院Kingname的系列课程;
3、一个完整爬虫主要是URL管理、获取网页代码、解析网页和输出等四部分,最核心的就是网页获取和解析,获取有Urllib、Urllib2、Requests等,涉及Get和Post方式,Headers和Coocies,模拟登陆等;解析有正则表达式、Xpath(lmxl)、bs4等;
4、框架爬虫Scrapy,涉及存储数据库Redis/MongeDB等;
5、爬虫实战项目:糗事百科、百度贴吧、极客学院、新浪微博、豆瓣、知乎、淘宝等,还有微信遥控PC和网页遥控PC等。
6、还有一些其他神器,后面待续。
调试代码无疑是比较痛苦的,常常不得要领,缺乏基础,只能一点点探索,搜索,询问,能有所进,就手舞足蹈,贵在坚持!