1.注册中国大学MOOC。
2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程。
3.学习完成第0周至第4周的课程内容,并完成各周作业。
4.提供图片或网站显示的学习进度,证明学习的过程。
5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。
--------------------------------------------------------------------------------------------------------------------
学习心得:
MOOC上嵩天老师的《Python网络爬虫与数据分析》四周课将“爬虫”分为前奏、规则、提取、实战、框架五个大课时来讲解,循序渐进,引人入胜。我将按照四周不同的学习部分来总结我的学习心得。
第一周:网络爬虫的前奏与规则:
嵩老师从意义与选择相应的Python语音开发工具出发,详细的介绍勾出我的好奇心,让我明白了Python这份编程语音工具的强大之处与切实便利的应用程度。
第二周:网络爬虫的提取:
"盗亦有道",这部分内容让我明白到了爬虫的双面性与真正强大的信息获取能力,Rquests库的实践内容让人跃跃欲试,我也尝试了百度/360关键词搜索的Rquests库实践,看到自己尝试搜索的关键词“泉州信息工程学院”被一行行记录下来,仅仅是小规模、数据量小、爬取速度不敏感的Rquests库就能在短时间内靠几行代码获取海量关键词数据的爬虫竟然都如此高效。但像系列网站、全网爬虫对Web服务器造成的高负荷也是不可避免,同时在爬虫获取信息的时候也极容易侵犯信息源的合法权利,在大量重复、单层面的信息上用简单的爬虫代替低效的人工信息获取效率才是爬虫的正面意义所在。
第三周:网络爬虫的实战:
“Beautiful Soup库”,BeautifulSoup最主要的功能是从网页抓取数据,Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,通过不断地了解与,Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是一个对象,所有对象可以归纳为4种: Tag(标签) , NavigableString(字符串), BeautifulSoup(汤) , Comment(注释) 。Beautiful Soup库对网页解析能力的强大(例如html、xml等格式的数据对象),在得到一个BeautifulSoup对象后,一般通过BeautifulSoup类的基本元素来提取html中的内容。
第四周:网络爬虫的框架:
“Scrapy框架”,5个模块+3条数据流路径。Scrapy框架实现了自动爬取HTML页面、自动网络请求提交,嵩老师也从网络爬虫排除标准让侧面学习了爬虫的反侦察能力,从配置并发连接选项上的数值调整加速了爬虫对一些专业数据(股票、重金属价格、期货市场)的爬取速度,老师对整个Scrapy工程的配置优化描述很详细,Scrapy框架的命令行模式非常自动化,适合脚本控制。在Requests库和Scrapy爬虫的比较中发现已经进入了下一个爬虫等级,四周的成长显而易见。Scrapy框架显现出的功能性也更加凸显出出学好爬虫必须练好基础。
四周五部分的学习课程让我从上一学期通过Python实现处理数据的新奇中代入下一个爬虫阶段,编程语音是一份强调逻辑性的语音,蒿老师在PPT中每一步熟练的输入都有耐心的逻辑带入,很感谢鄂老师向我们推荐的这一门优秀的爬虫入门课程,我会在以后的爬虫实践里多多参考课件中关键的字符语句与命令行,同时善用爬虫,把握好这项强大信息获取能力的双面性。