第3次作业-MOOC学习笔记:Python网络爬虫与信息提取

1.注册中国大学MOOC
2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程
3.学习完成第0周至第4周的课程内容,并完成各周作业
4.提供图片或网站显示的学习进度,证明学习的过程。
5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第1张图片第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第2张图片

经过二周的学习了北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程的前四周内容,让我在原有的基础上对python有了更充分的了解。Python是一种面向对象的动态类型语言,它有着简单,易学,免费开源等特点。以下是我对这两周学习python心得体会。

第一周网络爬虫之规则篇,在这一周里嵩天老师重点讲了Requests库的7个主要方法,主要包括requestgetheadpostputpatchdelete七个函数,其中get(),head()是最经常使用的方法。在requests库中有两种对象response和request,其中response对象包含爬虫返回的内容。在这第一周里嵩天老师指出Python中第三方库Requests是可以通过HTTP/HTTPS协议自动从互联网获取数据并向其提交请求的方法。在最后嵩天老师指出网络爬虫,“盗亦有道”,在爬取网页数据时,我们也应遵守Rebots协议

第二周网络爬虫之提取篇,在这一周里嵩天老师主要讲了Beautiful Soup库以及讲解从所爬取HTML页面中解析完整Web信息的方法。Beautiful Soup库可以从HTMLXML文件中提取数据库的python库,解析、遍历、和维护“标签树”,与Requests库可以提高爬虫的效率。Beautiful Soup库也提供了5种基本元素和3种遍历,基于bs4库的HTML格式输出使用prettify()方法,使HTML文本及其内容增加并且可用于便签。bs4库也能将任何的HTML输入都变成utf-8编码,使python解析HTML无障碍。

第三周网络爬虫之实战篇,在这一周里嵩天老师重点讲了Re(正则表达式)库,从中爬取HTML页面中提取关键信息的方法。正则表达式是对字符串操作的一种逻辑方式。而嵩天老师讲的正则表达式是一种针对字符串表达“简洁”和“特征”思想工具,可以用来判断某字符串的特征归属,Re库是Python的标准库,用于字符串匹配。Re库有两种调用方法,一种是直接调用,另一种是以正则表达式对象进行调用。Re库也能将一个字符串以正则表达式匹配到的结果进行分割,从而返回列表类型,也能替换到所匹配到的字符串。在Re库中的Math对象它能匹配到包括匹配的很多信息,能够获取更多匹配到字符串的信息。在Re库中嵩天老师也讲到了Re库的贪婪匹配和最小匹配,贪婪匹配即匹配最长的子串,最小匹配则是输出最短的子串,这样Re库就可以在输出长度可能的不同,来通过操作符控制变成最小匹配或者贪婪匹配。

第四周网络爬虫之框架篇,在这一周里嵩天老师重点讲了Python第三方库Scrapy介绍通过网络爬虫框架构造专业网络爬虫的基本方法。Scrapy是一个快速功能强大的网络爬虫框架,它与requests库相比,性能较高、并发性好、更着重于爬虫结构方面,但request库需求小,定制灵活,上手简单。Scrapy库主要用于维持运行设计的专业爬虫框架,更适用与程序员使用。

在这两周学习了嵩天老师的《Python网络爬虫与信息提取》,嵩天老师理论与实践结合的教学方式使我对Python网络爬虫有了更加的深入的了解。对于网络爬虫,我影响最深的是Beautiful Soup库的讲解从所爬取HTML页面中解析完整Web信息的方法,嵩天老师举用实例来说明Beautiful Soup库的如何的使用,而且里面还有代码让我们可以自己试试,不断学习不断进步。

 

你可能感兴趣的:(第3次作业-MOOC学习笔记:Python网络爬虫与信息提取)