1.注册中国大学MOOC
2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程
3.学习完成第0周至第4周的课程内容,并完成各周作业
4.提供图片或网站显示的学习进度,证明学习的过程。
5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。
在“中国大学生MOOC”网站上学习北京理工大学嵩天老师的《Python网络爬虫与信息提取》这一课程前,我一直以为Python爬虫是一门很简单的课程。直达看了老师的课之后,我才知道Python爬虫有这么多讲究,看视频学习的时候一直是力不从心的感觉,有些东西我一直很理解,但是,老师说过,看不懂的话就多看几遍,直到看懂为止,就这样,我尊听老师的教诲,不懂的知识,多看几遍,然后就会了。在学习的过程,我学会了,要学会爬虫,我们就要把基础给理解透彻。这样在运用中的时候才能得心应手。
这门课程由浅到深,先介绍了什么是爬虫,在教我们这门运用爬虫来爬取网页上的数据。
这门课程教我们学了很多库以及其中的方法。刚开始老师讲了requests库的入门,还有requests库爬虫的实例,结合实例,让我们更深刻的理解了爬虫。让我们知道了爬虫也是存在很多问题的,网络爬虫也存在限制,要求爬虫来遵守。还有讲了requests、
库的入门。
学习的笔记:
☆requests库7个主要方法:
a、requests.request() 构造一个请求,支撑以下各方法的基础方法
b、requests.get() 获取HTML网页的主要方法,对应于HTTP的GET
c、requests.head() 获取HTML网页头信息的方法,对应于HTTP的HEAD
d、requests.post() 向HTML网页提交POST请求的方法,对应于HTTP的POST
e、requests.put() 向HTML网页提交PUT请求的方法,对应于HTTP的PUT
f、requests.patch() 向HTML网页提交局部修改请求,对应于HTTP的PATCH
g、requests.delete() 向HTML页面提交删除请求,对应于HTTP的DELETE
☆re库主要功能函数:
re.search() 在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象
re.match() 从一个字符串的开始位置起匹配正则表达式,返回match对象
re.findall() 搜索字符串,以列表类型返回全部能匹配的子串
re.split() 将一个字符串按照正则表达式匹配结果进行分割,返回列表类型
re.finditer() 搜索字符串,返回一个匹配结果的迭代类型,每个迭代元素是match对象
re.sub() 在一个字符串中替换所有匹配正则表达式的子串,返回替换后的字符串
☆requests 库与Scrapy框架的区别
requests 库:页面级爬虫、功能库、并发性考虑不足,性能较差、重点在于页面下载、定制灵活、上手十分简单
Scrapy框架:网站级爬虫框架、并发性好,性能较高、重点在于爬虫结构、一般定制灵活,深度定制困难、入门稍难
☆Scrapy常用命令:
1、startproject 创建一个新工程scrapy startproject
2、genspider 创建一个爬虫scrapy genspider [options]
3、settings 获得爬虫配置信息scrapy settings [options]
4、crawl 运行一个爬虫scrapy crawl
5、list 列出工程中所有爬虫scrapy list
6、shell 启动URL调试命令行scrapy shell [url]
经过了这次的学习,我感受到了爬虫的魅力,也明白了自己的才疏学浅,对于Python这个大知识的海洋里,我们终究是一栗砂砾,我们还要不断的学习,不断的提升自己