第3次作业-MOOC学习笔记:Python网络爬虫与信息提取

1.注册中国大学MOOC

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第1张图片

 

 


2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程

 

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第2张图片

 

 


3.学习完成第0周至第4周的课程内容,并完成各周作业

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第3张图片

 

 


4.提供图片或网站显示的学习进度,证明学习的过程。

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第4张图片

 

 


5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。

 

  中国大学生MOOC”网站上学习北京理工大学嵩天老师的《Python网络爬虫与信息提取》这一课程前,我一直以为Python爬虫是一门很简单的课程。直达看了老师的课之后,我才知道Python爬虫有这么多讲究,看视频学习的时候一直是力不从心的感觉,有些东西我一直很理解,但是,老师说过,看不懂的话就多看几遍,直到看懂为止,就这样,我尊听老师的教诲,不懂的知识,多看几遍,然后就会了。在学习的过程,我学会了,要学会爬虫,我们就要把基础给理解透彻。这样在运用中的时候才能得心应手。

这门课程由浅到深,先介绍了什么是爬虫,在教我们这门运用爬虫来爬取网页上的数据。

  这门课程教我们学了很多库以及其中的方法。刚开始老师讲了requests库的入门,还有requests库爬虫的实例,结合实例,让我们更深刻的理解了爬虫。让我们知道了爬虫也是存在很多问题的,网络爬虫也存在限制,要求爬虫来遵守。还有讲了requests

库的入门。

学习的笔记:

☆requests7个主要方法:
arequests.request() 构造一个请求,支撑以下各方法的基础方法
brequests.get() 获取HTML网页的主要方法,对应于HTTPGET
crequests.head() 获取HTML网页头信息的方法,对应于HTTPHEAD
drequests.post() HTML网页提交POST请求的方法,对应于HTTPPOST
erequests.put() HTML网页提交PUT请求的方法,对应于HTTPPUT
frequests.patch() HTML网页提交局部修改请求,对应于HTTPPATCH
grequests.delete() HTML页面提交删除请求,对应于HTTPDELETE

☆re库主要功能函数
re.search() 在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象
re.match() 从一个字符串的开始位置起匹配正则表达式,返回match对象
re.findall() 搜索字符串,以列表类型返回全部能匹配的子串
re.split() 将一个字符串按照正则表达式匹配结果进行分割,返回列表类型
re.finditer() 搜索字符串,返回一个匹配结果的迭代类型,每个迭代元素是match对象
re.sub() 在一个字符串中替换所有匹配正则表达式的子串,返回替换后的字符串

☆requests 库与Scrapy框架的区别

requests 库:页面级爬虫、功能库并发性考虑不足,性能较差重点在于页面下载定制灵活上手十分简单

Scrapy框架:网站级爬虫框架并发性好,性能较高重点在于爬虫结构一般定制灵活,深度定制困难入门稍难

☆Scrapy常用命令:
1startproject 创建一个新工程scrapy startproject [dir]
2genspider 创建一个爬虫scrapy genspider [options]
3settings 获得爬虫配置信息scrapy settings [options]
4crawl 运行一个爬虫scrapy crawl
5list 列出工程中所有爬虫scrapy list
6shell 启动URL调试命令行scrapy shell [url]

经过了这次的学习,我感受到了爬虫的魅力,也明白了自己的才疏学浅,对于Python这个大知识的海洋里,我们终究是一栗砂砾,我们还要不断的学习,不断的提升自己

 

你可能感兴趣的:(第3次作业-MOOC学习笔记:Python网络爬虫与信息提取)