第3次作业-MOOC学习笔记:Python网络爬虫与信息提取

1.注册中国大学MOOC

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第1张图片

 

 


2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第2张图片

3.学习完成第0周至第4周的课程内容,并完成各周作业

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第3张图片

4.提供图片或网站显示的学习进度,证明学习的过程。

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第4张图片

 

 

5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。

学习笔记:

这门课程介绍Python计算生态中最优秀的网络数据爬取和解析技术,具体讲授构建网络爬虫功能的两条重要技术路线:requests-bs4-reScrapy,课程内容是进入大数据处理数据挖掘、以数据为中心人工智能领域的必备实践基础。教学内容包括Python第三方库Requests,讲解通过HTTP/HTTPS协议自动从互联网获取数据并向其提交请求的方法;Python第三方库Beautiful Soup,讲解从所爬取HTML页面中解析完整Web信息的方法;Python标准库Re,讲解从所爬取HTML页面中提取关键信息的方法;python第三方库Scrapy,介绍通过网络爬虫框架构造专业网络爬虫的基本方法

 request库的7个主要方法,分别是:1.requests.request():构造一个请求,支撑以下各方法的基础方法2.requests.get():获取HTML网页的主要方法,对应HTTPGET3.requests.head():获取HTML网页头信息的方法,对应于HTTPHEAD4.requests.post():HTML网页提交POST请求的方法,对应于HTTPPOST5.requests.put():HTML网页提交PUT请求的方法,对应于HTTPPUT6.requests.patch():HTML网页提交局部修改请求,对应于HTTPPATCH7.requests.delete():HTML页面提交删除请求,对应于HTTPDELETE

Beautiful Soup库,Beautiful Soup库是解析、遍历、维护“标签树的功能。它有四种解析器:bs4的HTML解析器、lxml的HTML解析器、lxml的XML解析器、html5lib的解析器。Beautiful Soup库还有3种遍历方式分别是:上行遍历,下行遍历和平行遍历,通过这三种遍历的方式我们可以来获取各个节点的信息。信息提取的一般方法:一、完整解析信息的标记形式,再提取关键信息;二、无视标记形式,直接搜索关键信息;三、融合方法,结合形式解析与搜索方法,提取关键信息。

Re(正则表达式)是用来提取页面的关键信息的,是用来简洁表达一组字符串的表达式,正则表达式语法由字符和操作符构成和re库主要功能函数。Re库的函数式用法为一次性操作,还有一种为面向对象用法,可在编译后多次操作,通过compile生成的regex对象才能叫做正则表达式。正则表达式有两种表达方式:一种是直接通过re.方法()调用;一种是通过regex=re.compile()将re的字符串编译成regex对象,在通过对象.方法()来调用。

Scrapy爬虫框架,Scrapy是网站级爬虫,并且是一个框架,并发性好,性能较高,requests重点在页面下载,而Scrapy重点在于爬虫结构,一般定制灵活,深度定制困难。完整配置并实现Scrapy爬虫的主要过程:1.建立工程和Spider模板;2.编写Spider;3.编写Pipeline:处理spider提取信息的后续的功能;4.配置优化:使得爬虫运行的更好。并着重详述了yield关键字的使用,使用yield可以更节省存储空间,响应更加迅速,使用更加灵活。

在开始学习这门慕课之前对网络爬虫了解并多,网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。其实通俗的讲就是通过程序去获取web页面上自己想要的数据,也就是自动抓取数据80%爬虫是基于Python开发的,学好爬虫技能,可为后续的大数据分析、挖掘、机器学习等提供重要的数据源所以这门课程对今后的学习工作的帮助都是很大的。

 

你可能感兴趣的:(第3次作业-MOOC学习笔记:Python网络爬虫与信息提取)