第3次作业-MOOC学习笔记:Python网络爬虫与信息提取

1.注册中国大学MOOC

2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程

3.学习完成第0周至第4周的课程内容,并完成各周作业

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第1张图片

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第2张图片

4.提供图片或网站显示的学习进度,证明学习的过程。

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第3张图片

5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。

这几天在慕课自学,我从中学到了很多。有一部分是以前学过的基础,但更多的是以前没有接触过的新知识。 Python 是一门优雅而又不失实用的语言,它语法简单很容易学会,又具有极高的可读性和灵活性。

第一周的学习:老师主要讲了网络爬虫之规则篇。我学习到了爬虫最基础的一个库: request 。公认的爬取网页最好的第三方库,简单和简洁。在这一周里嵩天老师重点讲了Requests库的7个主要方法,主要包括request、get、head、post、put、patch、delete七个函数。

requests.request()    #构造一个请求,支撑以下各方法的基础方法。

requests.get() #获取HTML网页的主要方法,对应于http的get。

requests.head()      #获取HTML网页头信息的方法,对应于http的head。

requests.post()  #向HTML网页提交post请求,对应于http的post。

requests.put()         #向HTML网页提交put请求,对应于http的put。

还有Requests库的2个重要对象:Request、Response、Response对 象包含爬虫返回的内容的了解及使用。最后 ,我们必须要遵守爬虫的协议,这样才能更加安全使用爬虫技术。

 在第二周,我学习了一个新的库: Beautiful Soup库。Beautiful Soup库是解析、遍历、维护“标签树”的功能库,他的引用方法为from bs4 import BeautifulSoup

在第三周的学习中,开始接触正则表达式及其如何使用以及Re库的调用方式和功能函数。正则表达式是一种针对字符串表达“简洁”和“特征思想”的工具,可用来判断字符串的特征归属。通过淘宝商品比价定向爬虫实践,初步掌握了正则表达式在信息提取方面的应用,同时采用了requests-bs4-re路线实现了对股票信息的爬取。通过实例可以获得股票名称及交易的信息,为人们投资股票市场提供了实践意义上的指导。

第四周,学习了Scrapy的安装及Scrapy爬虫框架的介绍和解析,“5+2”结构的目的和功能,及requests库和Scrapy爬虫的比较和Scrapy爬虫的常用命令。Scrapy命令行的格式和逻辑。老师还介绍了Scrapy爬虫的第一个实例,yield关键字的使用和Scrapy爬虫的基本使用:使用步骤,数据类型,提取信息的方法,CSS Selector的基本使用。老师还详细讲解了实例:股票数据Scrapy爬虫,功能、框架、实例的编写步骤、执行和优化。

你可能感兴趣的:(第3次作业-MOOC学习笔记:Python网络爬虫与信息提取)