第3次作业-MOOC学习笔记:Python网络爬虫与信息提取

1.注册中国大学MOOC

2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程

3.学习完成第0周至第4周的课程内容,并完成各周作业

4.提供图片或网站显示的学习进度,证明学习的过程。

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第1张图片第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第2张图片
5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。

学习了嵩天老师的《Python网络爬虫与数据分析》的前四周的教程,跟随着老师的步伐,逐步了解了python网络爬虫和信息提取的相关知识。

嵩天老师先向我们介绍了该课程前四周的大致内容和课程分布:

  1. Requests库:自动爬取HTML页面以及网络请求提交
  2. Beautiful Soup库:解析HTML页面
  3. Re库:正则表达式详解以及提取页面关键信息
  4. Scrapy:网络爬虫原理介绍以及专业爬虫框架介绍

第一周,在嵩天老师的视频的带领下,学习了Requests库的安装,也学习了Requests库的主要方法及对象和属性,了解了Requests库的异常和处理,也了解了HTTP协议。介绍了网络爬虫所引发的问题及限制,明白了Robots协议的作用和形式及遵守方式。嵩天老师还讲解了2个案例使我更容易理解Robots协议。嵩天老师还单独用一单元来用实例讲解Requests库,让人更加理解该库。

第二周,学习了Beautiful Soup库的安装和该库的理解和引用及该库的基本元素,还学习了HTML基本格式及基于bs4库的HTML内容的遍历方法和格式输出。三种信息标记的形式及比较,信息提取的一般方法和基于bs4库的HTML内容查找方法。这周老师同样用了一单元来讲解实例,让人更加易懂。

第三周,老师向我们介绍了正则表达式的概念(正则表达式就是用来简洁表达一组字符串的表达式)和它的优势以及它的使用。详细介绍了它的语法、常用操作符,还介绍了匹配IP地址的正则表达式和Re库,Re库的基本使用包括正则表达式的表示类型、Re库的主要功能函数以及Re库的另一种等价用法,学习了Re库的Match对象的属性和方法,然后Re库的贪婪匹配和最小匹配。嵩天老师详细讲解了实例:淘宝商品比价定向爬虫以及实例:股票数据定向爬虫。

第四周,学习了Scrapy的安装及Scrapy爬虫框架的介绍和解析,“5+2”结构的目的和功能,及requests库和Scrapy爬虫的比较和Scrapy爬虫的常用命令。Scrapy命令行的格式和逻辑。老师还介绍了Scrapy爬虫的第一个实例,yield关键字的使用和Scrapy爬虫的基本使用:使用步骤,数据类型,提取信息的方法,CSS Selector的基本使用。老师还详细讲解了实例:股票数据Scrapy爬虫,功能、框架、实例的编写步骤、执行和优化。

通过学习嵩天老师的课程,使我对python的网络爬虫知识了解更多了,明白了Requests、Beautiful Soup、Re库的相关知识及使用,Scrapy框架的原理和解析及基本使用,老师通过讲解各种实例,让我们对知识点更加明白和理解。

你可能感兴趣的:(第3次作业-MOOC学习笔记:Python网络爬虫与信息提取)