第3次作业-MOOC学习笔记:Python网络爬虫与信息提取

1.注册中国大学MOOC
2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程
3.学习完成第0周至第4周的课程内容,并完成各周作业
4.提供图片或网站显示的学习进度,证明学习的过程。

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第1张图片

5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。

  通过学习嵩天老师的《python网络爬虫与信息提取》课程,我了解到了很多关于爬虫的知识。正所谓活到老学到老,我所认知的事物还是很少的。

  在课程一开始先是学习了Requests库的主要方法,两个重要的对象,属性,以及对于Requests库的理解,通过Requests库进行对网页、图片的爬取等。在初次学习中,我对爬虫也有了一个初步的认知。爬虫有着强大的信息获取能力,但是一切事物都有两面性,爬虫在造福自己的同时也有可能引发性能骚扰,法律风险以及隐私泄露等问题,因此出现了Robots协议以便限制网络爬虫,它会告诉我们哪些信息是不能抓取的。虽然Robots协议只是建议性的,并不是强制要求的,我们在使用网路爬虫时也要自觉遵守Robots协议,以免造成法律或其他问题,给自己和他人带来不必要的麻烦。

  接着课程为我们讲述了Beautiful Soup库及其基本元素,对于它的理解和引用。XML、JSON、YAML三种信息标记的形式,并进行了比较,三种形式不同且各有其优点,就比如XML形式,它是最早的通用信息标记语言,可扩展性好,但是比较繁琐。JSON形式信息有类型,适合程序处理,比XML简洁。YAML形式,它的信息无类型,文本信息比例最高,可读性好。信息提取一般从标记后的信息中提取所关注的内容,嵩天老师也为我们具体展示了几种不同的提取方法,对他们也进行了比较,使我们能更直观的了解其中的区别,以便对具体情况进行选择使用。

  之后的课程我了解到了正则表达式,它是一种用来简洁表达一组字符串的表达式,一种通用的的字符串表达框架。正则表达式语法由字符和操作符组构成,它简洁直观,避免了传统表达的繁琐。正则表达式在文本的处理中十分常用,在表达文本类型的特征,同时查找或者替换一组字符串,匹配字符串的全部或部分等等,通常都是使用正则表达式来进行处理。

  第四周的课程里,介绍了Scrapy爬虫框架,它是一个快速、功能强大的网络爬虫框架。所谓爬虫框架,是实现爬虫功能的一个软件结构和功能的组件集合,它是一个半成品,能够帮助用户实现专业网络爬虫。Scrapy采用命令行创建和运行爬虫,命令行更容易自动化,适合脚本控制。在一开始我们学习到了Requests库,它和Scrapy一样也可以进行抓取,不过两者还是有所差别的,Requests库定制灵活,Scrapy框架性能较高等等。一般情况下,在需求非常小的时候,我们使用Requests库来开发爬虫,不太小时就使用Scrapy框架。

  整个课程包含四周的学习资料。在视频教学中,嵩天老师为我们详细讲解了整个课程的学习内容,还有实际操作案例的演示,在每一节课后都有开放实例的源代码和课件,供我们自己动手操作,课后巩固复习。在个别单元还有设置讨论组,供我们互相交流学习成果。通过这次课程的学习,我受益匪浅,拓宽了我的眼界,为将来的学习提供了更坚实的基础。

你可能感兴趣的:(第3次作业-MOOC学习笔记:Python网络爬虫与信息提取)