第3次作业-MOOC学习笔记:Python网络爬虫与信息提取

1.注册中国大学MOOC

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第1张图片

2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第2张图片

3.学习完成第0周至第4周的课程内容,并完成各周作业

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第3张图片

4.提供图片或网站显示的学习进度,证明学习的过程。

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第4张图片

5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。

在这两周的时间里,我学习了Python网络爬虫与信息提取这门课程,不得不说,这和我以前学习到的python有很大区别,它生动的讲解了爬虫的作用,让我感觉网络爬虫的作用真的非常大,越学习越感觉如此有用,首先python就是一门非常优雅的语言,它能做的事情非常之多,比起其他语言,也非常简练,它特有的爬虫功能,也是十分的出彩,它甚至可以爬出许多隐私的数据,当然,这都是不被法律所允许的,在学习网络爬虫的同时,我们也要了解爬虫的协议,做到文明使用爬虫,安全爬取数据。

在第一周的课程学习中,我学习到了爬虫最基础的一个库: request  ,这是一个非常有用的库,也有很多的功能,对于异常的处理十分简洁,他的最大作用就是使用起来简介方便,程序编写过程更接近正常URL访问过程,可以说request库就是基础中的基础,学好这个库,才算进入了爬虫的基础学习,还有,必须要遵守爬虫的协议,这样才能更加安全使用爬虫技术,给我们生活带来方便。

第二周的课程中,我学习到的是BeautifulSoup库的使用方法,这个库又叫“ 美味的汤 ” 它通过解析HTML标签来格式化和组织复杂的网页信息,用简单的python对象为使用者展现xml结构信息。使用这个库时,给我的感受是非常震惊的,它可以直接爬取网站的HTML代码,这非常的神奇,同时,它可以爬取淘宝中的产品信息,这非常有趣。同时,我知道了Beautiful Soup库是解析、遍历、维护“标签树的功能。它有四种解析器:bs4的HTML解析器、lxml的HTML解析器、lxml的XML解析器、html5lib的解析器。

第三周的课程,是网络爬虫的实战运用,刚开始,我非常迷惑,不知到该如何下手去做这个案例,我跟着老师的视频一步一步来,但是还是一直出错,正则表达式我一直不太清楚他的原理,这使我非常沮丧,接下来我结合课本和视频,才有所了解了这几个案例,慢慢的去实现了这几个案例,看来光看懂是不行的,还要加入自己的了解才行,纸上得来终觉浅,绝知此事要躬行,这才是写案例的真实写照。

最后一周,我学习到了爬虫的框架,所谓框架,就是scrapy框架命令,是一个“5+2”的结构,在这个视频中,学习到了框架的代码命令,了解了scrapy爬虫框架结构,同时对比了request与scrapy的区别

Scrapy的并发性好,开发性能较高,重点在于爬虫结构,一般定制灵活,深度定制困难,而且入门有难度,所以对于不同的开发就要使用不同的开发路线,需求非常小时,使用request就可以了,需求比较大时,就需要使用scrapy来作为开发。完整配置并实现Scrapy爬虫的主要过程:1.建立工程和Spider模板;2.编写Spider;3.编写Pipeline:处理spider提取信息的后续的功能;4.配置优化:使得爬虫运行的更好。并着重详述了yield关键字的使用,使用yield可以更节省存储空间,响应更加迅速,使用更加灵活。

经过这几天的学习,我只是大致了解了python爬虫的使用规则,做到能自己写爬虫的能力还有所距离,不过,这就是无止境的学习吧,学无止尽,只有不断的去学习,才能为这个新时代所接受吧,同时作为网络爬虫这门课,对我以后的工作上,也是会有不小的提升,这对我来说,也是一次非常成功的体验。

 

你可能感兴趣的:(第3次作业-MOOC学习笔记:Python网络爬虫与信息提取)