第三次作业-MOOC学习笔记:Python网络爬虫与信息提取

1.注册中国大学MOOC

第三次作业-MOOC学习笔记:Python网络爬虫与信息提取_第1张图片

 

 

2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程

第三次作业-MOOC学习笔记:Python网络爬虫与信息提取_第2张图片

 

 

3.学习完成第0周至第4周的课程内容,并完成各周作业。

第三次作业-MOOC学习笔记:Python网络爬虫与信息提取_第3张图片

 

 

4.提供图片或网站显示的学习进度,证明学习的过程。

第三次作业-MOOC学习笔记:Python网络爬虫与信息提取_第4张图片

 

 

5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。

    

通过这一段时间的学习,我对《python网络爬虫与信息提取》有了新的理解和心得,再我还没接触到网络爬虫是我一直以为是个很复杂的东西,但在我慢慢的学习之后,我渐渐理解了它显得不是那么复杂。在去年的学习上,我只是初步的了解了python语言,懂得了一些简单的程序编写,但对它应该如何使用及如何应用缺乏认识。

第一周我学习了requests库,首先学习了它的安装,然后学习了requests库的7个主要方法,他们是request,get,head,post,put,patch,delete知道了网络爬虫的“盗亦有道”,建议遵守Robots协议,不遵守的话会存在法律风险.然后我在视频中了解到我们获取到的资源都是有编码的,我们需要将编码方式改为:utf-8,就可以把编码转换为我们可以理解的形式样就可以使用Response对象的text属性查看网页的源代码了

第二周我学习了beautiful soup库 它也叫“美味汤”,是解析,遍历维护“标签树”的功能库,紧跟着老师的讲解,又安装了Beautiful Soup库,其作用是可以从HTML或XML文件中提取数据的python库。之后我有知道了信息标记的三种形式XMLYAML,JSON.又通过比较让我加深理解和强化记忆。老师又拿出了实例为我们讲解,采用Requests-bs4库的技术路线爬取2016年中国大学的排名情况,让我们更好的理解了BeautifulSoup库的使用。最后又给我们讲了中文对齐问题,原因和怎么解决的问题。

第三周我们学习了正则表达式re库,它是Python的标准库,正则表达式是用来简洁表达一组字符串的表达式,他的优势是简洁,一行就是特征,一行胜千言。正则表达式是一种通用的字符串表达框架。它可以用来判断某字符串的特征归属通过淘宝商品比价定向爬虫实践,初步掌握了正则表达式在信息提取方面的应用,同时采用了requests-bs4-re路线实现了对股票信息的爬取。通过实例可以获得股票名称及交易的信息,为人们投资股票市场提供了实践意义上的指导

最后一周,老师带学习到了Scrapy爬虫框架结构,爬虫框架是实现爬虫功能的一个软件结构和功能组件集合,它是一个半成品,能够帮助用户实现专业的网络爬虫,比较requests库和Scrapy爬虫来说,选用哪个技术路线开发爬虫更适合呢?自然是要看情况,对于非常小的需求就要使用requests库,不太小的需求就使用Scrapy框架,定制很高的需求,requests库大于Scrapy框架。但是我还是有些不懂直到最后老师用了一个实例股票数据Scrapy爬虫,来使我明白了一切。

通过将近一个月的学习,让我学了很多,见识了很多,虽然只是一些皮毛,但是让我对Python有了进一步的了解和兴趣,通过自主学习,不懂的时候问百度,通过这次的网络课程学习,课程中的实例让我更直观发现自己的错误,自己的不足。希望在之后的学习里我能学到更多

你可能感兴趣的:(第三次作业-MOOC学习笔记:Python网络爬虫与信息提取)