第3次作业-MOOC学习笔记:Python网络爬虫与信息提取

---恢复内容开始---

1.注册中国大学MOOC
2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程
3.学习完成第0周至第4周的课程内容,并完成各周作业
4.提供图片或网站显示的学习进度,证明学习的过程。

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第1张图片

 

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第2张图片

 

 

 

5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。

学习的体会和收获

        Python是个功能很强大,也很齐全的语言,这在我还不认识python的时候是不了解的。Python是开源的,所以除了官方的库之外,有很多第三方的库,可以做很多事情,像科学计算,机器学习,搭建网站的框架,还有,当然了,就是爬虫,想想就很有意思。通过一周左右的时间,我完成了北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程的学习,发觉python就像宝藏一样,越深入了解越有意思。

        嵩天老师将学习分为四周的课程学习,分别从网络爬虫规则,提取,实战和框架这四个方面学习网络爬虫。首先在第一周的时候介绍了request库的学习,request库的7个主要方法需要去我们学习,掌握。这七方法分别是:request、get、head、post、put、patch、delete。还有Requests库的2个重要对象:Request、Response、Response对 象包含爬虫返回的内容的了解及使用。requests.get() 获取HTML网页的主要方法;requests.head() 获取HTML网页头信息的方法;requests.post() 向HTML网页提交POST请求的方法;requests.put() 向HTML网页提交PUT请求的方法;requests.patch() 向HTML网页提交局部修改请求;requests.delete() 向HTML页面提交删除请求。

        在第2周的时候嵩天老师介绍的是Beautiful Soup库,Beautiful Soup库是解析、遍历、维护“标签树的功能。它也叫beautifulsoup4 或bs4,它有四种解析器:bs4的HTML解析器、lxml的HTML解析器、lxml的XML解析器、html5lib的解析器。Beautiful Soup库还有3种遍历方式分别是:上行遍历,下行遍历和平行遍历,通过这三种遍历的方式我们可以来获取各个节点的信息。信息提取的一般方法:一、完整解析信息的标记形式,再提取关键信息;二、无视标记形式,直接搜索关键信息;三、融合方法,结合形式解析与搜索方法,提取关键信息。嵩天老师实例中采用requests-bs4路线实现中国大学排名定向爬虫,让我们更加了解和会使用python。

        在第三周的时候对正则表达式进行了详解。Re(正则表达式)是用来提取页面的关键信息的,是用来简洁表达一组字符串的表达式,正则表达式语法由字符和操作符构成和re库主要功能函数。Re库的函数式用法为一次性操作,还有一种为面向对象用法,可在编译后多次操作,通过compile生成的regex对象才能叫做正则表达式。正则表达式有两种表达方式:一种是直接通过re.方法()调用;一种是通过regex=re.compile()将re的字符串编译成regex对象,在通过对象.方法()来调用。在老师讲解的课程中,让我对正则表达式也有了新的认识,利用正则表达式和re库的结合提取页面的关键信息,并把此应用到淘宝商品的实例中。

        在第四周的时候主要讲解了Scrapy爬虫框架,Scrapy是一个快速功能强大的网络爬虫框架,爬虫框架是实现爬虫功能的一个软件结构和功能组件集合,爬虫框架是一个半成品,能够帮助用户实现专业网络爬虫。和requests库比较起来,Scripy框架网站级爬虫、并发性好、性能较高、重点在于爬虫结构、一般定制灵活,深度定制困难,入门难。非常小的需求,request库;不太小的需求,scrapy框架。通过对股票爬虫的实例可知,我们在用Scrapy爬虫时,大多可以采用以下步骤:1、建立工程和Spider模块;2、编写Spider 3、编写Item Pipelines。

        通过这次网络课程的学习我学到了更多关于python的知识,让我对python更加的感兴趣和有想要更加了解python的欲望。理论知识很重要,实战也同样重要,嵩天老师的理论实战相结合的课程让我收益很多。我们不应该仅仅专注于理论上的,更多的还要靠自己去实践发现问题,寻找问题,解决问题,遇到困难不要轻易放弃。这次的课程让我发现了自己许多不足的地方,今后我会更加努力去深入了解掌握这门有趣的课程。

         

        

 

 

 

 

 

 

---恢复内容结束---

你可能感兴趣的:(第3次作业-MOOC学习笔记:Python网络爬虫与信息提取)