第3次作业-MOOC学习笔记:Python网络爬虫与信息提取

1.注册中国大学MOOC

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第1张图片

 

 

2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程
3.学习完成第0周至第4周的课程内容,并完成各周作业

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第2张图片

 

 


4.提供图片或网站显示的学习进度,证明学习的过程。

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第3张图片

 

 


5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。

  经过慕课MOOC中Python网络爬虫与信息提取的学习让我在去年的学习python的知识里又增进了一些。很多知识是之前所没学过用python来爬虫。在经过一些列的学习中我觉得python语言是我所学过的语言中是最方便和实用的,它没有其他语言中所需要注意那么多。

  第一周:学习了Requests库的安装,Requests库的主要方法及对象和属性。1.requests.request():构造一个请求2.requests.get():获取html网页3.request.head():获取html网页头信息4.request.post():向html网页提交post请求5.request.put():向html网页提交put请求6.request.patch():向html网页提交局部修改请求7.request.delete():向html提交删除请求。其中其中get()方法是最常使用的方法。Request库的异常处理很重要,嵩老师给出一个代码框架,是利用try-except的方式来实现,保证网络连接的异常能够被有效处理。爬取完之后我们需要使用raise_for_status查看状态码,只有状态码等于200时,才说明爬取成功,否则就是爬取失败。在爬取之前还要想好注意点,如:法律风险、泄露隐私等。还有我们要遵从每个网站的robots协议。

  第二周:我学习到了Beautiful Soup库的安装和使用。我知道了Beautiful Soup库是解析、遍历、维护“标签树”的功能库,熟练使用Beautiful Soup库能更好进行网络爬虫。其中解析器分别有:html.parser, lxml, xml, html5libBeautifulSoup类的基本元素:

  第三周:学习了正则表达式re库,re库是python的标准库,正则表达式是用来简洁表达一组字符串的表达式。它使用一组特定的操作符来表示英文,数字,特殊符号还有取值范围等的约束条件。对于一些生活中常用到的字符串如邮编,手机号,IP地址等,可以使用正则表达式来匹配这些特定的字符串。re库采用raw string类型表示正则表达式,表示形式为:r'text'。当一个正则表达式有多种匹配形式时,Re库默认采用贪婪匹配,即输出匹配最长的子串。如果我们想要输出最短的子串,那么就需要用到最小匹配操作符来达到我们想要的结果。其中老师用了淘宝商品比价定向爬虫和股票数据定向爬虫两个实例来让我们更好的学习。

  第四周:学习了Scrapy爬虫框架,其实爬虫框架就是实现爬虫功能的一个软件结构和功能组件集合,老师介绍的Scrapy框架包括“5+2”结构和三个数据流的路径,5个主体部分和2个中间键,爬虫框架是一个半成品,能够帮助用户实现专业的网络爬虫把Scrapy与request进行比较,对于非常小的需求就要使用requests库,不太小的需求就使用Scrapy框架,定制很高的需求,requests库大于Scrapy框架。老师还用了股票的例子明白了两个的差异,使我们更加了解和使用。

  在经历过这段时间的学习我学到了很多关于python的内容,在今后我会以python来作为主要学习语言进行学习。遇到不懂的运用百度或者网络课程进行学习。

你可能感兴趣的:(第3次作业-MOOC学习笔记:Python网络爬虫与信息提取)