第3次作业-MOOC学习笔记:Python网络爬虫与信息提取

1.注册中国大学MOOC
2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程
3.学习完成第0周至第4周的课程内容,并完成各周作业
4.提供图片或网站显示的学习进度,证明学习的过程。

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第1张图片

 

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第2张图片

 

 第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第3张图片

 

 

 5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。

 

  早在大三就学过Python的基础知识,了解到Python是一门简单容易上手,功能强大,拥有大量强大的第三方库的语言。通过这十来天对崇天老师《Python网络爬虫与信息处理》的学习,进一步更加的了解的Pythoy的强大。

  对与Python网络爬虫来说,requests、BeautifulSoup和Scrapy是优秀的第三方库和框架,为网页、网站中信息的提取提供了良好的支持。

  requests库中拥有七个主要方法,有reques()、get()、head()、post()等,其中,get方法为最常用的方法,因为它是获取HTML网页的主要方法,也是Python网络爬虫最基本的方法。网络连接存在风险,需要学会对异常进行处理,充分理解requests的异常处理可以解决网络爬虫中出现的异常。在网络爬虫中也是要遵守一些规则的,所谓盗亦有道,要遵循各个网页中的Robot协议,其中,友好的类人行为对网页进行爬取可无视此协议。

   Beautiful Soup库可以对HTML页面进行解析,他是解析,遍历,维护标签树的功能库,他可以对网页中的标签进行解析、遍历等功能。信息的标记拥有三种形式,分别是:XML、JSON和YAML,其中XML 可扩展性良好,但繁琐;JSON适合程序处理,相比XML较简洁;YAML文本信息比例最高,可读性好。

   正则表达式re库是网络爬虫中不可少的一部分,他可以对网页中所需要的信息进行筛选过滤并提取。它可以用一组简洁的字符串表达式对所需要提取的内容进行匹配获取。例如,匹配身份证号码可用正则表达式(^\d{15}$)|(^\d{18}$)|(^\d{17}(\d|X|x)$)进行匹配,re库使用raw string类型表示正则表达式,表示为r'text',例如r'[1-9]\d{5}'。还学习了re库中的match对象(一次匹配中包含多项匹配结果)。

  Scrapy爬取框架结构,它是5+2的结构,这就是5个模块+3条数据流路径,以cmd命令行的方式进行工程的创建以及文件的配置。它有四个步骤,①创建一个工程和spider模板;②编写spider;;③编写Item Pipeline ;④优化配置策略。同时理解了yield的用途和用法。

  学习了Python网络爬虫与信息处理,让我知道了什么事爬虫,怎么去爬虫,更了解了爬虫对于可视化分析的重要性。学习过程中,跟着崇天老师编写一个个实例,由于自己的不仔细也遇到许多的问题,例如再正则表达式中,少写了个字符导致无法正常匹配、错把反斜杆写成斜杆等问题。学习了这门课。让我受益良多,当然,要真正学会爬虫,要学的东西还很多,此次的学习给我提供的强大的基础。

你可能感兴趣的:(第3次作业-MOOC学习笔记:Python网络爬虫与信息提取)