第3次作业 MOOC学习笔记 python网络爬虫与信息提取

1.注册中国大学MOOC
2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程
3.学习完成第0周至第4周的课程内容,并完成各周作业
4.提供图片或网站显示的学习进度,证明学习的过程。

第3次作业 MOOC学习笔记 python网络爬虫与信息提取_第1张图片

 

 

第3次作业 MOOC学习笔记 python网络爬虫与信息提取_第2张图片

 

 

 

 


5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。

  《python网络爬虫与信息提取》中分为了 规则、提取、实战、框架四个部分讲解,下面是我每一周的学习和收获

  第一周 网络爬取的规则

学习了Requests库入门 

首先cmd中执行 pip install requests 实现Requests库的安装  然后理解Requests出现的异常 以及网络爬虫所会引发的问题和解决的方法 当然最好遵守网络爬虫协议 “盗亦有道”  接着介绍了5个信息爬取实例 以爬虫的视角看来待网络内容 ,应用爬虫去爬取一些有用的学习资料和对自己有帮助的信息,可以事半功倍
第二周 网络爬取的提取
bs4库的基本元素包括:Tag(标签)Name (名称)Attributes(属性) NavigableString(字符串) Comment(注释)且Beautiful Soup对应一个HTML/XML文档的全部内容
信息标记的三种形式以及它们的比较
XML:Internet上的信息交互与传递  JSON :移动应用云端和节点的信息通信 没有注释  YAML:系统的配置文件 注释易读
信息提取的一般方法
(..) 等价于 . find_all(..)
soup(..) 等价于 soup. find_all(..)
最后实例 采用requests-bs4路线实现了中国大学排名定向爬虫
   第三周 网络爬取的实战
学习了如何使用正则表达式 用淘宝商品比价定向爬虫实例体现正则表达式在信息提取方面的应用 通过股票数据定向爬虫实现展示爬取进程的动态滚动条
   第四周 网络爬取的框架
介绍了专业的爬虫框架及其基本使用 
Scrapy相对于requests 性能较高但入门稍难   然后演示了HTML地址实例 
,yield关键字和生成器   CSS Selector的基本使用
实现股票数据Scrapy爬虫的完整配置过程:建立工程和Spider模板然后编写Spider 、Pipeline以及配置优化

 

你可能感兴趣的:(第3次作业 MOOC学习笔记 python网络爬虫与信息提取)