第三次作业

1.注册中国大学MOOC
2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程
3.学习完成第0周至第4周的课程内容,并完成各周作业
4.提供图片或网站显示的学习进度,证明学习的过程。

第三次作业_第1张图片

 

 第三次作业_第2张图片

 

 


5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。

 

在大三上学期,第一次接触到python语言,当时对其没有足够重视,以为不是什么重要的编程语言,所以没有多认真去学期。直到在后面的深入学习才明白,原来Python是如此强大。

在本学期得到授课老师的推荐,通过中国大学MOOC,学习北京理工大学嵩天老师的《Python网络爬虫与信息提取》,虽然自己关于Python的基础不够扎实,但并不妨碍当下学习。

通过前四周的学习网络爬虫,大致可以分为四个方面,分别是网络爬虫规划、提取、实战和框架。接下来我将从这四个方面谈谈自己的心得体会。

在第一周的网络爬虫规划课程中,嵩天老师详细介绍了Requests库,网络爬虫的弊端和解决方法,并运用了Request库的五个实例。在嵩天老师的课件教学中,学会了Request库的安装,同时也学习Request库的主要方法及对象和属性,初步了解了request库的异常和处理。嵩天老师还讲解了两个实例让同学们更容易了解robots协议,不得不承认嵩天老师的用心良苦。

在第二周的网络爬虫提取课程中,嵩天老师先是详细的介绍了Beautiful Soup库,然后再介绍信息标记的三种方法,最后介绍信息提取的方法,并给出实例。三种信息标记分别是XMLInternet上的应用信息交互与传递、JSON,移动应用云端和节点的信息通信,无法注释、YAML,各类系统的配置文件,有注释易读。介绍了信息提取的一般方法有三种,分别是完整解析信息的标记形式,再提取关键信息、无视标记形式,直接搜索关键信息、融合方法,结合形式解析与搜索方法,提取关键信息。

在第三周的网络爬虫实战课程中,嵩天详细说明了正则表达式,它有两种调用方式,第一种方式是re.(方法)直接调用函数,另一种是先用re.compile()函数编译成正则表达式对象,再用正则表达式对象调用函数。可以说,正则表达式能找到想提取的任何关键信息。有特征的数据可以用正则表达式库来提取,如果数据的位置比较固定,则适合用Beautiful Soup库定位到它的位置,再用正则表达式库获得内容。如果,合理地将Beautiful Soup库和正则表达式库结合起来获取内容,那么这将是一种非常不错的方法。老师在实例中实现了爬取进程中国的动态滚动条,给了用户一个良好的用户体验。

在第四周的网络爬虫提取课程中,学习了Scrapy的安装及Scrapy爬虫框架的介绍和解析,“5+2”结构的目的和功能,及requests库和Scrapy爬虫的比较和Scrapy爬虫的常用命令。视频中嵩天老师还介绍了Scrapy爬虫的第一个实例,yield关键字的使用和Scrapy爬虫的基本使用:使用步骤,数据类型,提取信息的方法,CSS Selector的基本使用。

通过这四周的课件学习,嵩天老师的教学让我Python的网络爬虫知识有了进一步的了解。虽然有课后的练习可以巩固所学的知识点,可是因为自己基础不够扎实,真正掌握的并不多,但是总归是有不错的收获。自己在将来的学习中一定要多加努力

 

你可能感兴趣的:(第三次作业)