北京理工大学python课程嵩天老师笔记_第三次作业-MOOC学习笔记:Python网络爬虫与信息提取...

1.注册中国大学MOOC

北京理工大学python课程嵩天老师笔记_第三次作业-MOOC学习笔记:Python网络爬虫与信息提取..._第1张图片

2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程

北京理工大学python课程嵩天老师笔记_第三次作业-MOOC学习笔记:Python网络爬虫与信息提取..._第2张图片

3.学习完成第0周至第4周的课程内容,并完成各周作业

4.提供图片或网站显示的学习进度,证明学习的过程。

北京理工大学python课程嵩天老师笔记_第三次作业-MOOC学习笔记:Python网络爬虫与信息提取..._第3张图片

北京理工大学python课程嵩天老师笔记_第三次作业-MOOC学习笔记:Python网络爬虫与信息提取..._第4张图片

北京理工大学python课程嵩天老师笔记_第三次作业-MOOC学习笔记:Python网络爬虫与信息提取..._第5张图片

5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。

学习完北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程后,受益匪浅。网络爬虫在如今的信息时代非常流行,是执行网页操作的重要方式。然而还有很多的Python知识是一知半解的,不过认真理解起来的话,应该不会有太大的问题。比如令我印象最深的是Python爬虫实战中的requests库的七个主要方法,几乎都是获取目标网页的信息。但是这个之所以放在前面来学,是因为它是Python爬虫当中最基础的部分之一。Python自带了很多基本的库,而我们看的爬虫是python最基本的库。有一些知识点并未完全清楚,都因为是时间关系,在听过之后直接通过的,所以在掌握及Python实际操作代码的时候带来一定的难度。 而真正掌握网络爬虫还是需要花很长的时间。

主要学习到的知识点如下:

1.requests库的七种方法分别是request.request()、request.get()、request.head()、request.post()、request.put()、request.patch()、request.delete()。其中

request.request()是最基础的方法。这些方法都和HTML网页挂钩。获取头信息、申请POST、PUT、修改和删除等操作是这些方法的主要功能。Requests库同时也有2个重要对象,分别是Response对象和Request对象。

2.BeautifulSoup类的基本元素包括Tag,Name,Attributes,NavigableString。这个库是解析,遍历,维护“标签树”的功能库。不过在标签Tag内的内容也很重要,用Comment表示。

标签树的下行遍历包括:.contents:子节点的列表;.children:子节点的迭代类型;.descendants:子孙节点的迭代类型。

上行遍历包括:.parent:节点的父亲标签;.parents:节点先辈标签的迭代类型。

3.URL是Internet上描述信息资源的字符串,主要用在各种WWW客户程序和服务器程序上。采用URL可以用一种统一的格式来描述各种信息资源,这带来了很大的方便。HTTP协议的URL示例是使用超级文本传输协议HTTP,提供超级文本信息服务的资源。

4.最后是讲解Scrapy,是一个庞大的网络爬虫框架,具有持续性,商业性,高可靠性等的特点,多用于企业。

Python对我们生活起了很重要的作用,现在的学习进度还只是初级阶段,还有很长的路要走。Python日常对我们对网页的信息提取提供了很大的方便,也节省了很多的时间。希望可以继续认真的学习老师的课程。对知识点进行系统的学习与归纳,有朝一日会对我们产生很大的帮助。

你可能感兴趣的:(北京理工大学python课程嵩天老师笔记_第三次作业-MOOC学习笔记:Python网络爬虫与信息提取...)