第3次作业-MOOC学习笔记:Python网络爬虫与信息提取

1.注册中国大学MOOC

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第1张图片

2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第2张图片

3.学习完成第0周至第4周的课程内容,并完成各周作业

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第3张图片

4.提供图片或网站显示的学习进度,证明学习的过程。

5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。

     通过老师的推荐,我接触学习了Python网络爬虫和信息提取》,因为自身基础原因,初学这门课,还是挺吃力,但是通过这段时间的学习,对Python有了新的理解和认识。Requests库一共有七个主要办法requests.request()、requests.get()、requests.head()、requests.post()、requests.put()requests.patch()requests.delete(),我们要了解它们的意思,例如requests.request()表示的是构造一个请求,支撑下一个方法的基础方法。当然除了了解它的七个方法以外,我们Requests库的七个异常分别表示的意义,如requests.ConnectionError表示的是网络连接错误异常,如DNS查询失败、拒绝连接等。HTTP是一个基于“请求与响应”模式的、无状态的应用层协议。HTTP协议采用URL作为定位网络资源的标识。URL格式:http://host[:port][path],其中host表示合法的Internet主机域名或IP地址,port表示端口号,缺省端口为80,path表示资源的路径,HTTP协议包括GET,HEAD,POST,PUT,PATCH,DELETE。URL是URI的一个子集。是Uniform Resource Locator的缩写,译为“统一资源定位 符”。通俗地说,URL是Internet上描述信息资源的字符串,主要用在各种WWW客户程序和服务器程序上。采用URL可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。HTTP协议的URL示例是使用超级文本传输协议HTTP,提供超级文本信息服务的资源。文件的URL用URL表示文件时,file表示,后面要有主机IP地址、文件的存取路 径(即目录)和文件名等信息。有时可以省略目录和文件名,但“/”符号不能省略。BeautifulSoup的导入时用服务器方式用 from bs4 import BeautifulSoup代码进入,常用BeautifulSoup有四个,但是每一个解释器的使用条件不同,BeautifulSoup类的基本元素有五个。常见的信息标记提取直接搜素<>.find_all() <>.find等方法,在这门课中教授还给我们运用实例代码讲了同时存在的扩展方法。crapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。我们需要知道的是,scrapy是一种集成框架,类似于request和xpath这些方法在scrapy都有集成。scrapy中,不同模块负责不同的任务分工。首先Scheduler发出请求(Requests),Downloader负责从互联网上下载内容,将下载好的内容(Responses)交给Spiders进行解析,解析完成后将内容Item返回,当然其中可能会涉及到对于解析后数据的进一步处理,这个任务是在Pipeline中完成的。它通常有两种使用方式,分别为直接在python脚本里定义一个爬取数据的类和创建完整的scrapy项目。通过这段时间对《Python网络爬虫和信息提取》的学习,我对网络爬虫有了更深的了解,但仍然需要不断地学习。

 

 

 

 

 

你可能感兴趣的:(第3次作业-MOOC学习笔记:Python网络爬虫与信息提取)