第3次作业-MOOC学习笔记:Python网络爬虫与信息提取

1.注册中国大学MOOC
第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第1张图片

 

 

 2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第2张图片

 

 

 3.学习完成第0周至第4周的课程内容,并完成各周作业
第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第3张图片

 

 

 4.提供图片或网站显示的学习进度,证明学习的过程。

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第4张图片

 5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。

  在学习学习这门课之前,因为选修课的缘故我接触过中国大学MOOC这个网址,也通过老师的介绍初步学习到了“python网络爬虫与信息提取”这门课。Python是一个广泛使用的脚本语言,其自带了urllib、urllib2等基本的库,爬虫是最基本的库;在接触“爬虫”这个名词之前,我们对这个概念的理解还是非常模糊的。网络爬虫,也叫网络蜘蛛(Web Spider),如果把互联网比喻成一个蜘蛛网,Spider就是一只在网上爬来爬去的蜘蛛。网络爬虫就是根据网页的地址来寻找网页的,也就是URL。也正因为学习完这门课我对爬虫的理解逐渐延申。
  学完这门课之后,我觉得生活中可以用到的地方还是很多,比如:在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用来做桌面壁纸,或者用来做设计的素材。在此之前,我们最常规的做法就是通过鼠标右键,选择另存为。但有些图片鼠标右键的时候并没有另存为选项,还有办法就通过就是通过截图工具截取下来,但这样会降低图片的清晰度。通过python的这门课,就可以学到去实现这样一个简单的爬虫功能,把我们想要的代码爬取到本地,既方便又不会降低清晰度。
  学习这门课第一周的时候,让我初步学到了从网页中爬取自己需要的东西,也认识到了requests库内部的类和方法;第二周让我明白了requests是爬虫库,只用于获取页面,不对页面信息进行提取,也认识了BeautifulSoup4库,也知道了Beautiful Soup库不能够生成标签树,只能解析、遍历和维护。第三周涉及到了正则表达式库,和一系列操作符,之前也有接触过这个东西,但是它的运用范围很广,所以在我们字符匹配的时候要更加注意。
  学习到Scrapy爬虫的框架、模块和使用范围,Scrapy网络爬虫是基于Python语言开发的开源爬虫软件,Scrapy可在Windows,Linux等多个操作系统运行,如果待抓取网页的HTML代码很多,需要下载大量的内容,就可以在Scrapy爬虫框架上定制开发部分模块实现爬虫功能,其中Scrapy框架的五个模块分别是Engine、Spiders、Scheduler、Downloader和Item Pipelines;整个学习的过程让我受益良多,实践才是检验真理的唯一标准!
  古往今来,科学技术都是在不断发展进步的,逐渐让很多事情变得更简单、省时;可以试想在爬虫和程序技术没有出现之前,单单靠人工和机械系的操作,既浪费时间又耗费人力资源,在python爬虫和其他技术出现之后,它逐渐更新替代了很多之前特别繁杂的程序,优胜略汰,让很多事情变得非常简单,这正是这个时代最需要的东西。
  生活在这个快节奏、大数据的时代,只有跟着风向走,不断磨砺给自己充电,才不会被淘汰;因此Python爬虫的知识必不可少,也许以后做的工作可能跟这个没有太大关系,但是只有自己去接触了,才知道其中大概的整体框架形式和程序,以后涉及到这方面的话题跟别人交流起来也不会显得逊色。学完这门课,让我收获颇多,也会对我以后的工作生活会有相对的帮助。

 

你可能感兴趣的:(第3次作业-MOOC学习笔记:Python网络爬虫与信息提取)