第3次作业-MOOC学习笔记:Python网络爬虫与信息提取

1.注册中国大学MOOC

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第1张图片

2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第2张图片

3.学习完成第0周至第4周的课程内容,并完成各周作业

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第3张图片

4.提供图片或网站显示的学习进度,证明学习的过程。

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第4张图片

5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。

Python网络爬虫与信息提取学习笔记与体会

在众多的计算机语言中,python因其简单、免费、开源和可移植性等优点在近些年来被人们广泛使用。在我刚接触和认识计算机语言的时候,最先想到的当属C语言、Java语言。起初,对python只是一个概念性的认识,也没有过多的注意。直到去年,首次接触python语言,其给我带来的第一印象就是在写程序的时候,代码量比较少,同时利用其特有的规则进行编程,语法结构较难学,也很难明白,或许是受到C语言、Java语言的影响,对python的学习总是感觉怪怪的。在去年的学习上,我只是初步的了解了python语言,懂得了一些简单的程序编写,但对它应该如何使用及如何应用缺乏认识。

新的学期,开设了python高级应用课程,我带着上学期的问题进入了新的学习之中。在对python网络爬虫与信息提取这门线上课程的学习之后,我对python有了新的认识,被其应用面广、代码量少等特性所吸引。Python网络爬虫与信息提取这门课程顾名思义就是利用这门语言按照一定的规则和方法去获取所需要的资源信息,但这并不代表能获得所有的资源信息,应要遵守规则,同时也要认识网络爬虫引发的问题,如网络爬虫的性能骚扰、网络爬虫的法律风险和网络爬虫的隐私泄露。也要遵守协议,如Robots协议(网络爬虫排除标准),其作用是网站告知网络爬虫哪些页面可以抓取、哪些不行。这就为安全使用爬虫来获取资源信息提供保障,即嵩天老师所说的网络爬虫的“盗亦有道”。

经过线上课程的学习,我在电脑上安装了Requests库,并跟着视频实例进行了实践,初步懂得了如何使用网络爬虫去获取京东、360、亚马逊商品的页面信息,发现我只利用了6-7行的代码就实现了信息获取。这时,我认识到了python网络爬虫是如此高效、便捷的。与此同时,我跟着视频的学习,懂得了利用爬虫进行网站图片、视频的提取,并自己敲打程序,成功实现其功能。紧跟着老师的讲解,又安装了Beautiful Soup库,其作用是可以从HTMLXML文件中提取数据的python库,能解析、遍历和维护“标签树”,也可以和Requests库配合使用,提高爬虫的效率。在对信息标记与提取方法的学习中,我了解了信息组织方式,同时学习了信息标记的分类,分XMLJSONTAML三种,懂得了三种标记的书写形式,并通过实例学习加深理解。也掌握了信息提取的方法。一,安装解析信息的标记形式,在提取关键信息。二,无视标记形式,直接搜索关键信息。三,融合方法,结合形成解析和搜索方法,提取关键信息。通过学习,使我加深了对python网络爬虫的认识。

在第三周的学习中,开始接触正则表达式及其如何使用以及Re库的调用方式和功能函数。正则表达式是一种针对字符串表达“简洁”和“特征思想”的工具,可用来判断字符串的特征归属。通过淘宝商品比价定向爬虫实践,初步掌握了正则表达式在信息提取方面的应用,同时采用了requests-bs4-re路线实现了对股票信息的爬取。通过实例可以获得股票名称及交易的信息,为人们投资股票市场提供了实践意义上的指导。

在对Scrapy爬虫框架的学习中,初步掌握了Scrapy的安装及框架结构,爬虫框架是实现爬虫功能的一个软件结构和功能组件的集合,能够帮助用户实现专业的网络爬虫。所以,要学好网络爬虫,对其爬虫框架的学习必不可少。Scrapy框架就是“5+2结构”,即EngineDownloaderSchedulerDownloader MiddlewareSpiderItem pipelinesSpider Middleware。紧跟着实例,我对Scrapy爬虫的产生步骤及yield关键字的使用有了初步的了解,掌握了Scrapy爬虫的数据类型,分:Request类、Response类和Item类。经过学习,对Scrapy爬虫有了初步认识和理解,为以后学习新的爬虫知识奠定了坚实基础。

这些天来,通过对python网络爬虫与信息提取课程的学习,我对python网络爬虫有了深刻的认识和理解,也懂得了python语言应用广泛、功能强大的优势。同时也希望自己能进一步加强学习,不断提升自己。

你可能感兴趣的:(第3次作业-MOOC学习笔记:Python网络爬虫与信息提取)