Python初级爬虫(0)-爬虫原理

Python作为现在业界十分火热的一门语言,岗位需求大、待遇好、前景光明、学习简单,实在是我的好去处。利用Python可以去如下领域:全栈工程师、爬虫、数据分析或数据挖掘、人工智能等。目前,我是在学习爬虫。在一周阅读完《零基础入门学习Python》这本书之后,就开始在网上找一些爬虫实例来做了。以下是我自己的理解。

爬虫,其实就是模仿浏览器的功能,在万维网上检索自己需要的信息,例如下载美女图片、文本信息等等。通常,数据分析这类工作,第一步是收集数据,往往就是通过爬虫这种技术手段来实现的。

既然是模仿浏览器,那么首先要理解网页的基本原理。这也是网上诸多教程说的很清楚的。当用户通过浏览器,在网上查看一些网页的时候,本质上是向服务器发送了一些请求(Request),然后服务器会返回(Response)一些html信息;然后,浏览器将这些html(超文本传输语言)解析出来,就是我们平时在网页上看的文字、图片、视频、外链接了。

因此,爬虫实现的原理,与上述过程类似,可归纳为:发送网页请求;解析html;下载所需信息,这三部分即可。

这些功能,都已经有很成熟的Python包来实现,我们只需要了解这些包的用法,会用就行,不用开发包,因此不用涉及到很底层的东西。对于萌新来说,就很容易上手。“发送网页请求”,用到的是Resquests包,或者urllin.requests模块,我喜欢前者;“解析html”,会用到lxml.etree、re等包;下载信息,则只需要用open-write-close这三连函数就可以了。这是我目前习得的内容。

当然,Python写爬虫也不可能短短2-3周就掌握的很好,需要长久的学习。实际学习的过程中,会遇到很多问题,例如:我想把下载的图片保存在另外的文件夹里面,就需要用到os包新建文件夹、我想给每一幅图起网页上的名字,这个问题我还没解决、用etree的xpath/re包的compile-findall套路查询关键字符,我还很不熟悉、网页翻页及异步加载,如何用Python去爬取,也没有完全搞懂。

总之,这门语言上手不难,但仍需要做极多的项目,反复揣摩代码,才能成功。这是这两周的学习心得。

你可能感兴趣的:(爬虫)