爬虫的基础知识

要学起爬虫了,这次学习不是光看文档,我在网易云课堂上找到了课程,是一位台湾的网络公司老板开的课,跟着老师学,速度和效率都会提高。

关键词:非结构化数据

要做研究、做调研,你需要数据,但这些数据大多时候不在本地。老师说90%的数据没有很好地存储着,而是离散地分布在广大的互联网上。你的数据库中的,或者说excel文件里的整齐的数据叫做结构化数据,而网上离散分布的数据就称为非结构化数据。

爬虫的基本过程

我们需要大量数据在支持工作,所以需要到互联网上去搜寻,我们把网上大量的非结构化数据比喻为“原材料”,原材料经过爬虫程序处理,得到了结构化数据,存储在数据库中,方便以后的研究应用,如图所示:

爬虫的基础知识_第1张图片

爬虫程序处理包括三个步骤:ETL. E 表示Extract,提取,T是Transform变形的意思,L就是Load存储。

爬虫不是新技术,很久以前就有,搜索引擎用的就是这个技术,这几年爬虫简直火爆,因为我们迎来了大数据时代,对数据的需求飞速发展,所以爬虫这样的技术就重新获得了人们的青睐,这是一种有效的自动化搜集大量数据的方法。

说一些关于http的东西

我最近看了 HTTP: The Definitive Guide 的前三章,感触很深,对网络交互的基本流程还算有了一定认识,现在学习爬虫刚好能用上。

浏览网页其实浏览器帮你做了很多工作,其中一个非常重要的就是与服务器交互。浏览器把http请求发给服务器,然后服务器发回回复信息,通常是一个带头信息的html文件。我们爬虫要做的,就是剖析这个html文件里面的数据,然后将其存储到数据库中。

关于浏览器与服务器的交互,你可以用谷歌浏览器的开发者工具监控到,打开network选项卡,然后你再打开任意网站,浏览器和服务器的各种文件交互你就都能看到。

你可能感兴趣的:(数据库,爬虫,http)