爬虫技术是什么?

Web爬虫是一种Internet漫游器,可以系统地浏览万维网,通常用于Web索引(Web spidering)。

 

网页搜索引擎和其他一些网站使用网页爬虫来更新他们的网页内容或其他网站网页内容的索引。网页抓取工具可以复制他们访问的所有页面,以便后期处理由搜索引擎对其下载的页面进行索引,以便用户能够更有效地搜索。

 

由于互联网上的页面数量非常多,即使是最大的爬虫也没有完成索引。为此,搜索引擎在2000年之前在万维网的早期提供相关的搜索结果是不好的。现代搜索引擎大大提高了这一点。

 

一个网页爬虫从一个名为“种子”的网址列表开始。当检索器访问这些URL时,它会标识页面中的所有超链接,并将其添加到要访问的URL列表中,称为爬网边界。根据一组策略递归地访问来自边界的URL。如果爬行器正在执行归档网站,那么它将复制并保存信息。档案通常以这样一种方式存储,可以像在实时网络上一样被查看,读取和浏览,但被保存为“快照”。

 

大量意味着爬网程序只能在给定时间内下载有限数量的网页,因此需要对其下载进行优先级排序。高变化率可能意味着页面可能已被更新或甚至被删除。

 

由服务器端软件生成的可能的URL数量也使Web爬虫难以避免检索重复的内容。存在HTTP GET(基于URL)参数的无限组合,其中只有一小部分实际上将返回唯一的内容。例如,一个简单的在线照片库可以向用户提供三个选项,通过URL中的HTTP GET参数指定。如果存在四种方式对图像进行排序,可以选择缩略图大小,两种文件格式,以及禁用用户提供的内容的选项,则可以使用48个不同的URL访问同一组内容,所有这些URL都可以链接到网站。这种数学组合为抓取工具创建了一个问题,因为它们必须对相对较小的脚本更改的无尽组合进行排序,以便检索唯一的内容。

 

除了学生和教师外,很多人抓取数据是为了基于数据建模做产品。而产品要持续生效往往需要持续的数据更新。这就首先排除了那些卖“死”数据的公司,同时也对数据的遍历效率提出了要求。满足以上三点的公司,在国内不太多,我知道的有两家,你可以关注一下:

蜘了(据我所知,蜘了http://w3.zmatrix.cn有以前参与开发百度爬虫的人,技术强,圈内有些名气)

其余还有火车头、八爪鱼、GooSeeker等。

你可能感兴趣的:(互联网)