大数据采集与处理的关键技术研究

互联网大数据采集与处理的关键技术研究金融大数据科技
http://www.cfc365.com/technology/bigdata/2015-03-04/13202.shtml

2.数据采集的基本流程
整个数据采集过程的基本步骤如下:
(1)将需要抓取数据的网站的URL信息(Site URL)写入URL Queue; (2)爬虫从URL队列中获取需要抓取数据的网站的Site URL信息; (3)获取某个具体网站的网页内容; (4)从网页内容中抽取出该网站正文页内容的链接地址; (5)从数据库中读取已经抓取过内容的网页地址(Spider URL); (6)过滤URL。将当前的URL和已经抓取过的URL进行比较; (7)如果该网页地址没有被抓取过,则将该地址写入(Spider URL)数据库;如果该地址已经被抓取过,则放置对这个地址的抓取操作; (8)获取该地址的网页内容,并抽取出所需属性的内容值; (9)将抽取的网页内容写入数据库。

    **3.数据采集的关键技术——链接过滤**
    链接过滤的实质就是判断一个链接(当前链接)是不是在一个链接集合(已经抓取过的链接)里面。在对网页大数据的采集中,可以采用布隆过滤器来实现对链接的过滤。

你可能感兴趣的:(大数据采集与处理的关键技术研究)