网页抓取/数据抽取/信息提取工具包MetaSeeker的翻页抓取原理

为什么80%的码农都做不了架构师?>>>   hot3.png

目标网站上内容很多时会用多个页显示,网页抓取/数据抽取/信息提取工具包MetaSeeker能够翻页并提取每一页的内容,目标网站上展现多页的方法有多种:

1,页面上每一页用另外一个URL地址表示。翻这样的网页是最好实现的,将这个URL提取下来,以后某个时间加载这个地址的页面就行了。而MetaSeeker还可以在一个信息提取事务中将所有的也翻完,在这个会话中这些URL称为线内线索, 这些URL没有被记录下来,翻完也就丢掉了,实际上这类URL记录下来的意义不大,目标网站显示多页时往往使用一个服务器动态页面,页码作为参数,例如 page=2,这些页面的内容是变化的,例如,一个博客网站,新博文添加以后,原来的分页就变了,原来一篇博文位于页码2,后来就可能位于页码3上了。

2,页面上每一页关联一段Javascript代码,被点击时执行,这是普通爬虫的天敌,一般的爬虫难于提取javascript管理的内容,尤其是用AJAX框架制作的网站,网页抓取/数据抽取/信息提取工具包MetaSeeker能够模拟用户的点击操作,翻页在一个信息提取事务中完成。

转载于:https://my.oschina.net/fuller/blog/1279

你可能感兴趣的:(网页抓取/数据抽取/信息提取工具包MetaSeeker的翻页抓取原理)