火车头使用前后截取模式采集数据

 

这里我们获得标题,可以选开始"<title>"结束"</title>",然后过滤一下 “- 站长网”这字符,也可以开始“<title>"结束”- 站长网“来直接获得

标题。想获得关键字的话可以 开始 <meta name="keywords" content="  结束 ">

下边讲一下怎么获得内容,我们先打开网页源代码,查找内容附近的代码。

 

我们可以看到,文章前边是<div id="arctext">这个代码,我们查找一下,这是唯一的,可以使用,然后找后边文章结束有个这个代码

<center></center>,这个也是唯一的。这样,我们以这两个代码为开头和结尾就可以获得内容了。

火车头使用前后截取模式采集数据

规则下载

在使用前后截取模式采集数据时要善于使用通配符(*)。需要注意的是i通配符的使用是在代码的中间,两边是不能使用的,那样一般是会出错的,如果可以是以这个开始 <til(*)> ,但不能这样,(*)title 或是 title(*) 。比如这个可以代替任何内容,有的采集时不容易获得最开始的标识,或者说是那样的代码很多,比如代码里 (*)<div id="arctext"> 很多很多,但是有的代码后的很少,这时我们可以考虑用通配符。比如上边的我们开始可以写成    来源:<a(*)<div id="arctext">   或者 我要投稿</a>(*)<div id="arctext"> 或者 来源:(*)时间:(*)收藏</a>(*)我要投(*)<div id="arctext"> 等........注意前边的基本都是唯一的代码.

使用前后截取模式采集数据是最常用的方法,也是最简单的方法,使用好这个可以基本采集的都可以处理了。

你可能感兴趣的:(数据)