用于抓取网页内容的常用正则

下面列出在抓取网页中常用的正则规则,其中$content代表网页内容,$tmparray为抓取的结果存储数组。

 

抓取HTML中CSS里背景图片地址
preg_match_all('/(background|background-image):url/([/"/']?([^/)]+)[/"/']?/)/i', $content, $tmparray);

 

抓取HTML中图片标签中的地址
preg_match_all('/<img[^>]+src=[/"/']{1}([^/"/'/s]+)[/"/']{1}[^>]+>/i', $content, $tmparray);

 

抓取HTML中图片背景地址

preg_match_all('/background=[/"/']?([^/"/'/s>]+)[/"/']?/i', $content, $tmparray);

 

抓取HTML中的Flash地址

preg_match_all('/<embed[^>]+src=[/"/']{1}(([^/"/'/s]+)/.swf)[/"/']{1}[^>]+>/i', $content, $tmparray);

 

抓取HTML中的iframe的链接地址
preg_match_all('/<iframe[^>]+src=[/"/']?([/w/-///.]+)[/"/']?[^>]+><//iframe>/i', $content, $tmparray);

 

抓取HTML中的超链接地址
preg_match_all('/<a[^>]+href=[/"/']{1}([^>/"/']+)[/"/']?[^>]+>([^<]+)<//a>/i', $content, $iframeurlarray);

 

以上分别为CSS背景图片、图片标签、图片背景、FLASH地址、IFRAME地址、超链接地址 的抓起正则。

你可能感兴趣的:(html,iframe,css,Flash,存储)