爬虫常用正则表达式匹配规则~

邮箱

\w+[@][a-zA-Z0-9_]+(\.[a-zA-Z0-9_]+)+

img的链接

<img[\w\W]*?src=["|']?([\w\W]*?)(jpg|png)[\w\W]*?/>

标签的href属性

href="(http[s]*://[\w\./]+)"

你可能感兴趣的:(网络信息检索)