python正则表达式爬取网页数据_常用正则表达式爬取网页信息及HTML分析总结

Python爬取网页信息时,经常使用的正则表达式及方法。

1.获取

标签之间内容2.获取 超链接之间内容3.获取URL最后一个参数命名图片或传递参数4.爬取网页中所有URL链接5.爬取网页标题title两种方法6.定位table位置并爬取属性-属性值7.过滤 等标签8.获取等标签内容

1). 获取

标签之间内容

开始标签如:

、、 、
...

后缀标签如:、、、、

、...

核心代码:

res_tr = r'

'

m_tr = re.findall(res_tr,language,re.S|re.M)

# eg_v1

import re

language = '''

床前明月光忧思独伤心

# 正则表达式获取

之间内容

res_tr = r"

"

m_tr = re.findall(res_tr,language,re.S|re.M)

print (unicode(m_tr,"utf-8"))

for line in m_tr:

print line

res_th = r"

(.*?)"

m_th = re.findall(res_th,line,re.S|re.M)

for mm in m_th:

print (unicode(mm,"utf-8"))

res_td = r"

(.*?)"

m_td = re.findall(res_td,line,re.S|re.M)

for nn in m_td:

print (unicode(nn,"utf-8"))

2). 获取超链接之间内容

在使用正则表达式时,需要分析网页链接,获取URL或网页内容。核心代码如下:

res = r'(.*?)'

mm = re.findall(res, content, re.S|re.M)

urls=re.findall(r"", content, re.I|re.S|re.M)

# eg_v2

import re

content = '''

浙江省主题介绍

贵州省主题介绍

'''

# 获取之间的内容

res = r'(.*?)'

mm = re.findall(res,content,re.S|re.M)

for value in mm:

print

你可能感兴趣的:(python正则表达式爬取网页数据_常用正则表达式爬取网页信息及HTML分析总结)