正则提取出HTML正文(剔除标签内容)python实现

本文参考:http://segmentfault.com/q/1010000000655403

比如一段HTML:

尾页

如果想提取“尾页”,对于大规模的解析来说,剔除标签后的内容是不确定的,不能简单的运用匹配中文的正则来匹配,经测试,基于参考博文代码如下:

import re 

s="尾页"
rc = re.compile("\<.*?\>" )
new = rc.sub('',s)
print ("new",new)


测试输出为“new 尾页”

 
  

总结:如果:

rc = re.compile("\<.*\>" )
输出将是“”,内容为空

你可能感兴趣的:(正则提取出HTML正文(剔除标签内容)python实现)