使用HTMLParser去除HTML源文件中的标签和属性

使用HTMLParser去除HTML源文件中的标签和属性

在一些情况下,比如输出一片文章的摘要,前面的若干个字,但是存储在数据库中的文章又 偏偏是带有格式的HTML。这种情况下,可以使用下面这种方法将HTML中所有的标签剔除干净。

from HTMLParser import HTMLParser

def strip_tags(html):
html=html.strip()
html=html.strip("\n")
result=[]
parse=HTMLParser()
parse.handle_data=result.append
parse.feed(html)
parse.close()
return "".join(result)

if __name__ == "__main__":
html = """123
fffffff
fdafd


"""
print strip_tags(html)



转载于:https://www.cnblogs.com/pylemon/archive/2011/11/23/2260761.html

你可能感兴趣的:(数据库)