Python2.7 HTMLParser模块学习

HTMLParser模块主要是用来解析HTML文件。

HTMLParser模块有一个HTMLParser类,用户在解析HTML文件时需要重定义其中handle_*方法,该类有如下方法:

feed(data)分析一些文本数据
close()如果碰到文件结束标记,强制处理缓冲区数据
reset()重置实例,所有未处理的数据都会丢失,初始化时自动调用
getpos()返回当前行的偏移位置,行列
get_starttag_text()返回最近打开过的开始标记文本


handle_starttar(tag,attrs)这个方法处理开始的标记,tag是标记的名称,都会被转化为小写来处理。attrs是一对(name,value)对
handle_endtag(tag)这个方法处理结尾的标记
handle_startendtag(tag,attrs)和handle_starttag类似,但是如果遇到空标记,
handle_data(data)这个方法用来处理数据
handle_entityref(name)
handle_charref(name)
handle_comment(data)这个方法处理注释,<!--comment-->
handle_decl(decl)这个方法处理doctype declaration

你可能感兴趣的:(HtmlParser)