可以理解SGML 为XML的前身,在80年代流行
如果要用sgmllib解析html,则要继承sgmllib.SGMLParser类,此类里的函数都是空的,用户需要重载它。这个类提供的功能是在特定情况下调用相应的函数。
比如当发现<html>标签时,如果并没有定义 start_html(self,attr)函数,则会调用unknown_starttag函数,具体怎么处理则根据用户。
sgml的标签是可以自定义的,比如自己定义了一个start_lala函数,则就会处理<lala>标签。
#coding=GBK import sgmllib,sys,os,string html = """<lala><head><title>Advice</title></head><body> <p>The <a href="http://ietf.org" mce_href="http://ietf.org">IETF admonishes: <i>Be strict in what you <b>send</b>.</i></a></p> <form> <input type=submit name='我'> 我 <input type=text name=start size=4></form> </body></lala> """ tagstack = [] class ShowStructure(sgmllib.SGMLParser): # def handle_starttag(self, tag, method,attrs): tagstack.append(tag) # def handle_endtag(self, tag): tagstack.pop() def handle_data(self, data): if data.strip(): for tag in tagstack: sys.stdout.write('/'+tag) sys.stdout.write(' >> %s/n' % data[:40].strip()) def unknown_starttag(self,tag,attrs): print 'start tag:<'+tag+'>' def unknown_endtag(self,tag): print 'end tag:</'+tag+'>' def start_lala(self,attr): print 'lala tag found' ShowStructure().feed(html)
如果定义了start_tag,没有定义handle_starttag 则执行start_tag
如果定义了start_tag,也定义了handle_starttag 则执行handle_starttag,start_tag不执行
如果只定义了handle_starttag,没有定义start_tag,则handle_starttag也不执行
结论:handle_starttag,和start_tag都是处理你指定的特殊tag的