SGML(Standard Generalized Markup Language) 标准通用标记语言

可以理解SGML 为XML的前身,在80年代流行

如果要用sgmllib解析html,则要继承sgmllib.SGMLParser类,此类里的函数都是空的,用户需要重载它。这个类提供的功能是在特定情况下调用相应的函数。

比如当发现<html>标签时,如果并没有定义 start_html(self,attr)函数,则会调用unknown_starttag函数,具体怎么处理则根据用户。

sgml的标签是可以自定义的,比如自己定义了一个start_lala函数,则就会处理<lala>标签。

#coding=GBK import sgmllib,sys,os,string
html = """<lala><head><title>Advice</title></head><body> <p>The <a href="http://ietf.org" mce_href="http://ietf.org">IETF admonishes: <i>Be strict in what you <b>send</b>.</i></a></p> <form> <input type=submit name='我'> 我 <input type=text name=start size=4></form> </body></lala> """ tagstack = []
class ShowStructure(sgmllib.SGMLParser):
# def handle_starttag(self, tag, method,attrs): tagstack.append(tag) # def handle_endtag(self, tag): tagstack.pop()  def handle_data(self, data):
        if data.strip():
            for tag in tagstack: sys.stdout.write('/'+tag)
            sys.stdout.write(' >> %s/n' % data[:40].strip())

    def unknown_starttag(self,tag,attrs):
        print 'start tag:<'+tag+'>'  def unknown_endtag(self,tag):
        print 'end tag:</'+tag+'>'  def start_lala(self,attr):
        print 'lala tag found' ShowStructure().feed(html)
 
 
如果定义了start_tag,没有定义handle_starttag 则执行start_tag
如果定义了start_tag,也定义了handle_starttag 则执行handle_starttag,start_tag不执行
如果只定义了handle_starttag,没有定义start_tag,则handle_starttag也不执行
结论:handle_starttag,和start_tag都是处理你指定的特殊tag的

你可能感兴趣的:(SGML(Standard Generalized Markup Language) 标准通用标记语言)