python爬取网页时去除html标签(如nbsp)

    import HTMLParser
    import urllib2
    
    response = urllib2.urlopen(url)
    html = response.read().decode('utf-8')
    html_parser = HTMLParser.HTMLParser()
    data = html_parser.unescape(html)


你可能感兴趣的:(python爬取网页时去除html标签(如nbsp))