一、从HTML文档中提取链接
Python语言还有一个非常有用的模块HTMLParser,该模块使我们能够根据HTML文档中的标签来简洁、高效地解析HTML文档。所以,在处理HTML文档的时候,HTMLParser是最常用的模块之一。
#!/usr/bin/python import urllib, HTMLParser class parseLinks(HTMLParser.HTMLParser): def handle_starttag(self,tag,attrs): if tag=='a': for name,value in attrs: if name=='href': print value,"\n", self.get_starttag_text() lParser = parseLinks() lPurl = urllib.urlopen("http://www.winddesktop.com").read() f = open('./hyplink.text','a') f.write(lPurl) f.close() lParser.feed(lPurl) lParser.close() #f.write(lParser(lPurl)) #f.close()
处理HTML文档的时候,我们常常需要从其中提取出所有的链接。使用HTMLParser模块后,这项任务将变得易如反掌。首先,我们需要定义一个新的HTMLParser类,以覆盖handle_starttag()方法,我们将使用这个方法来显示所有标签的HRef属性值。
定义好新的HTMLParser类之后,需要创建一个实例来返回HTMLParser对象。然后,就可以使用urllib.urlopen(url)打开HTML文档并读取该HTML文件的内容了。
为了解析HTML文件的内容并显示包含其中的链接,可以使用read()函数将数据传递给HTMLParser对象。HTMLParser对象的feed函数将接收数据,并通过定义的HTMLParser对象对数据进行相应的解析。需要注意,如果传给HTMLParser的feed()函数的数据不完整的话,那么不完整的标签会保存下来,并在下一次调用feed()函数时进行解析。当HTML文件很大,需要分段发送给解析器的时候,这个功能就会有用武之地了。
二、从HTML文档中提取图像
处理HTML文档的时候,我们常常需要从其中提取出所有的图像。使用HTMLParser模块后,这项任务将变得易如反掌。首先,我们需要定义一个新的HTMLParser类,以覆盖handle_starttag()方法,该方法的作用是查找img标签,并保存src属性值所指的文件。
#!/usr/bin/python/ #-*-coding:utf-8-*- import HTMLParser import urllib import sys,urllib2,htmllib,formatter #urlString = "http://www.winddesktop.com" urlString = "http://image.baidu.com" def getimage(addr): u = urllib.urlopen(addr) data = u.read() splitPath = addr.split('/') fName = splitPath.pop() print "Saving %s" %fName f = open("./image/"+fName,'wb') f.write(data) f.close() class parseImages(HTMLParser.HTMLParser): def handle_starttag(self,tag,attrs): if tag == 'img': for name,value in attrs: if name == 'src': getimage(urlString+"/"+value) lParser = parseImages() u = urllib.urlopen(urlString) print "Opening URL \n------" print u.info() lParser.feed(u.read()) lParser.close()
三、从HTML文档中提取文本
处理HTML文档的时候,我们常常需要从其中提取出所有的文本。使用HTMLParser模块后,这项任务将变得非常简单了。首先,我们需要定义一个新的HTMLParser类,以覆盖handle_data()方法,该方法是用来解析并文本数据的。
.....
http://blog.csdn.net/eting1987/article/details/6290428