用正则表达式提取URL
import re
import urllib
url=raw_input()
s=urllib.urlopen(url).read()
ss=s.replace('\n','')
urls=re.findall('<a.*?href=.*?<\/a>',ss,re.I)
for i in urls:
print i
不过这样也有一点问题,如果"<a href=" 里面有用到javascript,且用到一个 "> " 小于号的话
就会匹配其他错误的URL,大家有什么更好办法不妨告诉我.