用python正则表达式提取网页的url

用正则表达式提取URL
import re
import urllib
url=raw_input()
s=urllib.urlopen(url).read()
ss=s.replace('\n','')   
urls=re.findall('<a.*?href=.*?<\/a>',ss,re.I)
for i in urls:
print i


不过这样也有一点问题,如果"<a href="  里面有用到javascript,且用到一个  "> " 小于号的话
就会匹配其他错误的URL,大家有什么更好办法不妨告诉我.

你可能感兴趣的:(正则表达式,python)