爬虫学习一 : 打开特定网页获取信息

#coding=utf-8

#===============================================================================
#import urllib2

#content=urllib2.urlopen('http://blog.csdn.net/yuri_4_vera').read()

#以上运行结果
#urllib2.HTTPError: HTTP Error 403: Forbidden

#=================================================================================

import urllib2  
import re  #引入正则表达式
  
#模仿用浏览器访问
headers = {  
    'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'  
}  
req = urllib2.Request(  
    url = 'http://blog.csdn.net/shawncheer',  
    headers = headers  
)  
  
content = urllib2.urlopen(req).read()  

#解码,如果不解码,就会出现乱码现象。
content=content.decode("utf8")  

#正则表达式:(?<=<li>).+?(?=</li>) 
result = re.findall(r'(?<=<li>).+?(?=</li>)',content)  
  
for x in xrange(0,7):  
    print result[x]  
    pass  
爬虫学习一 : 打开特定网页获取信息_第1张图片

你可能感兴趣的:(爬虫学习一 : 打开特定网页获取信息)