1、内容:
2、Python IDE工具:
科学计算和数据分析:Canopy、Anaconda
3、Python网络爬虫与信息提取:
Request库:
(1)安装:pip install request
(2)验证:python IDLE中
>>> import requests
>>> r = requests.get("http://www.baidu.com")
>>> print r.status_code #200为访问成功
>>>type(r) #
>>>r.headers #头信息
(3)方法讲解:
(1)requests.request(method,url,**kwargs)
(2) . r = requests.get(url,params=None,**kwargs)
构造一个向服务器请求支资源的Request对象,返回一个包含服务器资源的Response对象;
#url:拟获取的url链接;
#params:额外参数,字典或字节流格式,可选;
#**kwargs:12个控制访问的参数;
(3)其它方法均是通过调用requests来实现的。
(4)Response:
4、爬取网页的通用代码框架
网络连接有风险,异常处理很重要;
Eg:
#/usr/bin/env.python
import requests
def getHTMLText(url):
try:
r = requests.get(url,timeout=30)
r.raise_for_status()
r.encoding=r.apparent_encoding
return r.text
except:
return "wrong"
if __name__=="__main__":
url = "http://www.baidu.com"
print getHTMLText(url)
HTTP:超文本传输协议,基于“请求与响应”模式的、的无状态应用层协议。
URL格式:http://host[:port][path] #host:主机和IP; port:端口,缺省为80;path:请求资源的路径