爬虫requests库的简单爬取

import requests
r = requests.get(“http://www.baidu.com”) #选取网站
r.status_code 检查调取是否正确,为200则正确
r.encoding 猜测的响应编码方式
r.apparent_encoding 准确的响应编码方式
r.content 编码的二进制形式
r.headers 头部文件
r.text r的内容

爬取百度的内容
def getHtml(url):
try:
r = requests.get(url,timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return “异常”

if name == “main”:
url = “http://www.baidu.com”
print(getHtml(url))

3:
#获取头部信息
r = requests.head(“http://www.baidu.com”)
print(r.headers)
print(r.text)

4:
#爬取京东商品信息
url = “https://www.jd.com/”
try:
r = requests.get(url)
r.raise_for_status()
r.encoding = r.apparent_encoding
print(r.text[:1000])
except:
print(‘爬取失败’)

5:
#爬取亚马逊
url = ‘https://www.amazon.cn/?tag=360bz47-23&ref=pz_amazon_360_Title’
try:
kv = {‘user-agent’:‘Mozilla/5.0’}
r = requests.get(url,headers=kv)
r.raise_for_status()
r.encoding = r.apparent_encoding
print(r.text[1000:2000])
except:
print(‘爬取失败’)

6:
#爬取百度搜索
keyword = ‘Python’
try:
kv = {‘wd’:keyword} #360为q,www.so.com
r = requests.get(“http://www.baidu.com/s”,params=kv)
print(r.request.url)
r.raise_for_status()
print(r.text)
except:
print(‘爬取失败’)

你可能感兴趣的:(爬虫requests库的简单爬取)