爬取网站信息实例1

1、爬取京东华为手机信息请求:
import requests
url='https://pro.jd.com/mall/active/3QxGBykRhcABgSuQo5yJ6sxVogMb/index.html'
def jingdong():
try:
r = requests.get(url, timeout=30)
r.raise_for_status() # 如果状态不是200,引发HTTPError异常
r.encoding = r.apparent_encoding # 根据响应内容指定编码格式utf-8
print(r.text[:1000])
except:
return '爬取失败'
print(r.request.headers)

image.png

2、修改请求头模拟浏览器爬取亚马逊商品信息:
def yamaxun():
kv={'user-agent':'Mozilla/5.0'}#模拟浏览器爬取网站信息
url='https://www.amazon.cn/gp/product/B08MF6GCHN'
try:
r = requests.get(url, headers=kv)#修改请求头信息
r.raise_for_status() # 如果状态不是200,引发HTTPError异常
r.encoding = r.apparent_encoding # 根据响应内容指定编码格式utf-8
print(r.text[:1000])
except:
return '爬取失败'
print(r.request.headers,r.status_code,r.text)

image.png

image.png

3、爬取百度搜索关键字信息代码示例:


image.png

import requests
def getHTMLText(url):
kv={'wd':'Python'}#定义关键字信息
try:
r=requests.get(url,params=kv,timeout=30)
r.raise_for_status()#如果状态不是200,引发HTTPError异常
r.encoding=r.apparent_encoding#根据响应内容指定编码格式utf-8
print(r.url,r.status_code)
#return r.text
except:
return '爬取失败'
if name == 'main':
url='https://www.baidu.com'
print(getHTMLText(url))

image.png

你可能感兴趣的:(爬取网站信息实例1)