Python-Requests库网络爬取实战

目录

1.京东商品页面的爬取

2.亚马逊商品页面的爬取

3.百度/360搜索关键词提交

4.网络图片的爬取和存储

5. IP地址归属地的自动查询


1.京东商品页面的爬取

>>> import requests
>>> url = "https://item.jd.com/57150995672.html"
>>> try:
	r = requests.get(url);
	r.raise_for_status();
	r.encoding = r.apparent_encoding;
	print(r.text[:1000]);
except:
	print("爬取失败");

#运行结果:



    
    
    【现货速发-国行正品】苹果 iPhone 11 Pro 全网通手机 金色 256GB【图片 价格 品牌 报价】-京东
    
    
    
    
    
    
    

2.亚马逊商品页面的爬取

添加了反爬取测试,requests无法成功爬取

>>> import requests
>>> url = "https://www.amazon.cn/gp/product/B01M8L5Z3Y";
>>> try:
	r = requests.get(url);
	r.raise_for_status();
	r.encoding = r.apparent_encoding;
	print(r.text[1000:2000]);
except Exception as e:
	print("爬取失败:{}".format(e));
#运行结构
#爬取失败

>>> import requests
>>> url = "https://www.amazon.cn/gp/product/B01M8L5Z3Y";
>>> try:
	kv = {'user-agent':'Mozilla/5.0'};
	r = requests.get(url,headers=kv);
	r.raise_for_status();
	r.encoding = r.apparent_encoding;
	print(r.text[1000:2000]);
except Exception as e:
	print("爬取失败:{}".format(e));
#运行结果
\n\n
\n
\n \n

请输入您在下方看到的字符

\n

抱歉,我们只是想确认一下当前访问者并非自动程序。为了达到最佳效果,请确保您浏览器上的 Cookie 已启用。

\n
\n
\n\n
\n\n
\n
\n\n
\n \n
\n
\n
\n

请输入您在这个图片中看到的字符:

\n

3.百度/360搜索关键词提交

  • 百度关键词接口 http://www.baidu.com/s?wd=keyword
  • 360关键词接口 http://www.so.com/s?q=keyword
import requests

url = "http://www.baidu.com/s";
kv1 = {'wd':'Python'};
kv2 = {'user-agent':'Mozilla/5.0'};

try:
    r = requests.get(url,params=kv1,headers=kv2);
    r.encoding = r.apparent_encoding;
    r.raise_for_status();
    print(r.status_code);
    print(r.text[:2000]);
except:
    print("爬取失败");
#运行结构
200



    
    百度安全验证
    
    
    
    
    
    
    
    
    
    


    
网络不给力,请稍后重试

问题反馈

import requests

url = "http://www.so.com/s";
kv1 = {'wd':'Python'};
kv2 = {'user-agent':'Mozilla/5.0'};

try:
    r = requests.get(url,params=kv1,headers=kv2);
    r.encoding = r.apparent_encoding;
    r.raise_for_status();
    print(r.status_code);
    print(r.text[:2000]);
except:
    print("爬取失败");
#运行结果
200









360搜索,SO靠谱









本文仅为学习Python记录,资料来源于中国大学MOOC《Python网络爬虫与信息提取》—嵩天

你可能感兴趣的:(Python,爬取网站,requests库应用)