python爬虫入门笔记:五个爬虫实列(jd,亚马逊爬取,关键词,图片, ip)

jd爬取实列

 import requests
url = "https://item.jd.com/100007381674.html#crumb-wrap"
try:
    r= requests.get(url)
    r.raise_for_status()//状态码不是200 会产生异常
    r.encoding = r.apparent_encoding
    print(r.text[:1000])# 字符切片
except:
    print("完犊子")



    
    
    【三星Note10+】三星 Galaxy Note10+5G 12GB+256GB 莫奈彩 (SM-N9760)5G手机 骁龙855 智慧型S Pen 双卡双待  游戏手机【行情 报价 价格 评测】-京东
    
    
    
    
    
    
    
        
    import requests
url='https://www.amazon.cn/gp/product/B01N28GUGS/ref=s9_acsd_hps_bw_c_x_3_w?pf_rd_m=A1U5RCOVU0NYF2&pf_rd_s=merchandised-search-top-3&pf_rd_r=SHVPP2F645H8X1CPVAEF&pf_rd_t=101&pf_rd_p=895c24b4-a095-417b-82a9-7c3cd0855f64&pf_rd_i=1997322071'
r = requests.get(url) #会导致503
r.request.headers #获得use-agent发现是 python爬虫不被允许 修改为正常浏览器的头
kv={'user-agent':'Mozilla/5.0'}
r = requests.get(url,headers = kv)
r.status_code
200

百度360搜索关键词提交关键词

百度的关键词接口

http://www.baidu.con/s?wd=keyword

360的关键词接口

http://www.so.com/s?q=keyword

import requests
keyword = 'python'
kv = {'wd':keyword}
url="http://www.baidu.com/s"
r = requests.get(url,params = kv) #在连接中加入 参数
print( r.status_code)
r.raise_for_status()
print(len(r.text)) # 打印长度
200
460577
## 网络图片的存储和爬取
import requests
import os

url ="http://img0.dili360.com/ga/M01/48/E0/wKgBzFmyTcaACuVKACZ-qAthuNY888.tub.jpg"
root = "D://pythontry//"
path =root+ url.split("/")[-1] #将网址切片 获得图片名字
try:
    if not os.path.exists(root): #如果没有文件夹存在就创建一个文件夹
        os.mkdir(root)
    if not os.path.exists(path): #如果文件没有存在 就创建文件
        r = requests.get(url)
    print(r.status_code)
        with open(path,'wb') as f: #创建一个名为f的file对象
        f.write(r.content)
        f.close()
        print("all done")
except:
    print('over')
200
all done

IP地归属地查询

www.ip138.com 提供了内容 分析得 接口
http://ip138.com/ips138.asp?ip=address

import requests

kv ={
    "ip":"14.215.177.39"
}

try:
    r = requests.get("http://ip138.com/ips138.asp",params =kv)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[7000:7500])
except:
    pirnt('不知道什么鬼地方错了')
orm>

ip138.com IP查询(搜索IP地址的地理位置)

您查询的IP:14.215.177.39

  • 本站数据:广东省广州市 电信
  • 参考数据1:广东广州 电信
  • 参考数据2:广东省 电信
  • 兼容IPv6地址:::0ED7:B127
  • 映射IPv6地址:::FFFF:0ED7:B127
idc公司

你可能感兴趣的:(python爬虫入门笔记)