python爬虫学习第一天2020.3.29

python爬虫学习第一天(这里写自定义目录标题)

requests库的安装以及学习

安装的指令,在命令提示符中输入pip install requests 即可安装成功

requests相关笔记

python爬虫学习第一天2020.3.29_第1张图片
python爬虫学习第一天2020.3.29_第2张图片python爬虫学习第一天2020.3.29_第3张图片
python爬虫学习第一天2020.3.29_第4张图片
python爬虫学习第一天2020.3.29_第5张图片
python爬虫学习第一天2020.3.29_第6张图片

import requests
url = "https://item.jd.com/100009078856.html"
try:
    r = requests.get(url)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[:1000])
except:
    print("爬取失败")


 '''
如果爬取时网页有禁止爬虫访问的,可以使用。

'''
import requests
url = "https://www.amazon.cn/dp/B07Q2S1FT8/ref=sr_1_1"
try:
    kv = {
     'user-agent':'Morilla/5.0'}  #创建一个键值对
    r = requests.get(url,headers = kv)  #获取url信息,将头部信息换成键值对
    r.raise_for_status()  #获取的状态
    r.encoding = r.apparent_encoding  #将编码进行转换
    print(r.text[1000:2000])  #打印内容,切片
except:
    print("爬取失败")


python爬虫学习第一天2020.3.29_第7张图片
接下来是第三个案例,关键词爬取。百度和360搜索类似。
python爬虫学习第一天2020.3.29_第8张图片
python爬虫学习第一天2020.3.29_第9张图片

import requests
keyword = "python"
try:
    kv = {
     'wd':keyword}  #创建键值对
    r = requests.get("https://www.baidu.com/",params = kv)
    print(r.request.url)  #得到请求的链接
    r.raise_for_status()
    print(len(r.text))  #获取内容的长度
except:
    print("爬取失败")

接下来是图片爬取和储存。这个法子是找到图片的链接,然后再爬取。比较不实用,哈哈。

import requests
import os
url = "https://dss0.bdstatic.com/5aV1bjqh_Q23odCf/static/superman/img/qrcode/zbios_old-09b6296ee6.png"
root ="C://Users//admin//Desktop//pic//"
path = root + url.split('/')[-1]  #将保存的路径加上链接的最后一个斜杠后面的内容,
                                 #相当于用原来的图片名字命名
try:
    if not os.path.exists (root):
        os.mkdir(root)
    if not os.path.exists(path):
        r = requests.get(url)
        with open(path,'wb') as f:
            f.write(r.content)
            f.close()
            print("文件保存成功")
    else:
        print("文件已存在")
except:
    print("爬取失败")
    

今天最后一个,ip地址归属地的自动查询
python爬虫学习第一天2020.3.29_第10张图片

你可能感兴趣的:(python爬虫学习第一天2020.3.29)