辉子2020

爬虫(17)多线程练习图片爬取案例

文章目录

爬虫(17)多线程练习图片爬取案例
- 1. 多线程练习
- 2. 王者荣耀案例思路分析
- - 2.1 第一种方法：直接在Previews里面找
  - 2.2 第二种方法：通过json.cn网站解析
- 3. 获取数据
- - 3.1 取出字典里的url
  - 3.2 用parse.unquote()方法解析url
  - 3.3 修改url得到非封面大图地址
  - 3.4 定义一个函数来获取不同规格图片的url
  - 3.5 获取图片名字
  - 3.6 新键文件夹来存储图片(os模块的用法)
  - 3.7 爬取图片
  - - 3.7.1另一种方法
    - 3.7.2 完整代码
- 4. 多线程方式爬取图片

爬虫(17)多线程练习图片爬取案例

1. 多线程练习

我们对多线程的特点进行一下解释：
进程：系统中正在运行的应用程序。
单核的cpu一次只能执行一个进程，其他的进程处于非运行状态。多软件打开的时候，cpu在快速切换，由于速度之快，我们感受不到切换。
多核的cpu可以同时执行多个进程。
线程：进程中包含的执行单元。
一个进程可以包含多个线程。Python中一次只能执行一个线程。其他的都在阻塞和等待。原因就是有锁，防止多个线程竞争资源。
下面我们用普通方式和多线程方式来爬取王者荣耀高清图片来练习多线程爬虫。

2. 王者荣耀案例思路分析

我们的需求是要爬取王者荣耀的高清图片。网址在这里：https://pvp.qq.com/web201605/wallpaper.shtml
打开网页，下拉找到高清壁纸栏目，我们看到图片有三种规格：

我们要的是最后一个规格：1920×1200的高清图片。思路是只要找到图片对应的url就可以了。我们右键检查：

我们复制一下里面的url：http://shp.qpic.cn/ishow/2735011317/1610529849_84828260_19594_sProdImgNo_1.jpg/0
在网页上粘贴，回车查找。

得到的是一个小的封面图片。我们往下看有个ul标签，点击打开这个标签：

点开后发现有很多li标签，其中有三个li标签对应三个图片的规格：

我们点开其中第一个标签里面的href里的url发现是一个图片，后面每个li标签里的都是，规格不同。

下面我们分析一下整个页面的总标签是谁：

当我的鼠标放在一个id = "Work_List_Container_267733"的div标签上时，发现高清壁纸板块的所以图片被选中。那就是这个了。后面我的鼠标滑动到class = "p_newhero_item"的标签上的时候，其中一个图片被选中，那么这个标签时每张图片的位置。而其中的li标签是每张图片的不同规格：
下面我们查看一下总标签的id在不在网页源码里面：右键查看网页源码，Ctrl+F，在跳出的搜索框里粘贴id:

发先这个div标签里并没有url或者更多的信息。点击下一个，

也是这样。在下一个

下一个：

四个全部展开，没有我们要的信息。这就说明，这些数据并不在网页源码种，而是动态加载出来的。我们的办法有两个，一个是用selenium，一个是分析数据接口。今天我们分析数据接口。
点network，清空，然后刷新一下。点XHR看看加载内容：

通过标签的名字我们可以猜一猜：点一下herolist.json

点response看一下响应的数据：

在response收索框里输入jpg看看有没有这个文件。

我们只能去All里面去找了，后来找到了在一个worklist的元素里，有两个，内容是一样的，只不过时间戳不同。

我们点开下面的，然后点Response在出现的页面里Ctrl+F，在输入框里输入jpg，看到有180个jpg文件。那就是在这里了。

2.1 第一种方法：直接在Previews里面找

点击Preview：

复制最后一个高清的地址，然后到网页地址栏复制，回车发现并不能打开，这是因为这个地址是被编码过后的地址，需要我们解码一下：

from urllib import parse
img = parse.unquote('http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735012617%2F1611652314%5F84828260%5F14368%5FsProdImgNo%5F8%2Ejpg%2F200')
print(img)

输出：

D:\Python38\python.exe D:/work/爬虫/Day15/my_code/get_picture.py
http://shp.qpic.cn/ishow/2735012617/1611652314_84828260_14368_sProdImgNo_8.jpg/200

Process finished with exit code 0

把这个地址复制到网页地址栏里再试一下：

发现是封面小图。再次检查源码：

那我们把这里的url后面的200也改成0试试：

回车：

大图出现！鲜花在哪里？

2.2 第二种方法：通过json.cn网站解析

我们可以在Response里面复制其中的响应内容，然后打开json.cn网站，在左边输入框中粘贴进去：

打开json.cn网站：

发现报错了，不能正确解析，显示“无效的配置长度”。这是因为地址里有这样一段需要删除：

这是因为请求地址里有一段：
jsoncallback=jQuery的数据，原因是jQuery在解析jsoncallback时会返回jsoncallback的字符串，该字符串会被jsoncallback方法会所执行，执行时产生的数据会出现无法识别的问题。json.cn网站解析时就会报错。解决方法就是删除掉上图所示的数据。然后就能正确解析了。

后面的操作类似，就不再赘述了。以后遇到类似的问题都这样进行处理就可以了。

3. 获取数据

现在我们写代码来获取数据：

import requests


headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36','referer': 'https://pvp.qq.com/'}

def main():
    # 明确目标url
    page_url = 'https://apps.game.qq.com/cgi-bin/ams/module/ishow/V1.0/query/workList_inc.cgi?activityId=2735&sVerifyCode=ABCD&sDataType=JSON&iListNum=20&totalpage=0&page=0&iOrder=0&iSortNumClose=1&iAMSActivityId=51991&_everyRead=true&iTypeId=2&iFlowId=267733&iActId=2735&iModuleId=2735&_=1612141973825'
    # 把url里这一段删除：&jsoncallback=jQuery171013413315924847624_1612141973463
    res = requests.get(page_url,headers=headers)
    # 如果res.text 是个json类型的字符串
    print(type(res.json()),res.json())

if __name__ == '__main__':
    main()

执行结果：

 {'iBltFlag': '0', 'iCache': '1', 'iRet': '0', 'iTotalLines': '468', 'iTotalPages': '24', 'sMsg': 'Successful', 'List': [{'dtInputDT': '2021%2D01%2D26%2017%3A11%3A54', 'iBallotNum': '0', 'iClickNum': '0', 'iDownloadNum': '0', 'iNonsupportNum': '0', 'iProdId': '1669', 'iStatus': '1', 'sProdImgNo_1': 'http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735012617%2F1611652313%5F84828260%5F14368%5FsProdImgNo%5F1%2Ejpg%2F200', 'sProdImgNo_2': 'http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735012617%2F1611652313%5F84828260%5F14368%5FsProdImgNo%5F2%2Ejpg%2F200', 'sProdImgNo_3': 'http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735012617%2F1611652313%5F84828260%5F14368%5FsProdImgNo%5F3%2Ejpg%2F200', 'sProdImgNo_4': 'http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735012617%2F1611652313%5F84828260%5F14368%5FsProdImgNo%5F4%2Ejpg%2F200', 'sProdImgNo_5': 'http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735012617%2F1611652313%5F84828260%5F14368%5FsProdImgNo%5F5%2Ejpg%2F200', 'sProdImgNo_6': 'http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735012617%2F1611652313%5F84828260%5F14368%5FsProdImgNo%5F6%2Ejpg%2F200', 'sProdImgNo_7': 'http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735012617%2F1611652314%5F84828260%5F14368%5FsProdImgNo%5F7%2Ejpg%2F200', 'sProdImgNo_8': 'http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735012617%2F1611652314%5F84828260%5F14368%5FsProdImgNo%5F8%2Ejpg%2F200', 'sProdName': '%E8%8A%88%E6%9C%88%2D%E7%99%BD%E6%99%B6%E6%99%B6', 'sThumbURL': 'http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735012617%2F1611652313%5F84828260%5F14368%5FsProdImgNo%5F1%2Ejpg%2F200'}, {'dtInputDT': '2021%2D01%2D20%2015%3A15%3A41', 'iBallotNum': '0', 'iClickNum': '0', 'iDownloadNum': '0', 'iNonsupportNum': '0', 'iProdId': '1667', 'iStatus': '1', 'sProdImgNo_1': 'http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735012015%2F1611126939%5F84828260%5F23512%5FsProdImgNo%5F1%2Ejpg%2F200', 'sProdImgNo_2': 'http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735012015%2F1611126939%5F84828260%5F23512%5FsProdImgNo%5F2%2Ejpg%2F200', 'sProdImgNo_3': 'http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735012015%2F1611126939%5F84828260%5F23512%5FsProd'http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735121015%2F1607585084%5F84828260%5F20640%5FsProdImgNo%5F7%2Ejpg%2F200', 'sProdImgNo_8': 'http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735121015%2F1607585084%5F84828260%5F20640%5FsProdImgNo%5F8%2Ejpg%2F200', 'sProdName': '%E6%BE%9CCG%E3%80%8A%E7%9B%AE%E6%A0%87%E3%80%8B', 'sThumbURL': 'http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735121015%2F1607585083%5F84828260%5F20640%5FsProdImgNo%5F1%2Ejpg%2F200'}, {'dtInputDT': '2020%2D12%2D10%2015%3A24%3A13', 'iBallotNum': '0', 'iClickNum': '0', 'iDownloadNum': '0', 'iNonsupportNum': '0', 'iProdId': '1643', 'iStatus': '1', 'sProdImgNo_1': 'http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735121015%2F1607585051%5F84828260%5F6762%5FsProdImgNo%5F1%2Ejpg%2F200', 'sProdImgNo_2': 'http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735121015%2F1607585052%5F84828260%5F6762%5FsProdImgNo%5F2%2Ejpg%2F200', 'sProdImgNo_3': 'http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735121015%2F1607585052%5F84828260%5F6762%5FsProdImgNo%5F3%2Ejpg%2F200', 'sProdImgNo_4': 'http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735121015%2F1607585052%5F84828260%5F6762%5FsProdImgNo%5F4%2Ejpg%2F200', 'sProdImgNo_5': 'http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735121015%2F1607585052%5F84828260%5F6762%5FsProdImgNo%5F5%2Ejpg%2F200', 'sProdImgNo_6': 'http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735121015%2F1607585052%5F84828260%5F6762%5FsProdImgNo%5F6%2Ejpg%2F200', 'sProdImgNo_7': 'http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735121015%2F1607585052%5F84828260%5F6762%5FsProdImgNo%5F7%2Ejpg%2F200', 'sProdImgNo_8': 'http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735121015%2F1607585052%5F84828260%5F6762%5FsProdImgNo%5F8%2Ejpg%2F200', 'sProdName': '%E6%BE%9CCG%E3%80%8A%E7%9B%AE%E6%A0%87%E3%80%8B', 'sThumbURL': 'http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735121015%2F1607585051%5F84828260%5F6762%5FsProdImgNo%5F1%2Ejpg%2F200'}, {'dtInputDT': '2020%2D12%2D10%2015%3A19%3A54', 'iBallotNum': '0', 'iClickNum': '0', 'iDownloadNum': '0', 'iNonsupportNum': '0', 'iProdId': '1642', 'iStatus': '1', 'sProdImgNo_1': 'http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735121015%2F1607584793%5F84828260%5F11833%5FsProdImgNo%5F1%2Ejpg%2F200', 'sProdImgNo_2': 'http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735121015%2F1607584793%5F84828260%5F11833%5FsProdImgNo%5F2%2Ejpg%2F200', 'sProdImgNo_3': 'http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735121015%2F1607584793%5F84828260%5F11833%5FsProdImgNo%5F3%2Ejpg%2F200', 'sProdImgNo_4': 'http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735121015%2F1607584793%5F84828260%5F11833%5FsProdImgNo%5F4%2Ejpg%2F200', 'sProdImgNo_5': 'http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735121015%2F1607584794%5F84828260%5F11833%5FsProdImgNo%5F5%2Ejpg%2F200', 'sProdImgNo_6': 'http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735121015%2F1607584794%5F84828260%5F11833%5FsProdImgNo%5F6%2Ejpg%2F200', 'sProdImgNo_7': 'http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735121015%2F1607584794%5F84828260%5F11833%5FsProdImgNo%5F7%2Ejpg%2F200', 'sProdImgNo_8': 'http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735121015%2F1607584794%5F84828260%5F11833%5FsProdImgNo%5F8%2Ejpg%2F200', 'sProdName': '%E6%BE%9CCG%E3%80%8A%E7%9B%AE%E6%A0%87%E3%80%8B', 'sThumbURL': 
# 结果太长，就删掉了。

res.json()是requests第三方库所提供的将json数据类型转换为字典的方法(所以不需要import json)，json.loads(res.text)是python内置的模块，将json数据转换为字典。

3.1 取出字典里的url

我们观察打印结果，我们需要的数据在’List’这个键的值里。我们定义result来接收转换的字典。

import requests

headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36','referer': 'https://pvp.qq.com/'}

def main():
    # 明确目标url
    page_url = 'https://apps.game.qq.com/cgi-bin/ams/module/ishow/V1.0/query/workList_inc.cgi?activityId=2735&sVerifyCode=ABCD&sDataType=JSON&iListNum=20&totalpage=0&page=0&iOrder=0&iSortNumClose=1&iAMSActivityId=51991&_everyRead=true&iTypeId=2&iFlowId=267733&iActId=2735&iModuleId=2735&_=1612141973825'
 
    res = requests.get(page_url,headers=headers)

    result = res.json()   # 我们定义result来接收转换的字典

    datas = result['List'] # 取出'List'的所有值
    for data in datas:
        sProdImgNo_1 = data['sProdImgNo_1']   # 遍历datas取出'sProdImgNo_1'对应的值 
        print(sProdImgNo_1)


if __name__ == '__main__':
    main()

结果：

http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735012617%2F1611652313%5F84828260%5F14368%5FsProdImgNo%5F1%2Ejpg%2F200
http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735012015%2F1611126939%5F84828260%5F23512%5FsProdImgNo%5F1%2Ejpg%2F200
http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735011317%2F1610529879%5F84828260%5F27040%5FsProdImgNo%5F1%2Ejpg%2F200
http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735011313%2F1610516936%5F84828260%5F3358%5FsProdImgNo%5F1%2Ejpg%2F200
http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735010815%2F1610092059%5F84828260%5F6125%5FsProdImgNo%5F1%2Ejpg%2F200
http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735010717%2F1610011288%5F84828260%5F7033%5FsProdImgNo%5F1%2Ejpg%2F200
http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735010717%2F1610011206%5F84828260%5F4846%5FsProdImgNo%5F1%2Ejpg%2F200
http%3A%2F%2Fshp%2Eqpic%2Ecn%2Fishow%2F2735010716%2F1610009926%5F84828260%5F15453%5FsProd# 结果太长，就删掉了。

一共20个结果。我们在上一个版块介绍了，这个url是无法直接被使用的。

3.2 用parse.unquote()方法解析url

需要用parse.unquote()方法来解析一下。所以需要导入from urllib import parse。

import requests
from urllib import parse

headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36','referer': 'https://pvp.qq.com/'}

def main():
    # 明确目标url
    page_url = 'https://apps.game.qq.com/cgi-bin/ams/module/ishow/V1.0/query/workList_inc.cgi?activityId=2735&sVerifyCode=ABCD&sDataType=JSON&iListNum=20&totalpage=0&page=0&iOrder=0&iSortNumClose=1&iAMSActivityId=51991&_everyRead=true&iTypeId=2&iFlowId=267733&iActId=2735&iModuleId=2735&_=1612141973825'
    # 把url里这一段删除：&jsoncallback=jQuery171013413315924847624_1612141973463
    res = requests.get(page_url,headers=headers)

    result = res.json()
    
    datas = result['List']
    j = 0
    for data in datas:
   
        sProdImgNo_1 = parse.unquote(data['sProdImgNo_1'])
      
        print(sProdImgNo_1)
        j += 1
    print(j)


if __name__ == '__main__':
    main()

结果

http://shp.qpic.cn/ishow/2735012617/1611652313_84828260_14368_sProdImgNo_1.jpg/200
http://shp.qpic.cn/ishow/2735012015/1611126939_84828260_23512_sProdImgNo_1.jpg/200
http://shp.qpic.cn/ishow/2735011317/1610529879_84828260_27040_sProdImgNo_1.jpg/200
http://shp.qpic.cn/ishow/2735011313/1610516936_84828260_3358_sProdImgNo_1.jpg/200
http://shp.qpic.cn/ishow/2735010815/1610092059_84828260_6125_sProdImgNo_1.jpg/200
http://shp.qpic.cn/ishow/2735010717/1610011288_84828260_7033_sProdImgNo_1.jpg/200
http://shp.qpic.cn/ishow/2735010717/1610011206_84828260_4846_sProdImgNo_1.jpg/200
http://shp.qpic.cn/ishow/2735010716/1610009926_84828260_15453_sProdImgNo_1.jpg/200
http://shp.qpic.cn/ishow/2735010617/1609926266_84828260_29925_sProdImgNo_1.jpg/200
http://shp.qpic.cn/ishow/2735010616/1609921831_84828260_4181_sProdImgNo_1.jpg/200
http://shp.qpic.cn/ishow/2735121517/1608023389_84828260_23287_sProdImgNo_1.jpg/200
http://shp.qpic.cn/ishow/2735121114/1607666908_84828260_6772_sProdImgNo_1.jpg/200
http://shp.qpic.cn/ishow/2735121015/1607585083_84828260_20640_sProdImgNo_1.jpg/200
http://shp.qpic.cn/ishow/2735121015/1607585051_84828260_6762_sProdImgNo_1.jpg/200
http://shp.qpic.cn/ishow/2735121015/1607584793_84828260_11833_sProdImgNo_1.jpg/200
http://shp.qpic.cn/ishow/2735120117/1606814546_84828260_690_sProdImgNo_1.jpg/200
http://shp.qpic.cn/ishow/2735112718/1606472113_84828260_13758_sProdImgNo_1.jpg/200
http://shp.qpic.cn/ishow/2735111110/1605060341_84828260_22810_sProdImgNo_1.jpg/200
http://shp.qpic.cn/ishow/2735102010/1603161871_84828260_28416_sProdImgNo_1.jpg/200
http://shp.qpic.cn/ishow/2735092717/1601197753_84828260_29701_sProdImgNo_1.jpg/200
20

这次得到了能用的url，结果有20个。

3.3 修改url得到非封面大图地址

但这个地址得到的都是封面小图片，我们还需要将每个地址后面的200换成0

import requests
from urllib import parse

headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36','referer': 'https://pvp.qq.com/'}

def main():
    # 明确目标url
    page_url = 'https://apps.game.qq.com/cgi-bin/ams/module/ishow/V1.0/query/workList_inc.cgi?activityId=2735&sVerifyCode=ABCD&sDataType=JSON&iListNum=20&totalpage=0&page=0&iOrder=0&iSortNumClose=1&iAMSActivityId=51991&_everyRead=true&iTypeId=2&iFlowId=267733&iActId=2735&iModuleId=2735&_=1612141973825'
    # 把url里这一段删除：&jsoncallback=jQuery171013413315924847624_1612141973463
    res = requests.get(page_url,headers=headers)
  
    result = res.json() # 我们定义result来接收转换的字典

    datas = result['List'] # 取出'List'的所有值
    j = 0
    for data in datas:
       
        # 用parse.unquote()解析一下得到的url并处理一下将'200'换成'0'
        sProdImgNo_1 = parse.unquote(data['sProdImgNo_1']) .replace('200','0')

        print(sProdImgNo_1)
        j += 1
    print(j)


if __name__ == '__main__':
    main()

结果：

http://shp.qpic.cn/ishow/2735012617/1611652313_84828260_14368_sProdImgNo_1.jpg/0
http://shp.qpic.cn/ishow/2735012015/1611126939_84828260_23512_sProdImgNo_1.jpg/0
http://shp.qpic.cn/ishow/2735011317/1610529879_84828260_27040_sProdImgNo_1.jpg/0
http://shp.qpic.cn/ishow/2735011313/1610516936_84828260_3358_sProdImgNo_1.jpg/0
http://shp.qpic.cn/ishow/2735010815/1610092059_84828260_6125_sProdImgNo_1.jpg/0
http://shp.qpic.cn/ishow/2735010717/1610011288_84828260_7033_sProdImgNo_1.jpg/0
http://shp.qpic.cn/ishow/2735010717/1610011206_84828260_4846_sProdImgNo_1.jpg/0
http://shp.qpic.cn/ishow/2735010716/1610009926_84828260_15453_sProdImgNo_1.jpg/0
http://shp.qpic.cn/ishow/2735010617/1609926266_84828260_29925_sProdImgNo_1.jpg/0
http://shp.qpic.cn/ishow/2735010616/1609921831_84828260_4181_sProdImgNo_1.jpg/0
... ...

结果是可以使用的了。不过第一个地址里无论结尾是0还是200都是小图。

3.4 定义一个函数来获取不同规格图片的url

现在我们要拿到所有图不同规格的图片。我们分析过，不同的规格取决于sProdImgNo_1这个变量尾部的数字，我们可以定义一个函数来解决这个问题：

import requests
from urllib import parse

headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36','referer': 'https://pvp.qq.com/'}

# 定义一个函数来获取不同规格图片的url
def extract_images(data): # 传入的参数定义为data后面好对应
    # 定义一个空列表来装结果
    image_urls = []
    for x in range(1,9):
        image_url = parse.unquote(data['sProdImgNo_%d'%x]).replace('200', '0') # 处理的结果url尾部替换成0
        image_urls.append(image_url) # 把解析处理过的url添加进列表
    return image_urls # 把列表当作结果返回

def main():
    # 明确目标url
    page_url = 'https://apps.game.qq.com/cgi-bin/ams/module/ishow/V1.0/query/workList_inc.cgi?activityId=2735&sVerifyCode=ABCD&sDataType=JSON&iListNum=20&totalpage=0&page=0&iOrder=0&iSortNumClose=1&iAMSActivityId=51991&_everyRead=true&iTypeId=2&iFlowId=267733&iActId=2735&iModuleId=2735&_=1612141973825'
    # 把url里这一段删除：&jsoncallback=jQuery171013413315924847624_1612141973463
    res = requests.get(page_url,headers=headers)
    # 如果res.text 是个json类型的字符串
    # print(type(res.json()),res.json())  # res.json()是requests第三方库所提供的将json数据类型转换为字典的方法，所以不需要import json，json.loads(res.text)是python内置的模块，将json数据转换为字典。
    result = res.json() # 我们定义result来接收转换的字典
    # print(result)
    datas = result['List'] # 取出'List'的所有值

    for data in datas:
        
        # sProdImgNo_1 = parse.unquote(data['sProdImgNo_1']) .replace('200','0')
        image_urls = extract_images(data) # 直接用函数来接收遍历产生的data
      


if __name__ == '__main__':
    main()

3.5 获取图片名字

现在我们需要得到每个图片的名字和我们获得的图片对应。名字就是’sProdName’: ‘%E5%8F%B8%E7%A9%BA%E9%9C%87%2D%E5%90%AF%E8%9B%B0’，不过仍需要像解析url一样解析一下。

import requests
from urllib import parse

headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36','referer': 'https://pvp.qq.com/'}

# 定义一个函数来获取不同规格图片的url
def extract_images(data): # 传入的参数定义为data后面好对应
    # 定义一个空列表来装结果
    image_urls = []
    for x in range(1,9):
        image_url = parse.unquote(data['sProdImgNo_%d'%x]).replace('200', '0')
        image_urls.append(image_url) # 把解析处理过的url添加进列表
    return image_urls # 把列表当作结果返回

def main():
    # 明确目标url
    page_url = 'https://apps.game.qq.com/cgi-bin/ams/module/ishow/V1.0/query/workList_inc.cgi?activityId=2735&sVerifyCode=ABCD&sDataType=JSON&iListNum=20&totalpage=0&page=0&iOrder=0&iSortNumClose=1&iAMSActivityId=51991&_everyRead=true&iTypeId=2&iFlowId=267733&iActId=2735&iModuleId=2735&_=1612141973825'
    # 把url里这一段删除：&jsoncallback=jQuery171013413315924847624_1612141973463
    res = requests.get(page_url,headers=headers)
    # 如果res.text 是个json类型的字符串
    # print(type(res.json()),res.json())  # res.json()是requests第三方库所提供的将json数据类型转换为字典的方法，所以不需要import json，json.loads(res.text)是python内置的模块，将json数据转换为字典。
    result = res.json() # 我们定义result来接收转换的字典
    # print(result)
    datas = result['List'] # 取出'List'的所有值

    for data in datas:

        # sProdImgNo_1 = parse.unquote(data['sProdImgNo_1']) .replace('200','0')
        image_urls = extract_images(data) # 直接用函数来接收遍历产生的data
        name = parse.unquote(data['sProdName']) # 获取并解析图片名字
        # 打印查看一下结果
        print(name)
        print(image_urls)
        print('=*'*60)



if __name__ == '__main__':
    main()

得到的结果是：

芈月-白晶晶
['http://shp.qpic.cn/ishow/2735012617/1611652313_84828260_14368_sProdImgNo_1.jpg/0', 'http://shp.qpic.cn/ishow/2735012617/1611652313_84828260_14368_sProdImgNo_2.jpg/0', 'http://shp.qpic.cn/ishow/2735012617/1611652313_84828260_14368_sProdImgNo_3.jpg/0', 'http://shp.qpic.cn/ishow/2735012617/1611652313_84828260_14368_sProdImgNo_4.jpg/0', 'http://shp.qpic.cn/ishow/2735012617/1611652313_84828260_14368_sProdImgNo_5.jpg/0', 'http://shp.qpic.cn/ishow/2735012617/1611652313_84828260_14368_sProdImgNo_6.jpg/0', 'http://shp.qpic.cn/ishow/2735012617/1611652314_84828260_14368_sProdImgNo_7.jpg/0', 'http://shp.qpic.cn/ishow/2735012617/1611652314_84828260_14368_sProdImgNo_8.jpg/0']
=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*
镜-炽阳神光
['http://shp.qpic.cn/ishow/2735012015/1611126939_84828260_23512_sProdImgNo_1.jpg/0', 'http://shp.qpic.cn/ishow/2735012015/1611126939_84828260_23512_sProdImgNo_2.jpg/0', 'http://shp.qpic.cn/ishow/2735012015/1611126939_84828260_23512_sProdImgNo_3.jpg/0', 'http://shp.qpic.cn/ishow/2735012015/1611126939_84828260_23512_sProdImgNo_4.jpg/0', 'http://shp.qpic.cn/ishow/2735012015/1611126940_84828260_23512_sProdImgNo_5.jpg/0', 'http://shp.qpic.cn/ishow/2735012015/1611126940_84828260_23512_sProdImgNo_6.jpg/0', 'http://shp.qpic.cn/ishow/2735012015/1611126940_84828260_23512_sProdImgNo_7.jpg/0', 'http://shp.qpic.cn/ishow/2735012015/1611126940_84828260_23512_sProdImgNo_8.jpg/0']
=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*
司空震-启蛰
['http://shp.qpic.cn/ishow/2735011317/1610529879_84828260_27040_sProdImgNo_1.jpg/0', 'http://shp.qpic.cn/ishow/2735011317/1610529879_84828260_27040_sProdImgNo_2.jpg/0', 'http://shp.qpic.cn/ishow/2735011317/1610529879_84828260_27040_sProdImgNo_3.jpg/0', 'http://shp.qpic.cn/ishow/2735011317/1610529879_84828260_27040_sProdImgNo_4.jpg/0', 'http://shp.qpic.cn/ishow/2735011317/1610529879_84828260_27040_sProdImgNo_5.jpg/0', 'http://shp.qpic.cn/ishow/2735011317/1610529880_84828260_27040_sProdImgNo_6.jpg/0', 'http://shp.qpic.cn/ishow/2735011317/1610529880_84828260_27040_sProdImgNo_7.jpg/0', 'http://shp.qpic.cn/ishow/2735011317/1610529880_84828260_27040_sProdImgNo_8.jpg/0']
=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*
司空震-雷霆之王
['http://shp.qpic.cn/ishow/2735011313/1610516936_84828260_3358_sProdImgNo_1.jpg/0', 'http://shp.qpic.cn/ishow/2735011313/1610516936_84828260_3358_sProdImgNo_2.jpg/0', 'http://shp.qpic.cn/ishow/2735011313/1610516936_84828260_3358_sProdImgNo_3.jpg/0', 'http://shp.qpic.cn/ishow/2735011313/1610516936_84828260_3358_sProdImgNo_4.jpg/0', 'http://shp.qpic.cn/ishow/2735011313/1610516936_84828260_3358_sProdImgNo_5.jpg/0', 'http://shp.qpic.cn/ishow/2735011313/1610516936_84828260_3358_sProdImgNo_6.jpg/0', 'http://shp.qpic.cn/ishow/2735011313/1610516937_84828260_3358_sProdImgNo_7.jpg/0', 'http://shp.qpic.cn/ishow/2735011313/1610516937_84828260_3358_sProdImgNo_8.jpg/0']
=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*=*
# 结果太长删掉了

每个名字下面有8套url。

3.6 新键文件夹来存储图片(os模块的用法)

下面我们要把图片的名字作为文件夹的名字新键文件夹来存储图片。这用到一个python内置的os模块。
下面我们举例说明os模块的用法：

import os

os.mkdir('我的文件') # 创建文件夹的方法，第一个参数是文件夹名，这里我以'我的文件'命名；运行有就会在程序所在的文件夹里创建文件夹'我的文件'

文明在E盘中的一个叫imge的文件夹中新建“我的文件夹2”

import os

# os.mkdir('我的文件') # 创建文件夹的方法，第一个参数是文件夹名，这里我以'我的文件'命名；运行有就会在程序所在的文件夹里创建文件夹'我的文件'
dirpath = os.path.join('E:\image','我的文件夹2') # 第一个参数是你要新建文件夹所在的文件夹的路径，第二个参数是新键的文件夹名，返回值是新键文件夹的路径
print(dirpath)
os.mkdir(dirpath) # 在E:\image\我的文件夹2这个路径中新建文件夹

打印结果是os.path.join(‘E:\image’,‘我的文件夹2’)的返回值，用dirpath 来接收的

E:\image\我的文件夹2

是新键文件夹的路径，我们把这个路径作为参数传入os.mkdir()方法，结果就照这个路径创建了这个文件夹

现在我们应用这个知识点来为获得的图片新建文件夹：

import requests
from urllib import parse
import os

headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36','referer': 'https://pvp.qq.com/'}

# 定义一个函数来获取不同规格图片的url
def extract_images(data): # 传入的参数定义为data后面好对应
    # 定义一个空列表来装结果
    image_urls = []
    for x in range(1,9):
        image_url = parse.unquote(data['sProdImgNo_%d'%x]).replace('200', '0')
        image_urls.append(image_url) # 把解析处理过的url添加进列表
    return image_urls # 把列表当作结果返回

def main():
    # 明确目标url
    page_url = 'https://apps.game.qq.com/cgi-bin/ams/module/ishow/V1.0/query/workList_inc.cgi?activityId=2735&sVerifyCode=ABCD&sDataType=JSON&iListNum=20&totalpage=0&page=0&iOrder=0&iSortNumClose=1&iAMSActivityId=51991&_everyRead=true&iTypeId=2&iFlowId=267733&iActId=2735&iModuleId=2735&_=1612141973825'
    # 把url里这一段删除：&jsoncallback=jQuery171013413315924847624_1612141973463
    res = requests.get(page_url,headers=headers)
    # 如果res.text 是个json类型的字符串
    # print(type(res.json()),res.json())  # res.json()是requests第三方库所提供的将json数据类型转换为字典的方法，所以不需要import json，json.loads(res.text)是python内置的模块，将json数据转换为字典。
    result = res.json() # 我们定义result来接收转换的字典
    # print(result)
    datas = result['List'] # 取出'List'的所有值

    for data in datas:

        # sProdImgNo_1 = parse.unquote(data['sProdImgNo_1']) .replace('200','0')
        image_urls = extract_images(data) # 直接用函数来接收遍历产生的data
        name = parse.unquote(data['sProdName']) # 获取并解析图片名字
        # 在E盘里新建文件夹来存储图片，文件夹以name命名
        dirpath = os.path.join('E:\image',name)  # 获得新建文件夹的路径
        os.mkdir(dirpath)  # 将路径传入os.mkdir()方法
        
 
if __name__ == '__main__':
    main()

3.7 爬取图片

下一步就是爬取图片了：

import requests
from urllib import parse
import os

headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36','referer': 'https://pvp.qq.com/'}

# 定义一个函数来获取不同规格图片的url
def extract_images(data): # 传入的参数定义为data后面好对应
    # 定义一个空列表来装结果
    image_urls = []
    for x in range(1,9):
        image_url = parse.unquote(data['sProdImgNo_%d'%x]).replace('200', '0')
        image_urls.append(image_url) # 把解析处理过的url添加进列表
    return image_urls # 把列表当作结果返回

def main():
    # 明确目标url
    page_url = 'https://apps.game.qq.com/cgi-bin/ams/module/ishow/V1.0/query/workList_inc.cgi?activityId=2735&sVerifyCode=ABCD&sDataType=JSON&iListNum=20&totalpage=0&page=0&iOrder=0&iSortNumClose=1&iAMSActivityId=51991&_everyRead=true&iTypeId=2&iFlowId=267733&iActId=2735&iModuleId=2735&_=1612141973825'
    # 把url里这一段删除：&jsoncallback=jQuery171013413315924847624_1612141973463
    res = requests.get(page_url,headers=headers)
    # 如果res.text 是个json类型的字符串
    # print(type(res.json()),res.json())  # res.json()是requests第三方库所提供的将json数据类型转换为字典的方法，所以不需要import json，json.loads(res.text)是python内置的模块，将json数据转换为字典。
    result = res.json() # 我们定义result来接收转换的字典
    # print(result)
    datas = result['List'] # 取出'List'的所有值
    k = 0
    for data in datas:
        k += 1  # 用来区分重名的文件夹
        # sProdImgNo_1 = parse.unquote(data['sProdImgNo_1']) .replace('200','0')
        image_urls = extract_images(data) # 直接用函数来接收遍历产生的data
        name = parse.unquote(data['sProdName']) # 获取并解析图片名字
        # 在E盘里新建文件夹来存储图片，文件夹以name命名
        dirpath = os.path.join('E:\image',name+str(k))
        os.mkdir(dirpath)
        for index,image_url in enumerate(image_urls):
            res = requests.get(image_url,headers=headers)
            with open(dirpath+'\%d.jpg'%(index+1),'wb') as f:
                f.write(res.content)
        
        print('%s下载完成'%(name+str(k)))


if __name__ == '__main__':
    main()

执行结果

芈月-白晶晶1下载完成
镜-炽阳神光2下载完成
司空震-启蛰3下载完成
司空震-雷霆之王4下载完成
孙悟空-零号·雷霆5下载完成
元歌-云间偶戏6下载完成
亚瑟-潮玩骑士王7下载完成
狄仁杰-万华元夜8下载完成
虞姬-启明星使9下载完成
孙悟空-零号·赤焰10下载完成
孙膑-天狼运算者11下载完成
澜-孤猎12下载完成
澜CG《目标》13下载完成
澜CG《目标》14下载完成
澜CG《目标》15下载完成
云中君-纤云弄巧16下载完成
澜-鲨之猎刃17下载完成
鬼谷子-原初探秘者18下载完成
裴擒虎-李小龙19下载完成
小乔-天鹅之梦20下载完成

在E盘image文件夹里装满了20个图片文件夹

需要说明的是，在下载的时候发现有重名的文件夹，会报错文件夹已经存在无法创建。所以这里为了使文件夹不重名，就在遍历的时候添加一个变量k，让k累加，作为文件夹名的尾号，这样就解决问题了。

3.7.1另一种方法

我们也可以用另外一种请求方法，需要导入一个模块：

from urllib import request

request.urlretrieve(image_url,os.path.join(dirpath,'%d.jpg'%(index+1)))

上述代码里面的参数解释：

传入第一个参数是你所请求的url,第二个是fielder,或fielder path，就是我们下载的路径。
路径os.path.join(dirpath,’%d.jpg’%(index+1))里传入第一个我们的路径，第二个在这个路径里新建文件名
index是从0开始的，我们加1作为图片文件名。

3.7.2 完整代码

完整代码：

import requests
from urllib import parse
import os
from urllib import request

headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36','referer': 'https://pvp.qq.com/'}

# 定义一个函数来获取不同规格图片的url
def extract_images(data): # 传入的参数定义为data后面好对应
    # 定义一个空列表来装结果
    image_urls = []
    for x in range(1,9):
        image_url = parse.unquote(data['sProdImgNo_%d'%x]).replace('200', '0')
        image_urls.append(image_url) # 把解析处理过的url添加进列表
    return image_urls # 把列表当作结果返回

def main():
    # 明确目标url
    page_url = 'https://apps.game.qq.com/cgi-bin/ams/module/ishow/V1.0/query/workList_inc.cgi?activityId=2735&sVerifyCode=ABCD&sDataType=JSON&iListNum=20&totalpage=0&page=0&iOrder=0&iSortNumClose=1&iAMSActivityId=51991&_everyRead=true&iTypeId=2&iFlowId=267733&iActId=2735&iModuleId=2735&_=1612141973825'
    # 把url里这一段删除：&jsoncallback=jQuery171013413315924847624_1612141973463
    res = requests.get(page_url,headers=headers)
    # 如果res.text 是个json类型的字符串
    # print(type(res.json()),res.json())  # res.json()是requests第三方库所提供的将json数据类型转换为字典的方法，所以不需要import json，json.loads(res.text)是python内置的模块，将json数据转换为字典。
    result = res.json() # 我们定义result来接收转换的字典
    # print(result)
    datas = result['List'] # 取出'List'的所有值
    os.mkdir('E:\image_1') # 在E盘创建一个新的文件夹
    k = 0
    for data in datas:
        k += 1  # 用来区分重名的文件夹
        # sProdImgNo_1 = parse.unquote(data['sProdImgNo_1']) .replace('200','0')
        image_urls = extract_images(data) # 直接用函数来接收遍历产生的data
        name = parse.unquote(data['sProdName']) # 获取并解析图片名字
        # 在E盘里新建文件夹来存储图片，文件夹以name命名

        dirpath = os.path.join('E:\image_1',name+str(k))
        os.mkdir(dirpath)
        for index,image_url in enumerate(image_urls):
            # 传入第一个参数是你所请求的url,第二个是fielder,或fielder path，就是我们下载的路径。
            # 路径os.path.join(dirpath,'%d.jpg'%(index+1))里传入第一个我们的路径，第二个在这个路径里新建文件名
            # index是从0开始的，我们加1作为图片文件名
            request.urlretrieve(image_url,os.path.join(dirpath,'%d.jpg'%(index+1)))

        print('%s下载完成'%(name+str(k)))


if __name__ == '__main__':
    main()

结果在我的E盘有了一个新的文件夹

里面装满了下载的图片：

4. 多线程方式爬取图片

我们创建两个队列，队列一存放每一页的url。定义一个生产者，从队列一当中去请求每一页的url地址。拿到response，解析每一页的url，获取每页图片的url以及名字name。创建一个队列二，存放图片的url以及图片的name。定义一个消费者，从队列二取出图片的url地址，发出请求，并下载图片。当然还有name。上升到多线程，程序的复杂度提高，页容易出现Bug。爬取速度变快，会给服务器带来压力，希望注意，道德爬取。

你可能感兴趣的:(爬虫)

Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
python爬取微信小程序数据,python爬取小程序数据 2301_81900439 前端
大家好，小编来为大家解答以下问题，python爬取微信小程序数据，python爬取小程序数据，现在让我们一起来看看吧！Python爬虫系列之微信小程序实战基于Scrapy爬虫框架实现对微信小程序数据的爬取首先，你得需要安装抓包工具，这里推荐使用Charles，至于怎么使用后期有时间我会出一个事例最重要的步骤之一就是分析接口，理清楚每一个接口功能，然后连接起来形成接口串思路,再通过Spider的回调
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
Python精选200Tips：121-125 AnFany Python200+Tips python 开发语言
Spendyourtimeonself-improvement121Requests-简化的HTTP请求处理发送GET请求发送POST请求发送PUT请求发送DELETE请求会话管理处理超时文件上传122BeautifulSoup-网页解析和抓取解析HTML和XML文档查找单个标签查找多个标签使用CSS选择器查找标签提取文本修改文档内容删除标签处理XML文档123Scrapy-强大的网络爬虫框架示例
爬虫技术抓取网站数据被限制怎么处理 Bearjumpingcandy 爬虫
爬虫技术用于抓取网站数据时，可能会遇到一些限制，常见的包括反爬机制、速率限制、IP封禁等。以下是应对这些情况的一些策略：尊重robots.txt：每个网站都有robots.txt文件，遵循其中的规定可以避免触犯网站的抓取规则。设置合理频率：控制爬虫请求的速度，通过添加延迟或使用代理服务器，减少对目标网站的压力。使用代理：获取并使用代理IP地址可以更换访问来源，降低被识别的可能性。模拟用户行为：使用
网站推广爬虫 Bearjumpingcandy 爬虫
网站推广爬虫是一种用于升网站曝光度和推广效果的工具。它通过自动化地访问和收集网站信息，从而实现对目标网站的广告、关键词、排名等数据进行分析和优化。以下是网站推广爬虫的一些介绍：数据收集：网站推广爬虫可以自动访问目标网站，并收集相关的数据，如网站流量、关键词排名、竞争对手信息等。这些数据可以帮助网站推广人员了解网站的现状和竞争环境，从而制定相应的推广策略。关键词优化：通过分析搜索引擎的关键词排名情况
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是一种自动化获取网站数据的技术，它可以模拟人类浏览器的行为，访问网页并提取所需的信息。以下是爬虫技术抓取网站数据的一般步骤：发起HTTP请求：爬虫首先会发送HTTP请求到目标网站，获取网页的内容。解析HTML：获取到网页内容后，爬虫会使用HTML解析器解析HTML代码，提取出需要的数据。数据提取：通过使用XPath、CSS选择器或正则表达式等工具，爬虫可以从HTML中提取出所需的数据，如文
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是指通过程序自动访问网页并提取数据的技术。一般来说，爬虫技术包含以下几个步骤：确定目标网站：确定需要抓取的网站，并了解其页面结构和数据特点。分析页面结构：分析网页的结构和源代码，找到需要抓取的数据在页面中的位置和标识。编写爬虫程序：使用编程语言（如Python）编写爬虫程序，实现对目标网站的自动访问和数据提取。处理抓取数据：对抓取到的数据进行清洗、去重、整合等处理，以便后续的分析和利用。爬
爬虫之隧道代理：如何在爬虫中使用代理IP？ 2401_87251497 python 开发语言爬虫网络 tcp/ip 网络协议
在进行网络爬虫时，使用代理IP是一种常见的方式来绕过网站的反爬虫机制，提高爬取效率和数据质量。本文将详细介绍如何在爬虫中使用隧道代理，包括其原理、优势以及具体的实现方法。无论您是爬虫新手还是有经验的开发者，这篇文章都将为您提供实用的指导。什么是隧道代理？隧道代理是一种高级的代理技术，它通过创建一个加密的隧道，将数据从客户端传输到代理服务器，再由代理服务器转发到目标服务器。这样不仅可以隐藏客户端的真
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
python抓取网页内容401应该用哪个库_python3使用requests模块爬取页面内容入门坂田月半
python的爬虫相关模块有很多，除了requests模块，再如urllib和pycurl以及tornado等。相比而言，requests模块是相对简单易上手的。通过文本，大家可以迅速学会使用python的requests模块爬取页码内容。1.Requests唯一的一个非转基因的PythonHTTP库，人类可以安全享用。官网：http://cn.python-requests.org/zh_CN/
【Python爬虫】百度百科词条内容 PokiFighting 数据处理 python 爬虫开发语言
词条内容我这里随便选取了一个链接，用的是FBI的词条importurllib.requestimporturllib.parsefromlxmlimportetreedefquery(url):headers={'user-agent':'Mozilla/5.0(WindowsNT6.1;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/80.
爬虫和代理IP的关系 xiaoxiongip666 爬虫 tcp/ip 服务器
爬虫和代理IP之间的关系是相互依存的。代理IP为爬虫提供了绕过IP限制、隐藏真实IP、提高访问速度等能力，使得爬虫能够更有效地进行数据抓取。然而，在使用时也需要注意合法性、稳定性、成本以及隐私保护等问题。
python语言爬虫爬取歌曲程序代码 EYYLTV python 爬虫 android
importrequestssong_urls=[“http://music.163.com/song/media/outer/url?id=25795016.mp3”,“https://m703.music.126.net/20240915140140/670dfe5c0144991d4cb778d6662fd762/jd-musicrep-privatecloud-audio-public/o
python语言爬虫爬取歌曲代码X EYYLTV python 爬虫 java
importrequestssong_urls=[“https://m804.music.126.net/20240915142147/4e01caa69abda60b165e185607805ee1/jdyyaac/obj/w5rDlsOJwrLDjj7CmsOj/30379084686/b56a/dbd5/39fc/792d87f5d7014bb78547ec3804eeaac5.m4a?au
拼多多商家电话采集工具爬虫教程分享小电商达人爬虫
以下是使用Python编写的拼多多商家电话采集爬虫教程：一、前期准备安装Python：从Python官方网站下载并安装最新版本的Python，安装过程中注意勾选将Python添加到系统路径选项。安装相关库：在命令提示符中运行以下命令来安装所需的库。pipinstallrequests：用于发送HTTP请求获取网页内容。pipinstallbeautifulsoup4：用于解析HTML页面。二、分析
Python爬虫代理池极客李华 python授课 python 爬虫开发语言
Python爬虫代理池网络爬虫在数据采集和信息抓取方面起到了关键作用。然而，为了应对网站的反爬虫机制和保护爬虫的真实身份，使用代理池变得至关重要。1.代理池的基本概念：代理池是一组包含多个代理IP地址的集合。通过在爬虫中使用代理池，我们能够隐藏爬虫的真实IP地址，实现一定程度的匿名性。这有助于防止被目标网站封锁或限制访问频率。2.为何使用代理池：匿名性：代理池允许爬虫在请求目标网站时使用不同的IP
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
10个高效的Python爬虫框架，你用过几个？进击的C语言 python
小型爬虫需求，requests库+bs4库就能解决；大型爬虫数据，尤其涉及异步抓取、内容管理及后续扩展等功能时，就需要用到爬虫框架了。下面介绍了10个爬虫框架，大家可以学习使用！1.Scrapyscrapy官网：https://scrapy.org/scrapy中文文档：https://www.osgeo.cn/scrapy/intro/oScrapy是一个为了爬取网站数据，提取结构性数据而编写的
python爬虫(5)之CSDN It is a deal️ 小项目 python json 爬虫
CSDN的爬虫相对于doubatop250更加简单，一般只需要title和url即可下面是相关的代码：#爬虫之csdn#分析urlhttps://www.csdn.net/api/articles?type=more&category=python&shown_offset=0（firstpage）#https://www.csdn.net/api/articles?type=more&categ
python学习第七节：正则表达式一只会敲代码的小灰灰 python学习 python 学习正则表达式
python学习第七节：正则表达式正则表达式基本上在所有开发语言中都会使用到，在python中尤为重要。当我们使用python开发爬虫程序将目标网页扒下来之后我们要从网页中解析出我们想要的信息，这个时候就需要正则表达式去进行匹配。importrere的常量re模块中有9个常量，常量的值都是int类型！（知道就行）修饰符描述re.l使匹配对大小写不敏感re.L做本地化识别(locale-aware)
分布式框架Celery七(Django-Celery-Flower实现异步和定时爬虫及其监控邮件告警) yjjpp2301 Celery 分布式 django python 后端
Django中集成方式安装模块pipinstallDjango==3.2.22pipinstallcelerypipinstallredispipinstalleventlet#在windows环境下需要安装eventlet包-----------pipinstalldjango-celery-beatpipinstalldjango-celery-resultspipinstalldjango-
生产者消费者模式_Labview基础之生产者消费者设计模式（事件） weixin_39532699 生产者消费者模式
1绪论近期，开了一个QQ群，刚开始的目的也是想多拉写软件相关的大神，有问题的时候也可以交流交流。记得当时有个软件在写的时候遇到了一个棘手的问题，outlook邮箱配置账户密码的问题，到现在也没解决，算了，也不是很迫切。2000人群就留在那里爬虫发单吧！建群以后才发现，原来这一块的小白还挺多，总结起来就一个原因：做这个软件的大多数都不是软件出生，都是因为临时要搭建一个上位机平台，匆匆入门......
Python——爬虫星和月 python
当编写一个Python爬虫时，你可以使用BeautifulSoup库来解析网页内容，使用requests库来获取网页的HTML代码。下面是一个简单的示例，演示了如何获取并解析网页内容：importrequestsfrombs4importBeautifulSoup#发送HTTP请求获取网页内容url='https://www.example.com'#要爬取的网页的URLresponse=requ
Python数据分析之股票信息可视化实现matplotlib Blogfish Python3 大数据 python 可视化数据分析
今天学习爬虫技术数据分析对于股票信息的分析及结果呈现，目标是实现对股票信息的爬取并对数据整理后，生成近期成交量折线图。首先，做这个案例一定要有一个明确的思路。知道要干啥，知道用哪些知识，有些方法我也记不住百度下知识库很强大，肯定有答案。有思路以后准备对数据处理，就是几个方法使用了。接口地址参考：Tushare数据涉及知识库：tushare-一个财经数据开放接口；pandas-实现将数据整理为表格，
knob UI插件使用换个号韩国红果果 JavaScript jsonp knob
图形是用canvas绘制的 js代码 var paras = { max:800, min:100, skin:'tron',//button type thickness:.3,//button width width:'200',//define canvas width.,canvas height displayInput:'tr
Android+Jquery Mobile学习系列(5)-SQLite数据库白糖_ JQuery Mobile
目录导航 SQLite是轻量级的、嵌入式的、关系型数据库，目前已经在iPhone、Android等手机系统中使用,SQLite可移植性好，很容易使用，很小，高效而且可靠。因为Android已经集成了SQLite，所以开发人员无需引入任何JAR包，而且Android也针对SQLite封装了专属的API，调用起来非常快捷方便。我也是第一次接触S
impala-2.1.2-CDH5.3.2 dayutianfei impala
最近在整理impala编译的东西，简单记录几个要点：根据官网的信息（https://github.com/cloudera/Impala/wiki/How-to-build-Impala）： 1. 首次编译impala，推荐使用命令： ${IMPALA_HOME}/buildall.sh -skiptests -build_shared_libs -format 2.仅编译BE ${I
求二进制数中1的个数周凡杨 java 算法二进制
解法一：对于一个正整数如果是偶数，该数的二进制数的最后一位是 0 ，反之若是奇数，则该数的二进制数的最后一位是 1 。因此，可以考虑利用位移、判断奇偶来实现。 public int bitCount(int x){ int count = 0; while(x!=0){ if(x%2!=0){ /
spring中hibernate及事务配置 g21121 Hibernate
hibernate的sessionFactory配置：  <bean id="sessionFactory" class="org.springframework.orm.hibernate3.LocalSessionFactoryBean"> <
log4j.properties 使用 510888780 log4j
log4j.properties 使用一.参数意义说明输出级别的种类 ERROR、WARN、INFO、DEBUG ERROR 为严重错误主要是程序的错误 WARN 为一般警告，比如session丢失 INFO 为一般要显示的信息，比如登录登出 DEBUG 为程序的调试信息配置日志信息输出目的地 log4j.appender.appenderName = fully.qua
Spring mvc-jfreeChart柱图（2）布衣凌宇 jfreechart
上一篇中生成的图是静态的，这篇将按条件进行搜索，并统计成图表，左面为统计图，右面显示搜索出的结果。第一步：导包第二步；配置web.xml(上一篇有代码) 建BarRenderer类用于柱子颜色 import java.awt.Color; import java.awt.Paint; import org.jfree.chart.renderer.category.BarR
我的spring学习笔记14-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。 PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java
maven 之 cobertura 简单使用 antlove maven test unit cobertura report
1. 创建一个maven项目 2. 创建com.CoberturaStart.java package com; public class CoberturaStart { public void helloEveryone(){ System.out.println("=================================================
程序的执行顺序百合不是茶 JAVA执行顺序
刚在看java核心技术时发现对java的执行顺序不是很明白了,百度一下也没有找到适合自己的资料,所以就简单的回顾一下吧代码如下; 经典的程序执行面试题 //关于程序执行的顺序 //例如： //定义一个基类 public class A(){ public A(
设置session失效的几种方法 bijian1013 web.xml session失效监听器
在系统登录后，都会设置一个当前session失效的时间，以确保在用户长时间不与服务器交互，自动退出登录，销毁session。具体设置很简单，方法有三种：（1）在主页面或者公共页面中加入：session.setMaxInactiveInterval(900);参数900单位是秒，即在没有活动15分钟后，session将失效。这里要注意这个session设置的时间是根据服务器来计算的，而不是客户端。所
java jvm常用命令工具 bijian1013 java jvm
一.概述程序运行中经常会遇到各种问题，定位问题时通常需要综合各种信息，如系统日志、堆dump文件、线程dump文件、GC日志等。通过虚拟机监控和诊断工具可以帮忙我们快速获取、分析需要的数据，进而提高问题解决速度。本文将介绍虚拟机常用监控和问题诊断命令工具的使用方法，主要包含以下工具: &nbs
【Spring框架一】Spring常用注解之Autowired和Resource注解 bit1129 Spring常用注解
Spring自从2.0引入注解的方式取代XML配置的方式来做IOC之后，对Spring一些常用注解的含义行为一直处于比较模糊的状态，写几篇总结下Spring常用的注解。本篇包含的注解有如下几个： Autowired Resource Component Service Controller Transactional 根据它们的功能、目的，可以分为三组，Autow
mysql 操作遇到safe update mode问题 bitray update
我并不知道出现这个问题的实际原理,只是通过其他朋友的博客,文章得知的一个解决方案,目前先记录一个解决方法,未来要是真了解以后,还会继续补全. 在mysql5中有一个safe update mode,这个模式让sql操作更加安全,据说要求有where条件,防止全表更新操作.如果必须要进行全表操作,我们可以执行 SET
nginx_perl试用 ronin47 nginx_perl试用
因为空闲时间比较多，所以在CPAN上乱翻，看到了nginx_perl这个项目(原名Nginx::Engine)，现在托管在github.com上。地址见：https://github.com/zzzcpan/nginx-perl 这个模块的目的，是在nginx内置官方perl模块的基础上，实现一系列异步非阻塞的api。用connector/writer/reader完成类似proxy的功能（这里
java-63-在字符串中删除特定的字符 bylijinnan java
public class DeleteSpecificChars { /** * Q 63 在字符串中删除特定的字符 * 输入两个字符串，从第一字符串中删除第二个字符串中所有的字符。 * 例如，输入”They are students.”和”aeiou”，则删除之后的第一个字符串变成”Thy r stdnts.” */ public static voi
EffectiveJava--创建和销毁对象 ccii 创建和销毁对象
本章内容： 1. 考虑用静态工厂方法代替构造器 2. 遇到多个构造器参数时要考虑用构建器（Builder模式） 3. 用私有构造器或者枚举类型强化Singleton属性 4. 通过私有构造器强化不可实例化的能力 5. 避免创建不必要的对象 6. 消除过期的对象引用 7. 避免使用终结方法 1. 考虑用静态工厂方法代替构造器类可以通过
[宇宙时代]四边形理论与光速飞行 comsci
从四边形理论来推论为什么光子飞船必须获得星光信号才能够进行光速飞行？一组星体组成星座向空间辐射一组由复杂星光信号组成的辐射频带，按照四边形-频率假说一组频率就代表一个时空的入口那么这种由星光信号组成的辐射频带就代表由这些星体所控制的时空通道，该时空通道在三维空间的投影是一
ubuntu server下python脚本迁移数据 cywhoyi python Kettle pymysql cx_Oracle ubuntu server
因为是在Ubuntu下，所以安装python、pip、pymysql等都极其方便，sudo apt-get install pymysql，但是在安装cx_Oracle（连接oracle的模块）出现许多问题，查阅相关资料，发现这边文章能够帮我解决，希望大家少走点弯路。http://www.tbdazhe.com/archives/602 1.安装python 2.安装pip、pymysql
Ajax正确但是请求不到值解决方案 dashuaifu Ajax async
Ajax正确但是请求不到值解决方案解决方案：1 . async: false , 2. 设置延时执行js里的ajax或者延时后台java方法！！！！！！！例如： $.ajax({ &
windows安装配置php+memcached dcj3sjt126com PHP Install memcache
Windows下Memcached的安装配置方法 1、将第一个包解压放某个盘下面，比如在c:\memcached。 2、在终端（也即cmd命令界面）下输入 'c:\memcached\memcached.exe -d install' 安装。 3、再输入： 'c:\memcached\memcached.exe -d start' 启动。（需要注意的: 以后memcached将作为windo
iOS开发学习路径的一些建议 dcj3sjt126com ios
iOS论坛里有朋友要求回答帖子，帖子的标题是：想学IOS开发高阶一点的东西，从何开始，然后我吧啦吧啦回答写了很多。既然敲了那么多字，我就把我写的回复也贴到博客里来分享，希望能对大家有帮助。欢迎大家也到帖子里讨论和分享，地址：http://bbs.csdn.net/topics/390920759 下面是我回复的内容：结合自己情况聊下iOS学习建议，
Javascript闭包概念 fanfanlovey JavaScript 闭包
1.参考资料 http://www.jb51.net/article/24101.htm http://blog.csdn.net/yn49782026/article/details/8549462 2.内容概述要理解闭包，首先需要理解变量作用域问题内部函数可以饮用外面全局变量 var n=999; 　　functio
yum安装mysql5.6 haisheng mysql
1、安装http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm 2、yum install mysql 3、yum install mysql-server 4、vi /etc/my.cnf 添加character_set_server=utf8
po/bo/vo/dao/pojo的详介 IT_zhlp80 java BO VO DAO POJO po
JAVA几种对象的解释 PO:persistant object持久对象,可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作. VO:value object值对象。通常用于业务层之间的数据传递，和PO一样也是仅仅包含数据而已。但应是抽象出的业务对象,可
java设计模式 kerryg java 设计模式
设计模式的分类：一、设计模式总体分为三大类： 1、创建型模式（5种）：工厂方法模式，抽象工厂模式，单例模式，建造者模式，原型模式。 2、结构型模式（7种）：适配器模式，装饰器模式，代理模式，外观模式，桥接模式，组合模式，享元模式。 3、行为型模式（11种）：策略模式，模版方法模式，观察者模式，迭代子模式，责任链模式，命令模式，备忘录模式，状态模式，访问者
[1]CXF3.1整合Spring开发webservice——helloworld篇木头.java spring webservice CXF
Spring 版本3.2.10 CXF 版本3.1.1 项目采用MAVEN组织依赖jar 我这里是有parent的pom，为了简洁明了，我直接把所有的依赖都列一起了，所以都没version，反正上面已经写了版本 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="ht
Google 工程师亲授：菜鸟开发者一定要投资的十大目标 qindongliang1922 工作感悟人生
身为软件开发者，有什么是一定得投资的？ Google 软件工程师 Emanuel Saringan 整理了十项他认为必要的投资，第一项就是身体健康，英文与数学也都是必备能力吗？来看看他怎么说。（以下文字以作者第一人称撰写））你的健康无疑地，软件开发者是世界上最久坐不动的职业之一。每天连坐八到十六小时，休息时间只有一点点，绝对会让你的鲔鱼肚肆无忌惮的生长。肥胖容易扩大罹患其他疾病的风险，
linux打开最大文件数量1,048,576 tianzhihehe c linux
File descriptors are represented by the C int type. Not using a special type is often considered odd, but is, historically, the Unix way. Each Linux process has a maximum number of files th
java语言中PO、VO、DAO、BO、POJO几种对象的解释衞酆夼 java VO BO POJO po
PO:persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作。 BO:business object业务对象封装业务逻辑的java对象

爬虫(17)多线程练习 图片爬取案例

文章目录

爬虫(17)多线程练习 图片爬取案例

1. 多线程练习

2. 王者荣耀案例思路分析

2.1 第一种方法：直接在Previews里面找

2.2 第二种方法：通过json.cn网站解析

3. 获取数据

3.1 取出字典里的url

3.2 用parse.unquote()方法解析url

3.3 修改url得到非封面大图地址

3.4 定义一个函数来获取不同规格图片的url

3.5 获取图片名字

3.6 新键文件夹来存储图片(os模块的用法)

3.7 爬取图片

3.7.1另一种方法

3.7.2 完整代码

4. 多线程方式爬取图片

你可能感兴趣的:(爬虫)

爬虫(17)多线程练习图片爬取案例

爬虫(17)多线程练习图片爬取案例