250王牌

python爬虫实践（高级篇）——爬取P站图片

上一个文章我就简简单单爬了一下官方站点的壁纸，突然间感觉78张壁纸太少了，就想再加大力度去扒图片。

刚好，在B站找到一个志趣相投的UP主，跟我一样想弄到一些关于《天使降临到我身边》。

与这位UP主的对话。为保护他人隐私信息安全，已把部分信息马进行遮掩处理。

对呀！我可以爬P站呀！

P站搜索结果页面。

就选它了！

前提

Python的运行环境肯定要有了，要安装request库（如果没有请使用管理员CMD或者在PyCharm里面安装），当然还要一个IDE，IDE可以选择PyCharm，这是一个比较好的IDE。

工具备好后，你还要有Python和HTML的语言基础，会使用requests库，这次相比我的上一个文章而言，你还要懂一些HTTP协议的相关知识。

首先我在这里说一句：请尊重画师的劳动成果！因此扒到的图片仅用于个人用途！相信各位在爬虫的入门课的时候（应该说是在进入编程行业的时候）就已经了解版权的相关问题。再次强调一次：扒到的图片仅用于个人用途！除非画师给你授权！

其次我希望各位先尝试自己去思考解决方案，毕竟爬虫这个东西是需要日积月累才能很好地去使用，虽然P站有点难爬，但是如果你认真分析请求数据，其实可以找到突破点的，至少还没有像QQ音乐那样那么难。

开始工作

玩过P站的人都知道，玩P站是需要登录的。所以第一件要解决的事情是如何模拟登录。

我稍微看了一下登录界面的POST数据，就发现P站的反爬措施比较巨核（没有任何夸张成分），post_key的值可以在页面获取，但是难点在于如何破解reCATPCHA（P站甚至使用reCATPCHA的V3版本，V3的reCATPCHA是最新版本，也是最难破），我也不可能花大资金去弄一个AI进行机器训练（我也没在这方面深入了解）。由于UP主说他的图片不多了，急需图片。所以我另辟蹊径：就在浏览器正常登录后，使用生成的Cookie登录。至于如何通过Python全程自动模拟登录，我将在下期文章讲述。

正常请求的表单数据。就画框的地方让我抓狂！为保护个人隐私信息安全，已把部分信息马进行遮掩处理。

而P站的图片比较多，固然会让一些盗图党（滑稽）利用，因此官网多多少少肯定会有一些反爬措施。最基础的检查手段就是检查UA头和referer头是否正常。

向搜索页面发出的请求头。其中画框的头是我们爬虫必须要用到的.。

现在就可以先敲一段代码了，来设置请求头。

import requests
import time # 这个玩意就很有必要了，尤其对于这种图片大站

headers = {
    "cookie": "", # 根据自己的浏览器情况填写，UA头也是
    "user-agent": "",
    "referer": "https://www.pixiv.net/ajax/search/artworks/%E7%A7%81%E3%81%AB%E5%A4%A9%E4%BD%BF%E3%81%8C%E8%88%9E%E3%81%84%E9%99%8D%E3%82%8A%E3%81%9F?word=%E7%A7%81%E3%81%AB%E5%A4%A9%E4%BD%BF%E3%81%8C%E8%88%9E%E3%81%84%E9%99%8D%E3%82%8A%E3%81%9F&order=date_d&mode=all&p=1&s_mode=s_tag&type=all"
}

现在就开始分析搜索页面的结构。打开调试工具后，在搜索框搜索你自己喜欢的动漫的图片。这篇我以《天使降临到我身边》为例。

如果有一些小伙伴没有细心观察，就以为直接利用select字符串来定位到图片元素，然后获取URL就OK。但我只能说一句：“too young!”，第一在搜索页面的图片全部都是缩略图，不是原图，因此需要获取作品ID，再跳转到作品展示页面，展示页面才是原图；第二也是很重要的，P站的搜索页面是利用JS动态发出AJAX请求，然后根据获得的数据来渲染页面的，因此如果只是单纯GET请求搜索页面是获取不到任何有价值的信息。

有些小伙伴可能会认为必须调用selenium库来模拟浏览器行为，加载JS，从而通过BeautifulSoup获取链接。其实无必要，因为如果这样的话很影响程序执行效率，尤其我们要爬取上百的图片。我们可以利用AJAX请求得到的数据找到突破点。

打开调试工具，点击Network，设置筛选条件的数据类型为“XHR"，这时会显示数据交换格式（JSON、XML格式）。

搜索页面的请求。

得到的数据都是JSON类型。可能有些小伙伴不知道应该向哪个页面的数据深入了解。这时尝试把“私に天使が舞い降りた（日文，天使降临到我身边）”转化为URL编码：

 %E7%A7%81%E3%81%AB%E5%A4%A9%E4%BD%BF%E3%81%8C%E8%88%9E%E3%81%84%E9%99%8D%E3%82%8A%E3%81%9F

很快发现有哪些数据需要注意。

调试工具界面的一部分。画框部分就是注意的地方。

其中第一个页面没有我们想要的东西，但是第二个页面有惊喜。

JSON数据。画框的值就是我们需要的东西。

由于每个data元素下的结构基本一致，所以可以通过循环批量获取作品ID。

继续敲键盘。

import requests
import time # 这个玩意就很有必要了，尤其对于这种图片大站

headers = {
    "cookie": "", # 根据自己的浏览器情况填写，UA头也是
    "user-agent": "",
    "referer": "https://www.pixiv.net/ajax/search/artworks/%E7%A7%81%E3%81%AB%E5%A4%A9%E4%BD%BF%E3%81%8C%E8%88%9E%E3%81%84%E9%99%8D%E3%82%8A%E3%81%9F?word=%E7%A7%81%E3%81%AB%E5%A4%A9%E4%BD%BF%E3%81%8C%E8%88%9E%E3%81%84%E9%99%8D%E3%82%8A%E3%81%9F&order=date_d&mode=all&p=1&s_mode=s_tag&type=all"
}
URL = "https://www.pixiv.net/ajax/search/artworks/%E7%A7%81%E3%81%AB%E5%A4%A9%E4%BD%BF%E3%81%8C%E8%88%9E%E3%81%84%E9%99%8D%E3%82%8A%E3%81%9F?word=%E7%A7%81%E3%81%AB%E5%A4%A9%E4%BD%BF%E3%81%8C%E8%88%9E%E3%81%84%E9%99%8D%E3%82%8A%E3%81%9F&order=date_d&mode=all&p=1&s_mode=s_tag&type=all"
session = requests.get(URL, headers=headers)
JSON = session.json()
i = 0
while i < len(JSON["body"]["illustManga"]["data"]):
    print(JSON["body"]["illustManga"]["data"][i]["id"])
    i += 1

效果图。全部作品ID都弄出来了。

现在就解决如何获取作品ID里面的原图。

现在就打开调试工具，在搜索页面随便打开一个作品（最好打开一个作品ID有多个图片的页面），然后就会跳转到作品展示的页面。

由于P站使用SPA（别想错了，是单页面web应用的意思），到了作品展示的页面可以刷新一下，避免因为调试工具列表过多而寻找突破点有点困难。

作品展示页面。

作品展示页面的请求。现在你可能没有找到什么破绽。

点击“查看全部”，然后再去看调试工具，你会发现惊喜。

作品展示页面的请求。画框的页面就是突破点。

该页面的JSON数据，画框的地方就是原图。

为什么我说这个是原图的URL，你尝试返回作品展示的页面，放大某个图片，右键点击复制图片链接。就发现原来如此。

范例。

如果这样，可以知道如何爬取一个作品ID的全部页面，那么继续研究如何批量爬取搜索页面的全部ID的图片，关键是如何获取每个作品ID的JSON页面。

请观察刚才的JSON数据的URL：

https://www.pixiv.net/ajax/illust/80048627/pages?lang=zh

发现https://www.pixiv.net/ajax/illust/${ID}/pages?lang=zh的关系，因此可以先尝试爬取一个搜索页面的全部图片，敲键盘。

import requests
import time # 这个玩意就很有必要了，尤其对于这种图片大站

headers = {
    "cookie": "", # 根据自己的浏览器情况填写，UA头也是
    "user-agent": "",
    "referer": "https://www.pixiv.net/ajax/search/artworks/%E7%A7%81%E3%81%AB%E5%A4%A9%E4%BD%BF%E3%81%8C%E8%88%9E%E3%81%84%E9%99%8D%E3%82%8A%E3%81%9F?word=%E7%A7%81%E3%81%AB%E5%A4%A9%E4%BD%BF%E3%81%8C%E8%88%9E%E3%81%84%E9%99%8D%E3%82%8A%E3%81%9F&order=date_d&mode=all&p=1&s_mode=s_tag&type=all"
}
URL = "https://www.pixiv.net/ajax/search/artworks/%E7%A7%81%E3%81%AB%E5%A4%A9%E4%BD%BF%E3%81%8C%E8%88%9E%E3%81%84%E9%99%8D%E3%82%8A%E3%81%9F?word=%E7%A7%81%E3%81%AB%E5%A4%A9%E4%BD%BF%E3%81%8C%E8%88%9E%E3%81%84%E9%99%8D%E3%82%8A%E3%81%9F&order=date_d&mode=all&p=1&s_mode=s_tag&type=all"
session = requests.get(URL, headers=headers)
JSON = session.json()
i = j = 0
while i < len(JSON["body"]["illustManga"]["data"]):
    ID = JSON["body"]["illustManga"]["data"][i]["id"]
    URL = "https://www.pixiv.net/ajax/illust/"+ID+"/pages?lang=zh"
    session = requests.get(URL, headers=headers)
    JSON1 = session.json()
    while j < len(JSON1["body"]):
        print(JSON1["body"][j]["urls"]["original"])
        j += 1
    j = 0
    i += 1

效果图。第一个搜索页面的图片全部URL都撬出来了。

URL弄出来了，那要解决下载方面问题，由于P站本身被墙，加上是用梯子，而且还要下载上百张的图片，所以稳定性方面的问题就不得不重视了。因此不建议使用Python里面的下载部件，最好使用第三方下载引擎，例如迅雷。

但是官方没有说明如何调用其API，不过我在网上溜了一下，也是有办法的，而且亲测有效。

from win32com.client import Dispatch # 引入相关库

api = Dispatch('ThunderAgent.Agent64.1') # 用于迅雷最新版本
# 参数
# api.AddTask(下载链接, 保存文件名)
# 一般而言保存文件名也可不用填，因为迅雷会自动根据URL填写，如有需要可填写
api.AddTask(${URL})
# 可以多次AddTask，到最后CommitTasks才统一把任务发送到迅雷
api.CommitTasks()

继续敲键盘

import requests
import time # 这个玩意就很有必要了，尤其对于这种图片大站
from win32com.client import Dispatch

api = Dispatch('ThunderAgent.Agent64.1')
headers = {
    "cookie": "", # 根据自己的浏览器情况填写，UA头也是
    "user-agent": "",
    "referer": "https://www.pixiv.net/ajax/search/artworks/%E7%A7%81%E3%81%AB%E5%A4%A9%E4%BD%BF%E3%81%8C%E8%88%9E%E3%81%84%E9%99%8D%E3%82%8A%E3%81%9F?word=%E7%A7%81%E3%81%AB%E5%A4%A9%E4%BD%BF%E3%81%8C%E8%88%9E%E3%81%84%E9%99%8D%E3%82%8A%E3%81%9F&order=date_d&mode=all&p=1&s_mode=s_tag&type=all"
}
URL = "https://www.pixiv.net/ajax/search/artworks/%E7%A7%81%E3%81%AB%E5%A4%A9%E4%BD%BF%E3%81%8C%E8%88%9E%E3%81%84%E9%99%8D%E3%82%8A%E3%81%9F?word=%E7%A7%81%E3%81%AB%E5%A4%A9%E4%BD%BF%E3%81%8C%E8%88%9E%E3%81%84%E9%99%8D%E3%82%8A%E3%81%9F&order=date_d&mode=all&p=1&s_mode=s_tag&type=all"
session = requests.get(URL, headers=headers)
JSON = session.json()
i = j = 0
while i < len(JSON["body"]["illustManga"]["data"]):
    ID = JSON["body"]["illustManga"]["data"][i]["id"]
    URL = "https://www.pixiv.net/ajax/illust/"+ID+"/pages?lang=zh"
    session = requests.get(URL, headers=headers)
    JSON1 = session.json()
    while j < len(JSON1["body"]):
        URL = JSON1["body"][j]["urls"]["original"]
        api.AddTask(URL)
        print(URL)
        j += 1
    j = 0
    i += 1
    time.sleep(0.5)
api.CommitTasks()

效果图。程序运行完后就会弹出迅雷下载确认框。为保护个人隐私信息安全，已把部分信息马进行遮掩处理。

好了，我们的程序基本上差不多完工了，现在解决的问题是如何爬取剩下的搜索页面。

各位尝试按顺序切换页面，观察JSON页面的URL的变化：

https://www.pixiv.net/ajax/search/artworks/%E7%A7%81%E3%81%AB%E5%A4%A9%E4%BD%BF%E3%81%8C%E8%88%9E%E3%81%84%E9%99%8D%E3%82%8A%E3%81%9F?word=%E7%A7%81%E3%81%AB%E5%A4%A9%E4%BD%BF%E3%81%8C%E8%88%9E%E3%81%84%E9%99%8D%E3%82%8A%E3%81%9F&order=date_d&mode=all&p=2&s_mode=s_tag&type=all&lang=zh

注意GET里面的查询字符串的“p=2”，这个就是控制页数的关键，起始页数为1。可以挂起一个循环了。

另外我还要提醒一点，我听说P站不仅仅检查referer头是不是自家的域名，还会看查询字符串是否正常，因此我建议referer也动态改变，跟请求的URL是一模一样的。

至于搜索结果总共有多少页，可以计算在JSON数据里的total（作品总数）除以60（默认每个页面的作品量），有余数要加1（相信各位的数学不是体育老师教的（滑稽）），然后用于循环控制，不过我相信8页左右的图都满足你了，毕竟你还要把一些不好的图给删掉。在这个程序当中，总共有三个循环，第一层循环用于控制页数，第二个循环用于控制每个搜索页面的作品ID，第三个循环用于抓取该作品ID的全部图片。

搜索页面的JSON数据。画框的地方就是作品总数。

继续敲键盘，与此同时稍微增强一些功能

import requests
import time  # 这个玩意就很有必要了，尤其对于这种图片大站
from win32com.client import Dispatch

api = Dispatch('ThunderAgent.Agent64.1')
i = j = 0
k = 1  # 搜索页面从1开始
count = 0  # 计数有多少个图片
begin = int(time.time())  # 好奇算一下时长
while k <= 8:  # 至于要爬多少你自己定了
    URL = "https://www.pixiv.net/ajax/search/artworks/%E7%A7%81%E3%81%AB%E5%A4%A9%E4%BD%BF%E3%81%8C%E8%88%9E%E3%81%84%E9%99%8D%E3%82%8A%E3%81%9F?word=%E7%A7%81%E3%81%AB%E5%A4%A9%E4%BD%BF%E3%81%8C%E8%88%9E%E3%81%84%E9%99%8D%E3%82%8A%E3%81%9F&order=date_d&mode=all&p="+str(k)+"&s_mode=s_tag&type=all"
    headers = {
        "cookie": "",  # 根据自己的浏览器情况填写，UA头也是
        "user-agent": "",
        "referer": URL
    }
    session = requests.get(URL, headers=headers)
    print("获得"+URL+"的JSON数据")
    JSON = session.json()
    session.close()
    while i < len(JSON["body"]["illustManga"]["data"]):
        ID = JSON["body"]["illustManga"]["data"][i]["id"]
        URL = "https://www.pixiv.net/ajax/illust/" + ID + "/pages?lang=zh"
        session = requests.get(URL, headers=headers)
        print("\t获得"+URL+"的JSON数据")
        JSON1 = session.json()
        session.close()
        while j < len(JSON1["body"]):
            URL = JSON1["body"][j]["urls"]["original"]
            api.AddTask(URL)
            print("将"+URL+"加入到待下载队列")
            count += 1
            j += 1
        j = 0
        i += 1
        time.sleep(0.5)
    i = 0
    k += 1
api.CommitTasks()
print("共抓取"+str(count)+"，时长"+str(int(time.time())-begin))

效果图。爬到图片真是多，没压缩前都上GB了。

好了，终于可以收工了。

常见问题

网络不稳定，连接老是中断，那应该如何处理？

选择比较稳定的网络和梯子，或者考虑用try……except……

while True:
    try:
        session = requests.get(URL, headers=headers)
        break
    except requests.exceptions.ProxyError:
        print("超时！请检查网络！60秒后重新尝试")
        time.sleep(60)

这样会先尝试与服务器连接，如果失败了也不会终止程序运行，会等一段时间后重新尝试连接。当然时间长度可以设置别的。这样的话可以让你有足够的时间去排除故障，恢复网络。

返回的状态码为403

请检查请求头设置是否正确，不要用爬虫默认的请求头，要不然会被墙的。

返回的状态码为429

在一段时间内请求过多也会被墙，因此最好使用time.sleep()来间隔请求，最好每次请求完后使用session.close()关闭对话。

如果万一真的被墙了，就只有两个办法，一是你就想办法改变请求的IP，二是忍着性子等一段时间（不知多久，大概1天吧，不过IP一般而言3天后就变了）后再请求。

目前遇到的问题就这么多，有问题可以留言，我有空可以解决。

选做

在P站爬取自己喜欢的漫画的图片。

这期的文章终于写完了！我可能写完这个文章后就要“隐居”一段时间了，因为我要全身心投入中考复习了。现在中考时间还没通知要推迟。原本我今天就在学校了，但因为国外输入疫情，开学时间又不得不推迟到月底。

开学时间的推迟简直是对毕业生的一种煎熬！但没办法！哎！

最后祝愿这届毕业生身体健康、学业进步！

也希望各位在Python学习之路顺利度过、收获颇多！

想家爆米花机
也许不同于大家对家乡的思念，我对家乡甚至是疯狂的不舍。还未踏出车站就感觉到幸福，我享受这里的夕阳、这里的浓烈柴火味、这里每一口家常菜。我是宅女，我贪恋家的安逸。刚刚踏出大学校门，初出茅庐，无法适应每年只能国庆和春节回家。我焦虑、失眠、无端发脾气，是无法适应工作的节奏，是无法接受我将一步步离开家乡的事实。我不想承认自己胸无大志，选择再次踏上征程。图片发自App
绘本讲师训练营【24期】8/21阅读原创《独生小孩》 1784e22615e0
24016-孟娟《独生小孩》图片发自App今天我想分享一个蛮特别的绘本，讲的是一个特殊的群体，我也是属于这个群体，80后的独生小孩。这是一本中国绘本，作者郭婧，也是一个80厚。全书一百多页，均为铅笔绘制，虽然为黑白色调，但并不显得沉闷。全书没有文字，犹如“默片”，但并不影响读者对该作品的理解，反而显得神秘，梦幻，給读者留下想象的空间。作者在前蝴蝶页这样写到：“我更希望父母和孩子一起分享这本书，使他
我校举行新老教师师徒结对仪式暨名师专业工作室工作交流活动李蕾1229
为促进我校教师专业发展，发挥骨干教师的引领带头作用，11月6日下午，我校举行新老教师师徒结对仪式暨名师专业工作室工作交流活动。图片发自App会议由教师发展处李蕾主任主持，首先，由范校长宣读新老教师结对名单及双方承担职责。随后，两位新调入教师陈玉萍、莫正杰分别和他们的师傅鲍元美、刘召彬老师签订了师徒结对协议书。图片发自App图片发自App师徒拥抱、握手。有了师傅就有了目标有了方向，相信两位新教师在师
向内而求陈陈_19b4
10月27日，阴。阅读书目:《次第花开》。作者:希阿荣博堪布，是当今藏传佛家宁玛派最伟大的上师法王，如意宝晋美彭措仁波切颇具影响力的弟子之一。多年以来，赴海内外各地弘扬佛法，以正式授课、现场开示、发表文章等多种方法指导佛学弟子修行佛法。代表作《寂静之道》、《生命这出戏》、《透过佛法看世界》自出版以来一直是佛教类书籍中的畅销书。图片发自App金句:1.佛陀说，一切痛苦的根源在于我们长期以来对自身及外
开心蒋泳频
从无比抗拒来上课到接受，感动，收获～看着波哥成长，晶晶幸福笑容满面。感觉自己做的事情很有意义，很开心！还有3个感召目标就是还有三个有缘人，哈哈。明天感召去明日计划：8：30-11：00小公益11：00-21点上班，感召图片发自App图片发自App图片发自App
《小满细雨轻湿尘》快乐的人ZZM
图片发自App《小满细雨轻湿尘》文/快乐的人zzm小满细雨轻湿尘石榴花开落纷纷落红不是无情物坠入泥土育养根2018-5-23
第四天旅游线路预览——从换乘中心到喀纳斯湖陟彼高冈yu 基于Google earth studio 的旅游规划和预览旅游
第四天：从贾登峪到喀纳斯风景区入口，晚上住宿贾登峪；换乘中心有4路车，喀纳斯①号车，去喀纳斯湖，路程时长约5分钟；将上面的的行程安排进行动态展示，具体步骤见”Googleearthstudio进行动态轨迹显示制作过程“、“Googleearthstudio入门教程”和“Googleearthstudio进阶教程“相关内容，得到行程如下所示：Day4-2-480p
感赏日志133 马姐读书
图片发自App感赏自己今天买个扫地机，以后可以解放出来多看点书，让这个智能小机器人替我工作了。感赏孩子最近进步很大，每天按时上学，认真听课，认真背书，主动认真完成老师布置的作业。感赏自己明白自己容易受到某人的影响，心情不好，每当此刻我就会舒缓，感赏，让自己尽快抽离，想好的一面。感赏儿子今天在我提醒他事情时，告诉我谢谢妈妈对我的提醒我明白了，而不是说我啰嗦，管事情，孩子更懂事了，懂得感恩了。投射父母
下载github patch到本地小米人er 我的博客 git patch
以下是几种从GitHub上下载以.patch结尾的补丁文件的方法：通过浏览器直接下载打开包含该.patch文件的GitHub仓库。在仓库的文件列表中找到对应的.patch文件。点击该文件，浏览器会显示文件的内容，在页面的右上角通常会有一个“Raw”按钮，点击它可以获取原始文件内容。然后在浏览器中使用快捷键（如Ctrl+S或者Command+S）将原始文件保存到本地，选择保存的文件名并确保后缀为.p
今又重阳芮峻
今又重阳图片发自App白露成霜菊花黄，岁岁重阳，今又重阳。登高远望，君不见，那来时路上少年，青丝已染雪霜。落日一点一点西坠，谁有力量，托住使其回往。转眼缺了大半，又能怎样？江天两茫茫。给我一壶烈酒，我要敬那斜阳，看谁先醉？笑指西天红了一片，借点酒力，老夫聊发一次少年狂。老严.2019年重阳节.杭州
蘩漪：新女性？利己主义者赮_红雨
蘩漪是曹禺《雷雨》笔下的女性形象。对于她的喜爱，曹禺在之前的访谈中，就已经表达得很清楚了，蘩漪是他所倾心的女子的“代替者”。在这个女性身上有着曹禺最精心的描写，但同时她的身上又存在着一些时代的问题。图片发自App首先，繁漪是追求自由和幸福的新女性形象。她是精神悲剧的核心人物，她对周朴园的反抗，具有典型意义。她是位资产阶级家庭出身的小姐，受过五四新思潮的影响，她任性、傲慢，追求人格独立、个性自由和爱
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
数组去重好奇的猫猫猫
整理自js中基础数据结构数组去重问题思考？如何去除数组中重复的项例如数组：[1,3,4,3,5]我们在做去重的时候，一开始想到的肯定是，逐个比较，外面一层循环，内层后一个与前一个一比较，如果是久不将当前这一项放进新的数组，挨个比较完之后返回一个新的去过重复的数组不好的实践方式上述方法效率极低，代码量还多，思考？有没有更好的方法这时候不禁一想当然有了！！！hashtable啊，通过对象的hash办法
把握“三度”打造“三有”干部队伍辛德瑞拉卡卡卡
“胜败兴亡之分，不得不归咎于人事也”。干部队伍建设工作的好坏，关系到党和国家的发展全局。近日，新疆维吾尔自治区党委书记马兴瑞在部分党群单位走访调研时强调，要努力培养造就忠诚干净担当的高素质专业化干部队伍。各级组织部门应当在培养选拔干部、吸收优秀青年到党内来、培养造就优秀人才上下功夫，切实增强干部投身实践、解决问题、推进工作的能力，着力打造高素质专业化干部队伍。“天生我材必有用”，增强选育有“准度”
读书||陶新华《教育中的积极心理学》1—28 流水淙淙2022
读一本好书，尤如和一位高尚者对话，亦能对人的精神进行洗礼。但是若不能和实践结合起来，也只能落到空读书的状态。读书摘要与感想1、塞利格曼在《持续的幸福》一书中提出了幸福2.0理论，提出幸福由5个元素决定——积极情绪、投入的工作和生活、目标和意义、和谐的人际关系、成就感。2、人的大脑皮层在进行智力活动时，都伴有皮下中枢活动，对这些活动进行体验请假，并由此产生了情感解读。人的情绪情感体验总是优先于大脑的
【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
其二十八尾喵
你知道吗？图片发自App我今天知道了你有喜欢的人，不是我。心空空的，整个人都不是我的了。可，怎么办？还是要好好的活着，毕竟你喜欢的人，我不能杀，可是我可以杀其他喜欢你的人呀！也罢，此生无缘，来世再见。鱼干
webpack图片等资源的处理 dmengmeng
需要的loaderfile-loader（让我们可以引入这些资源文件）url-loader（其实是file-loader的二次封装）img-loader（处理图片所需要的）在没有使用任何处理图片的loader之前，比如说css中用到了背景图片，那么最后打包会报错的，因为他没办法处理图片。其实你只想能够使用图片的话。只加一个file-loader就可以，打开网页能准确看到图片。{test:/\.(p
2023-10-22 奥雷里亚诺第n
昨天在B站看到关于猫喜欢挠人的视频，视频教导说猫挠人的话就抓住它的后脖颈然后用手打打挠人的那个爪子。视频本身没什么，但评论区却炸开了锅（真是符合挑食者厌食心理）。令我印象最深刻的一个甚至上升到了关于我是谁这种终极问题。它说，猫就是畜生，它挠人就打它别惯着它，反正我六道轮回成了人就应该保持人的高贵，谁都别想来打破。我顿时汗颜，但看到下面全是类似的言论只不过后面的理由各有不同，本来想骂人的心都凉了一半
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
钢筋长度超限检测检数据集VOC+YOLO格式215张1类别 futureflsl 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：215标注数量(xml文件个数)：215标注数量(txt文件个数)：215标注类别数：1标注类别名称:["iron"]每个类别标注的框数：iron框数=215总框数：215使用标注工具：labelImg标注规则：对类别进
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
赠晶晶在平凡中重新出发
逐伊衫望伊泪伊人雨中别离去莫再想莫再追莫要寸断再回味十六年六十年弹指挥间青鬓颜且浅行且珍惜待到山花烂漫时图片发自App
自我意识徐立华
----读帕克.帕尔默《教学勇气》（P18----19）5.铸造我们的学科帕克.帕尔默说学科知识对我们的自身认同和外部世界有启发意义。学科会铸造我们。“在我们与学科的命题概念和学科的生活框架相遇之前，自我意识知识处于潜伏状态，通过回想学科是怎样唤醒自我意识，我们就可以找回教学心灵。”《教学勇气》（P18）我们的自我意识像冰山表面下无限延伸的冰层，常常处于潜伏状态。但是在我们对所教授的学科进行深入思
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
C++ | Leetcode C++题解之第409题最长回文串 Ddddddd_158 经验分享 C++Leetcode 题解
题目：题解：classSolution{public:intlongestPalindrome(strings){unordered_mapcount;intans=0;for(charc:s)++count[c];for(autop:count){intv=p.second;ans+=v/2*2;if(v%2==1andans%2==0)++ans;}returnans;}};
这个世界为何对女性这么苛刻遇见知见
图片发自App当今社会的女性，简直用金刚侠来形容都不为过。虽然早已过了男尊女卑的时代，但是这个世界并没有平等的对待女性。新时代的女性标准：上得了厅堂，下得了厨房，杀得了木马，翻得了围墙，开得起好车，买得起新房，斗得过二奶，打得过流氓，生得了孩子，养得了家庭。这个社会对女性有太多的不公平，既要求女性经济独立，又要求女性贤良淑德。所有的女性的在成长过程中没有任何一项是因为你是女性而给你开绿灯的。图片发
第四天旅游线路预览——从贾登峪到喀纳斯景区入口（贾登峪游客服务中心）陟彼高冈yu 基于Google earth studio 的旅游规划和预览旅游
第四天：从贾登峪到喀纳斯风景区入口，晚上住宿贾登峪；从贾登峪到喀纳斯景区入口（贾登峪游客服务中心）：搭乘贾登峪①路车，路过三湾到达景区换乘中心，路程时长约40分钟；1）早上8：00起床，吃完早饭，8：30出发；2）从贾登峪到喀纳斯风景区，需要搭乘一站公交车，为免费公交车，路程4.3公里，车程约9分钟8：40左右到达喀纳斯景区入口（贾登峪游客服务中心）；3）乘坐贾登峪①路车，路过三湾到达景区换乘中心
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情

python爬虫实践（高级篇）——爬取P站图片

前提

开始工作

常见问题

选做

你可能感兴趣的:(python爬虫实践（高级篇）——爬取P站图片)