weixin_39526415

python 识别图形验证码_Python验证码识别

大致介绍

　　在python爬虫爬取某些网站的验证码的时候可能会遇到验证码识别的问题，现在的验证码大多分为四类：

　　　　1、计算验证码

　　 2、滑块验证码

　　　　3、识图验证码

　　　　4、语音验证码

　　这篇博客主要写的就是识图验证码，识别的是简单的验证码，要想让识别率更高，识别的更加准确就需要花很多的精力去训练自己的字体库。

　　识别验证码通常是这几个步骤：

　　　　1、灰度处理

　　　　2、二值化

　　　　3、去除边框（如果有的话）

　　　　4、降噪

　　　　5、切割字符或者倾斜度矫正

　　　　6、训练字体库

　　　　7、识别

　　这6个步骤中前三个步骤是基本的，4或者5可根据实际情况选择是否需要，并不一定切割验证码，识别率就会上升很多有时候还会下降

　　这篇博客不涉及训练字体库的内容，请自行搜索。同样也不讲解基础的语法。

　　用到的几个主要的python库： Pillow(python图像处理库)、OpenCV(高级图像处理库)、pytesseract(识别库)

灰度处理&二值化

　　灰度处理，就是把彩色的验证码图片转为灰色的图片。

　　二值化，是将图片处理为只有黑白两色的图片，利于后面的图像处理和识别

　　在OpenCV中有现成的方法可以进行灰度处理和二值化，处理后的效果：

　　代码：

# 自适应阀值二值化

def _get_dynamic_binary_image(filedir, img_name):

filename = './out_img/' + img_name.split('.')[0] + '-binary.jpg'

img_name = filedir + '/' + img_name

print('.....' + img_name)

im = cv2.imread(img_name)

im = cv2.cvtColor(im,cv2.COLOR_BGR2GRAY) #灰值化

# 二值化

th1 = cv2.adaptiveThreshold(im, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 21, 1)

cv2.imwrite(filename,th1)

return th1

去除边框

　　如果验证码有边框，那我们就需要去除边框，去除边框就是遍历像素点，找到四个边框上的所有点，把他们都改为白色，我这里边框是两个像素宽

　　注意：在用OpenCV时，图片的矩阵点是反的，就是长和宽是颠倒的

　　代码：

# 去除边框
def clear_border(img,img_name):
filename = './out_img/' + img_name.split('.')[0] + '-clearBorder.jpg'
h, w = img.shape[:2]
for y in range(0, w):
for x in range(0, h):
if y < 2 or y > w - 2:
img[x, y] = 255
if x < 2 or x > h -2:
img[x, y] = 255
cv2.imwrite(filename,img)
return img

效果：

降噪

　　降噪是验证码处理中比较重要的一个步骤，我这里使用了点降噪和线降噪

　　线降噪的思路就是检测这个点相邻的四个点（图中标出的绿色点），判断这四个点中是白点的个数，如果有两个以上的白色像素点，那么就认为这个点是白色的，从而去除整个干扰线，但是这种方法是有限度的，如果干扰线特别粗就没有办法去除，只能去除细的干扰线

　　代码：

1 # 干扰线降噪
2 def interference_line(img, img_name):
3 filename = './out_img/' + img_name.split('.')[0] + '-interferenceline.jpg'
4 h, w = img.shape[:2]
5 # ！！！opencv矩阵点是反的
6 # img[1,2] 1:图片的高度，2：图片的宽度
7 for y in range(1, w - 1):
8 for x in range(1, h - 1):
9 count = 0
10 if img[x, y - 1] > 245:
11 count = count + 1
12 if img[x, y + 1] > 245:
13 count = count + 1
14 if img[x - 1, y] > 245:
15 count = count + 1
16 if img[x + 1, y] > 245:
17 count = count + 1
18 if count > 2:
19 img[x, y] = 255
20 cv2.imwrite(filename,img)
21 return img

　点降噪的思路和线降噪的差不多，只是会针对不同的位置检测的点不一样,注释写的很清楚了

　　代码：

# 点降噪
def interference_point(img,img_name, x = 0, y = 0):
"""
9邻域框,以当前点为中心的田字框,黑点个数
:param x:
:param y:
:return:
"""
filename = './out_img/' + img_name.split('.')[0] + '-interferencePoint.jpg'
# todo 判断图片的长宽度下限
cur_pixel = img[x,y]# 当前像素点的值
height,width = img.shape[:2]
for y in range(0, width - 1):
for x in range(0, height - 1):
if y == 0: # 第一行
if x == 0: # 左上顶点,4邻域
# 中心点旁边3个点
sum = int(cur_pixel)
+ int(img[x, y + 1])
+ int(img[x + 1, y])
+ int(img[x + 1, y + 1])
if sum <= 2 * 245:
img[x, y] = 0
elif x == height - 1: # 右上顶点
sum = int(cur_pixel)
+ int(img[x, y + 1])
+ int(img[x - 1, y])
+ int(img[x - 1, y + 1])
if sum <= 2 * 245:
img[x, y] = 0
else: # 最上非顶点,6邻域
sum = int(img[x - 1, y])
+ int(img[x - 1, y + 1])
+ int(cur_pixel)
+ int(img[x, y + 1])
+ int(img[x + 1, y])
+ int(img[x + 1, y + 1])
if sum <= 3 * 245:
img[x, y] = 0
elif y == width - 1: # 最下面一行
if x == 0: # 左下顶点
# 中心点旁边3个点
sum = int(cur_pixel)
+ int(img[x + 1, y])
+ int(img[x + 1, y - 1])
+ int(img[x, y - 1])
if sum <= 2 * 245:
img[x, y] = 0
elif x == height - 1: # 右下顶点
sum = int(cur_pixel)
+ int(img[x, y - 1])
+ int(img[x - 1, y])
+ int(img[x - 1, y - 1])
if sum <= 2 * 245:
img[x, y] = 0
else: # 最下非顶点,6邻域
sum = int(cur_pixel)
+ int(img[x - 1, y])
+ int(img[x + 1, y])
+ int(img[x, y - 1])
+ int(img[x - 1, y - 1])
+ int(img[x + 1, y - 1])
if sum <= 3 * 245:
img[x, y] = 0
else: # y不在边界
if x == 0: # 左边非顶点
sum = int(img[x, y - 1])
+ int(cur_pixel)
+ int(img[x, y + 1])
+ int(img[x + 1, y - 1])
+ int(img[x + 1, y])
+ int(img[x + 1, y + 1])
if sum <= 3 * 245:
img[x, y] = 0
elif x == height - 1: # 右边非顶点
sum = int(img[x, y - 1])
+ int(cur_pixel)
+ int(img[x, y + 1])
+ int(img[x - 1, y - 1])
+ int(img[x - 1, y])
+ int(img[x - 1, y + 1])
if sum <= 3 * 245:
img[x, y] = 0
else: # 具备9领域条件的
sum = int(img[x - 1, y - 1])
+ int(img[x - 1, y])
+ int(img[x - 1, y + 1])
+ int(img[x, y - 1])
+ int(cur_pixel)
+ int(img[x, y + 1])
+ int(img[x + 1, y - 1])
+ int(img[x + 1, y])
+ int(img[x + 1, y + 1])
if sum <= 4 * 245:
img[x, y] = 0
cv2.imwrite(filename,img)
return img

效果：

　　其实到了这一步，这些字符就可以识别了，没必要进行字符切割了，现在这三种类型的验证码识别率已经达到50%以上了

字符切割

字符切割通常用于验证码中有粘连的字符，粘连的字符不好识别，所以我们需要将粘连的字符切割为单个的字符，在进行识别

　　字符切割的思路就是找到一个黑色的点，然后在遍历与他相邻的黑色的点，直到遍历完所有的连接起来的黑色的点，找出这些点中的最高的点、最低的点、最右边的点、最左边的点，记录下这四个点，认为这是一个字符，然后在向后遍历点，直至找到黑色的点，继续以上的步骤。最后通过每个字符的四个点进行切割

图中红色的点就是代码执行完后，标识出的每个字符的四个点，然后就会根据这四个点进行切割（图中画的有些误差，懂就好）

　　但是也可以看到，m2是粘连的，代码认为他是一个字符，所以我们需要对每个字符的宽度进行检测，如果他的宽度过宽，我们就认为他是两个粘连在一起的字符，并将它在从中间切割

　　确定每个字符的四个点代码：

def cfs(im,x_fd,y_fd):
'''用队列和集合记录遍历过的像素坐标代替单纯递归以解决cfs访问过深问题
'''
# print('**********')
xaxis=[]
yaxis=[]
visited =set()
q = Queue()
q.put((x_fd, y_fd))
visited.add((x_fd, y_fd))
offsets=[(1, 0), (0, 1), (-1, 0), (0, -1)]#四邻域
while not q.empty():
x,y=q.get()
for xoffset,yoffset in offsets:
x_neighbor,y_neighbor = x+xoffset,y+yoffset
if (x_neighbor,y_neighbor) in (visited):
continue # 已经访问过了
visited.add((x_neighbor, y_neighbor))
try:
if im[x_neighbor, y_neighbor] == 0:
xaxis.append(x_neighbor)
yaxis.append(y_neighbor)
q.put((x_neighbor,y_neighbor))
except IndexError:
pass
# print(xaxis)
if (len(xaxis) == 0 | len(yaxis) == 0):
xmax = x_fd + 1
xmin = x_fd
ymax = y_fd + 1
ymin = y_fd
else:
xmax = max(xaxis)
xmin = min(xaxis)
ymax = max(yaxis)
ymin = min(yaxis)
#ymin,ymax=sort(yaxis)
return ymax,ymin,xmax,xmin
def detectFgPix(im,xmax):
'''搜索区块起点
'''
h,w = im.shape[:2]
for y_fd in range(xmax+1,w):
for x_fd in range(h):
if im[x_fd,y_fd] == 0:
return x_fd,y_fd
def CFS(im):
'''切割字符位置
'''
zoneL=[]#各区块长度L列表
zoneWB=[]#各区块的X轴[起始，终点]列表
zoneHB=[]#各区块的Y轴[起始，终点]列表
xmax=0#上一区块结束黑点横坐标,这里是初始化
for i in range(10):
try:
x_fd,y_fd = detectFgPix(im,xmax)
# print(y_fd,x_fd)
xmax,xmin,ymax,ymin=cfs(im,x_fd,y_fd)
L = xmax - xmin
H = ymax - ymin
zoneL.append(L)
zoneWB.append([xmin,xmax])
zoneHB.append([ymin,ymax])
except TypeError:
return zoneL,zoneWB,zoneHB
return zoneL,zoneWB,zoneHB

分割粘连字符代码：

# 切割的位置

im_position = CFS(im)

maxL = max(im_position[0])

minL = min(im_position[0])

# 如果有粘连字符，如果一个字符的长度过长就认为是粘连字符，并从中间进行切割

if(maxL > minL + minL * 0.7):

maxL_index = im_position[0].index(maxL)

minL_index = im_position[0].index(minL)

# 设置字符的宽度

im_position[0][maxL_index] = maxL // 2

im_position[0].insert(maxL_index + 1, maxL // 2)

# 设置字符X轴[起始，终点]位置

im_position[1][maxL_index][1] = im_position[1][maxL_index][0] + maxL // 2

im_position[1].insert(maxL_index + 1, [im_position[1][maxL_index][1] + 1, im_position[1][maxL_index][1] + 1 + maxL // 2])

# 设置字符的Y轴[起始，终点]位置

im_position[2].insert(maxL_index + 1, im_position[2][maxL_index])

# 切割字符，要想切得好就得配置参数，通常 1 or 2 就可以

cutting_img(im,im_position,img_name,1,1)

切割粘连字符代码：

def cutting_img(im,im_position,img,xoffset = 1,yoffset = 1):

filename = './out_img/' + img.split('.')[0]

# 识别出的字符个数

im_number = len(im_position[1])

# 切割字符

for i in range(im_number):

im_start_X = im_position[1][i][0] - xoffset

im_end_X = im_position[1][i][1] + xoffset

im_start_Y = im_position[2][i][0] - yoffset

im_end_Y = im_position[2][i][1] + yoffset

cropped = im[im_start_Y:im_end_Y, im_start_X:im_end_X]

cv2.imwrite(filename + '-cutting-' + str(i) + '.jpg',cropped)

效果：

　　识别

　　识别用的是typesseract库，主要识别一行字符和单个字符时的参数设置，识别中英文的参数设置，代码很简单就一行，我这里大多是filter文件的操作

代码：

# 识别验证码

cutting_img_num = 0

for file in os.listdir('./out_img'):

str_img = ''

if fnmatch(file, '%s-cutting-*.jpg' % img_name.split('.')[0]):

cutting_img_num += 1

for i in range(cutting_img_num):

try:

file = './out_img/%s-cutting-%s.jpg' % (img_name.split('.')[0], i)

# 识别字符

str_img = str_img + image_to_string(Image.open(file),lang = 'eng', config='-psm 10') #单个字符是10，一行文本是7

except Exception as err:

pass

print('切图：%s' % cutting_img_num)

print('识别为：%s' % str_img)

最后这种粘连字符的识别率是在30%左右，而且这种只是处理两个字符粘连，如果有两个以上的字符粘连还不能识别，但是根据字符宽度判别的话也不难，有兴趣的可以试一下

无需切割字符识别的效果：

　　需要切割字符的识别效果：

这种只是能够识别简单验证码，复杂的验证码还要靠大家了

嵌入式物联网资料分享交流群：707159742 入群有全套学习视频资料电子书免费赠送！

快速学习python基础www.makeru.com.cn

LeetCode刷题之python解法（持续更新） gong_wanyi Python
1.TwoSum4行classSolution:deftwoSum(self,nums:List[int],target:int)->List[int]:d={}fori,ninenumerate(nums):ifnind:return[d[n],i]d[target-n]=iO(N)时间效率的快速解法，用字典记录｛需要的值:当前索引｝2.AddTwoNumbers5行#Definitionfor
Python爬虫之爬取酷狗音乐进击的Loser‭
Python爬虫之爬取酷狗音乐废话不说，上代码：#!Python#-*-encoding:utf-8-*-'''1.文件名称:酷我音乐爬虫.py2.创建时间:2021/03/2117:29:093.作者名称:ZAY4.Python版本:3.7.0'''importosimportgetpassimportrequestsfromurllib.parseimportquoteclassSpider(
【源代码】python爬虫，爬取足球赛制比分码农之家★资源共享 python 爬虫开发语言
完整代码！fromseleniumimportwebdriverfromselenium.common.exceptionsimportNoSuchElementExceptionfromselenium.webdriver.common.keysimportKeysimporttimefrombs4importBeautifulSoupimportselectimportsocketimpor
Vue 生态中路由与状态管理的变迁：Vue-Router、Vuex 及 Pinia 解析大麦大麦 2025 前端面经 vue.js javascript 前端开发语言前端框架安全
Vue-Router有哪些变化?引入方式变化,routes属性加入强制判断如果页面上没有对应的命名式路由,如果像推送到路由上去,原先的做法会默认导航到默认路径(‘/’)现在4.x以上版本不会有这个行为,而是去加载一个空的组件,且在控制台抛出异常不会再给默认路径添加/,redirect重定向需要写全路径//router/index.js//Vue2的配置方法,的情况下,path:'',会在about
python：print语句中插入水平制表符\t来对齐内容听海边涛声 python 开发语言
说明\t是水平制表符，就是键盘上的tab键。print语句中插入水平制表符\t来对齐内容，使得打印出来的内容格式漂亮。下面以在pycharm中的打印进行演示。在print语句中，如果插入\t，相当于插入多少空格不是固定的，跟\t前面有多个字符有关系：情况1：如果前面字符数不是4的倍数，那么\t的作用是插入一定数量的空格，补足到4的倍数。例如，如果前面有1个字符，那么\t就是插入3个空格；如果前面有
Python爬虫–爬取酷狗音乐 2024亲测可用！！！ LinHZ2012 爬虫 python
相信很多小伙伴都有听歌的习惯~今天我们就来学习怎么用Python来爬取音乐吧~~~首先打开音乐网站，找到想听的歌，打开播放页面在网页上右键点击检查，调出开发者工具，找到网络（Network）选项。然后刷新网页以上是其他多数博主的做法然后，你在右边一顿翻找，却根本找不到mp3......不要慌！教程来喽！首先在右下角的歌单里面随便找一首其他的歌播放~然后再重新点回来——————你就会惊喜的发现——m
数据分析师的SQL到底应该掌握到什么程度流里流气李 sql mysql 数据库
最近有网站统计了“雇主最想要的技术技能”，其中SQL力压Java、Python等，排名第一，成为雇主们最喜爱的技能。SQL简直是数据岗位心照不宣的“宠儿”。随手翻开网上对于数据分析岗位的要求，我们就会发现，熟悉SQL是必须的任职要求。都知道做数据分析需要学习sql，但在学习的过程中还是不太清楚，应该掌握到什么程度。今天给大家讲一下作为数据分析师：不需要学习的部分、基础部分和进阶部分。首先我们先揭穿
chatgpt赋能python：Python如何制表符：让您的代码更整洁易读 boRRjxBZRf ChatGpt python chatgpt 开发语言计算机
Python如何制表符：让您的代码更整洁易读代码对于程序员来说是最基础的工具，但能否让人轻松地阅读代码才是更重要的。一种有效的方法是通过制表符来对齐代码，使代码更整洁易读。Python是一门使用缩进来表示一个代码块的编程语言，因此掌握Python中的制表符可以让您的代码变得更加整洁、易读。本文将介绍Python中如何使用制表符，让您的代码更加整洁易读。什么是制表符？制表符是一种空格字符，用于将文本
玩转python: 掌握Python数据结构之字典千益浅显易懂玩转python 数据结构 python 开发语言
字典（Dictionary）是Python中一种非常强大的数据结构，它以键值对（Key-ValuePair）的形式存储数据。字典的特点是快速查找、灵活存储和高效操作。想象一下字典就像一本电话簿：通过名字（键）可以快速找到对应的电话号码（值）。本文将带你深入理解字典的概念，并通过丰富的案例展示其实际应用。字典的常见方法以下是字典的20个常见方法及其功能的简要说明：方法名功能描述clear()移除字典
python 程序一次启动有两个进程的问题（flask）小郎碎碎念我恨BUG python flask 开发语言
0.背景写了一个使用flask作为服务框架的程序，发现每次启动程序的时候，使用ps都能观察到两个python进程。此外，这个程序占用了GPU资源，我发现有两个python进程，分别占用了完全相同的GPU显存1.原因问题出在flask的启动方式上，我启动的时候，是这样启动的app.run(debug=True,host='0.0.0.0',port=5000)查到的资料如下，Flask中的debug
关于 Scapy 的详细介绍、安装指南、使用方法及配置说明程序员的世界你不懂效率工具提升百度新浪微博
一、Scapy简介Scapy是一个开源的Python库，专注于网络数据包的创建、嗅探、分析和注入。它支持几乎所有标准的网络协议（如IP、TCP、UDP、ICMP、ARP等），并提供灵活的扩展机制，可自定义协议字段或开发专用工具。核心特点：跨平台：支持Linux、Windows、macOS等操作系统。低层级操作：直接访问原始数据包的二进制格式。强大的过滤与分析：支持BPF表达式过滤数据包。脚本化：可
SAP MM 物料主数据利润中心字段之修改喜欢打酱油的老鸟 SAP文章 SAP MM 物料主数据利润中心字段之修改
SAPMM物料主数据利润中心字段之修改近日，收到业务部门报的一个问题，说是MM02去修改物料的利润中心字段值，系统报错说物料库存存在，不让修改。笔者查询了该物料的库存，当期库存并不存在。MMBE,MM02修改利润中心报错，经查，该物料是自制品，无Open的生产订单单据。不过发现该物料在上个会计期间(2019-06会计期间)有库存，这是导致出现该报错的原因。经过上网查资料，得到了一些同行给出的建议，
linux识别不到板载raid,linux server 不要用bios自带的板载raid weixin_39699163 linux识别不到板载raid
IfyoumeantheRAIDcontrollerbuiltintothemotherboard,I'dAVOIDIT.It'snottruehardwareRAID.linuxMotherboardRAIDisregardedastheworstofRAIDs,asitismotherboardspecific,thereareseveralonlineinstancesofthemother
linux下raid0创建教程,Linux下构建raid0、raid1、raid5 许执是只喵 linux下raid0创建教程
根据raid0属性，构建时至少需要两块硬盘，硬盘类型不限假设系统后加入3块scsi硬盘，系统识别后分别是sdb、sdc、sdd各分成一个区，这里先设置sdb[root@myserverroot]#fdisk/dev/sdbThenumberofcylindersforthisdiskissetto1044.Thereisnothingwrongwiththat,butthisislargertha
CCF-GESP Python一级考试全解析：网络协议+编程技能双突破奕澄羽邦 python 网络协议开发语言
第一章CCF-GESP考试全景透视1.1认证体系权威性中国计算机学会（CCF）主办的GESP编程能力等级认证，是国内首个面向青少年的编程能力标准化评估体系。Python一级考试作为入门级认证，主要考察考生对计算机基础逻辑、编程工具使用及网络基础概念的掌握程度，证书受教育部认可，为后续人工智能、大数据等领域学习奠定基石。1.2考试内容三维度编程语言：Python语法基础（变量、循环、条件判断）、函数
python可應用在金融分析的那一個方面，如何部署在linux server上面。蠟筆小新工程師金融
Python在金融分析中應用廣泛，以下是幾個主要方面：###1.**數據處理與分析**-使用**Pandas**和**NumPy**等庫來處理和分析大規模數據集，進行清理、轉換和統計運算。-舉例：處理歷史市場數據，分析價格趨勢、交易量等。###2.**機器學習與預測**-使用**scikit-learn**、**TensorFlow**或**PyTorch**建立模型進行股票價格預測、信用風險評估
Deepseek可以通过多种方式帮助CAD加速工作蠟筆小新工程師 python 开发语言 seepdeek
自动化操作：通过Deepseek的AI能力，可以编写脚本来自动化重复性任务。例如，使用Python脚本调用DeepseekAPI，在CAD中实现自动化操作。插件开发：结合Deepseek进行二次开发，可以创建自定义的CAD插件。例如，使用Deepseek生成代码来实现特定功能，如自动生成图形。脚本制作：利用Deepseek与CAD结合，可以制作脚本来加速工作流程。例如，使用Deepseek生成的以
Python实战项目（‌Hands-on Python Project） Linux运维老纪无悔青春追梦绿意编程师Python python 开发语言 sql 运维开发云计算 mysql 数据库
Python实战项目奖本章总结了20个适合Python初学者的实战项目，这些项目涵盖了不同的主题和难度，能够帮助你巩固基础知识并提升编程技能。1.计算器创建一个简单的命令行计算器，支持基本的加、减、乘、除运算。2.猜数字游戏编写一个程序，让用户猜一个随机生成的数字，提供提示（如“太高了”或“太低了”）。3.待办事项列表实现一个命令行待办事项管理器，允许用户添加、删除和查看待办事项。4.文本文件分析
服务器python项目部署菜鸡6666 python 服务器开发语言
角色：root,其他用户应该也可以1.安装python3环境#如果是新机器，尽量执行，避免未知报错yum-yupdatepython-vyuminstallpython3python3-v2.使用virtualenvwrapper创建虚拟环境,并使用workon切换不同的虚拟环境#安装virtualenvwrapperpip3installvirtualenvwrapper-ihttps://mi
深度学习-Android-图片加载框架-Glide-(二)-切入源码层深入分析-Glide-缓存策略 2401_84123077 程序员 android glide 缓存
介绍在上一篇中，我们知道了Glide框架的最基本的执行流程，那么只知道基本执行流程，这显然是不够的，我们要深挖Glide框架的细节处理原理，比如缓存机制，图片处理等，这一篇我们就一起去探索Glide的缓存机制。Glide缓存机制可以说是设计的非常完美，考虑的非常周全，下面就以一张表格来说明下Glide缓存。缓存类型缓存代表说明活动缓存ActiveResources如果当前对应的图片资源是从内存缓存
【openAI库】Python语言openAI库详解：从入门到精通（从0到1手把手教程） ChatGPT-千鑫 Python基础人工智能 python 开发语言人工智能 gpt AIGC 机器学习
欢迎来到我的博客！很高兴能在这里与您相遇！首页：GPT-千鑫–热爱AI、热爱Python的天选打工人，活到老学到老！！！导航-人工智能系列：包含OpenAIAPIKey教程,50个Prompt指令,Midjourney生成攻略等更多教程…-常用开发工具：包含AI代码补全工具,Vscode-AI工具,IDERorPycharm-AI工具,获取OpenAIAPIKey的多种方式等更多教程…-VScod
【vLLM 教程】使用 TPU 安装
vLLM是一款专为大语言模型推理加速而设计的框架，实现了KV缓存内存几乎零浪费，解决了内存管理瓶颈问题。更多vLLM中文文档及教程可访问→https://vllm.hyper.ai/vLLM使用PyTorchXLA支持GoogleCloudTPU。依赖环境GoogleCloudTPUVM（单主机和多主机）TPU版本:v5e、v5p、v4Python:3.10安装选项：href="https://v
python openai 关于会话管理问题（一）哦里哦里哦里给 AI 大语言模型实战 python ai
目录一、会话长度二、会话保持三、上下文窗口管理1、对话中token使用2、截断策略3、消息注释一、会话长度线程和消息表示助手和用户之间的会话会话。每个线程的消息限制为100,000条。一旦消息的大小超过了模型的上下文窗口，线程将尝试聪明地截断消息，然后再完全删除它认为最不重要的消息。二、会话保持thread=client.beta.threads.create(messages=[{"role":
python openai 通过Function Call 创建自动化任务哦里哦里哦里给 AI 大语言模型实战自动化运维
目录一、什么是FunctionCall（函数掉用）1.功能概述2.工作原理二、如何实现函数调用1、定义自己的get_weather函数2、给助手添加函数调用3、写好instrction，指导assistant去掉用你定义的方法。4、最后也是最重要的，捕获Assistant的FunctionCall三、常见问题四、应用场景一、什么是FunctionCall（函数掉用）OpenAIAssistant的
Python使用OpenAI的API（附大模型资源）闯江湖50年 python windows 开发语言 langchain 人工智能 llama
OpenAIAPIOpenAIAPI可以应用于几乎所有涉及生成自然语言、代码或图像的任务。提供了一系列不同能力级别的模型，适用于不同任务的，并且能够微调自己的自定义模型。OpenAIAPI参考：https://platform.openai.com/docs/api-reference安装OpenAI库或安装其他的开源大语言模型bash复制代码pipinstallopenai设置OpenAIAPI
【PyQt5 应用程序】开启PyQt5入门之旅 Mr数据杨 Python 实用程序 qt pyqt 开发语言
在当今的软件开发领域，Python因其简洁的语法和强大的功能库而广受欢迎。PyQt是一个创建跨平台桌面应用程序的工具集，它允许开发者使用Python语言。通过结合Python的易用性和Qt的强大功能，PyQt让开发现代GUI应用变得既简单又有趣。本教程旨在为有志于学习如何使用PyQt开发桌面应用程序的开发者提供一个实用的起点。无论你是Python的初学者还是经验丰富的开发者，只要你对创建自己的GU
Python GUI测试实战：Selenium与PyQt的联合应用步入烟尘 Python超入门指南全册 python selenium pyqt
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
面试被问 SQL 注入一脸懵？一文读懂 SQL 注入攻防全攻略大模型大数据攻城狮数据库 sql C++面试 java面试后端面试 sql注入 sql优化
目录SQL注入概述定义与原理常见类型攻击技术指标注入点识别绕过防御机制数据提取方法防范措施参数化查询输入验证与过滤最小权限原则检测与监控漏洞扫描实时监控SQL注入概述定义与原理SQL注入是一种极具破坏力的网络攻击技术。想象一下，Web应用程序就像是一座大厦，而数据库则是大厦里存放重要文件的保险柜。正常情况下，用户通过Web应用程序向数据库发送请求，就如同员工拿着正确的钥匙去保险柜取文件。但攻击者利
如何做性能测试海姐软件测试 jmeter 职场和发展测试工具
###**性能测试实施步骤**1.**明确性能需求与目标**-**关键指标**：确定响应时间、吞吐量（TPS/QPS）、并发用户数、资源利用率（CPU、内存、磁盘、网络）、错误率等目标。-**业务场景**：识别高频、核心业务（如登录、支付、搜索），并与利益相关者确认预期负载（如日活用户、峰值时段）。-**问题引导**：若需求模糊，需通过提问明确（如“系统需支持多少用户同时操作？”“可接受的响应时间
图像标注与OCR工具分析 winfredzhang ocr 框选裁剪标示位置遍历
图像标注和OCR（光学字符识别）工具的代码进行详细分析。该工具允许用户在图像上进行矩形标注，使用OCR对标注区域进行文本识别，并将结果保存为Excel文件。同时，用户可以保存和加载标注，清除标注，以及裁剪图像等。C:\pythoncode\new\scipgetpersoninfofromphoto.py项目简介这个图像标注和OCR工具的功能主要包括：加载图像并显示在界面上。允许用户在图像上绘制矩
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh ickes@192.168.27.211 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_