tiandijun

文本无关的声纹识别验证

By Dake

Dake的专栏：www.glade.tk

一、声纹识别简介

声纹是指能惟一识别某人或某物的声音特征，是用电声学仪器显示的携带言语信息的声波频谱。虽然人的发音器官生理构造总的是相同的，但人的语言产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的器官——舌、牙齿、喉头、肺、鼻腔在尺寸和形态等方面，每两个人之间的差异会很大（见图2-1所示）所以任何两个人的声纹图谱都有差异，而对于每个人而言，从十几岁发育变声后直到五十多岁，其声纹基本保持不变。声纹识别技术正是利用这一特点，将声音输入到声谱仪中，使声音不同频率的机械振动变成频谱图像，显示在荧光屏或记录在纸上，这种图像就是声纹。

图2-1 发音器官

声纹识别(Voiceprint Recognition，即VPR)，通常也被称为话者识别(Speaker Recognition)，分为两类，即话者辨认(Speaker Identification)和话者确认(Speaker Verification)。前者用以判断某段语音是若干人中的哪一个所说的，是“多选一”问题；而后者用以确认某段语音是否是指定的某个人所说的，是“一对一判别”问题。不同的任务和应用会使用不同的声纹识别技术，如缩小刑侦范围时可能需要辨认技术，而银行交易时则需要确认技术。不管是辨认还是确认，都需要先对说话人的声纹进行建模，这就是所谓的“训练”或“学习”过程[7]。声纹识别过程如图2-2所示：

图2-2 声纹识别过程

声纹识别可以说有两个关键问题，一是特征提取，二是模式匹配。特征提取的任务是提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学或语言特征。与语音识别不同，声纹识别的特征必须是“个性化”特征，而说话人识别的特征对说话人来讲必须是“共性特征”。虽然目前大部分声纹识别系统用的都是声学层面的特征，但是表征一个人特点的特征应该是多层面的，包括： (1)与人类的发音机制的解剖学结构有关的声学特征(如频谱、倒频谱、共振峰、基音、反射系数等等)、鼻音、带深呼吸音、沙哑音、笑声等；(2)受社会经济状况、受教育水平、出生地等影响的语义、修辞、发音、言语习惯等；(3)个人特点或受父母影响的韵律、节奏、速度、语调、音量等特征。从利用数学方法可以建模的角度出发，声纹自动识别模型目前可以使用的特征包括：(1)声学特征(倒频谱)；(2)词法特征(说话人相关的词n-gram，音素n- gram)；(3)韵律特征(利用n-gram描述的基音和能量“姿势”)；(4)语种、方言和口音信息；(5)通道信息(使用何种通道)；等等。

对于模式识别，主要有这几大类方法：(1)模板匹配方法：利用动态时间弯折(DTW)以对准训练和测试特征序列，主要用于固定词组的应用(通常为文本相关任务)；(2)最近邻方法：训练时保留所有特征矢量，识别时对每个矢量都找到训练矢量中最近的K个，据此进行识别，通常模型存储和相似计算的量都很大；(3)神经网络方法：有很多种形式，如多层感知、径向基函数(RBF)等，可以显式训练以区分说话人和其背景说话人，其训练量很大，且模型的可推广性不好；(4)隐式马尔可夫模型(HMM)方法：通常使用单状态的HMM，或高斯混合模型(GMM)，是比较流行的方法，效果比较好；(5)VQ聚类方法(如LBG，K-均值)：效果比较好，算法复杂度也不高，和HMM方法配合起来更可以收到更好的效果；(6)多项式分类器方法：有较高的精度，但模型存储和计算量都比较大。其中模板匹配法的的要点是，在训练过程中从每个说话人的训练语句中提取相应的特征矢量来描述各个说话人的行为，在测试阶段，从说话人的测试语音信号中用同样的方法提取测试模板，主要有动态时间规整方法和矢量量化方法。

对说话人确认，还面临一个两难选择问题。通常，表征说话人确认系统性能的两个重要参数是错误拒绝率和错误接受率，前者是拒绝真正说话人而造成的错误，后者是接受集外说话人而造成的错误，二者与阈值的设定相关。在现有的技术水平下，两者无法同时达到最小，需要调整阈值来满足不同应用的需求，比如在需要“易用性”的情况下，可以让错误拒绝率低一些，此时错误接受率会增加，从而安全性降低；在对“安全性”要求高的情况下，可以让错误接受率低一些，此时错误拒绝率会增加，从而易用性降低。前者可以概括为“宁错勿漏”，而后者可以“宁漏勿错”。我们把真正阈值的调整称为“操作点”调整。好的系统应该允许对操作点的自由调整。

声纹识别有文本相关的(Text-Dependent)和文本无关的(Text-Independent)两种。与文本有关的声纹识别系统要求用户按照规定的内容发音，每个人的声纹模型逐个被精确地建立，而识别时也必须按规定的内容发音，因此可以达到较好的识别效果，但系统需要用户配合，如果用户的发音与规定的内容不符合，则无法正确识别该用户。而与文本无关的识别系统则不规定说话人的发音内容，模型建立相对困难，但用户使用方便，可应用范围较宽。根据特定的任务和应用，两种是有不同的应用范围的。比如，在银行交易时可以使用文本相关的声纹识别，因为用户自己进行交易时是愿意配合的；而在刑侦或侦听应用中则无法使用文本相关的声纹识别，因为无法要求犯罪嫌疑人或被侦听的人配合。

二、MFCC参数（Mel倒谱系统）的提取说明

    1、预增强（Pre-Emphasis） ：差分语音信号。
      2、音框化（Framing） ：对语音数据分帧。
      3、汉明窗（Hamming Windowing） ：对每帧信号加窗，以减小吉布斯效应的影响。
      4、快速傅立叶变换（FFT） ：将时域信号变换成为信号的功率谱。
      5、三角带通滤波器（Triangle Filters） ：三角滤波器覆盖的范围都近似于人耳的一个临界带宽，以此来模拟人耳的掩蔽效应。
      6、离散余弦转换（DCT） ：去除各维信号之间的相关性，将信号映射到低维空间。

三、声纹提取、识别过程

话者的声纹提取过程总的分4步：

1、对输入的语音数据序列（PCM 码流）进行预处理。

目的：a) 去除非语音信号和静默语音信号；

b) 对语音信号分帧，以供后续处理。

2、提取每一帧语音信号的MFCC 参数并保存。

3、用第2 步提取的 MFCC 参数训练话者的 GMM （高斯混合模型），得到专属某话者的 GMM 声纹模型。

4、声纹识别。提供输入话音与GMM 声纹模型的匹配运算函数，以判断输入话音是否与声纹匹配。

一）、语音数据预处理（去除静寂声音）

输入语音流采用单声道、8bit、16KHz采样。

以256个采样点为一个音框单位（帧），以128为音框之间的重迭单位，对输入语音流进行分帧。

计算各帧语音数据的累积能量E（最大值为256^3=16777216，用int表示足够），

，

如果连续语音帧累积能量大于预设静音阈值（连续数>100），则采纳该段连续语音帧为训练语音；

保留所有可供训练的语音。

二）、MFCC参数提取

图1.显示了MFCC参数提取流程

具体6步：

1) 预增强（Pre-Emphasis ）

2) 音框化（Framing ）

3) 汉明窗（Hamming Windowing ）

4) 快速傅立叶转换（FFT ）

5) 三角带通滤波器（Triangle Filters ）

6) 离散余弦转换（DCT ）

1）预增强（Pre-Emphasis ） ( 对原始采样数据处理，所以N 不是 256 )

以S1(n)（n：0..N-1）表示时域信号，预增强公式为：

S(n) = S1(n) – a×S1(n-1) (0.9 < a < 1.0)---------------每字节做差分

该过程可以达到在音框化阶段对静音数据的判断，因为静音数据的值是几乎不变的

所以在做差分以后值会很小，接近于0，而有声音的数据则会保留较大的值

S(n)=(S1(n)-128)/128

此时还是不分帧的好，这样就只需要做完帧数据大小一半的差分

差分后必须以short以及比它字节大的有符号类型，因为差分结果可能为负，且超过char的范围，造成溢出

2）音框化（Framing ）

音框化即预处理阶段的语音信号分帧。

3）汉明窗（Hamming Windowing ）

假设音框化的信号（M帧共N点）为S(n)，n=0，1，…，N-1。那幺乘上汉明窗后为:

S′(n) = S(n) ×W(n)

, a = 0.46

//即使是重叠处的样值在汉明窗以后也会不同，因为n不同

图1. MFCC参数提取流程

4）快速傅立叶转换（FFT ）

对S′(n) 的每帧实施基2 FFT时域变换（代码到网上找）

得到X(n), n = 0..N-1（N=256）

注意X(n)为复数，所以S′(n) 也要在3）以后转化为复数作为FFT的输入

5）三角带通滤波器（Triangle Filters ）

设定16KHz 和 8KHz条件下的滤波器数组 melf16[]，melf8[]。

melf[]滤波器数组为20×129的稀疏矩阵，以结构化数组的方式存储。

计算每个滤波器输出的对数能量z[20]，计算公式为：

z[ ] = log ( melf[]*(|X(0:128)|.^2) )--------------------log(m)是以e 为底m为真数的对数

同理exp(m)是以e为底m为指数的指数

melf[]数组见melf16，melf8

6）离散余弦转换（DCT ）

对上一步所获得的对数能量进行DCT变换，获得DCT系数数组r[20]

r[] = dct (z[ ])；

dct()变换公式为

，D = 20

r[] 即一帧语音信号的MFCC参数

计算并保存所有各帧语音信号的MFCC参数。

三）、训练话者的GMM 模型

GMM模型主要公式为：

（1）---------------------------------------------------(1-1)

为D维随机矢量，与 r[ ] 对应；

是m组D维高斯概率密度函数；

是M组高斯向量的混合数，。

（2）D维高斯概率密度函数公式

；

（3）一个话者的GMM模型由其参数组唯一表示

图2. GMM模型图

GMM模型训练的目的即得到特定话者的GMM参数组。

步骤为：

1）、读入训练语音的MFCC参数序列，即；T =训练语音的总帧数。

2）、设定起始参数值

3）、用期望值最大化算法（简称EM），迭代计算，直至，算法停止。得到的即为特定话者GMM参数组。

步骤2）具体算法为：

；//这里表示M个值都取1/M

由k-均值算法获取；用以训练k-均值的向量数量为1..T

图3. k-均值算法示意图

为协方差矩阵，i = 1,…,M，D是MFCC参数矢量维度=20，为计算方便，假设其为对角阵。

，为的一组矢量，共M组。

k-均值算法一次性得到了所有的，1≤i≤M

步骤3）具体算法为：

a) 准备好T 个训练向量，记为

b) 计算事后概率，为上一轮迭代后获得的GMM参数组。

公式中是表示要计算每个训练向量的事后概率，共计算T个M组的事后概率

也就是说每个训练向量都对应一个M组的事后概率

c) 计算

这里的pi是M维向量

d) 计算

e) 计算

f) 计算若是，则迭代训练结束，得到话者GMM参数组模型，

若否，则令，返回b）步继续计算。

注：

D = 20；

四）、声纹识别

假设已训练了S个（>2）GMM声纹模型，现输入一位话者的语音序列（已经过mfcc参数提取），要求判断该话者是谁，即语音序列与哪一个声纹模型匹配。

用后验概率计算

由于假定先验概率相同，故上式可简化为求下式：

该式又近似于下式。。故实际计算中以下式为准。

此过程中：只对大于0的值取log，否则为0的值将导致最后的累加值可能出现无穷小

即公式（1-1），计算即可。

四、验证实现

采用标准C语言实现：MFCC参数提取，K-means聚类，GMM建模及识别

源码地址如下：

http://www.openvp.tk

五、参考文献

[1] Douglas A. Reynolds, Richard C. Rose. Robust Text-Independent Speaker Identification Using Gaussian

Mixture Speaker Models. IEEE Transactions on Speech and Audio Processing, Vol.3, No.1, January 1993.

[2]郭慧娟.声纹识别系统研究[D]．西华大学硕士学位论文，2006．

[3] 魏凯．声纹识别中关键技术的研究[D]．华中科技大学硕士学位论文，2006．

[4] ZhiQiang Wang, Yang Liu, Peng Ding, Xu Bo .Covariance-tied Clustering Method

In Speaker Identification[J].National Laboratory of Pattern Recognition.

Institute of Automation, Chinese Academy of Science Beijing 100080.

[5] 郭皓婷．基于声纹识别技术的应用难点研究[R]．第十四届全国青年通信学术会议，2009．

[6] 张万里，刘桥．Mel频率倒谱系数提取及其在声纹识别中的作用[J]．贵州大学学报，第22卷第2期.

[7] 张广兰．声纹识别的关键技术及发展趋势[J]．黑龙江科技学院，黑龙江，哈尔滨,150027．

leetcode_链表 203.移除链表元素 MiyamiKK57 leetcode 链表算法
203.移除链表元素给你一个链表的头节点head和一个整数val，请你删除链表中所有满足Node.val==val的节点，并返回新的头节点。#Definitionforsingly-linkedlist.#classListNode(object):#def__init__(self,val=0,next=None):#self.val=val#self.next=nextclassSolutio
leetcode_链表 83.删除排序链表中的重复元素 MiyamiKK57 leetcode 链表算法
83.删除排序链表中的重复元素给定一个已排序的链表的头head，删除所有重复的元素，使每个元素只出现一次。返回已排序的链表。#Definitionforsingly-linkedlist.#classListNode(object):#def__init__(self,val=0,next=None):#self.val=val#self.next=nextclassSolution(object
使用Python调用OpenCV中的solvePnP函数 WzisTypescript python opencv 开发语言 OpenCV
OpenCV是一个广泛使用的计算机视觉库，它提供了许多用于处理图像和视频的功能。其中一个重要的功能是解决透视投影问题，也就是通过已知的3D点和对应的2D图像点来计算相机的位姿。在OpenCV中，solvePnP函数就是用于解决这个问题的。solvePnP函数使用了一种称为Perspective-n-Point（PnP）问题的算法，它可以估计相机的旋转和平移向量，从而确定相机在3D空间中的位置。这对
影视制作的未来：云渲染+虚拟制作+AI生成技术 LhcyyVSO AIGC 云渲染影视动画人工智能 3d 云渲染渲染农场 AI AICG 虚拟制作
在计算机技术和人工智能技术飞速发展的2024年，影视制作正在经历一场前所未有的变革。云渲染、虚拟制作和AI生成等新影视制作技术的结合，正在重新定义数字内容的创作流程，为影视产业带来了全新的可能性和机遇。这些前沿技术不仅提高了制作效率，还打开了无限的创作空间，有望引领未来的影视制作走向新的高峰。云渲染：加速创意实现影视的后期特效制作阶段需要大量的计算机参与渲染。传统的渲染过程耗时长且成本高，而云渲染
【ESP32】ESP-IDF开发 | UART通用异步收发传输器+串口收发例程马浩同学 ESP32 单片机嵌入式硬件 c语言 mcu
1.简介UART可以说是开发者使用得最多的外设之一了，打印log几乎都是使用串口来实现的。UART是一种异步全双工的通信方式，异步传输的特性使得它仅需2根线就可以完成全双工的传输，但这也要求发送端和接收端的速率、停止位、奇偶校验位等都要相同，通信才能成功。一个典型的UART帧开始于一个起始位，紧接着是有效数据，然后是奇偶校验位（可有可无），最后是停止位。ESP32上的UART控制器支持多种字符长度
智能工厂的设计软件应用场景的一个例子：为AI聊天工具添加一个知识系统之12 方案再探之3：特定于领域的模板之2 首次尝试和遗留问题解决一水鉴天软件智能智能制造人工语言人工智能
本文提要现在就剩下“体”本身的约定了--这必然是自律自省的，或者称为“戒律”--即“体”的自我训导discipline。完整表述为：严格双相的庄严“相”(侧），完全双性的本质“性”（侧）和双侧side双面face的外观“体”（自身）。通过Class(),Type()和Method()的声明来确保结构化最终能形式化（终结符号），以及形式化最初能结构化（初始断言）。在文档中相关的描述：两种描述文件下面
python2 中使用pip2 install package_name的时候报错：AttributeError: ‘int‘ object has no attribute ‘endswith‘ 点亮~黑夜 16—各种错误和bug（你的痛我的痛痛痛痛）python
文章目录1错误说明2错误解决方式1错误说明1、在python2的环境下使用pip2install安装库包的时候报错：AttributeError:'int'objecthasnoattribute'endswith'2、具体报错信息如下(base)shl@zhihui-mint:~/tools$pip2installpyquaternionException:Traceback(mostrecen
【练习】PAT 乙 1024 科学计数法柠石榴 PAT 题解输入输出 c++开发语言字符串
题目科学计数法是科学家用来表示很大或很小的数字的一种方便的方法，其满足正则表达式[±][1-9]”.”[0-9]+E[±][0-9]+，即数字的整数部分只有1位，小数部分至少有1位，该数字及其指数部分的正负号即使对正数也必定明确给出。现以科学计数法的格式给出实数A，请编写程序按普通数字表示法输出A，并保证所有有效位都被保留。输入格式每个输入包含1个测试用例，即一个以科学计数法表示的实数A。该数字的
打造你的聊天助手：使用C#、OpenAI和Spectre.Console创建控制台ChatGPT客户端墨夶 C#学习资料1 c#chatgpt 开发语言
打造你的聊天助手：使用C#、OpenAI和Spectre.Console创建控制台ChatGPT客户端在这个人工智能飞速发展的时代，ChatGPT以其卓越的对话能力和智能回答在聊天领域引起了革命。你是否想过将这种能力融入到你的控制台应用中，让命令行界面也能拥有智能对话的体验？本文将带你一步步使用C#、OpenAI的API和Spectre.Console库，创建一个功能强大的控制台ChatGPT客户
Microchip 系列：SAM L 系列 (基于 ARM Cortex-M0+)_（7）.外设驱动开发 kkchenkx 单片机开发 arm开发驱动开发架构 java 数据库嵌入式硬件
外设驱动开发在外设驱动开发中，我们将详细介绍如何使用Microchip的SAML系列单片机（基于ARMCortex-M0+）来开发各种外设驱动程序。这部分内容将涵盖常见的外设，如GPIO、UART、SPI、I2C、ADC和DAC等，并提供具体的代码示例和操作步骤。GPIO驱动开发GPIO引脚配置GPIO（GeneralPurposeInput/Output）是单片机中最基本的外设之一。通过配置GP
【用Java学习数据结构系列】初识泛型 Gu Gu Study 【用Java学习数据结构系列】java 数据结构机器学习人工智能
看到这句话的时候证明：此刻你我都在努力加油陌生人br/>个人主页：GuGuStudy专栏：用Java学习数据结构系列喜欢的一句话：常常会回顾努力的自己，所以要为自己的努力留下足迹喜欢的话可以点个赞谢谢了。作者：小闭前言好久没有更新文章了，大概断更了20天，想着今天就写一下文章吧！最近也是又温习了一下数据结构，其实之前我写过关于数据结构的一个专栏那个专栏是写了顺序表，链表，栈和队列，但是那时是用C语
软件测试中的AI-为什么它在软件自动化测试中很重要？测试界霄霄软件测试人工智能功能测试自动化测试软件测试程序人生职场和发展
通俗地说，人工智能（AI）是计算机科学的一个领域，它专注于使机器“智能化”。所谓智能，就是使系统能够像人类一样学习和做出决策。因此，人工智能机器将能够学习如何在特定情况下做出反应，然后根据其学习情况在未来场景中做出决策。人工智能（AI）在大多数领域的应用仍处于早期阶段，想要完美运行还需要很长时间。今天的人工智能（AI）技术可以帮助我们完成许多不需要复杂思考的重复性日常任务。接下来，让我们讨论软件测
深入剖析移动通信系统的架构与关键技术大苏牙
本文还有配套的精品资源，点击获取简介：移动通信系统是现代通信技术的重要组成部分，支持移动设备上的多种通信活动。本讲深入探讨了移动通信系统的基本原理、架构以及关键技术，如无线接口设计、核心网络功能和频谱效率优化。此外，分析了覆盖与容量平衡的策略，以及4G向5G演进所面临的挑战与机遇。通过本讲，学生将获得对移动通信系统全面而深入的认识。1.移动通信系统原理与架构移动通信系统是现代无线通讯的核心，它支持
OpenCV实现Python视频播放控制详解夏勇兴
本文还有配套的精品资源，点击获取简介：本文详细介绍了如何使用OpenCV库在Python环境中播放视频，并展示了实现视频快进、后退控制的方法。首先通过cv2.VideoCapture()函数实现基础播放，然后利用set(cv2.CAP_PROP_FPS)函数控制播放速度实现快进和慢速播放，最后结合cv2.CAP_PROP_POS_MSEC属性实现精确的快进和后退。开发者可以根据实际需求选择合适的方
两种交换排序算法--冒泡，快速 juechen333 课程学习记录排序算法算法数据结构冒泡排序快速排序
目录1.冒泡排序原理2.快速排序原理3.冒泡代码实现4.快速排序代码实现1.冒泡排序原理冒泡排序（BubbleSort）是一种简单的排序算法，基本思想是通过反复交换相邻的元素，直到整个序列有序。它的名字来源于较大的元素像气泡一样“浮”到序列的顶部。原理：初始状态：我们从数组的第一个元素开始，比较相邻的两个元素。如果第一个元素大于第二个元素，就交换它们的位置；如果不大，则继续比较下一对元素。第一轮排
单片机内存管理剖析 jiuri_1215 MCU开发单片机嵌入式硬件
一、概述在单片机系统中，内存资源通常是有限的，因此高效的内存管理至关重要。合理地分配和使用内存可以提高系统的性能和稳定性，避免内存泄漏和碎片化问题。单片机的内存主要包括程序存储器（如Flash）和数据存储器（如RAM），其中数据存储器又可进一步分为静态数据区、栈区和堆区。动态内存分配主要发生在堆区，而sbrk、malloc和free这三个函数在堆内存管理中起着关键作用。二、sbrk：底层的内存边界
【AI论文】FilmAgent: 一个用于虚拟3D空间中端到端电影制作自动化的多智能体框架东临碣石82 自动化运维
摘要：虚拟电影制作涉及复杂的决策过程，包括剧本编写、虚拟摄影以及演员的精确定位和动作设计。受近期基于语言智能体社会的自动化决策领域进展的启发，本文提出了FilmAgent，这是一个新颖的、基于大型语言模型（LLM）的多智能体协作框架，旨在实现我们构建的3D虚拟空间中的端到端电影制作自动化。FilmAgent模拟了各种剧组成员角色，包括导演、编剧、演员和摄影师，并涵盖了电影制作工作流程的关键阶段：（
BlueZone：实现六边形架构的停车支付应用樊思露Roger
BlueZone：实现六边形架构的停车支付应用bluezoneAnexampleapplicationimplementingHexagonalArchitecture项目地址:https://gitcode.com/gh_mirrors/blu/bluezone项目介绍BlueZone是一个基于六边形架构（HexagonalArchitecture）的示例应用，旨在为城市中的汽车驾驶员提供远程停
CentOS7 编译安装Python3.12 topxiasz linux python
Tom更新于2024.8.201.说明CentOS7已成为历史，不过很多人还在这段是历史奋战。Python2的Python2.7.5是CentOS7默认安装的版本;Python3的Python3.6.8是CentOS7可以通过默认repo，直接用yum安装的版本。yuminstall-ypython3本文主要针对CentOS7中较高版本如3.12的编译安装。2.安装OpenSSL-1.1.1根据P
nginx日志收集、拆分、分析 . . . . . Nginx nginx 运维
Nginx的核心价值：高性能的静态服务反向代理负载均衡nginx的access_log与error_logaccess_log：指的是访问日志，我们通过访问日志可以获取用户的IP、请求处理的时间、浏览器信息等设置access_log语法：access_logpath[format[buffer=size][gzip[=level]][flush=time][if=condition]];设置访问日
一篇带你搞懂为什么Vue3比Vue2效率更高！一朵好运莲前端 javascript vue.js html5 css 前端框架
众所周知，vue3比vue2效率有很大的提升，渲染效率提升了1.3~2倍，SSR效率提升了2~3倍。那么vue3是如何提升效率的呢？目录一、静态提升二、预字符串化三、缓存事件处理函数四、BlockTree五、PatchFlag一、静态提升Vue3中的静态提升（StaticTreeHoisting）是一种编译阶段的优化技术，它能够提高组件的渲染性能。具体来说，静态提升通过以下方式工作：1、提升静态节
最小二乘法-线性回归和梯度下降法梦回楼~ 最小二乘法算法机器学习人工智能
最小二乘法一、最小二乘法概念以及应用最小二乘法（LeastSquaresMethod,LSE）是一种数学优化技术，主要用于寻找最佳拟合给定数据点的函数。它通过最小化观测值与模型预测值之间的差的平方和来估计模型参数。换成听得懂的话说就是，我们有一组数据(x1,y1),(x2,y2)…(xn,yn)，我们也知道他的数学表达式的形式例如y=kx+b(但是不知道k、b的具体值)，但是(xn,yn)
容器化检索增强框架（R2R） deepdata_cn RAG RAG
R2RbySciPhi-AI是一个专门的RAG框架，专注于通过迭代细化来改进检索过程。主要特点包括实现新颖的检索算法，支持多步检索过程，与各种嵌入模型和向量存储集成，以及用于分析和可视化检索性能的工具。适合有兴趣突破检索技术界限的开发人员和研究人员，特别是在需要创新检索方法的场景。具有RESTfulAPI的容器化检索增强一代（RAG）。具有生产就绪型功能，包括多模式内容摄取、混合搜索功能、可配置的
GitLab/GitHub上传项目时忽略文件规则满眼清香 #Git #Windows 操作系统 git Windows
平时使用idea或者eclipse时总会有一些自动生成的文件，比如日志文件、编译文件，但是项目上传的时候这些文件是不需要的，而且浪费空间导致项目非常大，所以这些没有用的文件上传的时候需要通过.ignore过滤掉，接下来说一下过滤规则。git对于.ignore配置文件是按行从上到下进行规则匹配的，意味着如果前面的规则匹配的范围更大，则后面的规则将不会生效；以斜杠“/”开头表示目录；以星号“*”通配多
高效向量搜索RAG解决方案（Canopy） deepdata_cn RAG RAG
Canopy利用Pinecone在高效向量搜索方面的专业知识，提供强大且可扩展的RAG（Retrieval-AugmentedGeneration）解决方案。包括与Pinecone向量数据库的紧密集成，支持流处理和实时更新，先进的查询处理和重新排序功能，以及管理知识库和版本控制的工具。一、基本原理1.向量嵌入：Canopy首先会将文本数据转换为向量表示，通常使用预训练的语言模型等技术，将文本映射到
R语言数据分析基础（一）- 使用R语言读取Excel 司南锤 R语言 excel r语言
在R中，读取和操作Excel文件最常用的readxl包，可以读取Excel文件，writexl包可以写入Excel文件。以下是常见的操作：安装和加载包首先，需要安装和加载readxl和writexl包。install.packages("readxl")install.packages("writexl")library(readxl)library(writexl)读取Excel文件使用read
遥感深度学习过程中图像分割的尺寸对模型训练结果的影响司南锤深度学习遥感深度学习人工智能
1.计算资源与显存占用大尺寸图像：需要更高的显存和计算资源，可能限制训练时的批大小（batchsize），甚至导致无法训练。解决方案：通常将大图裁剪为小尺寸的补丁（patches），例如256x256或512x512。小尺寸图像：显存占用低，但可能丢失全局上下文信息（如大面积地物分布），影响模型对复杂场景的理解。2.模型感受野与上下文信息小尺寸输入：模型感受野受限，可能无法捕捉大范围地物（如河流、
使用小尺寸的图像进行逐像素语义分割训练，出现样本不均衡训练效果问题司南锤深度学习遥感计算机视觉人工智能机器学习
在使用小尺寸图像进行逐像素语义分割训练时，确实可能出现样本不均衡问题，且这种问题可能比大尺寸图像更显著。1.小尺寸图像如何加剧样本不均衡？(1)局部裁剪导致类别分布偏差问题：遥感图像中某些类别（如道路、建筑）可能稀疏分布。小尺寸裁剪后，部分训练样本可能完全不含某些类别（例如一块纯农田的补丁），导致模型对这些类别缺乏学习机会。示例：原图中“道路”占比5%，若裁剪为256x256的小图，部分小图中可能
YOLOv11-ultralytics-8.3.67部分代码阅读笔记-transformer.py 红色的山茶花 YOLO 笔记 transformer 深度学习
transformer.pyultralytics\nn\modules\transformer.py目录transformer.py1.所需的库和模块2.classTransformerEncoderLayer(nn.Module):3.classAIFI(TransformerEncoderLayer):4.classTransformerLayer(nn.Module):5.classTra
note: This error originates from a subprocess，and is likely not a problem with pip异常嚯呀怪怪怪 pip 后端 python 运维 pycharm 服务器
note:Thiserrororiginatesfromasubprocess，andislikelynotaproblemwithpip异常这个错误提示表明问题可能源自pip所调用的子进程，而不是pip本身的问题。可能的原因包括：环境问题：Python环境（如虚拟环境）没有正确配置。库或Python版本之间的冲突。权限问题，导致pip无法执行子进程。系统问题：系统依赖或工具（如gcc、make）
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR

文本无关的声纹识别 验证

文本无关的声纹识别 验证

你可能感兴趣的:(文本无关的声纹识别 验证)

文本无关的声纹识别验证

文本无关的声纹识别验证

你可能感兴趣的:(文本无关的声纹识别验证)