无脑敲代码，bug漫天飞

深度学习 - 语音应用

1 语音技术概览

1. 语音的定义

语音指的是人们讲话时发出的话语

是组成语言的声音或者带有语言信息的声音

是一种人们进行信息交流产生的声音

语音(Speech)=声音(Acoustic) + 语言(Language)

2. 语音信号的产生

激励源：气流和声带

声带振动频率：基音频率；

清音：声带不振动

浊音：声带振动

声道：可变谐振腔

不同形状、不同声音

共振(谐振)频率

3. 发音的分类

浊音（voiced sounds）：声道打开，声带先打开后关闭，气流经过使声带发生张驰振动，变为准周期振动气流。浊音的激励源被等效为准周期的脉冲信号；

清音（unvoiced sounds）：声带不振动，而在声道某处保持收缩，气流在声道里收缩后高速通过产生湍流，再经过主声道（咽、口腔）的调整最终形成清音。清音的激励源被等效为一种白噪声信号；

爆破音（plosive sounds）：声道关闭之后产生压缩空气然后突然打开声道所发出的声音；

4. 过零率 -- 语音识别，音乐信息检索常用的特征（深度学习之前经常用）

过零就是指信号通过零值;

过零率就是每秒内信号值通过零值的次数;

短时能量和过零率可以近似为互补的情况，短时能量大的地方过零率小，短时能量小的地方过零率较大（在0处抖动）；

短时能量:通常指一帧语音段的能量;语音段的能量比噪声段的能量大;浊音的能量值比清音大得多;

5. 语音的声学特性

音色: 又称为音质，是一种声音区别于另一种声音的基本特性。与人声带的振动频率、发音器官的送气方式和声道的形状、尺寸密切相关;

音调：声音的高低，取决于声波的频率;

音强：声音的强弱，它由声波的振动幅度所决定;

音长：声音的长短，取决于发音持续时间的长短;

语音信号的时域波形

语音信号的频域波形

6. 语音信号处理涉及语言学、声学、认知科学、生理学、心理学和数理统计等多学科知识；

语音信号处理的目标就是使机器像人一样“能听会说；

7. 语音信号处理

预加重：预加重（Pre-emphasis）是一种在发送端事先对语音信号的高频分量进行补偿的方法，目的是减少尖锐噪声影响，提升高频部分

相邻信号时刻差，拉大差，让变化变大

接收端要去补偿

分帧：短时分析时将语音流分为一段一段来处理，每一段称为一“帧”

帧长：帧的时间跨度。10~30ms，常用20ms

帧移：帧与帧之间的平滑过度，0~1/2帧长，，若截断，，可能会出现无穷帧（能量泄漏，会产生吉布斯效应--处理（加窗处理））；

加窗：为防止吉布斯（Gibbs）效应，需要加窗处理;

方法：矩形窗、Hamming、Hanning，通常采用Hamming

7. 线性预测模型

一个语音的抽样能够用过去若干个语音抽样的线性组合来逼近；

这个线性预测的抽样和实际语音抽样之间存在着误差；

通过实现预测采样在最小均方误差意义上逼近实际采样，可以求取一组唯一的预测系数

8. Linear Prediction Cepstral Coefficients (LPCC)

语音信号的倒谱可以通过对信号做傅里叶变换，取模的对数，再求反傅里叶变换得到;

用多个倒谱系数可以代表共振峰的特性

在语音识别中取得很好的性能;

9. 梅尔频率倒谱系数特征提取

信号的预处理，包括预加重(Pre-emphasis)，分帧(Frame Blocking)，加窗(Windowing);

假设语音信号的采样频率fs=8KHz，由于语音信号在10-30ms认为是稳定的，则可设置帧长为80~240点。帧移可以设置为帧长的1/2;

对每一帧进行FFT变换，求频谱，进而求得幅度谱;

梅尔频率倒谱系数特征提取:

对幅度谱加Mel滤波器组

对所有的滤波器输出做对数运算(Logarithm)，再进一步做离散余弦变换（DCT）可得MFCC

10. 语音信号的采集和存储

语音信号的采集:

可以使用Windows系统自带的“录音机”进行录音。如果有更高要求，需使用专用设备;

语音信号的存储:

波形音频文件：一种最直接的表达声波的数字形式，“.wav”;

MIDI音频文件：计算机数字音乐接口生成的音频文件，“.mid”

压缩音频文件：一种MP3格式的压缩音频文件，“.mp3”

11. 语音信号处理的主要类别

语音识别：识别表达语言的语音内容;

声纹识别：识别特定语音对应的人;

语音合成：将文本转换成相应的语音;

12. 语音技术发展史

50年代：AT&T Bell Lab，可识别10个英文数字;

60年代：线性预测编码（Linear Prediction Coefficient,LPC)较好地解决了语音信号产生模型, 动态规划（Dynamic Programming, DP)则有效解决了不等长语音的匹配问题;

70年代：动态时间规整（Dynamic Time Warp，DTW）技术基本成熟，实现了基于LPC和DTW技术相结合的特定人孤立词语音识别系统;

80年代：HMM模型和人工神经元网络（ANN）在语音识别中成功应用。1988年美国CMU大学基于HMM开发SI-CSR系统SPHINX;

90年代：大规模应用，理论进展缓慢;

2001年：语音识别达到了80％的准确度，但此后鲜有进展;

2010年：深度学习方法的使用，语音识别取得突破性进展;

13. 语音技术的典型应用

2 常见语音数据集

1. THCHS30

由清华大学语音与语言技术中心（CSLT）出版的开放式免费中文语音数据库;

包含了1万余条语音文件，大约40小时的中文语音数据，内容以文章诗句为主，全部为女声;

数据库对学术用户完全免费;

https://arxiv.org/abs/1512.01882

openslr.orghttps://www.openslr.org/18/openslr.org

2. AISHELL

北京希尔公司发布的一个免费中文语音数据集;

包含约178小时的开源版数据;

该数据集包含400个来自中国不同地区、具有不同的口音的人的语音;

该数据免费供学术使用;

https://arxiv.org/abs/1709.05522

openslr.org

3. ST-CMDS

由一个AI数据公司发布的免费中文语音数据集;

包含10万余条语音文件，大约100余小时的语音数据;

数据内容以平时的网上语音聊天和智能语音控制语句为主，855个不同说话者，同时有男声和女声;

openslr.org

4. Primewords Chinese Corpus Set 1

由上海普力信息技术有限公司发布的免费中文普通话语料库；

包含了大约100小时的中文语音数据，语料库由296名母语为中文的智能手机录制；

学术用途免费

openslr.org

5. TIMIT

由德州仪器、麻省理工学院和SRI International合作构建的声学－音素连续语音语料库；

TIMIT数据集的语音采样频率为16kHz，一共包含6300个句子；

语音由来自美国八个主要方言地区的630个人每人说出给定的10个句子，所有的句子都在音素级别（phone level）上进行了手动分割，标记

TIMIT Acoustic-Phonetic Continuous Speech Corpus - Linguistic Data Consortium

6. TED-LIUM Corpus

包括TED演讲音频和对应讲稿。其中包括1495段演讲录音和对应的演讲稿，数据获取自TED网站；

openslr.org

7. VoxForge

该数据集是带口音的语音清洁数据集，对测试模型在不同重音或语调下的鲁棒性非常有用；

Free Speech... Recognition (Linux, Windows and Mac) - voxforge.org

3 语音识别

1. 语音识别基本概念

语音识别(Speech Recognition，SR)是以语音信号为研究对象，让机器通过识别和理解的过程，将语音信号转为相应文字或命令的技术；

目的是让机器“听懂”人说话，是人机交互的重要方式之一；

2. 技术框架

声学模型（Acoustic Model, AM）的任务是建模给定文本下产生语音波形的概率；

将声学和发音学的知识进行整合，以特征提取模块提取的特征为输入，生成声学模型得分；

声学模型是语音识别系统的重要组成部分，它占据着语音识别大部分的计算开销，决定着语音识别系统的性能；

3. 声学模型：GMM-HMM

高斯混合模型（Gaussian mixture model，GMM）用于对语音信号的声学特征分布进行建模；

隐马尔科夫模型（Hidden Markov model，HMM）则用于对语音信号的时序性进行建模；

维特比算法（Viterbi）：针对篱笆网络的有向图（Lattice）的最短路径问题而提出的动态规划算法。凡是使用隐含马尔可夫模型描述的问题都可以用维特比算法来解码；

GMM-HMM语音识别分三步：

第一步，把帧识别成状态（难点），GMM；

第二步，把状态组合成音素，HMM；

第三步，把音素组合成单词，HMM；

4. 声学模型：DNN-HMM

GMM模拟任意函数的功能取决于混合高斯函数的个数，所以具有一定的局限性，属于浅层模型；

深度神经网络可以模拟任意的函数，因而表达能力更强；

随着深度学习的发展，DNN模型展现出了明显超越GMM模型的性能，于是替代了GMM进行HMM状态建模；

5. 声学模型：BLSTM-CTC

然而在混合DNN/HMM系统的训练过程中，依然需要利用GMM 来对训练数据进行强制对齐，以获得语音帧层面的标注信息进一步训练DNN。这样显然不利于针对整句发音进行全局优化，同时也相应地增加了识别系统的复杂度和搭建门槛；

对于序列标记任务，Graves 等人提出了在循环神经网络训练中引入联结时序分类(Connectionist Temporal Classification，CTC)目标函数，使得RNN可以自动地完成序列输入自动对齐任务，进而提出了BLSTM-CTC模型；

6. 声学模型：DFCNN-CTC

深度全序列卷积神经网络（Deep Fully Convolutional Neural Network，DFCNN ）：由科大讯飞2016年提出的一种使用深度卷积神经网络来对语音时频图进行识别的方法；

连接时序分类（Connectionist temporal classification，CTC ）：CTC不需要标签在时间上一一对齐就可以进行训练，在对输入数据的任一时刻做出的预测不是很关心，而关心的是整体上输出是否与标签一致，从而减少了标签预划定的冗杂工作。在整个网络结构中把CTC作为损失函数；

DFCNN 比较灵活，可以方便地和其他建模方式融合，比如和连接时序分类模型(CTC)方案结合，以实现整个模型的端到端声学模型训练；

和目前（2016年）业界最好的语音识别框架BLSTM-CTC系统相比，DFCNN 系统获得了额外15%的性能提升；

7. 语音识别的主要应用

智能家居：用语音可以控制电视机、VCD、空调、电扇、窗帘的操作；

语音搜索：搜索内容直接以语音的方式输入，响应速度更快，适用于音乐、电影、小说等内容搜索场景，让搜索内容输入更加便捷，高效；

人机对话：将语音识别为文字，毫秒级响应，可用于聊天机器人、故事机等近场语音识别环境，让人机对话更加流畅自然；

语音输入：通过语音识别将语音转换为文字实现输入，如语音输入法等；

4 声纹识别

1. 声纹识别的基本概念

声纹识别（Voice Print Recognition, VPR），作为生物识别的一种，是根据说话人的声波特性进行身份辨识的服务；

身份辨识与口音无关，与语言无关，可以用于说话人辨认和说话人确认；

根据是否与说话内容有关，声纹识别又可分为：文本相关的声纹识别（Text-Dependent）、文本独立的声纹识别（Text-Independent）；

1. 声纹模型：GMM-UBM

说话人识别最主要的两部分是特征提取和模式匹配，在模式匹配中，常用GMM；

通用背景模型(Universal Background Model, UBM)描述的是语音特征在空间中的平均分布，且语音特征与目标说话者无关，与环境噪声和声道有关；

模型的流程：

先使用大量的非目标用户数据训练UBM，然后使用极大后验概率(MAP)自适应算法和目标说话人数据来更新局部参数得到对应的GMM；

MAP自适应算法相当于先进行一轮EM迭代得到新的参数，然后将新参数和旧参数整合；

2. 声纹模型：GMM-SVM

说话人识别：该模型对GMM中每个高斯分量均值构建一个高斯超向量（Gaussian Super Vector，GSV）作为SVM的样本；

利用带核函数的SVM的非线性分类能力，在原始GMM-UBM的基础上大幅提升了识别性能；

3. 声纹模型：GMM-I-Vector

Dehak提出了从GMM均值超向量中提取一个更紧凑的向量，称为I-Vector（Identity-Vector）；

Dehak提出了全局差异空间模型，将说话人差异和信道差异作为一个整体进行建模；

当前，I-Vector在大多数情况下仍然是文本无关声纹识别中表现性能比较好的建模框架；

4. 声纹模型：深度神经网络模型

传统模型上进行改进

5. 声纹识别的主要应用

公共安全领域的声纹识别技术

公安司法人员还可以利用电话敲诈勒索等刑事案件的声音，绑架等方式识别技术，锁定嫌疑人的通话声，缩小刑事侦查范围；

金融身份认证：

为了防止被盗刷子和其他情况的发生，将声纹确认技术添加到交易支付中，并通过动态声纹密码验证客户端语音身份，可以有效提高个人资金和交易支付的安全性；

在国外，巴克莱银行，花旗银行，澳大利亚国家银行和万事达卡机构已开始引入声纹技术；

融合声纹技术的个性化的语音互动时代

利用声纹辨认技术，可支持智能音箱、智能语音助手等提供个性化服务，如针对家庭用户中的老年人、儿童等不同年龄段用户，按照兴趣推荐不同的歌曲、新闻等

设备的访问控制授权

比如智能手机锁屏、各类网络账号的声控密码锁、电脑声控锁、声控安全门、汽车声控锁等

5 语音合成

1. 语音合成的基本概念

语音合成（Text To Speech，TTS）是将文本转为语音的技术；

语音合成是实现人机语音交互，建立一个有听和讲能力的交互系统所必需的关键技术；

2. 语音合成模型：WAVENET

WaveNet模型是一种序列生成模型，可以用于语音生成建模；

2017年由DeepMind提出，在TTS(文字转语音)任务上可以达到当时state-of-art的效果；

在语音合成的声学模型建模中，Wavenet可以直接学习到采样值序列的映射，因此具有很好的合成效果；

3. 语音合成模型：Parallel WaveNet

DeepMind公司2017年对此前的WaveNet版本进行改进；

使用一个经过完全训练的WaveNet 模型作为" 教师" 网络，把自己的能力教给一个"学生" 网络——更小、更平行、更适用于现代计算机硬件的神经网络；

比WaveNet网络的速度提升不少；

4. 语音合成模型：Tacotron1.0

TACOTRON是一个端到端的深度学习TTS模型；

我们不必花费大量的时间去了解TTS中需要用的模块或者领域知识，直接用深度学习的方法训练出一个TTS模型；

模型训练完成后，给定input，模型就能生成对应的音频

5. 语音合成模型：Tacotron 2.0

Tacotron2.0利用了谷歌此前在语音生成方面最强大的两种技术：WaveNet和Tacotron 1.0；

Tacotron 2使用文本和文字叙述来计算所有语言规则，而不再需要人工明确告知系统规则；

文本本身被转换为Tacotron风格的“梅尔频谱”，实现节奏和强调。而单词本身则基于WaveNet风格的系统来生成；

6. 语音合成模型：ClariNet

ClariNet是由百度2018年提出的语音合成领域第一个完全端到端的系统

7. 语音合成的主要应用

语音交互：可集成到儿童故事机、智能机器人、平板设备等智能硬件设备，使用户与设备的交互更自然、更亲切；

有声阅读：通过阅读类APP阅读小说或新闻时，使用语音合成技术为用户提供多种发音人的朗读功能，释放双手和双眼，获得更极致的阅读体验；

语音播报：可应用于打车软件、餐饮叫号、排队软件等场景，通过语音合成进行订单播报，让您便捷获得通知信息；

参考：国科大 - 深度学习课件

Chat Model API 虾条_花吹雪 Spring AI java
聊天模型API为开发人员提供了将人工智能聊天完成功能集成到应用程序中的能力。它利用预训练的语言模型，如GPT（生成预训练转换器），以自然语言对用户输入生成类似人类的响应。API通常通过向人工智能模型发送提示或部分对话来工作，然后人工智能模型根据其训练数据和对自然语言模式的理解生成对话的完成或继续。然后将完成的响应返回给应用程序，应用程序可以将其呈现给用户或用于进一步处理。Spring人工智能聊天模
【推荐算法课程二】推荐算法介绍-深度学习算法盒子6910 运维视角下的广告业务算法推荐算法深度学习运维开发运维人工智能
三、深度学习在推荐系统中的应用3.1深度学习推荐模型的演化关系图3.2AutoRec——单隐层神经网络推荐模型3.2.1AutoRec模型的基本原理AutoRec模型是一个标准的自编码器，它的基本原理是利用协同过滤中的共现矩阵，完成物品向量或者用户向量的自编码。再利用自编码的结果得到用户对物品的预估评分，进而进行推荐排序。什么是自编码器？自编码器是指能够完成数据“自编码”的模型。无论是图像、音频，
巅峰对决，超三十万奖金等你挑战！第十届信也科技杯全球AI算法大赛火热开赛！中杯可乐多加冰前沿资讯分享科技人工智能算法计算机视觉机器学习深度学习
信也科技今年跟IJCAI和CIKM这两大全球顶级AI会议合作，这场比赛被全球人工智能顶会CIKM收录为官方赛事单元，获奖选手有机会全球人工智能顶会创造更大的影响力。一、赛事概况随着深度伪造技术的高度发展，人工智能产业走深向实，生成合成技术开始呈现工具化和普及化趋势。在生成合成内容质量显著提升的当下，基于换脸攻击的身份冒用和欺诈事件在全球范围内激增，严重威胁个人隐私和公共数据安全。第十届信也科技杯全
【AI智能推荐系统】第二篇：深度学习在推荐系统中的架构设计与优化实践 DeepFaye 人工智能深度学习
第二篇：深度学习在推荐系统中的架构设计与优化实践提示语：“从Wide&Deep到Transformer，深度推荐模型如何突破性能瓶颈？本文将揭秘Netflix、淘宝都在用的深度学习推荐架构，手把手教你设计高精度推荐系统！”目录深度学习推荐系统的核心优势主流深度学习推荐架构解析2.1Wide&Deep模型2.2DeepFM与xDeepFM2.3神经协同过滤(NCF)2.4基于Transformer的
OPENAI中Assistants API的实现原理及示例代码python实现 dzend aigc python ai
OPENAI中AssistantsAPI的实现原理及示例代码前言OPENAI是一家人工智能公司，致力于研究和开发人工智能技术。其中，AssistantsAPI是OPENAI推出的一项人工智能服务，可以帮助开发者快速构建智能助手。本文将介绍AssistantsAPI的实现原理，并提供使用Python实现的示例代码。AssistantsAPI实现原理AssistantsAPI的实现原理主要包括以下几个
【深度学习】神经网络剪枝方法的分类烟锁池塘柳0 机器学习与深度学习深度学习神经网络剪枝
神经网络剪枝方法的分类摘要随着深度学习模型，特别是大语言模型（LLM）的参数量爆炸式增长，模型的部署和推理成本变得异常高昂。如何在保持模型性能的同时，降低其计算和存储需求，成为了工业界和学术界的核心议题。神经网络剪枝（Pruning）作为模型压缩的关键技术之一，应运而生。本文将解析剪枝技术的不同分类，深入探讨其原理、优缺点。文章目录神经网络剪枝方法的分类摘要1为什么我们需要剪枝？2分类方法一：剪什
Python 图像分类入门超龄超能程序猿机器学习 python 分类开发语言
一、介绍图像分类作为深度学习的基础任务，旨在将输入图像划分到预定义的类别集合中。在实际的业务中，图像分类技术是比较常用的一种技术技能。例如，在安防监控中，可通过图像分类识别异常行为；在智能交通系统中，实现对交通标志和车辆类型的快速识别等。本文将通过安装包已有数据带你逐步了解使用Python进行图像分类的全过程。二、环境搭建在开始图像分类项目前，需要确保Python环境中安装了必要的库。主要包括：T
初始CNN(卷积神经网络) 超龄超能程序猿机器学习 cnn 人工智能神经网络
卷积神经网络（ConvolutionalNeuralNetwork，简称CNN）作为深度学习的重要分支，在图像识别、目标检测、语义分割等领域大放异彩。无论是手机上的人脸识别解锁，还是自动驾驶汽车对道路和行人的识别，背后都离不开CNN的强大能力一、CNN诞生的背景与意义在CNN出现之前，传统的图像识别方法主要依赖人工提取特征，例如使用SIFT（尺度不变特征变换）、HOG（方向梯度直方图）等算法。这些
深度学习实验：GPU加速，突破性能瓶颈 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
深度学习实验：GPU加速，突破性能瓶颈1.背景介绍随着深度学习模型变得越来越复杂和庞大，传统的CPU已经无法满足训练和推理的计算需求。GPU凭借其强大的并行计算能力和专门为矩阵运算优化的架构，成为了深度学习领域的核心加速器。本文将探讨如何利用GPU加速深度学习实验,突破性能瓶颈,提高模型训练和推理的效率。2.核心概念与联系2.1GPU架构GPU(图形处理器)最初是为了加速图形渲染而设计的,但由于其
使用大模型预测胃穿孔的全流程系统技术方案大纲
目录一、项目概述二、项目背景三、建设目标四、建设内容（一）建设架构（二）核心功能（三）核心技术（四）预期成效（五）方案总结五、系统架构方案流程图六、实验验证证据七、健康教育与指导一、项目概述本项目旨在构建一套基于大模型的胃穿孔预测及全流程管理系统，通过整合术前、术中、术后各环节数据，利用先进的人工智能技术，实现对胃穿孔疾病的精准预测、手术方案优化、并发症风险预警以及术后护理指导等功能，为医疗决策提
QT的语音识别 heng6868 imx6ull 嵌入式项目 qt http java
难点：难点就是如何跟百度云的语音应用进行通信。首先，要获取应用的APIKey、SecretKey，并通过请求鉴权接口换取token。向授权服务地址https://aip.baidubce.com/oauth/2.0/token发送请求（推荐使用POST），并在URL中带上以下参数：并在URL中带上以下参数：grant_type：必须参数，固定为client_credentials；client_i
深度学习相关指标工作笔记 Victor Zhong AI 框架深度学习笔记人工智能
这里写目录标题检测指标iou/Ｇou/Ｄiou/ＣiouMSE(MeanSquaredError)(均方误差)(回归问题)交叉熵损失函数(CrossEntropyErrorFunction)(分类问题)检测指标iou/Ｇou/Ｄiou/ＣiouIntersectionoverUnion(IoU)是目标检测里一种重要的评价值交并比令人遗憾的是IoU无法优化无重叠的bboxes如果用IoU作为loss
【深度学习新浪潮】基于扩散模型的图像编辑加速方法小米玄戒Andrew 深度学习新浪潮深度学习人工智能扩散模型 Transformer DiT 图像编辑模型加速
在基于扩散模型的图像编辑任务中，实现高质量与高效加速的平衡需要综合运用模型架构优化、采样策略创新、条件控制增强及硬件加速等多维度技术。一、一步反演与掩码引导的编辑框架通过一步反演框架将输入图像映射到可编辑的潜在空间，结合掩码引导的注意力重缩放机制，实现文本引导的局部编辑。例如，SwiftEdit通过一步反演和注意力重缩放，将编辑时间压缩至0.23秒，比传统多步方法快50倍。具体步骤包括：一步反演：
表观遗传风暴：深圳AI-BioFab终极防御战全纪实
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站⚡《表观遗传风暴：深圳AI-BioFab终极防御战全纪实》副标题：抗癌疫苗灌装倒计时90秒惊现组蛋白叛乱，中国启动虫洞计算化解文明级生物危机2025年7月2日14:26光明科学城急电当第184支抗癌疫苗注入冷链罐的瞬间，B3层突爆刺眼蓝光！培养舱内数千细胞染色体疯狂解旋，量子钟在14:26:03
医疗影像诊断新范式：多模态AI在癌症早筛中的落地难题 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站医疗影像诊断新范式：多模态AI在癌症早筛中的落地难题——2025年临床转化瓶颈突破与多中心验证报告残酷现实：FDA2025Q1报告显示，87%的AI影像工具因临床转化失败止步于III期试验破局曙光：斯坦福-梅奥联合研究证实，多模态融合使肺结节良恶性判别AUC提升至0.98（单模态上限0.91）一
合成生物学奇点：AI驱动CRISPR超进化工厂2025投产纪实
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《合成生物学奇点：AI驱动CRISPR超进化工厂2025投产纪实》副标题：全球首座AI-BioFab落地深圳，蛋白质设计周期从3年压缩至11天，生物制造成本暴跌90%一、生物制造范式的历史性颠覆▶︎传统生物工程的三大世纪困局graphTDA[缓慢的试错循环]-->B[单基因改造耗时≥6个月]C[
Transformer已死？2025年十大替代架构实战评测
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站封面图建议：十大架构3D渲染图环绕碎裂的Transformer图标，背景为动态性能雷达图副标题：实测推理速度/显存占用/长文本能力，附迁移成本决策树一、争议源起：Transformer的时代性局限（2025版）graphLRA[Transformer痛点]-->B[显存黑洞：千亿模型推理需1.6
生物启发AI新突破：神经形态芯片+脉冲神经网络落地指南 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《生物启发AI新突破：神经形态芯片+脉冲神经网络落地指南》副标题：基于2025年英特尔Loihi3芯片的工业级部署实战（附能耗对比&代码库）封面建议：脉冲神经网络动态脉冲传导图覆盖在神经形态芯片显微结构上，标注「能效比：传统GPU的1/800」一、2025生物启发AI的临界点突破生物神经特性事件
《从Backprop到Diffusion：深度学习的算法进化树全景图》 HeartException 学习人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《从Backprop到Diffusion：深度学习的算法进化树全景图》**展开系统性解析。全文基于算法原理-技术突破-产业重塑的三层逻辑链，融合2025年最新研究成果与产业数据，呈现深度学习四十年的底层技术迁徙路径从Backprop到Diffusion：深度学习的算法进化树全景图副标题：一部算法
语言模型之谜：提示内容与格式的交响诗步子哥 AGI通用人工智能语言模型人工智能自然语言处理
当代人工智能领域中，语言模型（LLM）正以前所未有的规模和深度渗透到各行各业。从代码生成到数学推理，从问答系统到多项选择题，每一次技术的跃进都离不开一个看似简单却充满玄机的关键环节——提示（prompt）的设计。而在这场提示优化的探索中，内容与格式的双重奏正逐渐揭开其神秘面纱，谱写出一曲宏大的交响诗。本文将带您走进“内容格式集成提示优化（CFPO）”的奇幻世界，揭示如何透过细腻的内容雕琢和精妙的格
多模态大模型：技术原理与实战看清GPT的进化史和创新点 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
多模态大模型：技术原理与实战看清GPT的进化史和创新点1.背景介绍1.1人工智能的发展历程1.1.1早期人工智能1.1.2机器学习时代1.1.3深度学习的崛起1.2自然语言处理的演进1.2.1基于规则的方法1.2.2统计机器学习方法1.2.3深度学习方法1.3大语言模型的出现1.3.1Transformer架构的提出1.3.2GPT系列模型的发展1.3.3多模态大模型的兴起2.核心概念与联系2.1
《卷积神经网络到Vision Transformer：计算机视觉的十年架构革命》 HeartException 人工智能学习
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站题目《卷积神经网络到VisionTransformer：计算机视觉的十年架构革命》展开深度解析，全文采用技术演进史+架构对比+产业影响的三段式结构，附关键数据与趋势预测：卷积神经网络到VisionTransformer：计算机视觉的十年架构革命副标题：从局部感知到全局建模，一场改变AI视觉基石的
Alpha系统联结大数据、GPT两大功能，助力律所管理降本增效资讯分享周大数据 gpt
如何通过AI工具实现法律服务的提质增效,是每一位法律人都积极关注和学习的课题。但从AI技术火爆一下,法律人一直缺乏系统、实用的学习资料,来掌握在法律场景下AI的使用技巧。今年5月,iCourt携手贵阳律协大数据与人工智能专业委员会,联合举办了《人工智能助力律师行业高质量发展巡回讲座》,超过100家律所的律师参与活动。讲座上,iCourtAIGC研究员、AlphaGPT产品研发负责人兰洋,为贵州律协
19｜Whisper+ChatGPT：请AI代你听播客 _Rye_ AI大模型 whisper chatgpt
今天，我们的课程开始进入一个新的主题了，那就是语音识别。过去几周我们介绍的ChatGPT虽然很强大，但是只能接受文本的输入。而在现实生活中，很多时候我们并不方便停下来打字。很多内容比如像播客也没有文字版，所以这个时候，我们就需要一个能够将语音内容转换成文本的能力。作为目前AI界的领导者，OpenAI自然也不会放过这个需求。他们不仅发表了一个通用的语音识别模型Whisper，还把对应的代码开源了。在
Xtuner：大模型微调快速上手潘达斯奈基~ AIGC AIGC
一、XTuner是什么？简单来说，XTuner是一个轻量级、易于使用的、为大语言模型（LLM）设计的微调工具库。它由上海人工智能实验室（OpenMMLab）开发，是其强大AI工具生态（MMCV,MMEngine等）的一部分。它的核心设计理念是“用一个配置文件搞定一切”，让开发者和研究人员可以极大地简化微调流程。二、为什么选择XTuner？（核心优势）轻量且用户友好：命令行驱动：你不需要编写复杂的训
AI时代的人类增强：道德考虑与身体增强的未来发展机遇分析机遇挑战 AI天才研究院 AI人工智能与大数据 AI大模型企业级应用开发实战 Agentic AI 实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
AI时代的人类增强：道德考虑与身体增强的未来发展机遇分析机遇挑战关键词：人工智能、身体增强、道德考虑、未来发展、机遇挑战摘要：本文将探讨AI时代人类增强的各个方面，包括道德考虑和身体增强技术的未来发展机遇与挑战。通过详细分析AI技术基础、身体增强技术、道德哲学及社会影响，本文旨在为读者提供对这一前沿领域的深入理解和前瞻性思考。目录大纲AI时代的人类增强：道德考虑与身体增强的未来发展机遇分析机遇挑战
目标检测：从基础原理到前沿技术全面解析随机森林404 计算机视觉目标检测人工智能计算机视觉
引言在计算机视觉领域，目标检测是一项核心且极具挑战性的任务，它不仅要识别图像中有什么物体，还要确定这些物体在图像中的具体位置。随着人工智能技术的快速发展，目标检测已成为智能监控、自动驾驶、医疗影像分析等众多应用的基础技术。本文将全面介绍目标检测的基础概念、发展历程、关键技术、实践应用以及未来趋势，为读者提供系统性的知识框架。第一章目标检测概述1.1目标检测的定义与重要性目标检测（ObjectDet
喜讯 | Navicat 蝉联 2025 年 DBTA 100 强名单 Navicat中国 Navicat 17 焕新上市 navicat 数据库
Navicat在“DBTA1002025-数据领域最重要的公司”榜单中获得表彰。该奖项旨在表彰在数据管理与分析领域的领先创新者。数据库趋势与应用集团出版人TomHogan表示：“企业正寻求扩大人工智能的应用范围，采用新的技术与应用，增加数据分析/商业智能的使用，并对现有应用进行现代化改造”，“每年，《数据库趋势与应用》杂志都会推出DBTA100榜单，旨在表彰具有创新精神、能够为客户带来新产品新体验
Midjourney：AI人工智能图像生成的新方向 AI智能探索者人工智能 midjourney 计算机视觉 ai
Midjourney：AI人工智能图像生成的新方向关键词：Midjourney、AI图像生成、扩散模型、提示词工程、多模态学习、生成式AI、创意工具摘要：本文将带您走进AI图像生成的前沿领域，以Midjourney为核心，从技术原理到实际应用，用通俗易懂的语言解析其背后的“魔法”。我们将通过生活案例、技术拆解和实战演示，揭示Midjourney如何通过扩散模型、提示词工程和多模态学习，重新定义“用
剖析AI人工智能领域Whisper的性能指标 AI大模型应用实战人工智能 whisper xcode ai
剖析AI人工智能领域Whisper的性能指标关键词：Whisper、语音识别、性能指标、ASR、AI模型评估、基准测试、语音转文本摘要：本文深入剖析OpenAI开发的Whisper语音识别系统的性能指标。我们将从技术原理、架构设计、性能基准测试等多个维度，全面分析Whisper在不同场景下的表现。文章将详细讲解Whisper的评估方法、关键性能指标解读、实际应用中的性能表现，以及与其他主流语音识别
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc

深度学习 - 语音应用

1 语音技术概览

2 常见语音数据集

3 语音识别

4 声纹识别

5 语音合成

你可能感兴趣的:(深度学习,语音识别,人工智能)