左左左左想

语音识别：深入理解CTC Loss原理

最近看了百度的Deep Speech，看到语音识别使用的损失函数是CTC loss。便整理了一下有关于CTC loss的一些定义和推导。由于个人水平有限，如果文章有错误，还恳请各位指出，万分感谢~
附上我的github主页，欢迎各位的follow~~~献出小星星~

1. 背景介绍

在传统的语音识别的模型中，我们对语音模型进行训练之前，往往都要将文本与语音进行严格的对齐操作。这样就有两点不太好：

严格对齐要花费人力、时间。
严格对齐之后，模型预测出的label只是局部分类的结果，而无法给出整个序列的输出结果，往往要对预测出的label做一些后处理才可以得到我们最终想要的结果。

虽然现在已经有了一些比较成熟的开源对齐工具供大家使用，但是随着deep learning越来越火，有人就会想，能不能让我们的网络自己去学习对齐方式呢？因此CTC（Connectionist temporal classification）就应运而生啦。

想一想，为什么CTC就不需要去对齐语音和文本呢？因为CTC它允许我们的神经网络在任意一个时间段预测label，只有一个要求：就是输出的序列顺序只要是正确的就ok啦~这样我们就不在需要让文本和语音严格对齐了，而且CTC输出的是整个序列标签，因此也不需要我们再去做一些后处理操作。

对一段音频使用CTC和使用文本对齐的例子如下图所示：

语音识别：深入理解CTC Loss原理_第1张图片

2. 从输出到标签

2.1符号的表示

接下来，我们要对一些符号的定义进行介绍。由于水平有限，看这部分定义介绍的时候绕在里面很久，可能有些理解有误，还恳请各位大大及时指出~

ytk ：代表输出序列在第t步的输出为k的概率。举个简单的例子：当输出的序列为（a-ab-）时， y3a 代表了在第3步输出的字母为a的概率；
p(π∣x) ：代表了给定输入x，输出路径为 π 的概率；

由于假设在每一个时间步输出的label的概率都是相互独立的，那么 p(π∣x) 用公式来表示为 p(π∣x)=∏Tt=1(ytk) ，可以理解为每一个时间步输出路径 π 的相应label的概率的乘积。
F ：代表一种多对一的映射，将输出路径 π 映射到标签序列 l 的一种变换

举个简单的例子 F(a−ab−)=F(−aa−−abb)=aab （其中-代表了空格）
p(l∣x) ：代表给定输入x，输出为序列 l 的概率。

因此输出的序列为 l 的概率可以表示为所有输出的路径 π 映射后的序列为 l 的概率之和，用公式表示为 p(l∣x)=∑π∈F−1(l)p(π∣x)

2.2 空格的作用

在最开始的CTC设定中是没有空格的， F 只是简单的移除了连续的相同字母。但是这样会产生两个问题：

无法预测出连续两个相同的字母的单词了，比如说hello这个单词，在CTC中会删除掉连续相同的字母，因此CTC最后预测出的label应该是helo；
无法预测出一句完整的话，而只能预测单个的单词。因为缺乏空格，CTC无法表示出单词与单词之间停顿的部分，因此只能预测出单个单词，或者将一句话中的单词全部连接起来了；

因此，空格在CTC中的作用还是十分重要的。

3. 前向传播与反向传播

3.1前向传播

在对符号做了一些定义之后，我们接下来看看CTC的前向传播的过程。我们前向传播就是要去计算 p(l∣x) 。由于一个序列 l 通常可以有多条路径经过映射后得到，而随着序列 l 长度的增加，相对应的路径的数目是成指数增加的，因此我们需要一种高效的算法来计算它。

有一种类似于HMM的前向传播的算法可以帮助我们来解决这个问题。它的key就是那些与序列 l 对应的路径概率都可以通过迭代来计算得出。

在进行计算之前，我们需要对序列 l 做一些预处理，在序列 l 的开头与结尾分别加上空格，并且在字母与字母之间都添加上空格。如果原来序列 l 的长度为U，那么预处理之后，序列 l′ 的长度为2U+1 。

对于一个特定的序列 l ，我们定义前向变量 α(t,u) 为输出所有长度为 t ，且经过 F 映射之后为序列 l 的路径的概率之和，用公式表达如下所示：

α(t,u)=∑π∈V(t,u)∏ti=1yiπi

其中， V(t,u)={π∈A′t:F(π)=l1:u/2,πt=l′u} 代表了所有满足经过 F 映射之后为序列 l ，长度为t的路径集合，且在第t时间步的输出为label: l′u 。

所有正确路径的开头必须是空格或者label l1 ，因此存在着初始化的约束条件：

α(1,1)=y1b

α(1,2)=y1l1

α(1,u)=0,∀u>2

也就是当路径长度为1时，它只可能对应到空格或者序列 l 的第一个label，不可能对应到序列 l 第一个之后的label中。

因此， p(l∣x) 可以由前向变量来表示，即为

p(l∣x)=α(T,U′)+α(T,U′−1)

其中 α(T,U′) 可以理解为所有路径长度为T，经过 F 映射之后为序列 l ,且第T时刻的输出的label为： l′U 或者 l′U−1 。也就是路径的最后一个是否包括了空格。

怎么去理解它呢？我们不妨先看看它的递归图

语音识别：深入理解CTC Loss原理_第2张图片

上图中，白色的点表示一个label，黑色的点表示空格，纵向每一列表示的是路径的长度T（或者时刻T？），箭头代表了路径下一个时刻可以输出到哪个label去。如果在时刻 1 的 label 为空格，那么路径在下一时刻只有两个选择，第一个还是输出空格，第二个就是输出序列 l 中对应的空格的下一个label：C；如果在时刻2的 label 为 C，那么在时刻3，它可以有三种选择：第一种就是输出还是 C，第二种是输出为空格，第三种是直接输出A。

从上图可以看出长度为T的输出路径映射到序列 l：cat ，可以由第T步为label：T的所有路径和第T步为空格的所有路径的概率之和来表示（注意：并不是所有以空格或者T结束的路径都是对的，这里路径是有限制的，不要忘了初始条件的限制哦）。

现在我们要来引出它的递推公式啦，具体公式如下所示：

α(t,u)=ytl′u∑ui=f(u)α(t−1,i)

其中

f(u)={u−1,u−2,if l′u=blank or l′u−2=l′uotherwise

如何理解这个递推公式呢，很简单，我们可以看上面递推图，就以时刻T为空格的前向变量为例，由于我们之前讲过了如果当前时刻的输出为空格，下一时刻路径输出只有两种可能性，而如果我们当前时刻是空格，上一时刻的输出从图中可以看出也是由两种可能性，一种是在T-1时刻输出为空格，另外一种是在T-1时刻输出为T。因此我们只要计算出T-1时刻输出为空格的所有正确路径的概率之和以及在T-1时刻输出为T的所有路径的概率之和，再乘上T时刻输出为空格的概率 yTl′u ，就可以得到前向变量 α(t,u) 啦。时刻T为label：T的前向变量的求法和空格的类似，只是它由三种可能情况求和再乘上 yTl′u 得到的。

3.2反向传播

与前向传播类似，我们首先定义一个反向变量 β(t,u) ，它的含义是从t+1时刻开始，在前向变量 α(t,u) 上添加路径 π′ ，使得最后通过 F 映射之后为序列 l 的概率之和，用公式表示为：

β(t,u)=∑π∈W(t,u)∏T−ti=1yt+iπi

其中 W(t,u)={π∈A′T−t:F(π′+π)=l,∀π′∈V(t,u)}

按照前向传播的图举例说明：假设我们在T-2时刻路径输出为label：A，那么此时的反向变量的求法就是在T-2时刻开始，所有能到达T时刻输出为空格或者label：T的“剩余”路径 π′ 的概率之和。

反向传播也有相对应的初始化条件：

β(T,U′)=β(T,U′−1)=1

β(T,u′)=0,∀u′<U′−1

它的递推公式如下所示

β(t,u)=∑g(u)i=uβ(t+1,i)yt+1l′i

其中

g(u)={u−1,u−2,if l′u=blank or l′u−2=l′uotherwise

3.3对数运算

不论是在计算前向变量还是反向变量时，都涉及到了大量的概率的乘积。由于这些乘积都是小于1的，在大量的小数相乘时，最后得到的结果往往都会趋向于0，更严重的是产生underflow。因此在计算时对其做了取对数的处理，这样乘法就会转化为加法了，不仅避免了underflow，还简化了计算。但是，原来的加法计算就不是太方便了。不过这里有一个数学的trick：

ln(a+b)=lna+ln(1+elnb−lna)

4.损失函数

CTC的损失函数定义如下所示

L(S)=−ln∏(x,z)∈Sp(z|x)=−∑(x,z)∈Slnp(z|x)

其中 p(z|x) 代表给定输入x，输出序列 z 的概率，S为训练集。损失函数可以解释为：给定样本后输出正确label的概率的乘积（这里个人不理解为啥要做乘积运算，求和的话不应该好解释一点么？可能是因为要取对数运算，求和可能不太方便，所以是做乘积运算），再取负对数就是损失函数了。取负号之后我们通过最小化损失函数，就可以使输出正确的label的概率达到最大了。

由于上述定义的损失函数是可微的，因此我们可以求出它对每一个权重的导数，然后就可以使用什么梯度下降、Adam之类的算法来进行优化求解啦~

下面我们就要把上一节定义的前向变量与反向变量用到我们的损失函数中去，让序列 l=z ，定义一个新的集合 X(t,u)={π∈A′T:F(π)=z,πt=z′u} ， X(t,u) 代表了在时刻t经过label： l′u 的所有路径的集合，这样由之前对前向变量与反向变量的定义，它俩的乘积就可以写成：

α(t,u)β(t,u)=∑π∈X(t,u)∏Tt=1ytπt

而 p(π∣x)=∏Tt=1(ytk) ，因此进一步转化可以得到

α(t,u)β(t,u)=∑π∈X(t,u)p(π|x)

因此，对于任意的时刻t，我们给定输入x，输出序列 z 的概率可以表示成

p(z∣x)=∑|z′|u=1α(t,u)β(t,u)

也就是在任意一个时刻分开，前向变量与反向变量的乘积为在该时刻经过label： l′u 的所有概率之和，然后再遍历了序列 l′ 的每一个label，因此就得到了所有输出为序列 l′ 的概率之和。

损失函数就可以进一步转化为

L(x,z)=−ln∑|z′|u=1α(t,u)β(t,u)

4.1损失函数梯度计算

损失函数关于网络输出 ytk 的偏导数为：

∂L(x,z)∂ytk=−∂lnp(x|z)∂ytk=−1p(x|z)∂p(x|z)∂ytk

而 p(z∣x)=∑|z′|u=1α(t,u)β(t,u)=∑π∈X(t,u)∏Tt=1ytπt ，我们记label：k出现在序列 z′ 的所有路径的集合为 B(z,k)={u:z′u=k} ，因此可以得出

∂α(t,u)β(t,u)∂ytk=⎧⎩⎨α(t,u)β(t,u)ytk,0,if k occurs in z'otherwise

因此损失函数关于输出的偏导数可以写为

∂L(x,z)∂ytk=−1p(x|z)∂p(x|z)∂ytk=−1p(x|z)ytk∑u∈B(z,k)α(t,u)β(t,u)

最后，我们可以通过链式法则，得到损失函数对未经过sofmax层的网络输出的 atk 的偏导数：

∂L(x,z)∂atk=−∑k′∂L(x,z)∂ytk′∂ytk′∂atk′

又有

ytk=eatk∑k′eatk

因此可以得到损失函数对未经过sofmax层的网络输出的 atk 的偏导数：

∂L(x,z)∂atk=ytk−1p(x|z)∑u∈B(z,k)α(t,u)β(t,u)

5.参考文献

1.《Supervised Sequence Labelling with Recurrent Neural Networks》 chapter7

2. http://blog.csdn.net/xmdxcsj/article/details/51763886

你可能感兴趣的:(深度学习)

GPT-3 面试题
简介1、GPT-3是什么？它是基于什么模型的？GPT-3是一种基于深度学习原理的语言预测模型。它是由OpenAI开发的，可以从互联网数据中生成任何类型的文本。它只需要一小段文本作为输入，就可以生成大量的准确和复杂的机器生成文本²⁴。GPT-3是基于Transformer模型的，使用了仅有解码器的自回归架构。它使用下一个单词预测目标进行训练¹²。GPT-3有8个不同的模型，参数从1.25亿到1750
精通 triton 使用 MLIR 的源码逻辑 - 第001节：triton 的应用简介
项目使用到MLIR，通过了解triton对MLIR的使用，体会到MLIR在较大项目中的使用方式，汇总一下。1.Triton概述OpenAITriton是一个开源的编程语言和编译器，旨在简化GPU高性能计算（HPC）的开发，特别是针对深度学习、科学计算等需要高效并行计算的领域。既允许开发者编写高度优化的代码，又不必过度关注底层硬件细节。这样，通过简化高性能计算，可以加速新算法的实现和实验。传统GPU
ai绘画生成软件哪个好？几款好用的AI绘画软件分享! 呼酱小宝箱
随着人工智能技术的不断发展，越来越多的AI绘画生成软件被开发出来。这些软件利用深度学习技术，可以将普通照片或图像转化成具备艺术效果的画作。那么，ai绘画生成软件哪个好？首先，让我们来看一下几个常见的AI绘画生成软件，它们分别是：1、DeepDreamDeepDream是由Google开发的一款AI绘画生成软件。它通过卷积神经网络对输入的图片进行处理，从而生成出具有艺术风格的画作。DeepDream
DeepSeek部署指南：从入门到精通 wujj_whut 热门应用 c++DeepSeek 嵌入式实时数据库
DeepSeek部署指南：从入门到精通引言在人工智能和深度学习领域，模型的部署是一个至关重要的环节。DeepSeek作为一款强大的深度学习框架，其部署过程不仅关系到模型的性能表现，还直接影响到实际应用的效果。本文将详细介绍DeepSeek的部署流程，涵盖从环境配置到实际应用的各个方面，旨在帮助读者全面掌握DeepSeek的部署技巧。一、DeepSeek简介DeepSeek是一款开源的深度学习框架，
【人工智能之深度学习】1. 深度学习基石：神经元模型与感知机的数学本质（附代码实现与收敛性证明） AI_DL_CODE 人工智能之深度学习人工智能深度学习神经元模型感知机赫布法则深度学习基础线性可分
摘要：作为深度学习的基础单元，神经元模型与感知机承载着从生物智能到人工神经网络的桥梁作用。本文从生物神经元的工作机制出发，系统剖析数学建模过程：详解赫布法则的权重更新原理（Δwi=η·xi·y），推导McCulloch-Pitts神经元模型的数学表达（y=Θ(∑wixi−b)），重点证明感知机在linear可分情况下的收敛性——通过Novikoff定理严格推导迭代次数上界，揭示间隔γ对收敛速度的影
深度学习在环境感知中的应用：案例与代码实现
让机器学会“看”世界：深度学习如何赋能环境感知？关键词深度学习|环境感知|计算机视觉|传感器融合|语义分割|目标检测|自动驾驶摘要环境感知是机器与外界互动的“眼睛和耳朵”——从自动驾驶汽车识别行人，到智能机器人避开障碍物，再到城市监控系统检测异常，所有智能系统都需要先“理解”环境，才能做出决策。传统环境感知方法依赖手工特征提取，难以应对复杂场景；而深度学习通过数据驱动的方式，让机器从大量数据中自动
自编码器表征学习：重构误差与隐空间拓扑结构的深度解析码字的字节机器学习自编码器重构误差隐空间
自编码器基础与工作原理自编码器（Autoencoder）作为深度学习领域的重要无监督学习模型，其核心思想是通过模拟人类认知过程中的"压缩-解压"机制实现数据的表征学习。这种由GeoffreyHinton团队在2006年复兴的神经网络结构，本质上是一个试图通过编码-解码过程来复制其输入的系统，却在实现这一看似简单目标的过程中，意外地获得了强大的特征提取能力。基本架构与工作流程典型自编码器由对称的两部
基于YOLOv8的Web端交互式目标检测系统设计与实现 YOLO实战营 YOLO 前端目标检测人工智能 ui 目标跟踪计算机视觉
1.引言目标检测是计算机视觉领域的一项重要任务，它在安防监控、自动驾驶、医疗影像分析等领域有着广泛的应用。近年来，随着深度学习技术的快速发展，YOLO(YouOnlyLookOnce)系列算法因其出色的速度和精度平衡而备受关注。本文将详细介绍如何基于最新的YOLOv8模型构建一个Web端交互式目标检测系统，包含完整的UI界面设计和数据集处理流程。本系统将实现以下功能：基于YOLOv8的高效目标检测
基于卷积神经网络与小波变换的医学图像超分辨率算法复现神经网络15044 python 算法 cnn 算法人工智能图像处理开发语言神经网络深度学习
基于卷积神经网络与小波变换的医学图像超分辨率算法复现前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。1.引言医学图像超分辨率技术在临床诊断和治疗规划中具有重要意义。高分辨率的医学图像能够提供更丰富的细节信息，帮助医生做出更准确的诊断。近年来，深度学习技术在图像超分辨率领域取得了显著进展。本文将复现一种结合卷积神经网络(CNN)、小波变
深度学习系列-----＞环境搭建（Ubuntu）二师兄用飘柔深度学习历程深度学习 ubuntu 人工智能 pytorch python
1、前言电脑基础系统硬件情况：系统：ubuntu18.04、显卡：GTX1050Ti；后续的环境搭建都在此基础上进行。此次学习选择Pytorch作为深度学习的框架，选择的原因主要由于PyTorch在研究领域特别受欢迎，较多的论文框架也是基于其开发。2、anaconda+python3安装测试在学习深度学习的过程中会涉及到使用不同版本python包的问题，而anaconda可以便捷获取包且对包能够进
深度学习-常用环境配置瑶山 AI linux 人工智能 windows CUDA PyTorch
目录Miniconda安装安装NVIDIA显卡驱动安装CUDA和cnDNNCUDAcuDNNPyTorch安装手动下载测试Miniconda安装最新版Miniconda搭建Python环境_miniconda创建python虚拟环境-CSDN博客安装NVIDIA显卡驱动直接进NVIDIA官网：NVIDIAGeForce驱动程序-N卡驱动|NVIDIA在这里有GeForce驱动程序，立即下载，这是下
在NLP深层语义分析中，深度学习和机器学习的区别与联系
在自然语言处理（NLP）的深层语义分析任务中，深度学习与机器学习的区别和联系主要体现在以下方面：一、核心区别特征提取方式机器学习：依赖人工设计特征（如词频、句法规则、TF-IDF等），需要领域专家对文本进行结构化处理。例如，传统情感分析需人工定义“情感词库”或通过词性标注提取关键成分。深度学习：通过神经网络自动学习多层次特征。例如，BERT等模型可从原始文本中捕获词向量、句法关系甚至篇章级语义，无
深度学习--利用梯度下降法进行多变量的二分类（感知机）白话学生nit 深度学习分类人工智能
其实这一节涉及到了感知机的相关知识，就把这一节当作是学习感知机的引子吧。什么是二分类我们先来说一下什么是二分类，二分类指的是将结果分为两个互斥的类别，通常用来表示问题的两种可能。为什么用感知机学习二分类常见的解决问题的模型有很多，这里我们使用感知机模型。至于为什么，因为感知机模型很多地方用起来比较简便，就拿我们这一节的问题举一下例子，我们需要依照房子的价格对房子进行分类。在感知机模型中，我们可以使
智能喷洒机器人目标识别系统：基于NanoDet的目标检测与UI界面实现 YOLO实战营机器人目标检测 ui NanoDet 计算机视觉目标跟踪深度学习
在现代农业生产中，自动化喷洒系统是实现精准农业的重要组成部分。智能喷洒机器人通过图像识别和自动控制技术，能够高效识别并精确喷洒农药、肥料等，提高农业生产效率，降低化学品使用量，减少环境污染。目标识别是智能喷洒机器人中至关重要的部分，它涉及到精准的作物和病虫害识别，确保喷洒操作的准确性。在本篇博客中，我们将构建一个基于NanoDet深度学习目标检测模型的智能喷洒机器人目标识别系统。我们将介绍如何使用
对标ChatGPT，「文心一言」今日亮相！AI人机时代来临，未来在何方？ AI医学
本文由「AI医学er」提供医海无涯，AI同舟。关注我们，助力高效科研。3月15日，OpenAI公布了其大型语言模型的最新版本——GPT-4。3月16日，百度文心一言人工智能聊天机器人正式上线。一个时代开始了。OpenAI在官网表示，GPT-4是一个能接受图像和文本输入，并输出文本的多模态模型，是OpenAI在扩展深度学习方面的最新成果。此前的ChatGPT，只能通过向其输入文字提问才能生成文字回答
【深度学习新浪潮】什么是system 1和system 2？小米玄戒Andrew 深度学习新浪潮深度学习人工智能大模型推理模型 COT 模型蒸馏动态推理
在大模型研究中，System1和System2的概念源于心理学家DanielKahneman的双系统理论，用于描述人类思维的两种模式。System1代表快速、直觉、自动化的思维（如模式识别），而System2代表慢速、有意识、需要努力的逻辑推理（如复杂数学计算）。这一理论被引入AI领域后，成为理解大模型能力边界和优化方向的重要框架。一、大模型中的System1与System2的定义System1（
学习人工智能开发的详细指南 Ws＿学习人工智能 python
一、引言人工智能（AI）开发是一个充满挑战与机遇的领域，它融合了数学、计算机科学、统计学、认知科学等多个学科的知识。随着大数据、云计算和深度学习技术的快速发展，AI已经成为推动社会进步和产业升级的关键力量。本文将为初学者提供一份详细的学习指南，帮助大家逐步掌握AI开发的核心技能。二、基础知识准备数学基础：线性代数：理解向量、矩阵、线性变换等基本概念，掌握矩阵运算和特征值分解等技巧。概率论与统计学：
AI人工智能领域知识图谱在文本分类中的应用技巧 AI天才研究院 AI大模型企业级应用开发实战人工智能知识图谱分类 ai
AI人工智能领域知识图谱在文本分类中的应用技巧关键词：知识图谱、文本分类、图神经网络、实体关系抽取、深度学习、自然语言处理、特征融合摘要：本文深入探讨了知识图谱在文本分类任务中的应用技巧。我们将从知识图谱的基本概念出发，详细分析如何将结构化知识融入传统文本分类流程，介绍最新的图神经网络方法，并通过实际案例展示知识增强型文本分类系统的构建过程。文章特别关注知识表示学习与文本特征的融合策略，以及在不同
解读一个大学专业——信号与图像处理
专业定义与核心内容维度内容定义研究如何采集、处理、分析和理解一维信号（语音、雷达、脑电）和二维/三维图像（医学、遥感、工业视觉）。关键词数字信号处理（DSP）、图像处理、计算机视觉、模式识别、压缩感知、深度学习、GPU加速、嵌入式系统。技术栈MATLAB/Python+OpenCV/PyTorch+DSP/FPGA+GPU（CUDA）第五届先进算法与信号、图像处理国际学术会议（AASIP2025）
Pad Token技术原理与实现指南 Takoony AI
目录概述理论基础：第一性原理分析技术实现机制工程最佳实践性能优化策略常见问题与解决方案技术发展趋势附录1.概述1.1文档目的本文档旨在深入阐述深度学习中PadToken的技术原理、实现机制及工程应用，为算法工程师提供全面的理论指导和实践参考。1.2适用范围自然语言处理模型开发序列数据批处理优化深度学习系统架构设计高性能计算资源管理1.3核心问题研究问题:为什么深度学习模型需要将变长序列统一到固定长
深度学习分布式训练：并行策略与通信机制的系统性分析 Takoony 深度学习分布式人工智能
1.引言随着深度学习模型规模的指数级增长，单一计算设备已无法满足训练需求。以GPT-3为例，其1750亿参数在FP16精度下需要约350GB存储空间（每个参数2字节），远超当前主流GPU的显存容量（如NVIDIAA100的80GB）。根据OpenAI的技术报告[1]，即使使用最先进的硬件，单卡训练GPT-3需要355年。这一计算瓶颈催生了分布式训练技术的快速发展。本文将从理论基础出发，系统性地分析
TensorFlow为AI人工智能航空航天领域带来变革 AI原生应用开发人工智能 tensorflow python ai
TensorFlow为AI人工智能航空航天领域带来变革关键词：TensorFlow、人工智能、航空航天、机器学习、深度学习、神经网络、自主系统摘要：本文探讨了TensorFlow这一强大的机器学习框架如何推动航空航天领域的创新。我们将从基础概念入手，逐步深入分析TensorFlow在航天器导航、卫星图像处理、飞行器自主决策等关键应用场景中的实现原理。通过实际代码示例和架构图解，展示TensorFl
多语言文本分类在AI应用中的实践 AI原生应用开发人工智能分类数据挖掘 ai
多语言文本分类在AI应用中的实践关键词：多语言文本分类、自然语言处理、机器学习、深度学习、BERT、迁移学习、跨语言模型摘要：本文深入探讨多语言文本分类在AI领域的应用实践。我们将从基础概念出发，逐步讲解其核心原理、技术架构和实现方法，并通过实际案例展示如何构建一个高效的多语言文本分类系统。文章将涵盖从传统机器学习方法到最先进的深度学习技术，特别关注跨语言迁移学习在实际业务场景中的应用。背景介绍目
Orange3实战教程：图像分析---图像嵌入 err2008 Orange3 实战教程数据挖掘神经网络自然语言处理机器学习计算机视觉深度学习 orange3中文版
图像嵌入通过深度神经网络实现图像嵌入。输入图像：图像列表。输出嵌入向量：用数字向量表示的图像。跳过的图像：未计算嵌入向量的图像列表。图像嵌入功能读取图像并将其上传至远程服务器或本地计算。深度学习模型用于为每张图像计算特征向量。该功能返回一个增强的数据表，包含额外的列（图像描述符）。图像可以通过导入图像小部件导入，也可以通过电子表格中的图像路径导入。在这种情况下，包含图像路径的列需要一个三行表头，第
基于Paillier同态加密算法的金融数据安全共享机制研究【附数据】
金融数据分析与建模专家金融科研助手|论文指导|模型构建✨专业领域：金融数据处理与分析量化交易策略研究金融风险建模投资组合优化金融预测模型开发深度学习在金融中的应用擅长工具：Python/R/MATLAB量化分析机器学习模型构建金融时间序列分析蒙特卡洛模拟风险度量模型金融论文指导内容：金融数据挖掘与处理量化策略开发与回测投资组合构建与优化金融风险评估模型期刊论文✅具体问题可以私信或查看文章底部二维码
YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测
在深度学习领域，手写数字识别是一个经典问题，也是入门计算机视觉的重要案例。本文将介绍一个基于YOLOv8和MNIST数据集的手写数字识别系统，该系统不仅能识别静态图像中的数字，还能通过摄像头实时检测手写数字。个人博客：YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测-iDing's博客项目概述这个项目结合了传统的MNIST数据集和现代的目标检测算法YOLOv8，实现了以下功能：将MN
基于深度学习的手写数字和符号识别系统：YOLOv5/v6/v7/v8/v10模型实现与UI界面集成 YOLO实战营深度学习 YOLO ui 人工智能目标检测计算机视觉
1.引言随着人工智能和深度学习技术的发展，手写数字和符号识别已经成为计算机视觉领域的重要研究方向。手写识别在很多实际应用中扮演着关键角色，例如邮政编码识别、表单自动处理和智能教育系统等。传统的手写识别方法通常依赖于复杂的特征工程，而深度学习则能够自动从数据中学习到特征，极大地提高了识别精度和速度。本文将介绍如何构建一个基于YOLO系列模型（YOLOv5、YOLOv6、YOLOv7、YOLOv8、Y
AI作画：AI人工智能激发艺术创作灵感 AGI大模型与大数据研究院 AI作画人工智能 ai
AI作画：AI人工智能激发艺术创作灵感关键词：AI作画、生成艺术、深度学习、神经网络、艺术创作、人工智能、创意工具摘要：本文深入探讨AI作画技术如何激发艺术创作灵感。我们将从基础概念出发，解释AI如何"学习"艺术风格并生成新作品，分析核心技术原理，提供实际应用案例，并展望这一领域的未来发展趋势。通过通俗易懂的讲解和实际代码示例，帮助读者理解这项融合科技与艺术的创新技术。背景介绍目的和范围本文旨在向
Jetson平台编译Tengine space01 AIoT Jetson 人工智能深度学习计算机视觉
1.Tengine简介Tengine于2017年在GitHub（https://github.com/OAID/Tengine）开源，是OPENAILAB（开放智能）推出的自主知识产权的边缘AI计算框架，致力于解决AIoT产业链碎片化问题，加速AI产业化落地。Tengine兼容多种操作系统和深度学习算法框架，简化和加速面向场景的AI算法在嵌入式边缘设备上快速迁移，以及实际应用部署落地，可以十倍提升
机器人-组成结构-感知 - 决策 - 执行具身智能-查布嘎具身智能机器人人工智能
目录一、感知系统内部传感器：外部传感器：二、智能决策系统机器学习家族1.1机器学习2.1深度学习2.2深度学习模型(主要属于监督/强化学习范畴，但结构通用)：3.1监督学习3.2监督学习模型4.1半监督学习4.2无/半监督学习模型：5.1无监督学习5.2生成模型(可属于监督/无监督)：6.1强化学习7.1其他学习三、控制系统（运控）①对应小脑和脊柱一、感知系统①对应人体的五官。由具有不同功能的各种
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他