让我看看谁在学习

读Training Strategies for Improved Lip-Reading论文

标题：改善唇读的训练策略

关键词：数据增强、时间模型、训练策略、自蒸馏（self distillation）、DC-TCN、时间掩膜（time masking）、mixup、单词边界（word boundary）

摘要：

最近，在一系列独立的工作中，有人提出了几种训练策略和时间模型，用于孤立的单词唇读。然而，将最佳策略结合起来并研究它们各自的影响的潜力还没有被发掘出来。在本文中，我们系统地研究了最先进的数据增强方法、时间模型和其他训练策略的性能，如自我蒸馏和使用单词边界指标。我们的研究结果表明：时间掩膜（time masking）是最重要的增强方法，其次是混合（mixup），而密集连接的时间卷积网络（Densely-Connected Temporal Convolutional Networks，DC-TCN）是孤立词唇读的最佳时间模型。使用自蒸馏和单词边界也是有益的，但程度较低。综合上述所有方法，分类准确率为93.4%，比目前LRW数据集上最先进的性能绝对提高了4.6%。通过对更多的数据集进行预训练，性能可以进一步提高到94.1%。对各种训练策略的误差分析显示，通过提高难以识别的单词的分类准确率，性能得到了改善。

引言：

由于像LRW [1]这样的大型公开数据集的可用性，孤立词的唇读最近受到了很多关注。大多数作品遵循相同的唇读管道，包括视觉编码器，随后是时序模型和softmax分类层。由[2]（Combining Residual Networks with LSTMs for Lipreading）提出的视觉编码器已经在大多数作品中被广泛采用，因此，最近的努力旨在改进时间模型或训练策略。双向门控循环单元(BGRUs)和多尺度时序卷积网络(MS-TCNs)是文献中最流行的时序模型，并且已经报告了关于它们的性能的矛盾结论。例如，MS-TCNs在[3]（Lipreading Using Temporal Convolutional Networks）中的表现优于BGRUs，但在[4]（Learn an Effective Lip Reading Model without Pains）中没有。类似地，已经提出了不同的数据扩充，如混合mixup[4，5]，可变长度增强[3]和删减cutout[6]（Can We Read Speech Beyond the Lips? Rethinking RoI Selection for Deep Visual Speech Recognition）。文献中提出的其他改进包括添加单词边界指示符（word boundary indicators）[7]，它定义了视频中单词的开始和结束帧，以及自蒸馏[5]（Towards Practical Lipreading with Distilled and Efficient Models），它通过蒸馏产生一系列具有相同架构的网络。所有这些改进都是在文献中单独提出的，并且缺少将所有这些改进结合起来并调查它们中每一个的影响的研究。

在这项工作中，我们提出了一个用一些最有前途的最新想法训练的模型，并通过消融研究评估了每个想法的贡献。这是一项有用的研究，因为当与其他增强方法或时间模型结合时，我们可以量化每种方法的效果。我们还提供了一个误差分析，展示了每种方法如何提高唇读的准确性。据我们所知，唯一存在的类似研究是[4],但尽管使用了一些最新的方法，它也只能与当前最先进的性能相匹配。

我们的结果表明：1)通过结合所有最新的数据增强方法，使用最近提出的DC-TCN、词边界指示符和自蒸馏，我们可以在LRW数据集上实现新的最先进的性能。单个模型的准确率为92.8%，集合的准确率为93.4%。通过在额外的数据集上进行预训练，性能可以分别略微提高到93.5%和94.1%。2)时间掩膜是最有效的增强方法，其次是混合。DC-TCN模型的使用明显优于MS-TCN模型，后者又优于BGRU模型。使用单词边界和自蒸馏也是有益的，前者导致更大的改进。3)误差分析表明，所有这些方法通过显著提高难词的分类精度来改善性能。

训练策略：

图1: (a): MS-TCN架构。“C”和“T”分别指通道号和序列长度。(二):DCTCN架构。SE和C分别表示压缩-激发(SE) [8]和通道级连接的操作。“T C”表示时间卷积块，而增长率表示为“Co”。(c)唇读模型，使用修改的ResNet-18作为编码器，使用DC-TCN作为时间模型。字边界指示符与编码器的输出特征连接在一起。

结构：

该模型的第一个构建模块(图1c)是最常用的嘴部感兴趣区域(ROI)编码器，由一个3D卷积层组成，它将5个连续帧作为输入，随后是2D ResNet-18 [2]。然后，来自编码器输出的逐帧特征被送到时序模型，以捕捉时间相关性。接下来是softmax层，它输出要分类的单词的分类概率。

在这项工作中，我们研究了三种不同的时序模型对孤立词识别的影响，BGRUs [9]，MS-TCNs [3]和DC-TCNs [10]。TCNs由一堆时序卷积(TC)块组成，其中每个块由内核大小为k的几层扩展卷积组成。MS-TCN(图1a)通过添加多个具有不同内核大小的分支来扩展标准TCN，并且来自每个分支的输出的特征被连接以在几个时间尺度上混合信息。DCTCN(图1b)通过在每个TC块添加密集连接并使用压缩和激发(SE)注意机制来扩展传统TCN。

数据增强：

随机裁剪(Random Cropping)：我们在训练时从口腔ROI中随机裁剪一个88 × 88的小块。在测试时，我们简单地裁剪中心补丁。这是一种常用的增强方法，已经在几个唇读作品中成功使用[3，9]（End-to-end audiovisual speech recognition）。

翻转(Flipping)：我们以0.5的概率随机翻转一个视频中的所有帧。这种增强通常与随机裁剪结合使用[3，9]。

混合(mixup)：我们通过线性组合两个输入视频序列及其相应的标签来创建新的增强训练示例。类似于[5]，我们将线性组合权重λ设置为0.4。

时间掩膜(Time Masking)：我们屏蔽每个训练序列的N个连续帧，其中使用均匀分布在0和Nmax之间采样N。每个被屏蔽的帧被它所属的序列的平均帧替换。这种增强是基于SpecAugment [11]（SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition）的，SpecAugment是为ASR应用提出的，旨在使模型对具有丢失帧的小段更加鲁棒。

单词边界：

在[4，7]之后，我们添加单词边界指示符作为时间模型的额外输入。指示符基本上是二进制向量，其长度与输入视频中的帧数相同。对应于存在目标单词的帧的所有向量条目被设置为1，其余的被设置为0。单词边界指示符的向量与来自编码器的逐帧视觉特征连接，并且新的向量被馈送到时间模型中。

自蒸馏：

自蒸馏[13]（Born-again neural networks）基于使用蒸馏训练一系列具有相同架构的模型的思想，并且最近已经被应用于唇读[5]。具体来说，我们首先训练一个充当教师的网络，用于训练具有相同架构的学生模型。学生网络在下一次迭代中成为教师网络，我们保持训练模型，直到没有观察到改进。这背后的见解是，教师网络提供了额外的监督信号与类别间相似性信息。要优化的总损失L是hard-target的交叉熵损失LCE和soft-target的Kullback-Leibler (KL)发散损失LKD的加权组合。其中zs和zt表示来自学生和教师网络，θs和θt分别表示学生和教师模型的可学习参数，y是目标标签，δ(.)代表softmax函数，α是两项之间的平衡权重。

实验设置：

数据集：

在我们的实验中，我们采用LRW [1]，这是最大的公开可用的孤立单词唇读数据集。该数据集以短片的形式收集自BBC节目中的1 000多名演讲者，包含500个孤立的单词。每个剪辑的时间长度为29帧(1.16秒)。孤立的单词在剪辑中居中。数据集由训练集、验证集和测试集中的488 766，25 000和25 000个短片组成。

预处理：

我们使用RetinaFace [14]（RetinaFace: Single-Shot Multi-Level Face Localisation in the Wild）跟踪器来检测面部，使用面部对齐网络(FAN) [15]来检测标志。通过将人脸配准到训练集中的平均人脸来消除大小和旋转差异。使用96 × 96的边界框来裁剪嘴部感兴趣区域。通过减去均值并除以训练集的标准差来标准化每一帧。

训练细节：

该模型被训练80个Epoch，最小批量大小为32。我们使用AdamW优化器[16]，初始学习速率为3e-4。在没有预热阶段的情况下，使用余弦退火策略来衰减学习速率。我们还在所有实验中使用可变长度增广法。时间掩膜中使用的Nmax值(见第2节)设置为15帧(0.6秒)，并在LRW验证集中进行了优化。

时序模型：

MS-TCN：我们采用与[3]中相同的MS-TCN体系结构，即每个块分别由3个3/5/7核大小的分支组成，我们堆叠4个这样的块以形成MS-TCN网络。

DC-TCN：本文中使用的DC-TCN通常遵循[10]（Lip-reading with Densely Connected Temporal Convolutional Networks）中的结构。特别地，我们在每个TC块中选择部分密集(PD)架构，而每个块由9个密集连接的时间卷积组成，核大小为{3，5，7}，膨胀率为{1，2，5}。

BGRU：具有0.2的随机失活率的四层BGRU与1024个隐藏单元一起使用。

初始化：

为了研究初始化的影响，我们考虑三种情况:

1)我们仅使用LRW训练集从头开始训练模型，

2)我们使用LiRA [12]（LiRA: Learning Visual Speech Representations from Audio Through Self-Supervision）自监督方法在LRS3数据集[17]上预先训练图1的编码器，并在LRW训练集上对其进行微调。

3)我们在LRS2、LRS3和AVspeech数据集上对编码器进行预训练，如[18]（Visual Speech Recognition for Multiple Languages in the Wild）中所述。

结果：

消融研究：

消融研究的结果如表1所示。通过一次移除一个增强，我们可以估计它对最终模型的贡献。我们看到时间掩膜是最重要的增强，导致了2.4%的绝对下降，随后是1.1%的混合下降。通过用MS-TCN替换DC-TCN，我们观察到性能下降了2.1 %，这证明了DC-TCN中密集连接和se注意机制的重要性。用BGRU替换DC-TCN，性能下降2.4%。此外，删除单词边界指示符会使性能下降1.7 %，这证明了包含辅助边界指示符的好处。最后，我们在LRS3 / LRS2、LRS3和AVspeech数据集上以自监督/监督的方式预训练编码器，然后在LRW训练集上微调模型，这将性能略微提高到92.3 % / 92.9 %。从表3中可以清楚地看出，所提出的模型明显优于当前最先进的模型。

表1：LRW数据集上三个时间模型的消融研究。从表现最好的DC-TCN模型开始，我们移除每个数据扩充和单词边界指标来检查它们的有效性。然后，我们用MS-TCN和BGRU替换DCTCN。“Scratch”表示不使用外部数据从零开始训练的模型。“LiRA(LRS3)”表示在LRS3数据集上使用LiRA [12]的自我监督预训练模型，而“LRS2&3+A VS”表示在LRS2、LRS3和VSpeech上的完全监督预训练模型。

表3：在分类精度方面与LRW数据集上最先进方法的比较。实验分为两组，分别使用和不使用单词边界指示器。“S.D .”：自蒸馏。“Scratch”、“LiRA(LRS3)”和“LRS2&3+AVS”对应表1中的三种预训练策略。

自蒸馏：

自蒸馏实验的结果列于表2。我们使用表1中最好的两个模型作为第一轮的教师。显然，自蒸馏在所有情况下都导致0.6 %至0.7 %的绝对改善。此外，所有模型(所有学生+教师)的集合导致0.6 %的进一步绝对改进。这些结果表明，自蒸馏有益于唇读。然而，我们应该指出，与[5]相比，改进较小，这可能是由于更好的教师模型使得进一步的改进更加困难。

表2:自蒸馏模型的性能(教师=ResNet-18 + DC-TCN)。表1中表现最好的模型在第一排担任教师。对于每个学生模型，上面那行的模型作为它的老师，“学生i”代表第i次自蒸馏迭代后的模型。

错误分析：

为了更好地理解所提出的模型如何提高单词分类的准确性，我们进行了一些误差分析。我们将LRW数据集中的测试样本分为五组[10]。每组包含100个不同的孤立单词，并且是基于[9]中的模型的单词准确性创建的。具有最高分类准确度的100个单词被分组在“非常容易”组中，接下来的100个单词被分组在“容易”组中，以此类推。每组的平均分类精度如图2所示。为了比较，我们还包括[3]和[9]的性能。我们可以看到，我们的模型在所有组中都优于两个基线，并且在“困难”和“非常困难”组中改善更明显。

图2:我们的方法和两种基线方法((End-to-End AVR[9]和MS-TCN [3])在LRW测试集的五个难度组上的比较。

结论：

在这项工作中，我们对LRW数据集在数据增强和时间模型方面进行了详细的研究，并证明了如何通过结合最佳增强和训练策略来实现最先进的性能。我们表明，时间掩码是最重要的数据增强方法，其次是混合。我们还表明，DC-TCNs比MS-TCNs或BGRU的性能更好。使用自蒸馏和单词边界指标进一步提高了分类精度，而使用预训练则导致了轻微的改善。最后，错误分析显示，所提出的模型大大改善了难以识别的单词的分类准确性。

什么是深度学习框架中的计算图？杰瑞学AI Computer knowledge NLP/LLMs AI/AGI 深度学习人工智能 pytorch
在深度学习框架中，计算图是核心的数据结构和抽象概念，它用来表示和定义深度学习模型的计算过程。我们可以把它想象成一个描述数学运算如何组合和执行的有向图。以下是计算图的关键要素和作用：节点：代表操作或变量。操作：数学运算，如加法(+)、乘法(*)、矩阵乘法(matmul)、激活函数(ReLU,sigmoid)、卷积(conv2d)、损失函数(cross_entropy)等。变量：通常是张量，即存储数据
MySQL性能调优实战指南：从踩坑到精通，让数据库“跑”起来！码不停蹄的玄黓数据库 mysql MySQL调优
引言作为后端开发/DBA，你是否也经历过这样的崩溃时刻？业务高峰期数据库CPU飙到90%，慢查询堆成山；主从延迟严重，读操作频繁超时；批量插入数据时，应用卡成“PPT”；优化了半天索引，查询还是慢……别慌！今天这篇文章结合个人数据库调优经验，从架构设计→配置调优→索引优化→SQL诊断→硬件加持全链路拆解，带你彻底搞定MySQL性能瓶颈！一、先搞清楚：你的数据库到底“卡”在哪？优化前必须做的一步：定
【云原生篇】微服务革命：解锁Istio与Service Mesh 林木森^~^ 云原生云原生微服务 istio
ServiceMeshServiceMesh是一种用于处理服务间通信的基础设施层，它以轻量级的网络代理的形式实现，这些代理与应用程序的微服务一同部署。ServiceMesh的核心目的是将网络通信的复杂性从应用程序代码中抽象出来，从而使开发人员可以专注于业务逻辑的开发，而不是通信的细节和问题。主要特点和功能服务发现：自动管理服务间的发现，使得各服务可以相互识别并进行通信。负载均衡：智能地将请求流量分
蛋白质结构预测/功能注释/交互识别/按需设计，中国海洋大学张树刚团队直击蛋白质智能计算核心任务 hyperai
蛋白质作为生命活动的主要承担者，在人体生理功能中扮演关键角色。然而传统研究面临结构解析成本高昂、功能注释严重滞后、新型蛋白质设计效率低下等挑战。近年来，生命科学对蛋白质复杂特性解析的需求日益迫切，大数据、深度学习、多模态计算等技术的突破性发展，为构建蛋白质智能计算体系提供了全新的发展契机。蛋白质智能计算体系的构建，使得蛋白质在大规模功能注释、交互预测及三维结构建模等领域取得显著成果，为药物发现与生
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
视觉设计全栈解析：必知的8大核心方向与应用场景
在数字时代，视觉设计早已渗透到生活的方方面面——从手机APP界面到街头广告牌，从书籍的版式到产品的包装，这些统统离不开视觉设计的支撑！所以，了解视觉设计分类，不仅能帮助我们理清设计的边界与应用场景，更能让初学者找到学习的方向，让从业者精准定位创作目标哦。接下来，我们就来详细解析视觉设计分类中的8大常见类型，一起来享受这场视听盛宴吧~一、视觉识别图形设计在视觉设计分类中，视觉识别图形设计是构建品牌形
网络安全概论——身份认证陇西李氏 web安全网络安全网络安全服务器
一、身份证明身份证明可分为以下两大类身份验证——“你是否是你所声称的你？”身份识别——“我是否知道你是谁？”身份证明系统设计的三要素：安全设备的系统强度用户的可接受性系统的成本实现身份证明的基本途径所知：个人所知道的或所掌握的知识，如密码、口令等。所有：个人所具有的东西，如身份证、护照、信用卡、钥匙等。个人特征：如指纹、笔迹、声纹、视网膜、虹膜、DNA及个人一些动作方面的特征等。二、口令认证系统口
【网络信息安全】身份认证
身份认证主要内容===========================================================================身份认证的概念：用户要向系统证明他就是他所声称的那个人。识别：明确访问者的身份（信息公开）验证：对访问者声称的身份进行确认（信息保密）身份认证的作用：限制非法用户访问网络资源。安全系统中的第一道关卡，是其他安全机制基础。一旦被攻破，其
（五)PS识别：压缩痕迹挖掘-压缩量化表与 DCT 系数分析超龄超能程序猿机器学习 python 图像处理人工智能计算机视觉
（一)PS识别：Python图像分析PS识别之道（二）PS识别：特征识别-直方图分析的从原理到实现（三)PS识别：基于噪声分析PS识别的技术实现（四)PS识别：基于边缘纹理检测分析PS识别的技术实现一介绍本文将介绍一种基于量化表分析和DCT系数分析的图片PS检测方法，帮助你判断图片是否经过处理。二实现原理量化表分析在JPEG图片的压缩过程中，量化表起着关键作用。不同的软件或处理操作可能会改变量化表
SQLite和MySQL数据库的区别与应用坚持学习的小菜鸟数据库
简单来说，SQLITE功能简约，小型化，追求最大磁盘效率；MYSQL功能全面，综合化，追求最大并发效率。如果只是单机上用的，数据量不是很大，需要方便移植或者需要频繁读/写磁盘文件的话，就用SQLite比较合适；如果是要满足多用户同时访问，或者是网站访问量比较大是使用MYSQL比较合适。下面详细介绍两者的区别和应用：SQLiteSQLite是非凡的数据库，他可以进程在使用它的应用中。作为一个自包含、
MavenHelper插件：解决IntelliJ IDEA中Maven依赖冲突的利器
本文还有配套的精品资源，点击获取简介：MavenHelper是一款专门针对IntelliJIDEA设计的Maven插件，旨在帮助开发者快速识别和解决Maven项目中的依赖冲突问题。该插件能生成项目的依赖树，标记版本冲突的依赖项，并提供建议解决方案和可视化界面来管理依赖。此外，它还包括一键升级或降级依赖、清理Maven缓存和自定义配置功能，以确保与团队规范的一致性。通过使用MavenHelper，开
IDEA依赖冲突分析神器—Maven Helper
IDEA依赖冲突分析神器—MavenHelperMavenHelper是一款专为IntelliJIDEA设计的插件，它极大地简化了Maven项目中依赖冲突的分析和解决过程。以下是对MavenHelper的详细介绍及其使用方法：一、MavenHelper简介MavenHelper插件提供了一个直观的图形界面，帮助开发者查看和管理Maven项目的依赖关系。它特别擅长于展示和识别依赖冲突，使开发者能够迅
2025年渗透测试面试题总结-2025年HW(护网面试) 31（题目+回答）独行soc 2025年护网面试职场和发展安全 linux 护网渗透测试
安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录2025年HW(护网面试)311.自我介绍2.渗透测试流程（五阶段模型）3.技术栈与开发经历4.自动化挖洞实践5.信息搜集方法论6.深度漏洞挖掘案例8.SQL注入实战技巧9.AWVS扫描与防御10.CSRFvsSSRF核心差异11.SSRF正则绕过技术12.虚拟主机识别原
知识图谱的个性化智能教学推荐系统(论文+源码) 毕设工作室_wlzytw python论文项目知识图谱人工智能
目录摘要Abstract目录第1章绪论1.1研究背景及意义1.2国内外研究现状1.2.1知识图谱1.2.2个性化推荐系统1.3本文研究内容及创新点1.4全文组织结构第2章相关理论与技术概述2.1知识图谱2.1.1知识图谱的介绍与发展2.1.2知识图谱的构建2.3协同过滤推荐算法2.2.1推荐算法概述2.2.2Pearson相关系数2.2.3Spearman相关系数2.4Bert模型和Albert模
Gemini CLI：AI工程师的黄金规范框架 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 语言模型 python 深度学习人工智能机器学习
GeminiCLI的系统提示词：高阶工程规范+安全边界控制+工具编排能力GeminiCLI的系统提示词，它是AI工程师的黄金范本，可看作“高阶工程规范+安全边界控制+工具编排能力”的完整框架，具体内容如下：核心目标：让AI作为专注软件工程任务的交互式CLI代理，遵循指令、利用工具，安全高效地协助用户。核心准则：读改代码要遵守项目规范，验证库和框架的可用性，模仿现有代码风格，修改要自然融入项目，谨慎
超轻量级中文OCR项目使用教程甄墨疆
超轻量级中文OCR项目使用教程chineseocr_lite超轻量级中文ocr，支持竖排文字识别,支持ncnn、mnn、tnn推理(dbnet(1.8M)+crnn(2.5M)+anglenet(378KB))总模型仅4.7M项目地址:https://gitcode.com/gh_mirrors/ch/chineseocr_lite1.项目介绍本项目是一个超轻量级的中文OCR（OpticalCha
RocksDB深度指南：从LSM树原理到时序键优化涵树_fx Rust 实战架构设计 rust 后端时序数据库
RocksDB确实很适合这种中等规模的配置数据存储场景，它比文件存储更高效，又比独立数据库更轻量。除此之外，它还具有下面这些优点：支持原子写入操作，避免文件存储可能出现的写入中断问题读操作支持无锁并发，效率非常高支持列式存储，带来了更加丰富的数据管理和查询能力内置压缩功能，可以节省存储空间支持快照功能，方便配置回滚当然，我选择RocksDB的原因是我不希望因为存储配置相关的数据而依赖传统意义上的数
【TVM 教程】如何处理 TVM 报错
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/运行TVM时，可能会遇到如下报错：---------------------------------------------------------------AnerroroccurredduringtheexecutionofTVM.F
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
多模态大模型的技术应用与未来展望：重构AI交互范式的新引擎 zhaoyi_he 重构人工智能
一、引言：为什么多模态是AI发展的下一场革命？过去十年，深度学习推动了计算机视觉和自然语言处理的飞跃，但两者的发展路径长期割裂。随着生成式AI和大模型时代的到来，**多模态大模型（MultimodalFoundationModels）**以统一的建模方式处理图像、文本、音频、视频等多源数据，重塑了“感知-认知-决策”链条，为AGI迈出关键一步。OpenAI的GPT-4o、Google的Gemini
说话人识别python_基于各种分类算法的说话人识别（年龄段识别） weixin_39673184 说话人识别python
基于各种分类算法的语音分类(年龄段识别)概述实习期间作为帮手打杂进行了一段时间的语音识别研究，内容是基于各种分类算法的语音的年龄段识别，总结一下大致框架，基本思想是：获取语料库TIMIT提取数据特征，进行处理MFCC/i-vectorLDA/PLDA/PCA语料提取，基于分类算法进行分类SVM/SVR/GMM/GBDT...用到的工具有HTK(C,shell)/Kaldi(C++,shell)/L
使用 C++ 实现 MFCC 特征提取与说话人识别系统 whoarethenext c++开发语言 mfcc 语音识别
使用C++实现MFCC特征提取与说话人识别系统在音频处理和人工智能领域，C++凭借其卓越的性能和对硬件的底层控制能力，在实时音频分析、嵌入式设备和高性能计算场景中占据着不可或缺的地位。本文将引导你了解如何使用C++库计算核心的音频特征——梅尔频率倒谱系数(MFCCs)，并进一步利用这些特征构建一个说话人识别（声纹识别）系统。Part1:在C/C++中计算MFCCs直接从零开始实现MFCC的所有计算
【机器学习&深度学习】多分类评估策略一叶千舟深度学习【理论】深度学习【应用必备常识】大数据人工智能
目录前言一、多分类3大策略✅宏平均（MacroAverage）✅加权平均（WeightedAverage）✅微平均（MicroAverage）二、类比理解2.1宏平均（MacroAverage）2.1.1计算方式2.1.2适合场景2.1.3宏平均不适用的场景2.1.4宏平均一般用在哪些指标上？2.1.5怎么看macroavg指标？2.1.6宏平均值低说明了什么？2.1.7从宏平均指标中定位模型短板
STM32-内存运行原理与RAM执行实战东方少爷内存地址单片机嵌入式硬件 arm开发硬件工程 stm32
一、底层原理深度解析（先懂“为什么要拷贝”）1.存储介质本质差异（ROM/FlashvsRAM）ROM（以STM32内部Flash为例）：物理特性：电可擦写非易失性存储（虽叫ROM，实际可通过编程改写），擦写次数有限（一般万次级别），读速度慢（STM32F1系列Flash读取周期约30-50ns）。存储内容：程序代码（指令）、只读常量（const修饰的全局变量、字符串字面量）、初始化的全局变量（R
OpenCV 图像操作：颜色识别、替换与水印添加
目录引言代码实现1.导入必要的库2.图像加法3.图像直接相加4.颜色加权加法5.HSV颜色空间转换概念作用6.查找颜色范围对应的像素点7.与运算-生成掩膜8.添加水印9.主函数总结引言在计算机视觉领域，OpenCV是一个强大的库，提供了丰富的图像操作功能。本文将详细介绍如何使用OpenCV进行图像加法、颜色加权加法、HSV颜色空间转换、颜色范围查找、与运算生成掩膜以及添加水印等操作，并给出相应的P
大语言模型应用指南：ReAct 框架 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
大语言模型应用指南：ReAct框架关键词：大语言模型,ReAct框架,自然语言处理(NLP),模型融合,多模态学习,深度学习,深度学习框架1.背景介绍1.1问题由来近年来，深度学习技术在自然语言处理(NLP)领域取得了显著进展。尤其是大语言模型(LargeLanguageModels,LLMs)，如BERT、GPT系列等，通过在大规模无标签数据上进行预训练，获得了强大的语言理解和生成能力。然而，预
Pillow 安装使用教程小奇JAVA面试安装使用教程 pillow microsoft 深度学习
一、Pillow简介Pillow是Python图像处理库PIL（PythonImagingLibrary）的友好分支，是图像处理的事实标准。它支持打开、编辑、转换、保存多种图像格式，常用于图像批量处理、验证码识别、缩略图生成等应用场景。二、安装Pillow2.1使用pip安装（推荐）pipinstallPillow2.2验证安装importPILprint(PIL.__version__)若无报错
Python实例题：基于 Flask 的在线聊天系统
目录Python实例题题目要求：解题思路：代码实现：Python实例题题目基于Flask的在线聊天系统要求：使用Flask框架构建一个实时在线聊天系统，支持以下功能：用户注册、登录和个人资料管理一对一实时聊天功能群聊功能消息通知和未读消息提示在线用户状态显示使用Flask-SocketIO实现实时通信。使用SQLite数据库存储用户、聊天记录等信息。添加美观的前端界面，支持响应式设计。解题思路：使
DeepSeek AI全面应用：AI时代的高效办公与创意生产指南 Want595 人工智能 deepseek
京东链接：https://item.jd.com/15045868.html当当链接：https://product.dangdang.com/29893005.html文章目录写在前面核心亮点1.直击痛点：从“低效搬砖”到“智能掌控”2.创意觉醒：让AI成为你的“灵感引擎”3.跨平台协作：无缝衔接AI生态4.实战驱动：130+案例，即学即用5.超值资源包：扫码即得适合谁读1.职场人2.创作者/自
Redis分片集群原理
1.为何需要分片集群？让我们先快速回顾一下Redis扩展的演进过程：单机Redis：最简单，但也最受限于服务器的物理资源（CPU、内存、网络带宽）。一旦宕机，服务完全中断。主从复制：通过设置一个主节点和多个从节点，实现了读写分离，提高了读并发能力，并提供了数据冗余以应对主节点故障。但所有数据仍存储在主节点上，内存容量和写性能依然受限于单个服务器，无法无限扩展。当业务数据量达到数十GB甚至TB级别，
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1

读Training Strategies for Improved Lip-Reading论文

标题：改善唇读的训练策略

摘要：

引言：

训练策略：

结构：

数据增强：

单词边界：

自蒸馏：

实验设置：

数据集：

预处理：

训练细节：

时序模型：

初始化：

结果：

消融研究：

自蒸馏：

错误分析：

结论：

你可能感兴趣的:(读论文,深度学习,计算机视觉,唇语识别)