weixin_43870390

【语音】论文阅读笔记 Non-autoregressive Error Correction for CTC-based ASR with Phone-conditioned Masked LM

摘要

在语音识别中，CTC模型因为天然的non-autoregressive特性，深受广大研究者的青睐。为了充分利用大量的文本数据优势，CTC模型通常会和LM模型进行融合，常用的融合方法包括重打分和浅融合。然而这两种融合方法由于beam search的引入，破坏了CTC模型的non-autoregressive特性，因此造成了语音识别模型推理速度的下降。

作者提出了PC-MLM(phone-conditioned Masked LM)错误校验方法。只需要对CTC的贪婪解码算法中置信度较低的Token进行mask，然后使用PC-MLM对mask的token进行预测即可。PC-MLM模型的输入为CTC模型的phone预测序列和masked token序列。另外，作者进一步将PC-MLM扩展为Deletable PC-MLM，有效缓解了插入错误。因为CTC和PC-MLM都是non-autoregressive的，作者提出的方法实现了CTC模型和LM模型的快速融合。实验结果显示，在CSJ和TED-LIUM2上，作者提出的方法推理速度更快，并且在CSJ上取得了更高的语音识别准确率。

介绍

常见的端到端语音识别方法包括基于CTC的模型、基于Attention的序列模型和RNN-T模型。其中基于CTC的模型可以同时并行预测所有token，也称之为非自回归预测。相反，基于Attention和RNN-T的模型都需要一个token一个token的预测，也称之为回归预测。

端到端语音识别模型的训练需要成对的语音-文本 数据。然而，在某个目标领域很难获取到大量的这种成对数据。但是，另一方面目标领域可能有很多领域内的文本数据。一种普遍的做法是将语音识别模型和外部LM融合，从而可以利用这些大量的文本数据。重打分融合方法，使用LM对语音识别的n-best预测结果进行重打分，得分最高的预测结果作为最终的预测结果。浅融合方法，在语音识别的每一步解码过程中将LM模型和ASR模型进行插值得分计算。这两种融合方法简单有效，因此被广泛应用于基于CTC的语音识别模型中。然而它们破坏了推理的高效性，这种高效性是CTC模型相比其它的端到端语音识别模型的一个非常重要优势。具体地说，使用beam-search寻找n-best预测结果破坏了它的非自回归特性。

除了重打分和前融合方法，还有基于KD(知识蒸馏)的LM融合方法，主要应用于基于attention的模型。LM模型的知识(教师模型)在ASR模型训练过程中教给了ASR模型(student)。尽管KD融合方法的优势在于，在预测时没有增加任何额外步骤，但这种方法获取的收益有限，可能是因为LM不能直接作用于ASR模型的推理。

在本论文中，作者提出了ASR错误校验方法，一个MLM(masked LM)负责对CTC预测序列中低置信度的token进行纠正。这种方法不需要beam-search，就能把所有低置信度的token并行进行纠正。也就是ASR和纠错过程都是非自回归的。然而MLM的效果并不是很好，可能是因为它没有考虑声学信息。为了解决这个问题，作者提出了Phone-based Masked LM(PC-MLM)，将音素信息也加入进来。在CTC模型训练中引入了多任务训练，基于encoder的中间层预测音素。PC-MLM可以同时利用单词和音素信息进行纠错。同时为了减少插入错误，作者提出了Deletable PC-MLM，该方法可以对插入错误进行预测并删除。

预备和相关工作

1. CTC-based ASR

$X = (x, ..., x_t, ... x_T)$ 表示输入的声学特征； $y=(y_1, ..., y_i, ..., y_L)$ 表示输入 $X$ 对应的文本序列。CTC的encoder网络将输入 $X$ 编码为高层表示，长度为 ${T}'$ 。基于CTC的模型可以根据encoder编码预测帧级别的输出路径 $\pi =(\pi_1,..,\pi_{{T}'})$ 。 $\nu$ 表示单词集合， $\phi$ 表示blank。在 $t$ 时刻CTC输出字符 $v$ 的预测概率可以用以下公式表示：
$P_{CTC}^{(t,v)}=p(v|X, t)$

其中 $v\in \nu \cup \left \{ \phi \right \}$ 。在贪婪解码中，CTC路径 $\pi$ 可以通过下面的公式计算：
$\pi_t=\underset{v}{argmax}P_{CTC}^{(t,v)}$
在使用beam search进行解码的时候， $\pi_t$ 依赖于前面的解码结果 $\pi_{tπt<t=(π1,...,πt−1)$

2. Masked LM

Masked LM最初由BERT作为预训练任务设计出来，其在众多的NLP下游任务上展示了卓越的性能。在MLM训练时，一些输入token(通常15%)被遮蔽掉，模型会对相应的原始token进行预测。MLM根据左右未遮蔽的token并行/非自回归地预测所有被遮蔽的token。定义预测第 $i$ 个token为 $v\in\mathcal{V}$ 的概率为： $P_{MLM}^{(i,v)}=p(v|y^{(mask)},i)$ 其中 $y^{(mask)}$ 的第 $i$ 个token被遮蔽。通常地，RNN或者Transformer LM通过重打分和浅融合的方式被应用于ASR任务中。它们在给定左侧上下文时可以自回归地预测下一个token。最近，MLM通过重打分或知识蒸馏的方法被应用于ASR中。实验研究表明，MLM相比传统LM表现地更好，因为它使用了双向上下文信息。然而，在测试时使用MLM进行重打分会耗费很多时间，因为在对一个长度为 $L$ 的待打分预测序列重打分时需要遮蔽每一个token，共需要 $L$ 步。在使用MLM进行知识蒸馏训练时，最小化下面基于 KL散度的目标函数：
$\mathcal{L}=-\sum_{i=1}^{L}\sum_{v\in\mathcal{V}}P_{MLM}^{(i,v)}log\ P_{Att}^{(i,v)}$ 其中 $P_{Att}^{(i,v)}$ 表示基于attention的ASR模型预测第 $i$ 个token为 $v$ 的概率。在前人的研究工作中，学生模型被限定为基于attention的模型，可以输出像MLM一样token级别的预测。

作为MLM的扩展，conditional MLM(CMLM)在非自回归神经网络机器翻译中被提出来。CMLM是一个encoder-decoder结构，基于源文本和非遮蔽的翻译文本可以预测所有被遮蔽的token。在ASR领域，Audio-CMLM模型和mask CTC模型在非自回归ASR系统中采用了CMLM架构。在mask CTC中，和作者提出的方法类似，CTC输出中低置信度的token使用CMLM被纠正。然而它是基于声学特征的，并且基于audio-text成对数据和CTC模型一起训练。作者提出的PC-MLM是基于音素token的，并且和CTC模型的训练是分开的，只基于文本数据就可以训练。

3. ASR error correction

ASR错误纠正的目标是使用一个更高层的模型对ASR模型产生的错误进行纠正。最近一些研究，类似神经网络机器翻译，采用自回归序列-序列模型进行建模将ASR的预测序列转换为正确的。这些模型的训练通常基于成对的ASR预测序列和对应的正确文本。然而，这些成对的数据由有限的成对的语音和文本数据生成，因此可能会使纠错模型过拟合。一些研究会通过预训练LM模型进行初始化，从而可以利用text-only数据。预训练模型包括BERT、BART等。在文献22中，将TTS合成语音的识别结果作为伪ASR预测序列。在文献25中，使用基于n-gram混淆矩阵产生文本级别的模拟错误。在文献25中，将一个音素级别的编码器添加到序列-序列模型中，从而引入音素信息。更近的工作中，文献29提出了一个基于编辑距离的非自回归纠错模型。在文本中，phone-condition MLM作为纠错模型。它的训练不需要成对的数据只需要文本数据并且实现了非自回归和音素感知级别的纠错。

提出的方法

1. Phone-conditioned Masked LM (PC-MLM)

PC-MLM是一个音素到词转换的模型，它由基于transformer的CMLM(文献19)组成。PC-MLM模型接收音素序列 $p$ 输入到编码器，接收词序 $y^{(mask)}$ 输入到解码器，可以预测遮蔽位置的词token。假设 $y^{(mask)}$ 的第 $i$ 个token被遮蔽，则第 $i$ 个token被预测为 $v\in\mathcal{V}$ 的概率为：
$P_{PC-MLM}^{(i,v)}=p(v|p, y^{(mask)}, i)$
音素信息可以通过词序列和词典自动获取，因此PC-MLM可以像LM模型一样只用文本数据进行训练。为了防止过你和，一些音素token在训练时会被随机遮蔽(20%)，这个也被称之为“文本增强”(文献31)。

2. Error Correction with PC-MLM

在这个研究中，PC-MLM作为一个纠错模型对基于CTC的ASR预测序列进行纠正。本文提出的方法在图一中做了一个形象的展示。置信度分值用于决策哪些预测的token将会被遮蔽掉和纠正。首先，为了获取token级别的置信度分值，需要对帧级别的CTC预测进行规整： $\mathcal{A}(i)=\underset{t}{argmax}P_{CTC}^{(t,y_i)}\ s.t.\pi_{t}=y_{i}$ $P_{CTC}^{'(i,.)}=P_{CTC}^{(\mathcal{A}(i),.)}$ ，其中从 $i$ 到 $t$ 的索引映射函数 $\mathcal{A}$ 从贪婪CTC路径 $\pi$ 中获取。然后，CTC的输出 $y$ 的部分token被遮蔽，遮蔽基于置信度得分进行操作： $y_{i}^{(mask)}=\left\{\begin{matrix} [mask] & {P}_{CTC}^{'(i,y_i)}<\beta\\ y_i & {P}_{CTC}^{'(i,y_i)}\geq \beta \end{matrix}\right.$
出了词级别的 $y^{(mask)}$ ，作者提出了在PC-MLM的错误纠正中，使用音素级别的上下文 $p$ 。通过层级多任务学习框架获取音素级别的预测，具体来讲在编码层的中间层添加音素级别的辅助目标。这种方法同时提升了基于最后一层的词级别ASR模型效果。

PC-MLM在给定 $y^{mask}$ 和 $p$ 时，可以输出 $P_{PC-MLM}^{(i,v)}$ 。最终，为了得到纠错后的预测 $y^{correct}$ ，可以直接使用PC-MLM输出的概率进行纠正。作者同时也提出抗议使用CTC和PC-MLM差值计算 $y^{correct}$ ：
$y_{i}^{correct}=\underset{v}{argmax}((1-\alpha){P}_{CTC}^{'(i,y_i)}+\alpha P_{PC-MLM}^{(i,v)})$

本文提出的方法相比现有的LM融合CTC的方法，例如重打分和浅融合，具有推理迅速的优势。这个方法只需要1-best预测，然而重打分和浅融合在解码时/后需要n-best预测。对于CTC，1-best预测可以通过非自回归产生，然而n-best需要通过自回归方式产生，这对推理的速度将会产生重要影响。在获取预测序列之后，PC-MLM通过非自回归的方式纠正token，这非常快。作者提出的方法同样可以应用于attention和transducer模型的解码输出。更进一步，这种方法除了结合CTC模型，同样可以将LM应用于非自回归模型比如A-CMLM、LASO、Insertion Transformer等，这些模型因为没有beam search所以很难和LM进行融合。

3. Deletable PC-MLM

训练PC-MLM使用相同数量的token替换遮蔽token，这样只能处理基于CTC的ASR模型的替换错误。作者进一步提出了Deletable PC-MLM去解决插入错误。Deletable PC-MLM为插入错误预测空token $(\phi)$ ，然后通过删除空token得到纠正过的预测结果 $y^{(correct)}$ 。在训练期间，一些输入token被随机遮蔽(15%)，一些遮蔽token [MASK]被随机插入到他们之间。插入遮蔽token的数量从泊松分布( $\lambda$ =0.2)中采样得到。在遮蔽和插入之后，Deletable PC-MLM被训练去预测原始token或者空token。

实验评估

1. 实验配置

训练语料：CSJ 、 TED-LIUM2
CSJ： CSJ-APS 240h 学术报告语音 + CSJ-SPS 280h 即时公开演讲
TED-LIUM2: TED上的英文演讲
评估语料：交叉评估，作者假设目标领域只有文本
例如：CSJ-SPS训练，CSJ-APS评估，LM在CSJ-APS文本上训练
Librispeech960朗读语料训练，TED-LIUM2评估，LM在TED-LIUM2文本上训练
CTC-based ASR：
Transformer Encoder: L=12, H=256, A=4
Linear Layer
Conformer Encoder[38]: 大小一样
学习率
Adam optimizer, Noam learning schedule, warmup_n: 25000, k = 5
数据增强
SpecAugment
LM
– TransformerLM: L=12, H=256, A=4
– MLM : L=12, H=256, A=4
– PC-MLM : L=4, H=256, A=4
– Deletable PC-MLM : L=12, H=256, A=4
token: BPE
CSJ: 10872
TED-LIUM2:9798
发音词典
CSJ：g2p tool, 45 entries
TED-LIUM1: 官方提供，44 entires

2. 实验结果

实验结果一

A1是使用层级多任务训练的，不使用层级多任务训练的WER是18.44%，所以层级多任务训练对ASR任务有帮助；层级多任务训练的phone error rate是9.1%；
可以看到当 $\alpha$ 不等于时效果更好，说明使用差值效果好，也就是加上CTC的分数； $\alpha$ 的大小是在验证集上确定的；
MLM效果不好，甚至比greedy还要差；PC-MLM效果明显；Del PC-MLM效果进一步提升；Del PC-MLM可以减少替换、删除错误，但是插入错误变多；phone-to-wordCTC效果不好，可能是因为错误传播；可以看到作者的方法提升明显；

实验结果二

上表格中提交了作者的方法和其它的LM融合方法。表格中的RTF是在单卡 NVIDIA TITAN V GPU上设置batch为1，并且对五轮结果平均得到的。PC-MLM和MLM比增加了RTF，因为使用了音素token；作者提出的方法比重打分和浅融合快，因为这两个需要beam search；beam search很难进行并行，但是作者的重打分中的transformer推理部分可以并行GPU推理；
作者把他们的方法和KD进行了比较。D1和A1比可以看到，推理时间没有增加，但是效果增加有限。在结合Del PC-MLM效果提升明显；

实验结果三

上表展示了在TED-LIUM2上的效果。可以看到，作者的方法提升了ASR，并且保持了较快的推理速度，和CSJ的表现一致；但是对于WER，作者的方法提升不如重打分和浅融合方法。结合音素信息对WER的提升并不明显。这可能是因为英语是音意文字，日语是表意文字，因此在英语中音素信息和词信息关联更大。这表明，词级别的错误和音素级别的错误可能在同一个位置发生，因此音素信息对词级别纠正帮助不大。另一方面，音素级别的信息对日语词具有互补作用。

总结

作者为基于CTC的ASR模型提出了一个LM融合的方法，也就是通过PC-MLM进行错误纠正。PC-MLM可以利用音素信息对CTC低置信度的token进行纠正。作者展示了他们提出的方法比传统的LM融合方法更加快速，比如重打分和浅融合算法。传统的LM融合方法需要有多个自回归生成的预测序列，然后坐着的方法只需要一个非自回归的贪婪解码的预测序列。另外，PC-MLM本身也是以非自回归的方式进行错误纠正。在CSJ上，作者展示了他们的方法相比重打分、浅融合和知识蒸馏表现地更好。将来，他们会继续探索修复删除错误并进一步优化PC-MLM，同时保持快速地推理。

[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
【论文阅读】【IEEE TCYB 2023】Edge-Guided Recurrent Positioning Network forSalient Object Detection in Opt
引言任务：光学遥感图像中显著目标检测论文地址：Edge-GuidedRecurrentPositioningNetworkforSalientObjectDetectioninOpticalRemoteSensingImages|IEEEJournals&Magazine|IEEEXplore代码地址：前置知识一、摘要目前由于光学rsi中目标类型多样、目标尺度多样、目标方向众多以及背景杂乱，现有S
大模型服务的推理优化探索半吊子全栈工匠
【引】有的事情别人不问时我们明白，一旦要我们解释它我们就不明白了，而这正是我们必须留心思索的东西。于是，开启了一次又一次的论文阅读之旅。开发并部署大模型应用肯定要考虑它们的服务成本。然而，钱并不是唯一的考虑因素，如果不能解决模型性能方面的问题，即使有很大的预算，大模型服务仍会受到影响。本文尝试讨论将LLM推理服务更改为高吞吐量引擎的挑战与应对方法。1.大模型服务面临的挑战大模型的能力令人惊叹，但其
ER综述论文阅读-Emotion recognition in EEG signals using deep learning methods: A review 今天早睡了情绪识别Emotion Recognition 论文阅读深度学习人工智能
EmotionrecognitioninEEGsignalsusingdeeplearningmethods:AreviewQ1期刊，2023论文链接：https://d1wqtxts1xzle7.cloudfront.net/105887899/emotionreview-libre.pdf?1695460941=&response-content-disposition=inline%3B+f
【论文阅读】AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting quintus0505 LLM 论文阅读语言模型
AdaCtrl:TowardsAdaptiveandControllableReasoningviaDifficulty-AwareBudgeting3Method3.1长度触发标签作为控制接口（Length-TriggerTagsasControllingInterface）3.2冷启动微调（Cold-startfine-tuning）3.3难度感知的强化学习框架（Difficulty-awar
【论文阅读笔记】TimesURL: Self-supervised Contrastive Learning for Universal Time Series 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
TimesURL:Self-supervisedContrastiveLearningforUniversalTimeSeriesRepresentationLearning摘要学习适用于多种下游任务的通用时间序列表示，并指出这在实际应用中具有挑战性但也是有价值的。最近，研究人员尝试借鉴自监督对比学习（SSCL）在计算机视觉（CV）和自然语言处理（NLP）中的成功经验，以解决时间序列表示的问题。
【论文阅读】Decoupled Knowledge Distillation Bosenya12 论文阅读
摘要：最先进的蒸馏方法主要基于从中间层蒸馏出深层特征，而logit蒸馏的重要性则被大大忽视了。为了提供研究logit蒸馏的新观点，我们将经典的KD损失重新表述为两部分，即目标类知识蒸馏（TCKD）和非目标类知识蒸馏（NCKD）。我们实证调查并证明了两部分的效果：TCKD传递了有关训练样本“困难”的知识，而NCKD是logit蒸馏起作用的突出原因。更重要的是，我们揭示了经典的KD损失是一个耦合公式，
【论文阅读】Transfer Learning for Automatic Modulation Recognition Using a Few Modulated Signal Samples
摘要：这封信提出了一种用于自动调制识别（AMR）的迁移学习模型，该模型仅具有少量调制信号样本。传输模型以音频信号UrbanSound8K作为源域进行训练，然后以一些调制信号样本为目标域进行微调。为了提高分类性能，信噪比（SNR）被用作一个功能来促进信号的分类。仿真结果表明，迁移模型在分类精度方面具有显著优势。这篇文章的核心内容是提出了一种基于迁移学习（TransferLearning）的自动调制识
【论文阅读】Meta-SE: A Meta-Learning Framework for Few-Shot Speech Enhancement Bosenya12 论文阅读
这篇文章介绍了一个名为Meta-SE的元学习框架，专门用于少样本（few-shot）语音增强问题。文章的核心目标是解决在实际应用中，由于训练样本有限而导致传统深度神经网络（DNN）模型性能受限的问题。Meta-SE通过元学习的方法，利用先验的元知识快速适应新的任务和噪声类型，即使只有少量训练样本也能表现出色。背景知识与研究动机语音增强技术旨在从带噪语音信号中恢复目标语音，提升语音质量和可懂度。深度
【论文阅读】SASLN：小样本条件下机械故障诊断的信号增强自学习网络
SASLN:SignalsAugmentedSelf-TaughtLearningNetworksforMechanicalFaultDiagnosisUnderSmallSampleCondition本文介绍了一种名为SASLN（SignalsAugmentedSelf-TaughtLearningNetworks）的方法，专门用于在小样本条件下对风力发电机（WT）的发电机轴承故障进行诊断。该方
【论文阅读】SSCL-AMC：一种基于动态增强和集成学习的自监督自动调制分类方法
SSCL-AMC:ASelf-supervisedAutomaticModulationClassificationMethodviaDynamicAugmentationandEnsembleLearning摘要：与传统的手工自动调制分类（AMC）方法相比，深度学习已经显示出有希望的结果，AMC作为信号检测和调制之间的中间步骤发挥着关键作用。然而，获取大规模标记数据仍然具有挑战性，因为数据质量和
[论文阅读] 人工智能 + 软件工程 | 当 LLM 写代码时，它的 “思考过程” 靠谱吗？—— 揭秘 CoT 质量的那些事儿张较瘦_ 前沿技术论文阅读人工智能软件工程
当LLM写代码时，它的“思考过程”靠谱吗？——揭秘CoT质量的那些事儿论文标题：AreTheyAllGood?EvaluatingtheQualityofCoTsinLLM-basedCodeGenerationarXiv:2507.06980[pdf,html,other]AreTheyAllGood?EvaluatingtheQualityofCoTsinLLM-basedCodeGenera
[论文阅读] 人工智能 + 软件工程 | 需求获取访谈中LLM生成跟进问题研究：来龙去脉与创新突破
需求获取访谈中LLM生成跟进问题研究：来龙去脉与创新突破论文标题：RequirementsElicitationFollow-UpQuestionGenerationarXiv:2507.02858RequirementsElicitationFollow-UpQuestionGenerationYuchenShen,AnmolSinghal,TravisBreauxComments:13page
Prompt相关论文阅读(02)--Auto-CoT(2024-11-25) zhilanguifang 论文 prompt engineering 论文阅读笔记
论文阅读笔记2024-11-24~2024-11-25Auto-CoT:AutomaticChainofThoughtPromptinginLargeLanguageModels(ICLR2023)碎碎念：复现代码和笔记保存到gitee仓库上海交通大学的学生在亚马逊实习的时候的成果ICLR2023摘要：LLM能够通过生成中间推理步骤执行复杂的推理。提供这些步骤用于提示演示叫做思维链提示CoT。Co
【论文阅读】Dynamic Few-Shot Visual Learning without Forgetting Bosenya12 论文阅读
系统概述如下：(a)一个基于卷积神经网络（ConvNet）的识别模型，该模型包含特征提取器和分类器；(b)一个少样本分类权重生成器。这两个组件都是在一组基础类别上训练的，我们为这些类别准备了大量训练数据。在测试阶段，权重生成器会接收少量新类别的训练数据以及基础类别的分类权重向量（分类器框内的绿色矩形），并为新类别生成相应的分类权重向量（分类器框内的蓝色矩形）。这样，卷积神经网络就能同时识别基础类别
【论文阅读】Few-Shot PPG Signal Generation via Guided Diffusion Models Bosenya12 论文阅读
从少量样本数据选择到后处理的整体框架。首先，扩散模型在N样本数据集和指导下的训练。接着，模型生成一个增强的数据集，并进一步优化以提高保真度。最后，这些合成数据与少量样本训练数据集结合，用于基准模型的训练和评估。数据分布从最初的红色变为保真度增强的蓝色，这表明模型与真实数据更加吻合，如简化后的数据分布示意图所示。这篇文章的核心内容是介绍了一种名为BG-Diff（Bi-GuidedDiffusion）
[论文阅读] 人工智能 | 读懂Meta-Fair：让LLM摆脱偏见的自动化测试新方法张较瘦_ 前沿技术论文阅读人工智能
读懂Meta-Fair：让LLM摆脱偏见的自动化测试新方法论文标题：Meta-Fair:AI-AssistedFairnessTestingofLargeLanguageModelsarXiv:2507.02533Meta-Fair:AI-AssistedFairnessTestingofLargeLanguageModelsMiguelRomero-Arjona,JoséA.Parejo,Jua
【LLM论文阅读】一只齐刘海的猫论文阅读
LLM论文阅读论文重点论文链接RopeRoFormer:EnhancedTransformerwithRotaryPositionEmbeddingRoPE论文阅读YarnUnderstandingYaRN:ExtendingContextWindowofLLMs论文YaRN笔记T5ExploringtheLimitsofTransferLearningwithaUnifiedText-to-Te
Segment Anything in High Quality之SAM-HQ论文阅读 qq_41627642 深度学习论文阅读论文阅读
摘要最近的SegmentAnythingModel（SAM）在扩展分割模型规模方面取得了重大突破，具备强大的零样本能力和灵活的提示机制。尽管SAM在训练时使用了11亿个掩码，其掩码预测质量在许多情况下仍不理想，尤其是对于结构复杂的目标。我们提出了HQ-SAM，使SAM能够精确地分割任意目标，同时保留其原有的可提示设计、高效性和零样本泛化能力。我们的设计充分复用并保留了SAM预训练的模型权重，仅引入
yolov算法详解_yolo 目标检测算法个人总结（yolov1） CHAO JIANG yolov算法详解
yolo目标检测算法个人总结目前yolo目标检测有两个版本，分别为v1和v2。因工作需要用yolo算法检测人物，所以这段时间重点看了这两篇论文，并实现了对应的tensorflow代码。这里记录下在论文阅读过程中的一些细节信息，留给自己，同时也希望各位能指出本人理解错误的地方，谢谢！一：yolov1关于yolov1算法的详解在网上已经非常多了，在这里我大概叙述下算法的流程，以及在开发过程中遇到的一些
《论文阅读》GPT-3是否会产生移情对话？一种新的情境示例选择方法和用于生成同理心对话的自动评估度量 ICCL 2022 365JHWZGo 情感对话论文阅读 gpt-3 共情回复上下文学习提示学习大模型
《论文阅读》GPT-3是否会产生移情对话？一种新的情境示例选择方法和用于生成同理心对话的自动评估度量ICCL2022前言贡献PromptIn-contextlearningSITSMEMOSITSM新的自动指标实验前言亲身阅读感受分享，细节画图解释，再也不用担心看不懂论文啦~无抄袭，无复制，纯手工敲击键盘~今天为大家带来的是《DoesGPT-3GenerateEmpatheticDialogues
[论文阅读] 人工智能 + 软件工程 | 揭秘ChatGPT在软件开发问题解决中的有效性：一项实证研究张较瘦_ 前沿技术论文阅读人工智能软件工程
揭秘ChatGPT在软件开发问题解决中的有效性：一项实证研究论文：WhatMakesChatGPTEffectiveforSoftwareIssueResolution?AnEmpiricalStudyofDeveloper-ChatGPTConversationsinGitHubarXiv:2506.22390WhatMakesChatGPTEffectiveforSoftwareIssueRe
[论文阅读] 人工智能 + 软件工程 | 代码注释不一致问题研究：从数据革新到端到端解决方案张较瘦_ 前沿技术论文阅读人工智能软件工程
代码注释不一致问题研究：从数据革新到端到端解决方案原文：CCISOLVER:End-to-EndDetectionandRepairofMethod-LevelCode-CommentInconsistencyarXiv:2506.20558CCISolver:End-to-EndDetectionandRepairofMethod-LevelCode-CommentInconsistencyRe
Learning Fully Convolutional Networks for Iterative Non-blind Deconvolution论文阅读青铜锁00 #退化论文阅读深度学习论文阅读图像处理
LearningFullyConvolutionalNetworksforIterativeNon-blindDeconvolution1.研究目标与实际问题1.1研究目标1.2实际意义2.创新方法与模型设计2.1核心框架：迭代式梯度域处理2.1.1模型架构2.2关键技术实现2.2.1梯度域去噪网络2.2.2解卷积模块（核心公式实现）2.2.3损失函数设计2.2.4超参数端到端学习2.3与传统方法
KAIST数据集及使用草莓奶忻 SLAM基础 #SLAM数据集 ubuntu
文章目录KAIST复杂城市数据集KAIST数据集转换为rosbag1.将.gz.tar文件解压到其文件夹中2.克隆并构建此存储库3.使用路径和所需主题编辑配置文件4.为每种传感器类型创建一个rosbag文件5.将所有bag合并为一个参考KAIST复杂城市数据集KAIST-Urban-数据集-论文阅读数据集下载：ComplexUrbanDataset复杂城市数据集KAIST数据集转换为rosbag1
[论文阅读] 软件工程 | 需求工程中领域知识研究：系统映射与创新突破张较瘦_ 前沿技术论文阅读软件工程
需求工程中领域知识研究：系统映射与创新突破论文信息DomainKnowledgeinRequirementsEngineering:ASystematicMappingStudyarXiv:2506.20754DomainKnowledgeinRequirementsEngineering:ASystematicMappingStudyMarinaAraújo,JúliaAraújo,RomeuO
论文阅读：2025 arxiv Qwen3 Technical Report
https://arxiv.org/pdf/2505.09388https://www.doubao.com/chat/9918384373236738文章目录论文翻译Qwen3技术报告摘要1引言论文翻译Qwen3技术报告Qwen团队摘要在这项工作中，我们介绍了Qwen模型家族的最新版本Qwen3。Qwen3包含一系列大型语言模型（LLM），旨在提升性能、效率和多语言能力。Qwen3系列包括密集型
[论文阅读] 软件工程 | 探索软件生态系统中的开发者体验关键因素
探索软件生态系统中的开发者体验关键因素：从研究到实践引文格式@article{Zacarias2025,title={ExploringDeveloperExperienceFactorsinSoftwareEcosystems},author={Zacarias,RodrigoOliveiraandAntunes,L{\'e}oCarvalhoRamosandBarros,M{\'a}rciod
Fast Image Deconvolution using Hyper-Laplacian Priors论文阅读青铜锁00 #退化论文阅读论文阅读图像处理
FastImageDeconvolutionusingHyper-LaplacianPriors1.论文的研究目标与实际意义2.论文的创新方法2.1核心框架：交替最小化（AlternatingMinimization）2.2x子问题：频域FFT加速2.3w子问题：高效求解的核心创新2.3.1问题形式2.3.2查找表法（LUT）2.3.3解析解法（特定α\alphaα）2.3.4通用α\alphaα
[论文阅读] 人工智能 + 软件工程 | AI 与敏捷开发的破局之路：从挫败到成功的工作坊纪实张较瘦_ 前沿技术论文阅读人工智能软件工程
AI与敏捷开发的破局之路：从挫败到成功的工作坊纪实论文信息arXiv:2506.20159AIandAgileSoftwareDevelopment:FromFrustrationtoSuccess–XP2025WorkshopSummaryTomasHerda,VictoriaPichler,ZheyingZhang,PekkaAbrahamsson,GeirK.HanssenSubjects:
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多