落雪snowflake

深度说话人嵌入关于注意力模型中的统计池

Attentive Statistics Pooling for Deep Speaker Embedding

摘要

本文提出了在与文本无关的说话人验证中深度说话人嵌入的细心统计汇总。在传统的扬声器嵌入中，帧级特征被用于单个话语的所有帧以形成话语级特征。我们的方法利用注意机制为不同的帧提供不同的权重，不仅生成加权平均值，还生成加权标准差。通过这种方式，它可以更有效地捕捉说话人特征的长期变化。对NIST SRE 2012和VoxCeleb数据集的评估表明，它将传统方法的等错误率（EER）分别降低了7.5％和8.1％。

索引术语：说话人识别，深度神经网络，注意，统计汇集

1.简介

在过去的十年中，说话人识别在i-vector范例[1]中得到了很大的发展，其中语音扩展或说话者以固定低维特征向量的形式表示。

随着对包括自动语音识别（ASR）在内的各种机器学习任务的深度学习的巨大成功，越来越多的研究引入了深入学习用于说话人识别的特征提取。在早期研究[2,3]中，从ASR的声学模型中得出的深度神经网络（DNN）已被用作通用背景模型（UBM），以提供音素内部以及瓶颈特征，这些特征用于，分别是i向量提取中的零级和一级统计量。虽然它们表现出比基于高斯混合模型（GMM）的传统UBM更好的性能，但它们具有语言依赖性的缺点[4]并且还需要昂贵的语音转录用于训练[5]。

最近，已经证明DNN可以独立于i-vector框架提取说话者判别特征向量。在大规模训练数据的帮助下，这种方法可以产生更好的结果，特别是在短时间发声的情况下。在固定短语文本相关的说话者验证中，已经提出了一种基于端到端神经网络的方法[6]，其中使用来自最后一帧的单个输出的长短期记忆（LSTM）来获得话语。级别的扬声器功能，它已经超越了传统的i-vector提取.

在与文本无关的说话人验证中，输入信号可以有可变的短语和长度，引入了一个平均汇聚层来聚合帧级扬声器特征向量，以获得话语级特征向量，即说话者嵌入，具有固定数量的维度。最近的研究表明，DNN比i载体具有更好的准确性[7,8]。斯奈德等人。 [9]采用了平均汇集的扩展，其中他们所谓的统计汇总不仅计算平均值，还计算帧级特征的标准差。然而，他们还没有报告标准偏差汇集对准确性改进的有效性。

最近从不同角度进行的其他研究[10,11]引入了注意机制[12]。它以前在机器翻译方面取得了显着进步。在说话人识别的场景中，重要性度量由作为说话者嵌入网络的一部分的小型关注网络计算。重要性用于计算帧级特征向量的加权平均值。该机制使得说话者嵌入能够集中在重要帧上并且获得具有更高辨别力的长期说话者表示。然而，此类先前的工作仅在诸如固定持续时间文本无关[10]或文本相关说话人识别[11]等有限任务中进行了评估。

在本文中，我们提出了一种新的池化方法，称为注意统计池，它提供重要性加权的标准偏差以及帧级特征的加权平均值，其重要性由一个注意机制计算。这使得扬声器嵌入能够更准确和有效地捕获关于长期变化的扬声器因子。据我们所知，这是文献中首次尝试在文本独立和可变持续时间的情景中使用细心的统计学汇集。我们还通过比较各种汇集层，通过实验证明了标准偏差导致的长期说话人特征的有效性。

本文的其余部分组织如下：第2节描述了一种用于提取深度扬声器嵌入的传统方法。第3节回顾了传统方法的两个扩展，然后介绍了所提出的扬声器嵌入方法。实验设置和结果在第4节中介绍。第5节总结了我们的工作并记录了未来的计划。

2.深层扬声器嵌入

用于提取话语级扬声器特征的传统DNN由三个块组成，如图1所示。

第一个块是帧级特征提取器。该块的输入是一系列声学特征，例如MFCC和滤波器组系数。在考虑相对短期的声学特征之后，该块输出帧级特征。任何类型的神经网络都适用于提取器，例如，时延神经网络（TDNN）[9]，卷积神经网络（CNN）[7,8]，LSTM [10,11]或门控循环单位（GRU）[8]。

第二个块是池化层，它将可变长度的帧级特征转换为固定维向量。最标准类型的池层获得所有帧级特征的平均值（平均池）。

第三个块是一个话语级特征提取器，其中堆叠了许多完全连接的隐藏层。这些隐藏层中的一个通常被设计成具有较少数量的单元（即，成为瓶颈层），这迫使从前一层带来的信息成为低维表示。输出是softmax层，其每个输出节点对应一个扬声器ID。对于训练，我们采用具有交叉熵损失的反向传播。然后我们可以在第三个块中使用瓶颈功能作为话语级功能。一些研究通过使用对比损失[7]或三重态损失[8]来避免使用soft-max层并实现端到端神经网络。概率线性判别分析（PLDA）[13,14]也可用于测量两个话语水平特征之间的距离[9,10]。

3.注意高阶汇集

上一节中描述的传统扬声器嵌入建议增加池化方法的两个扩展：使用高阶统计量和使用注意机制。在本节中，我们将回顾两者，然后介绍我们提出的池化方法，我们将其称为注意力统计池。

3.1统计汇集

统计汇总层[9]计算平均向量μ以及二阶统计量作为标准差

标准偏差（2）也起着重要的作用，因为它在长时间背景下的时间变异性方面包含其他说话者特征。 LSTM能够使用其循环连接和门控功能将相对较长的上下文考虑在内。然而，由于消失的梯度问题，LSTM的范围实际上不超过一秒（~100帧）[15]。标准偏差可能能够揭示上下文中的任何距离，可以帮助说话人嵌入捕获长期变化的话语。

3.2 注意机制

通常的情况是，某些帧的帧级特征对于区分说话者而言比给定话语中的其他帧更加独特和重要。最近的研究[10,11]通过自动计算每个帧的重要性，将注意机制应用于说话人识别，以便进行帧选择。

注意模型与原始DNN一起使用，并为每个帧级特征计算标量记分

4.Experiments

4.1. Experimental settings

我们在此报告说话人验证准确度w.r.t. NIST SRE 2012 [16] Common Condition 2（SRE12 CC2）和Vox-Celeb corpora [7]。深度扬声器嵌入与我们周到的统计池相比，与传统的统计池和细心的平均池相比，以及基于GMM-UBM的传统i-vector提取。

4.1.1.i-矢量系统

基线i-vector系统每10ms使用20维MFCC。它们的三角形和三角形 - 三角形特征被附加以形成60维声学特征。然后按顺序应用具有3秒窗口和基于能量的语音活动检测（VAD）的滑动均值正常化。然后使用2048-混合物UBM和总变异性矩阵（TVM）从声学特征向量中提取400维的i向量。平均减法，白化和长度标准化[17]作为预处理步骤应用于i-向量，然后将其发送到PLDA，然后使用具有400维扬声器空间的PLDA模型评估相似性。

4.1.2深层扬声器嵌入系统

我们使用20维MFCC进行SRE12评估，并使用40维MFCC进行VoxCeleb评估，每10毫秒进行一次。然后以与使用i-载体系统相同的方式应用具有3秒窗口和基于能量的VAD的滑动平均归一化。

除输入维度外，网络结构与Kaldi官方存储库[18,19]中公布的配方1中显示的结构完全相同。使用具有ReLU的5层TDNN，然后进行批量归一化来提取帧级特征。每个隐藏层中的隐藏节点的数量是512.用于池化的帧级特征的维度是1500.每个帧级特征是从声学特征向量的15帧上下文生成的。

池化层聚合帧级特征，然后是2个完全连接的层，具有ReLU激活功能，批量标准化和softmax输出层。来自第一个完全连接层的512维瓶颈特征被用作扬声器嵌入。

我们尝试了四种汇集技术来评估所提出方法的有效性：（i）简单的平均汇集仅产生均值，（ii）统计汇集以产生均值和标准差，（iii）注意平均汇集以产生加权意味着，以及（iv）我们建议的专注统计数据池。我们使用ReLU，然后对注意模型的（3）中的激活函数f（）进行批量归一化。隐藏节点的数量是64。

将平均减法，白化和长度归一化应用于扬声器嵌入，作为在将其发送到PLDA之前的预处理步骤，然后使用具有512维扬声器空间的PLDA模型来评估相似性。

4.1.3培训和评估数据

为了避免条件不匹配，每个评估任务使用不同的训练数据w.r.t. SRE12 CC2和Vox- Celeb。

对于SRE12评估，来自SRE04-10，Switchboard和Fisher English的电话录音被用作训练数据。我们还以下列方式将数据增强应用于训练集：（a）加性噪声：每个段与PRISM语料库中的一个噪声样本混合[20]（SNR：8,15或20dB），（b）混响：每个段与REVERB挑战数据中的一个房间脉冲响应进行卷积[21]，（c）语音编码：每个段用AMR编解码器（6.7或4.75kbps）编码。我们使用的评估集是SRE12 Common Condition 2（CC2），它被称为电话会话的典型子集，没有增加噪声。

对于VoxCeleb评估，[7]中定义的开发和测试集分别用作训练数据和评估数据。培训和评估集中的发言人数分别为1,206和40。培训和评估组的细分数分别为140,286和4,772。请注意，由于官方下载服务器上有一些死链接，这些数字略小于[7]中报告的数字。我们还使用了上面提到的数据增强（a）和（b）。

我们在这里报告结果的等错误率（EER）和归一化检测成本函数的最小值，我们假设先验目标概率Ptar为0.01（DCF10-2）或0.001（DCF10-3），并且权重相等在未命中Cmiss和误报Cfa之间的1.0。

这反映了使用长上下文和帧重要性的效果。然而，传统的i-vector系统比基于扬声器嵌入的系统更好，除了性能w.r.t. EER。这似乎是因为SRE12 CC2任务包括长话语试验，其中测试话语的持续时间为30秒至300秒，多次登记话语的持续时间超过300秒。

表2显示了NIST SRE12 CC2上几个持续时间的EER比较。我们可以看到深层扬声器嵌入在短时试验中提供了稳健性。尽管i-vector在最长持续时间条件下（300s）提供了最佳性能，但我们专注的统计数据池在所有其他条件下均达到最佳，错误率优于所有条件下的统计数据池，包括池（总体平均值））。在30秒试验和100秒试验中，只有细心的统计汇总表现出比i载体更好的性能。

4.2.2.VoxCeleb

表3显示了VoxCeleb测试集的性能。此外，注意力和标准偏差的增加也有助于提高性能。与SRE12 CC2案例一样，标准偏差的增加比注意力的影响更大。所提出的细心统计汇总在所有评估指标中都取得了最佳表现，在EER方面比统计汇集率提高了8.1％。这可能是因为持续时间短于SRE12 CC2（在评估中平均约8秒），并且扬声器嵌入也优于i-vector。应该注意的是，与[7]中显示的基线性能相比，其最佳EER为7.8％，我们的实验系统获得了更好的性能，即使我们使用稍微较小的训练和评估集，因为缺少某些视频。

5.总结和未来的工作

我们已经提出了用于提取深度扬声器嵌入的细心统计池。建议的汇集层计算加权平均值和加权标准偏差，超过由关注模型缩放的帧级特征。这使得扬声器嵌入能够仅关注重要帧。此外，作为标准偏差中的说话人特征，可以获得长期变化。注意力和标准偏差的这种组合产生协同效应，以使深度扬声器嵌入更高的辨别力。 NIST SRE 2012和VoxCeleb评估集上与文本无关的说话人验证实验表明，它将传统方法的EER分别降低了7.5％和8.1％。虽然我们在短期和长期条件下都取得了相当大的进步，但是i载体在长时间内仍然具有竞争力（例如，SRE12 CC2中的300s）。在这种条件下追求更高的准确性是我们未来工作的一个问题。

论文阅读笔记1——DARTS：Differentiable Architecture Search可微分架构搜索（一）（论文翻译学习） fuhao7i 论文阅读笔记深度学习人工智能机器学习算法计算机视觉
DARTS：DifferentiableArchitectureSearch可微分架构搜索（一）DARTS：DifferentiableArchitectureSearch（一）ABSTRACT摘要1.INTRODUCTION介绍2.可微的结构搜索加油加油！如果你感觉你现在很累，那么恭喜你，你现在正在走上坡路！让我们一起加油！欢迎关注我的讲解视频，让我们一起学习：Bilibili主页：https:
DeepSeek R1 AI 论文翻译后端java
摘要原文地址：DeepSeekR1AI论文翻译我们介绍了我们的第一代推理模型，DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一个通过大规模强化学习（RL）训练的模型，且在此过程中未使用监督微调（SFT）作为预处理步骤，展现出了显著的推理能力。通过RL，DeepSeek-R1-Zero自然而然地展现了许多强大且引人注目的推理行为。然而，它也遇到了一些挑战
DeepSeek R1 AI 论文翻译老马啸西风 java
摘要原文地址：DeepSeekR1AI论文翻译我们介绍了我们的第一代推理模型，DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一个通过大规模强化学习（RL）训练的模型，且在此过程中未使用监督微调（SFT）作为预处理步骤，展现出了显著的推理能力。通过RL，DeepSeek-R1-Zero自然而然地展现了许多强大且引人注目的推理行为。然而，它也遇到了一些挑战
DeepSeek R1 AI 论文翻译后端java
摘要原文地址：DeepSeekR1AI论文翻译我们介绍了我们的第一代推理模型，DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一个通过大规模强化学习（RL）训练的模型，且在此过程中未使用监督微调（SFT）作为预处理步骤，展现出了显著的推理能力。通过RL，DeepSeek-R1-Zero自然而然地展现了许多强大且引人注目的推理行为。然而，它也遇到了一些挑战
【论文翻译】DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence 行动π技术博客代码大模型 deepseek
本翻译来自大模型翻译，如有不对的地方，敬请谅解引言开源社区通过开发诸如StarCoder（Li等人，2023b；Lozhkov等人，2024）、CodeLlama（Roziere等人，2023）、DeepSeek-Coder（Guo等人，2024）和Codestral（MistralAI，2024）等开源代码模型，在推进代码智能方面取得了显著进展。这些模型的性能已稳步接近闭源同类产品，为代码智能的
论文翻译：ChatGPT for good? On opportunities and challenges of large language models for education Author CSPhD-winston-杨帆智慧教育论文翻译 chatgpt 语言模型人工智能
高引用论文：ChatGPTforgood?OnopportunitiesandchallengesoflargelanguagemodelsforeducationAuthorlinksopenoverlaypanelhttps://www.sciencedirect.com/science/article/pii/S1041608023000195ChatGPTforgood？大型语言模型在教育
【论文翻译】GOT-OCR论文翻译——General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model 机器白学论文翻译 ocr 论文阅读论文翻译
论文原文链接：https://arxiv.org/abs/2409.01704特别声明，本文不做任何商业用途，仅作为个人学习相关论文的翻译记录。本文对原文内容直译，一切以论文原文内容为准，对原文作者表示最大的敬意。如有任何侵权请联系我下架相关文章。目录通用OCR理论：通过统一的端到端模型迈向OCR-2.00摘要1引言2相关工作2.1传统OCR2.2基于LVLM的OCR3通用OCR理论3.1框架3.
论文翻译：A survey on large language model (LLM) security and privacy: The Good, The Bad, and The Ugly CSPhD-winston-杨帆论文翻译 LLMs-鲁棒性语言模型人工智能自然语言处理
Asurveyonlargelanguagemodel(LLM)securityandprivacy:TheGood,TheBad,andTheUglyhttps://www.sciencedirect.com/science/article/pii/S266729522400014X文章目录关于大型语言模型（LLM）安全性和隐私的调查：好的、坏的和丑陋的摘要1.引言2.背景2.1大型语言模型（L
论文翻译：arxiv-2022 Ignore Previous Prompt: Attack Techniques For Language Models CSPhD-winston-杨帆论文翻译 LLMs-安全 prompt 语言模型人工智能
IgnorePreviousPrompt:AttackTechniquesForLanguageModelshttps://arxiv.org/pdf/2211.09527忽略之前的提示：针对语言模型的攻击技术文章目录忽略之前的提示：针对语言模型的攻击技术摘要1引言摘要基于Transformer的大型语言模型（LLMs）为大规模面向客户的应用程序中的自然语言任务提供了强大的基础。然而，探索恶意用户
论文翻译：arxiv-2024 Data Contamination Quiz: A Tool to Detect and Estimate Contamination in Large CSPhD-winston-杨帆 LLMs-数据污染论文翻译语言模型人工智能深度学习
DataContaminationQuiz:ATooltoDetectandEstimateContaminationinLargeLanguageModelshttps://arxiv.org/abs/2311.06233数据污染测验：一种检测和估计大型语言模型中污染的工具文章目录数据污染测验：一种检测和估计大型语言模型中污染的工具摘要1引言摘要我们提出了数据污染测验（DataContamina
实验DAY5：借假修真放逐997
a.昨日完成情况不佳，起床是9.30，除了报名（一口气报了五门..祝我好运），论文翻译和教育都没有完成；b.明日计划：9点前起床；明天优先复盘教育，以及准备cpa的考试资料；论文、和cpa留到周末做吧c.今天读到一篇讲美团公司战略的文章，对于整体战略搭建的方法论、具体业务的促成、以及更偏意识上层的“借假修真”思想的解读非常佩服，摘录核心如下：美团的增长引擎：1.严明的纪律性：放弃不符合业务逻辑的利
开源Bluespec bsc编译器和可重用示例设计达坦科技DatenLord 硬件加速 fpga fpga开发硬件工程开源
这篇介绍Bluespec以及设计示例的文章，是在2021年ICCAD（InternationalConferenceOnComputer-AidedDesign）发布的论文。达坦科技的open-rdma项目和推广的MIT体系结构学习社区都用到Bluespec，因此将此论文翻译成中文，以便大家了解2020年Bluespec开源后相关的开源项目。摘要：bsc编译器是一个商业可用的编译器，在过去的二十年
论文翻译 - BITE: Textual Backdoor Attacks with Iterative Trigger Injection anniewwy LLM Backdoor Attack
论文链接：https://arxiv.org/pdf/2205.12700.pdf项目代码：https://github.com/INK-USC/BITEBITE:TextualBackdoorAttackswithIterativeTriggerInjectionAbstract1Introduction2ThreatModel3Methodology3.1BiasMeasurementonLa
我做这件事，唯一的目的就是让你开心沉吟大叔
一个男人心里满满的爱意：我做这件事，唯一的目的就是让你高兴，而不是赢得你的好感、证明我的能力、让你对我感恩戴德。所以，我不想让你知道我的付出，不想让你对我怀有歉意和内疚，更不想因此获得什么回报。我只是心甘情愿地想为你做点什么，因为我爱你。这才是真爱吧。以前有个读者，说她男朋友特别小气，还不诚实。请她吃顿饭要念叨很久，给她买礼物，花一百要说成三百，帮她做论文翻译，明明一小时就搞定了，非要说是熬了个通
剖析以太坊上的庞氏骗局：识别、分析和影响卷神
区块链安全防护论文翻译：Bartoletti,Massimo,etal."DissectingPonzischemesonEthereum:identification,analysis,andimpact."FutureGenerationComputerSystems102(2020):259-277.摘要：庞氏骗局是一种以高额利润为诱饵的金融欺诈。实际上，只有新用户加入了庞氏骗局，用户才能得
《 HFContractFuzzer: Fuzzing Hyperledger Fabric Smart Contractsfor Vulnerability Detection》论文翻译 WXF_Security 智能合约安全研究 fabric golang
《HFContractFuzzer:FuzzingHyperledgerFabricSmartContractsforVulnerabilityDetection》（EASE2021）摘要区块链技术以其特有的去中心化、不可变性等优点，近年来被广泛应用于各个领域。运行在区块链上的智能合约在去中心化应用场景中也扮演着越来越重要的角色。因此，自动检测智能合约中的安全漏洞成为区块链技术应用中亟待解决的问题
Data Augmentation and Deep Learning Methods in SoundClassification: A Systematic Review ggqyh 深度学习人工智能
文章为翻译，仅供学习参考论文原地址：DataAugmentationandDeepLearningMethodsinSoundClassification:ASystematicReview作者：OlusolaO.Abayomi-Alli,RobertasDamaševiˇcius,AtikaQazi,MariamAdedoyin-OloweandSanjayMisra4论文翻译地址：https:
因果学习及反因果学习（论文翻译）三分钟湿度
OnCausalandAnti-causalLearning本博文对论文OnCausalandAnti-causalLearning的摘要和模型部分做了翻译和小修改，本论文主要描述因果学习中常见的几类基于函数估计的模型，同时说明了因果与相关性、因果学习与机器学习之间的关系，论文重点在讨论和比较不同模型，内容较为笼统，不做深入探讨，但对不同模型之间的本质关系的讨论值得一看。论文地址：https://
Convolutional Neural Networks for No-Reference Image Quality Assessment 论文翻译亚里论文阅读 NR-IQA 使用卷积网络进行图像质量评价
ConvolutionalNeuralNetworksforNo-ReferenceImageQualityAssessment论文翻译TranslationAbstract1Introduction2RelatedWork3CNNforNR-IQA3.1NetworkArchitecture3.2LocalNormalization3.3Pooling3.4ReLUNonlinearity3.5
有道论文翻译接口，python版和lua版 monsterskiller 手机编程脚本编程 python
论文翻译接口python版importrequestsimporthashlibfromurllib.parseimportquotedefget_md5(s,is_hex=True):md5=hashlib.md5()md5.update(s.encode())ifis_hex:returnmd5.hexdigest()returnmd5.digest()deftranslate(source_
医学论文翻译有哪些要求，应该如何翻译呢？英信翻译公司其他
近年来，随着国内医学水平的不断提高，医学论文翻译的需求也呈现出快速增长的趋势。在国外期刊上发表论文，往往需要将整篇论文翻译成英文。那么，医学论文翻译有哪些要求，应该如何翻译呢？专家指出，医学论文翻译最基本的要求就是准确性，要求翻译者能够准确地将原文的含义传达给读者，不出现歧义或者误解的情况。这要求翻译者具备深厚的医学专业知识和语言能力，能够理解原文的含义，并将其准确地表达出来。除了准确性之外，医学
GPT原始论文：Improving Language Understanding by Generative Pre-Training论文翻译 iKang_dlut gpt 人工智能深度学习
1摘要自然语理解包括文本蕴含、问题回答、语义相似性评估和文档分类等一系列多样化的任务。尽管大量未标注的文本语料库很丰富，但用于学习这些特定任务的标注数据却很稀缺，这使得基于区分性训练的模型难以充分发挥作用。我们展示了通过在多样化的未标注文本语料库上对语言模型进行生成式预训练，随后对每个特定任务进行区分性微调，可以实现这些任务的大幅度改进。与以往的方法不同，我们在微调过程中使用了任务感知的输入转换，
【论文翻译】Generation of Non-Deterministic Synthetic Face Datasets Guided by Identity Priors（21.12）联系丝信计算机视觉
文章目录读后感Abstract1Introduction1.1Ourcontributions2RelatedWorks2.1SyntheticImageGeneration2.2MatedSampleGeneration2.3LimitationsinState-of-the-art3PCA-FR-GuidedSampling4SyntheticMatedFace(SymFace)Dataset
ORB-SLAM2代码学习1 rgdb_tum.cc Dziwu SLAM 学习计算机视觉人工智能
论文翻译参考1参考2rgdb_tum.cc的框架代码大致思路LoadImages()加载图像——判断rgb图是否存在——判断rgb图与depth图数量是否对应相同。ORB_SLAM2::SystemSLAM()初始化，创建SLAM系统，并初始化各个线程。遍历每一对RGB图和depth图【读取RGB图和depth图，读取时间戳（vTimestamps存储了时间戳，实际上就是存储了数据文件的每一幅图像
GFS--Google File System论文翻译和理解不争_900c
一、系统设计目标高可用的大文件分布式文件系统。二、关键点Architecture-架构：有哪些Server，每个Server的功能。Master存储的MetaData的结构。client写数据流程。client读数据流程。启动时Master和ChunkServer的交互。ChunkServer发生故障时，Master和ChunkServer的交互。三、核心设计概述2.Master中存储的MetaD
翻译 5765f3fa240e
对于论文翻译，大家要极其重视阅读平行文本和查资料的重要性。我平时经常做论文翻译和润色，每一次都是如履薄冰。需要阅读核心参考文献，查资料消除术语，彻底领会论文背后的逻辑。这些都解决了，才轮到运用语言基本功。假如大家接论文翻译，请认真对待查资料和阅读平行文本这两件事，如果做不到，暂时不要接论文翻译。
BERT论文翻译 TheHonestBob NLP 自然语言处理
一、写在前面在Transformer和BERT大行其道的时代，搞懂这两种基础模型结构很有必要，在网上没有搜索到满意的论文翻译结果，最近刚好有时间，把BERT的论文在个人英语水平基础上最大程度的保留原作者的本意翻译一遍，如有翻译不到位的地方请各位指出，觉得不错的点个赞鼓励一下，Tansformer的论文我之前已经翻译了，可以查看我的这篇博客attentionisallyouneed论文翻译。查看be
ImageNet Classification with Deep Convolutional Neural Networks论文翻译——中英文对照 SnailTyan 深度学习 Deep Learnig
文章作者：Tyan博客：noahsnail.com|CSDN|简书翻译论文汇总：https://github.com/SnailTyan/deep-learning-papers-translationImageNetClassificationwithDeepConvolutionalNeuralNetworksAbstractWetrainedalarge,deepconvolutionaln
2021-02-05 碰撞检测GJK算法详解（初学者慎入） MathPhilosophy
碰撞检测有2个经典算法，一个是分离轴算法SAT,还有一个就是本文要介绍的GJK，GJK是三个人的名字首写大字母；这个算法的数学推导有点复杂，目前网上只有这篇https://blog.csdn.net/u010016421/article/details/104788769/相对比较详细的介绍了算法，其主要也是参考原始论文翻译的；考虑到原始论文比较难读，博主特地专门写一篇文章介绍，博主的这篇文章会必
YoloV8改进策略：BackBone改进|DCNv4最新实践|高效涨点|多种改进教程|完整论文翻译静静AI学堂 YOLO
摘要涨点效果：在我自己的数据集上，mAP50由0.986涨到了0.993，mAP50-95由0.737涨到0.77，涨点明显！DCNv4是可变形卷积的第四版，速度和v3相比有了大幅度的提升，但是环境搭建有一定的难度，对新手不太友好。如果在使用过程遇到编译的问题，请严格按照我写的环境配置。论文：《DCNv4：对视觉应用的动态和稀疏算子的重新思考》https://arxiv.org/pdf/2401.
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p

深度说话人嵌入关于注意力模型中的统计池

4.Experiments

4.1. Experimental settings

4.1.1.i-矢量系统

你可能感兴趣的:(论文翻译)