落雪snowflake

WAV2LETTER ++：最快的开源语音识别系统

WAV2LETTER++: THE FASTEST OPEN-SOURCE SPEECH RECOGNITION SYSTEM

Vineel Pratap，Awni Hannun，徐连通，Jeff Cai，Jacob Kahn，Gabriel Synnaeve，Vitaliy Liptchinsky，Ronan Collobert

Facebook人工智能研究

摘要

本文介绍了最快的开源深度学习语音识别框架wav2letter ++。 wav2letter ++完全用C ++编写，使用ArrayFire张量库来实现最高效率。在这里，我们解释了wav2letter ++系统的架构和设计，并将其与其他主要的开源语音识别系统进行了比较。在某些情况下，wav2letter ++比用于语音识别的端到端神经网络训练的其他优化框架快2倍以上。我们还表明，对于具有1亿个参数的模型，wav2letter ++的训练时间线性地扩展到64个GPU，这是我们测试的最高值。高性能框架支持快速迭代，这通常是成功研究和对新数据集和任务进行模型调整的关键因素。

索引术语 - 语音识别，开源软件，端到端

1.引言

在自动语音识别（ASR）的日益增长的兴趣，开源软件生态系统已经看到ASR系统和工具包，包括Kaldi的亲liferation [1]，ESPNet [2]，OpenSeq2Seq [3]和Eesen [4] 。在过去的十年中，这些框架已经从基于隐马尔可夫模型（HMM）和高斯混合模型（GMM）的传统语音识别转变为基于端到端神经网络的系统。许多最近的开源ASR工具包，包括本文提供的工具包，都依赖于基于字形而不是音素的端到端声学建模。这种转变的原因有两方面：端到端模型明显更简单，HMM / GMM系统的准确性差距正在迅速缩小。 C ++是世界上第三大最受欢迎的编程语言1。它允许对高性能和关键系统进行完整的资源控制，此外，静态类型通过在编译时捕获任何合同不匹配来帮助大型项目。此外，可以从几乎任何编程语言轻松调用本机库。然而，由于主流框架中缺乏定义明确的C ++ API，机器学习社区中C ++的采用已经停滞不前，C ++主要用于性能关键组件。随着代码库变得越来越大，在脚本语言和C ++之间来回切换也变得麻烦且容易出错。此外，如果提供足够的库，在现代C ++中进行开发并不比在脚本语言中慢得多。在本文中，我们介绍了第一个完全用C ++编写的开源语音识别系统。通过使用现代C ++，我们不会牺牲编程的简易性，同时保持编写高效且可扩展的软件的能力。在这项工作中，我们专注于ASR系统的技术方面，例如训练和解码速度以及可扩展性。本文的其余部分结构如下。在第2节中，我们讨论了wav2letter ++的设计。在第3节中，我们将简要讨论其他现有的主要开源系统，并在第4节中对其性能进行基准测试。

2. DESIGN

wav2letter ++的设计受到三个要求的驱动。首先，该工具包必须能够有效地训练包含数千小时语音的数据集上的模型。其次，表达和整合新的网络架构，损失功能和其他核心操作应该是简单的。第三，从模型研究到部署的路径应该是直截了当的，需要尽可能少的新代码，同时保持研究所需的灵活性。

2.1.ArrayFire Tensor Library

我们使用ArrayFire [5]作为张量操作的主要库。我们选择ArrayFire有几个原因。 ArrayFire是一个高度优化的张量库，可以在多个后端执行，包括CUDA GPU后端和CPU后端。 ArrayFire还使用即时代码生成将一系列简单操作组合到单个内核调用中。这样可以更快地执行内存带宽绑定操作，并可以减少峰值内存使用。 ArrayFire的另一个重要特性是在阵列上构建和操作的简单接口。与同样支持CUDA的其他C ++张量库相比，ArrayFire接口不那么冗长，并且依赖于更少的C ++特性。

2.2数据准备和特征提取

我们的特征提取支持多种音频文件格式（例如wav，flac ... / mono，stereo / int，float）和几种特征类型，包括原始音频，线性缩放功率谱，log-Mels（MFSC）和MFCC。我们使用FFTW库来计算离散傅立叶变换[6]。 wav2letter ++中的数据加载在每次网络评估之前即时计算功能。这使得探索替代功能更简单，允许动态数据扩充并使得部署模型更加容易，因为完整的端到端管道可以从单个二进制文件运行。为了在训练模型时提高效率，我们加载和解码音频并异步并行地计算功能。对于我们测试的模型和批量大小，数据加载所花费的时间可以忽略不计。

2.3.Models

我们支持几种端到端序列模型。每个模型都分为网络和标准。网络仅是输入的函数，而标准是输入和目标转录的函数。虽然网络始终具有参数，但标准的参数是可选的。这种抽象允许我们使用相同的训练管道轻松训练不同的模型。支持的标准包括连接主义时间分类（CTC）[7]，原始的wav2letter AutoSegCriterion（ASG）[8]，以及关注的序列到序列模型（S2S）[9,10]。 CTC标准没有参数，而ASG和S2S标准都有可以学习的参数。此外，我们注意到添加新的序列标准特别容易，因为ASG和CTC等损失函数可以在C ++中高效实现。我们支持广泛的网络架构和激活函数 - 这里列出的内容太多了。对于某些操作，我们使用更高效的cuDNN操作扩展核心ArrayFire CUDA后端[11]。我们使用1D和2D概念以及cuDNN提供的RNN例程等。由于我们使用的网络库提供动态图形构造和自动区分，因此构建新图层或其他原始操作需要很少的努力。我们举例说明如何构建和训练具有二进制交叉熵损失的单层MLP（图2），以演示C ++接口的简单性。

图2.示例：使用自动微分，使用二元交叉熵和SGD训练的一个隐藏层MLP。

2.4培训和规模

我们的培训管道为用户提供了最大的灵活性，可以尝试不同的功能，架构和优化参数。培训可以以三种模式运行 - 训练（平坦训练），继续（继续检查点状态）和分叉（例如转学习）。我们支持标准优化算法，包括SGD和其他常用的基于一阶梯度的优化器。我们将wav2letter ++扩展为具有数据并行，同步SGD的更大数据集。对于进程间通信，我们使用NVIDIA集体通信库（NCCL2）2。为了最大限度地减少进程之间的等待时间并提高单个进程的效率，我们在构建用于训练的批处理之前对输入长度的数据集进行排序[12]。

2.5.Decoding

wav2letter ++解码器是一种波束搜索解码器，具有多种优化功能以提高效率[13]。我们使用与[13]相同的解码目标，其中包括语言模型和单词插入术语的约束。

解码器接口接受来自声学模型的发射和（如果相关）转换作为输入。我们还给解码器一个包含单词字典和语言模型的Trie。我们支持任何类型的语言模型，它公开我们的解码器所需的接口，包括n-gram LM和任何其他无状态参数LM。我们在KenLM之上为n-gram语言模型提供了一个瘦包装器[14]。

3.相关工作

我们简要概述了其他常用的开源语音识别系统，包括Kaldi [1]，ES-PNet [2]和OpenSeq2Seq [3]。 Kaldi语音识别工具包[1]是迄今为止最早的一种，它由一组独立的命令行工具组成。 Kaldi支持HMM / GMM和基于混合HMM / NN的声学建模，并包括基于电话的配方。端到端语音处理工具包（ESPNet）[2]与Kaldi紧密集成，并将其用于特征提取和数据预处理。 ESPNet使用Chainer [15]或PyTorch [16]作为训练声学模型的后端。它主要是用Python编写的，但是，遵循Kaldi的风格，高级工作流以bash脚本表示。在鼓励系统组件分离的同时，这种方法缺乏静态类型的面向对象编程语言在表达类型安全，可读和直观的接口方面的优势。 ESPNet以基于CTC的[7]和基于注意力的编码器 - 解码器[10]实现以及结合两种标准的混合模型为特色。类似于ESPNet，OpenSeq2Seq [3]具有基于CTC和编码器 - 解码器模型的特征，并且使用Tensor-Flow [17]而不是PyTorch作为后端，用Python编写。对于高级工作流，OpenSeq2Seq还依赖于调用Perl和Python脚本的bash脚本。 OpenSeq2Seq系统的一个显着特点是它支持混合精度训练。此外，ESPNet和OpenSeq2Seq都支持文本转语音（TTS）模型。表1描述了这些开源语音处理系统的分类。如表所示，wav2letter ++是唯一完全用C ++编写的框架，它（i）可以轻松集成到以任何编程语言虚拟实现的现有应用程序中;（ii）通过静态类型和面向对象编程更好地支持大规模开发; （iii）允许最高效率，如第4节所述。相比之下，动态类型语言（如Python）促进快速原型设计，但缺乏强制静态类型通常会阻碍大规模开发。

4.EXPERIMENTS

在本节中，我们将在比较研究中讨论ESPNet，Kaldi，OpenSeq2Seq和wav2letter ++的性能。 ASR系统是根据华尔街日报（WSJ）数据集[18]的大词汇量任务进行评估的。我们测量训练期间WSJ的平均纪元时间和平均话语解码延迟。我们用于实验的机器具有以下硬件配置：每台机器在NVIDIA SXM2模块上配备8个NVIDIA Tesla V100 Tensor Core GPU，内存为16GB。每个计算节点都有2个Intel Xeon E5-2698 v4 CPU，支持40（2 20）个内核，80个硬件线程（“内核”），2.20GHz。所有机器都通过100Gbps的In-finiBand网络连接。

4.1.Training

我们评估了扩展网络参数和增加GPU使用数量的培训时间。我们考虑了两种类型的神经网络架构：循环，具有3000万个参数，以及纯卷积，具有1亿个参数，分别如图4的顶部和底部图表所示。对于OpenSeq2Seq，我们考虑float32以及混合精度float16训练。对于两个网络，我们使用40维log-mel滤波器组作为输入，并使用CTC [7]作为标准（基于CPU的实现）。对于Kaldi，我们使用LF-MMI [19]标准，因为标准Kaldi配方中没有CTC培训。所有车型均采用SGD进行动力训练。我们使用每GPU 4个批量大小的批量。每次运行仅限于为每个GPU使用5个CPU内核。图3更详细地介绍了培训管道的主要组成部分;使用单个GPU在整个纪元上平均处理时间。对于这两种型号，wav2letter ++具有明显的优势，随着我们扩展计算而增加。对于具有3000万个参数的小型号，wav2letter ++比下一个最佳系统快15％以上，即使在单个GPU上也是如此。请注意，由于我们使用8台GPU机器，因此对16,32和64 GPU的实验涉及多节点通信。 ESPNet不支持开箱即用的多节点培训。我们通过将PyTorch DistributedDataParallel模块与NCCL2后端一起使用来扩展它。 ESPNet依赖于预先计算的输入功能，而wav2letter ++和OpenSeq2Seq为了灵活性而动态地计算功能。在某些情况下，混合精确训练会使OpenSeq2Seq的纪元时间减少1.5倍以上。这是wav2letter ++可以在未来受益的优化。 LF-MMI的Kaldi配方不会同步每个SGD更新的梯度; perepoch时间仍然慢20倍以上。我们在图4中没有包括Kaldi，因为标准（LF-MMI）和优化算法不容易比较。

训练时间的比较（对数标度）。上图：具有30米参数的RNN，受DeepSpeech 2 [12]的启发：2个空间卷积层，接着是5个双向LSTM层，接着是2个线性层。底部：具有100m参数的CNN，类似于[13]：18个时间卷积层，后面是1个线性层。

4.2解码

wav2letter ++包括一个用C ++编写的单程波束搜索解码器（参见第2.5节）。我们将其与OpenSeq2Seq和ES-PNet中提供的其他光束搜索解码器进行对比。 Kaldi不包括在内，因为它不支持CTC解码，并且实现了基于WFST的解码器。我们为每个解码器提供相同的预先计算的发射，这些发射是由在LibriSpeech上训练的完全卷积的OpenSeq2Seq模型Wave2Letter + 3生成的。这样可以在相同模型下独立测量性能。 4-gram LibriSpeech语言模型用于OpenSeq2Seq和wav2letter ++，因为ESPNet不支持n-gram LM解码。在表2中，我们报告解码时间和峰值内存使用情况，单线程解码，LibriSpeech dev-clean达到5.0％的WER，以及每个框架的最佳可用WER。对超参数进行了大量调整，以便报告的结果反映了报告的WER的最佳速度。 wav2letter ++不仅比同类解码器的性能高出一个数量级，而且使用的内存也少得多。

5.结论

在本文中，我们介绍了wav2letter ++：一种用于开发端到端语音识别器的快速而简单的系统。该框架完全用C ++编写，这使得它能够有效地训练模型并执行实时解码。与其他语音框架相比，我们的初始实现显示了有希望的结果;虽然wav2letter ++可以继续从进一步优化中受益。由于其简单易用的界面，wav2letter ++非常适合作为端到端语音识别快速研究的平台。与此同时，我们保留了使用基于Python的ASR系统进行某些优化以缩小与wav2letter ++的差距的可能性。

论文翻译：arxiv-2022 Ignore Previous Prompt: Attack Techniques For Language Models CSPhD-winston-杨帆论文翻译 LLMs-安全 prompt 语言模型人工智能
IgnorePreviousPrompt:AttackTechniquesForLanguageModelshttps://arxiv.org/pdf/2211.09527忽略之前的提示：针对语言模型的攻击技术文章目录忽略之前的提示：针对语言模型的攻击技术摘要1引言摘要基于Transformer的大型语言模型（LLMs）为大规模面向客户的应用程序中的自然语言任务提供了强大的基础。然而，探索恶意用户
论文翻译：arxiv-2024 Data Contamination Quiz: A Tool to Detect and Estimate Contamination in Large CSPhD-winston-杨帆 LLMs-数据污染论文翻译语言模型人工智能深度学习
DataContaminationQuiz:ATooltoDetectandEstimateContaminationinLargeLanguageModelshttps://arxiv.org/abs/2311.06233数据污染测验：一种检测和估计大型语言模型中污染的工具文章目录数据污染测验：一种检测和估计大型语言模型中污染的工具摘要1引言摘要我们提出了数据污染测验（DataContamina
实验DAY5：借假修真放逐997
a.昨日完成情况不佳，起床是9.30，除了报名（一口气报了五门..祝我好运），论文翻译和教育都没有完成；b.明日计划：9点前起床；明天优先复盘教育，以及准备cpa的考试资料；论文、和cpa留到周末做吧c.今天读到一篇讲美团公司战略的文章，对于整体战略搭建的方法论、具体业务的促成、以及更偏意识上层的“借假修真”思想的解读非常佩服，摘录核心如下：美团的增长引擎：1.严明的纪律性：放弃不符合业务逻辑的利
开源Bluespec bsc编译器和可重用示例设计达坦科技DatenLord 硬件加速 fpga fpga开发硬件工程开源
这篇介绍Bluespec以及设计示例的文章，是在2021年ICCAD（InternationalConferenceOnComputer-AidedDesign）发布的论文。达坦科技的open-rdma项目和推广的MIT体系结构学习社区都用到Bluespec，因此将此论文翻译成中文，以便大家了解2020年Bluespec开源后相关的开源项目。摘要：bsc编译器是一个商业可用的编译器，在过去的二十年
论文翻译 - BITE: Textual Backdoor Attacks with Iterative Trigger Injection anniewwy LLM Backdoor Attack
论文链接：https://arxiv.org/pdf/2205.12700.pdf项目代码：https://github.com/INK-USC/BITEBITE:TextualBackdoorAttackswithIterativeTriggerInjectionAbstract1Introduction2ThreatModel3Methodology3.1BiasMeasurementonLa
我做这件事，唯一的目的就是让你开心沉吟大叔
一个男人心里满满的爱意：我做这件事，唯一的目的就是让你高兴，而不是赢得你的好感、证明我的能力、让你对我感恩戴德。所以，我不想让你知道我的付出，不想让你对我怀有歉意和内疚，更不想因此获得什么回报。我只是心甘情愿地想为你做点什么，因为我爱你。这才是真爱吧。以前有个读者，说她男朋友特别小气，还不诚实。请她吃顿饭要念叨很久，给她买礼物，花一百要说成三百，帮她做论文翻译，明明一小时就搞定了，非要说是熬了个通
剖析以太坊上的庞氏骗局：识别、分析和影响卷神
区块链安全防护论文翻译：Bartoletti,Massimo,etal."DissectingPonzischemesonEthereum:identification,analysis,andimpact."FutureGenerationComputerSystems102(2020):259-277.摘要：庞氏骗局是一种以高额利润为诱饵的金融欺诈。实际上，只有新用户加入了庞氏骗局，用户才能得
《 HFContractFuzzer: Fuzzing Hyperledger Fabric Smart Contractsfor Vulnerability Detection》论文翻译 WXF_Security 智能合约安全研究 fabric golang
《HFContractFuzzer:FuzzingHyperledgerFabricSmartContractsforVulnerabilityDetection》（EASE2021）摘要区块链技术以其特有的去中心化、不可变性等优点，近年来被广泛应用于各个领域。运行在区块链上的智能合约在去中心化应用场景中也扮演着越来越重要的角色。因此，自动检测智能合约中的安全漏洞成为区块链技术应用中亟待解决的问题
Data Augmentation and Deep Learning Methods in SoundClassification: A Systematic Review ggqyh 深度学习人工智能
文章为翻译，仅供学习参考论文原地址：DataAugmentationandDeepLearningMethodsinSoundClassification:ASystematicReview作者：OlusolaO.Abayomi-Alli,RobertasDamaševiˇcius,AtikaQazi,MariamAdedoyin-OloweandSanjayMisra4论文翻译地址：https:
因果学习及反因果学习（论文翻译）三分钟湿度
OnCausalandAnti-causalLearning本博文对论文OnCausalandAnti-causalLearning的摘要和模型部分做了翻译和小修改，本论文主要描述因果学习中常见的几类基于函数估计的模型，同时说明了因果与相关性、因果学习与机器学习之间的关系，论文重点在讨论和比较不同模型，内容较为笼统，不做深入探讨，但对不同模型之间的本质关系的讨论值得一看。论文地址：https://
Convolutional Neural Networks for No-Reference Image Quality Assessment 论文翻译亚里论文阅读 NR-IQA 使用卷积网络进行图像质量评价
ConvolutionalNeuralNetworksforNo-ReferenceImageQualityAssessment论文翻译TranslationAbstract1Introduction2RelatedWork3CNNforNR-IQA3.1NetworkArchitecture3.2LocalNormalization3.3Pooling3.4ReLUNonlinearity3.5
有道论文翻译接口，python版和lua版 monsterskiller 手机编程脚本编程 python
论文翻译接口python版importrequestsimporthashlibfromurllib.parseimportquotedefget_md5(s,is_hex=True):md5=hashlib.md5()md5.update(s.encode())ifis_hex:returnmd5.hexdigest()returnmd5.digest()deftranslate(source_
医学论文翻译有哪些要求，应该如何翻译呢？英信翻译公司其他
近年来，随着国内医学水平的不断提高，医学论文翻译的需求也呈现出快速增长的趋势。在国外期刊上发表论文，往往需要将整篇论文翻译成英文。那么，医学论文翻译有哪些要求，应该如何翻译呢？专家指出，医学论文翻译最基本的要求就是准确性，要求翻译者能够准确地将原文的含义传达给读者，不出现歧义或者误解的情况。这要求翻译者具备深厚的医学专业知识和语言能力，能够理解原文的含义，并将其准确地表达出来。除了准确性之外，医学
GPT原始论文：Improving Language Understanding by Generative Pre-Training论文翻译 iKang_dlut gpt 人工智能深度学习
1摘要自然语理解包括文本蕴含、问题回答、语义相似性评估和文档分类等一系列多样化的任务。尽管大量未标注的文本语料库很丰富，但用于学习这些特定任务的标注数据却很稀缺，这使得基于区分性训练的模型难以充分发挥作用。我们展示了通过在多样化的未标注文本语料库上对语言模型进行生成式预训练，随后对每个特定任务进行区分性微调，可以实现这些任务的大幅度改进。与以往的方法不同，我们在微调过程中使用了任务感知的输入转换，
【论文翻译】Generation of Non-Deterministic Synthetic Face Datasets Guided by Identity Priors（21.12）联系丝信计算机视觉
文章目录读后感Abstract1Introduction1.1Ourcontributions2RelatedWorks2.1SyntheticImageGeneration2.2MatedSampleGeneration2.3LimitationsinState-of-the-art3PCA-FR-GuidedSampling4SyntheticMatedFace(SymFace)Dataset
ORB-SLAM2代码学习1 rgdb_tum.cc Dziwu SLAM 学习计算机视觉人工智能
论文翻译参考1参考2rgdb_tum.cc的框架代码大致思路LoadImages()加载图像——判断rgb图是否存在——判断rgb图与depth图数量是否对应相同。ORB_SLAM2::SystemSLAM()初始化，创建SLAM系统，并初始化各个线程。遍历每一对RGB图和depth图【读取RGB图和depth图，读取时间戳（vTimestamps存储了时间戳，实际上就是存储了数据文件的每一幅图像
GFS--Google File System论文翻译和理解不争_900c
一、系统设计目标高可用的大文件分布式文件系统。二、关键点Architecture-架构：有哪些Server，每个Server的功能。Master存储的MetaData的结构。client写数据流程。client读数据流程。启动时Master和ChunkServer的交互。ChunkServer发生故障时，Master和ChunkServer的交互。三、核心设计概述2.Master中存储的MetaD
翻译 5765f3fa240e
对于论文翻译，大家要极其重视阅读平行文本和查资料的重要性。我平时经常做论文翻译和润色，每一次都是如履薄冰。需要阅读核心参考文献，查资料消除术语，彻底领会论文背后的逻辑。这些都解决了，才轮到运用语言基本功。假如大家接论文翻译，请认真对待查资料和阅读平行文本这两件事，如果做不到，暂时不要接论文翻译。
BERT论文翻译 TheHonestBob NLP 自然语言处理
一、写在前面在Transformer和BERT大行其道的时代，搞懂这两种基础模型结构很有必要，在网上没有搜索到满意的论文翻译结果，最近刚好有时间，把BERT的论文在个人英语水平基础上最大程度的保留原作者的本意翻译一遍，如有翻译不到位的地方请各位指出，觉得不错的点个赞鼓励一下，Tansformer的论文我之前已经翻译了，可以查看我的这篇博客attentionisallyouneed论文翻译。查看be
ImageNet Classification with Deep Convolutional Neural Networks论文翻译——中英文对照 SnailTyan 深度学习 Deep Learnig
文章作者：Tyan博客：noahsnail.com|CSDN|简书翻译论文汇总：https://github.com/SnailTyan/deep-learning-papers-translationImageNetClassificationwithDeepConvolutionalNeuralNetworksAbstractWetrainedalarge,deepconvolutionaln
2021-02-05 碰撞检测GJK算法详解（初学者慎入） MathPhilosophy
碰撞检测有2个经典算法，一个是分离轴算法SAT,还有一个就是本文要介绍的GJK，GJK是三个人的名字首写大字母；这个算法的数学推导有点复杂，目前网上只有这篇https://blog.csdn.net/u010016421/article/details/104788769/相对比较详细的介绍了算法，其主要也是参考原始论文翻译的；考虑到原始论文比较难读，博主特地专门写一篇文章介绍，博主的这篇文章会必
YoloV8改进策略：BackBone改进|DCNv4最新实践|高效涨点|多种改进教程|完整论文翻译静静AI学堂 YOLO
摘要涨点效果：在我自己的数据集上，mAP50由0.986涨到了0.993，mAP50-95由0.737涨到0.77，涨点明显！DCNv4是可变形卷积的第四版，速度和v3相比有了大幅度的提升，但是环境搭建有一定的难度，对新手不太友好。如果在使用过程遇到编译的问题，请严格按照我写的环境配置。论文：《DCNv4：对视觉应用的动态和稀疏算子的重新思考》https://arxiv.org/pdf/2401.
论文翻译 SVSGAN: Singing Voice Separation Via Generative Adversarial Network 夏HL
文章主要是将混合音频的声谱作为输入，人声,bgm的声谱作为标签，通过GAN来完成近似过程，生成器最后一层用的output_voice=[z_voice/(z_voice+z_bgm)]*x,output_bgm=[z_bgm/(z_voice+z_bgm)]*x而且文章中的生成器是经过预先训练后的。我在MKR-100上用SVSGAN时难以训练(以后换成wgan)。0.摘要从混合音频中分离出两种来源
ALOHA论文翻译：Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware baidu_huihui 精细双手操作低成本硬件
学习用低成本硬件进行精细双手操作MobileALOHA论文翻译：LearningFine-GrainedBimanualManipulationwithLow-CostHardware论文翻译@[TOC]在这里插入图片描述图1：ALOHA：一种用于双手远程操作的低成本开源硬件系统。整个系统使用现成的机器人和3D打印组件，总成本不到20,000美元。左图：用户通过反向驱动领导机器人进行远程操作，从而
手把手教你用GPT写提示词；进行文献综述；论文翻译/润色及写作 asyxchenchong888 gpt4 GPT gpt chatgpt 人工智能 python
2023年随着OpenAI开发者大会的召开，最重磅更新当属GPTs，多模态API，未来自定义专属的GPT。微软创始人比尔盖茨称ChatGPT的出现有着重大历史意义，不亚于互联网和个人电脑的问世。360创始人周鸿祎认为未来各行各业如果不能搭上这班车，就有可能被淘汰在这个数字化时代，如何能高效地处理文本、文献查阅、PPT编辑、编程、绘图和论文写作已经成为您成功的关键。而ChatGPT，作为一种强大的自
【Linux系统下论文翻译软件Zotero】 Dymc 安装笔记 linux 服务器论文翻译软件
Linux系统下论文翻译软件Zotero1下载安装包2建立快捷方式3插件安装4翻译插件出现报错1下载安装包Linux系统下的论文翻译软件Zotero，下载地址：https://www.zotero.org/download/2建立快捷方式解压后，创建快捷方式，即创建软链接：sudomkdir/opt/zoterosudomvZotero_linux-x86_64/*/opt/zotero/cd/o
KGCapsAN论文翻译毕一
摘要：基于方面(方面级)的情感分析是在细粒度情感分析中非常重要的子任务，旨在自动推断出某一方面在其上下文中的情绪。之前的研究已经表明，利用注意力为基础的方法可以有效地提高基于方面的情感分析的精度。尽管有了卓越的进步,基于方面的情绪分析现实中几个方面挑战。(1)目前基于注意力的方法可能会导致某一方面的注意力不正确地集中在与句法无关的词上。(2)传统的方法无法将情感与特殊的句子结构区分开来，如双重否定
记你我的第一次相遇易美编校
Hi大家好！今天是易美编校在与你们的第一次相遇，让我想到了白落梅的《世间所有的相遇都是久别重逢》,人和人的缘分真的很深，可以维系千年，任凭风尘起落，情怀不改。人和人的缘分真的很浅，只不过是相逢刹那，转身便成了永远的陌路。不知道你我之间将会有怎样的一个开始？先做个自我介绍吧，Emate易美编校是北京龙华全科教育科技有限公司旗下学术服务品牌，旨在为非英语国家的科学家提供专业化的论文翻译、润色、修改及其
基于ChatGPT的代码解释神器：GPT Academic、GitHub Copilot 码上出奇迹 chatgpt gpt github
（个人推荐使用第二个GitHubCopilot）1.GPT学术优化(GPTAcademic)工具简介GPTAcademic是什么为ChatGPT/GLM提供实用化交互界面，特别优化论文阅读/润色/写作体验，模块化设计，支持自定义快捷按钮&函数插件，支持Python和C++等项目剖析&自译解功能，PDF/LaTex论文翻译&总结功能，支持并行问询多种LLM模型，支持chatglm2等本地模型。兼容文
推荐几个将pdf论文翻译转化为中文论文的免费在线网站 Wency(王斯-CUEB) 经验分享
如果你需要将英文PDF研究论文翻译成中文，有几个网站可以帮助你：OnlineDocTranslator【传送门】这项免费服务允许您上传PDF并将其翻译成中文。它支持包括PDF在内的多种文档格式，并保持文档的原始布局。GroupDocs【传送门】这个在线工具提供免费的PDF文档从英文到中文的翻译。它是一个基于浏览器的应用程序，因此不需要安装软件。请注意，PDF文档的字符限制为10,000个字符。Do
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。

WAV2LETTER ++：最快的开源语音识别系统

你可能感兴趣的:(论文翻译)