李清焰

【NLP】ESPNet语音识别——原理、实现过程

文章目录

- 引言
- 一、语音识别概述
- - 1、模板匹配，例如：DTW（动态时间规整）
  - 2、统计模型，例如：GMM-HMM（混合高斯模型和马尔科夫模型）等
  - 3、深度学习，例如：DNN-HMM、End-to-End(端到端)
- 二、端到端的语音识别
- - 1、CTC（连接时序分类）
  - 2、Attention（注意力机制）
  - 3、Attention与CTC
- 三、ESPNet
- - 1、ESPNet 架构
  - 2、ESPNet 实现ASR的具体流程
- 参考文献

引言

本文的主旨：

阐述 ESPNet （end-to-end speech processing toolkit）进行端到端语音识别的基本原理、实现方法和主要流程。

作者的话：

由于之前没有接触过NLP，对其中的很多概念都不清楚，所以将会从NLP的发展历史开始，从基础开始，逐渐阐述NLP方法的一代代进步，按照一个顺序的结构，最终讲到今天的主题——ESPNet；
所以我预计，大量的篇幅可能都是ESPNet的基础知识；

本文逻辑：

语音识别（ASR）的发展历史；
ASR的三大方法，引出深度学习法；
详解深度学习中的端到端是什么？
由端到端引出ESPNet，并详解ESPNet。

一、语音识别概述

虽说概述这一部分和ESPNet本身没有什么直接联系，但本着一个学习的过程，还是把自己前期做的调研中有价值的部分写上，来让读者明白ESPNet在整个语音识别中，处于一个怎样的地位。

从1950s至今，可以总结出三大类语音识别方法：

1、模板匹配，例如：DTW（动态时间规整）

模板匹配使用动态规划的思想，将两段不等长的语音化为等长语音，之后便于上下匹配波形；
简单来说：我有一个模板库，通过获取一段语音的波形图象与模板库进行比对，来进行语音的匹配；
模板匹配比较适合小词汇量、单独词的识别；但的识别效果过分依赖于端点检测，不适合用于连续语音识别。

2、统计模型，例如：GMM-HMM（混合高斯模型和马尔科夫模型）等

统计模型语音识别系统通常有如下模块：

信号处理和特征提取模块：从输入的语音信号中提取特征，用于声学模型的建模以及解码过程。
声学模型：通常的语音识别系统大都使用隐马尔科夫模型对词，音节、音素等基本的声学单元进行建模，生成声学模型。
语言模型：语言模型对系统所需识别的语言在单词层面上进行建模。判断出那个词是最适合出现在当前句中。目前大多数语音识别系统普遍采用统计语言模型，其中大都是基于统计的N元语法（N-gram）模型及其变体。（我觉得也是基于概率的还是比较好的）
发音词典/词汇表：发音词典包含系统所能处理的单词的集合，并标明了其发音。通过发音词典得到声学模型的建模单元和语言模型建模单元间的映射关系，从而把声学模型和语言模型连接起来，组成一个搜索的状态空间用于解码器进行解码工作。
解码器：解码器是语音识别系统的核心之一，负责读取输入的语音信号的特征序列，再由声学模型、语言模型及发音词典生成的状态空间中，解码出以最大概率输出该信号的词串。

个人理解，基于统计模型的语音识别，其流程如下：

语音的输入：一段语音——我是机器人.mp3（当然不一定是mp3具体这个格式）
特征提取：提取特征向量，将数据变化为——[1 2 3 4 56 0 …]
声学模型：[1 2 3 4 56 0]-> w o s h i j i q i r e n
字典：wo——我、窝… ;shi——是、时…;ji——及、机…;qi——其、期、器…；ren——人…
语言模型：我：0.0786，是： 0.0546，我是：0.0898，机器：0.0967，机器人：0.6785；
输出文字：我是机器人。

3、深度学习，例如：DNN-HMM、End-to-End(端到端)

深度学习模型中，覆盖从DNN到RNN、CNN、LSTM、GRU、TDNN、End-to-End等模型（这些模型我就不一一细讲了…），本文所要讲的ESPNet，就属于最后一种——端到端模型。

二、端到端的语音识别

传统的机器学习中，往往包含多个独立的模块。以NLP问题举例——包括分词、标注、分析句法和语义等部分。每一个模块的输出好坏会影响下一个结果，从而影响整个训练的结果，这是非端到端；
而在E2E只分为输入端的语音特征和输出端的文本信息。输入经过一个 RNN 生成一个向量（这一步类似计算 sentence embedding），之后用另一个 RNN ，从向量中解码出我们需要的文本信息；第一个过程称之为 encoding，第二个过程称之为 decoding，整个模型不需要词对齐，不需要额外的语言模型。这就是端到端；
E2E将传统语音识别系统的三大部分——发音词典、声学模型和语言模型，被融合为一个E2E模型，直接实现输入语音的文本化；
Encoder-Decoder 模型虽然在结构上很简单且大部分序列到序列的预测问题，都可以使用该模型，这个序列甚至没有必要是语音，图像或者文字同样适用。

E2E模型通常包含以下的具体模型：

CTC：主要负责声学模型的训练（补充，引用微软亚洲研究院的资料，CTC是最早的端到端ASR模型）；
RNN-T：为了联合优化声学模型与语言模型，由于RNN-T是针对每帧输入特征进行预测输出，即不用等语音全部说完再出结果，因此可应用于流识别，特别是在嵌入式设备。
Attention：主要负责声学部分训练；
Transformer：并行计算的特征提取器（主要可用于提取声学特征）。

由于接下来的ESPNet模型中，主要使用了CTC和Attention来进行训练和解码，所以我会主要介绍这两部分：

1、CTC（连接时序分类）

CTC算法全称叫：Connectionist temporal classification。顾名思义，是用来解决时序类数据的分类问题。在训练声学模型的时候，能够自动对齐输出标签和输入序列，不再像DNN-HMM模型那样需要对齐标注。

标注对齐与传统声学模型训练：

传统语音识别的声学模型训练，对于每一帧，需要知道对应的label才能进行有效的训练。而且，在训练数据之前需要做语音对齐的预处理，而对齐的过程需要进行反复多次的迭代，来确保对齐更准确，是一个比较耗时的工作；
不对数据进行调整处理，那就意味着不能用一些简单方法进行训练，所以必须进行标注对齐操作；
举例什么是对齐标注：如果我的发音为“你好”，第1,2,3,4帧对应n的发音，第5,6,7帧对应i的音素，第8,9帧对应h的音素，第10,11帧对应a的音素，第12帧对应o的音素。如图所示：

使用CTC训练声学模型：

与传统的声学模型相比，CTC可让网络自动学会对齐，适合语音识别和书写识别等任务；
至于有关于CTC具体的原理，毕竟本文是介绍ESPNet的文章，同时CTC中涉及损失函数、前向后向算法等大量数学内容。篇幅有限，我在这里就不阐述了。

总而言之，CTC最核心的特点是：

CTC中的前向后向算法可以令输出序列和输入序列自动按时间顺序对齐；
但缺点是，为了提高效率，CTC做出了重要的独立性假设——不同帧的网络输出有条件地独立。同时从CTC模型中获得良好的性能，往往还需要使用外部语言模型；
它和接下来介绍的Attention模型各有优点，最终会相互结合，并被ESPNet所使用。

2、Attention（注意力机制）

在介绍Attention之前，要简单介绍一下Encoder-Decoder，它是 NLP 领域里的一种模型框架（而不是特质某一类算法/模型），被广泛用于机器翻译、语音识别等领域。

Encoder是将输入的音频，转化为向量，方便之后的数学计算；
Decoder是将数学化的数据，最终输出为我们最终的ASR目标——文字。

Attention模型：

而Attention 模型的特点是 Eecoder 不再将整个输入序列编码为固定长度的中间向量，而是编码成多个向量（或者说一个向量的序列），并为不同的向量根据实际需要赋予不同的权重，以此来影响输出结果；
当然，以上Encoder和Decoder是为了引出Attention，Attention本身并不一定要在 Encoder-Decoder 框架下使用的，他是可以脱离 Encoder-Decoder 框架的。

3、Attention与CTC

首先这两个模型负责的都是声学部分的训练，和语言模型没有关系；
相比于CTC模型，Attention模型的对齐关系没有先后顺序的限制，完全靠数据驱动得到；
因此CTC和Attention模型各有优势，可把两者结合来，构建Hybrid CTC/Attention模型，采用多任务学习，通过CTC避免对齐关系过于随机，以加快训练流程。

三、ESPNet

介绍了很多基础知识，终于要讲到今天的正题——ESPNet了：

ESPNet是一套基于E2E的开源工具包，可进行语音识别等任务。从另一个角度来说，ESPNet和HTK、Kaldi是一个性质的东西，都是开源的NLP工具；
引用论文作者的话：ESPnet^[1]是基于一个基于Attention的编码器-解码器网络，另包含部分CTC组件；
个人理解：在ESPNet出现之前，已经出现了CTC、Transformer等端到端ASR模型，ESPNet以这两种模型为核心，将这两个模型串了起来，利用二者优点，并外加了Kaldi等数据准备、特征提取的工具，最终封装成一个ASR的工具包，命名为ESPNet。

1、ESPNet 架构

ESPNet中使用了ATT+CTC的架构，其可分为两大部分^[2]：

1、Shared encoder（共享编码器）：

包括了VGG卷积网络和BLSTM（双向长短时记忆网络）层，来完成语音到向量的转化。

2、Joint Decoder（联合解码器）：

联合解码器实现向量到最终文本结果的输出；
联合解码器包括CTC（负责标签和序列的自动对齐）、Attention（为不同序列赋予不同权重）和RNN-LM（语言模型，生成最优字词句）；
其中CTC和Attention二者共同使用一个Loss来使模型收敛，最终的损失函数Loss_MTL为CTC损失函数和Attention损失函数的加权求和；
联合解码中，使用one-pass beam search（剪枝搜索）方法来消除不规则的序列与标签的对齐。

2、ESPNet 实现ASR的具体流程

ESPNet实现ASR包含以下流程：

数据准备：下载数据与解压缩数据；
特征提取：使用Kaldi（Kaldi也是个开源ASR工具）来提取语音特征，输出为80维的FBank特征，加上3维的pitch特征，总共83维。然后进行均值归一化，让网络更容易对语音特征进行学习；
转换数据格式：将中间数据转化为JSON格式；
语言模型的训练：语言模型使用的RNN-LM模型，其中RNN-LM训练有无字的字符序列水平知识。尽管注意解码器暗含像等式中一样包含语言模型。 RNN-LM概率用于与解码器网络一起预测输出标签。基于注意力的解码器会先学会使用LM。此外，RNN-LM可以与编码器一起训练解码器网络
声学模型的训练：使用字典、训练集和测试集，基于CTC模型、Attention的架构和Transformer的解码器进行声学部分的训练；
识别与打分：联合Transformer模型、CTC模型和RNN语言模型进行打分：

参考文献

[1] Shinji Watanabe, Takaaki Hori, Shigeki Karita, Tomoki Hayashi, Jiro Nishitoba, Yuya Unno, Nelson Enrique Yalta Soplin, Jahn Heymann, Matthew Wiesner, Nanxin Chen, Adithya Renduchintala, and Tsubasa Ochiai, “ESPnet: End-to-End Speech Processing Toolkit,” Proc. Interspeech’18, pp. 2207-2211 (2018)
[2] Suyoun Kim, Takaaki Hori, and Shinji Watanabe, “Joint CTC-attention based end-to-end speech recognition using multi-task learning,” Proc. ICASSP’17, pp. 4835–4839 (2017)
[3]《语音识别：原理与应用》厦门大学智能语音实验室
[4]《语音识别》，洪青阳，李琳著，出版社:北京：电子工业出版社
[5] https://github.com/espnet/espnet（ESPNet的gitHub首页）
[6] https://www.msra.cn/zh-cn/news/features/e2e-asr-paper-list（微软亚洲研究院）
[7] 什么是端到端（end2end）的学习？ https://blog.csdn.net/alawaka2018/article/details/80388808
[8] Shinji Watanabe, Takaaki Hori, Suyoun Kim, John R. Hershey and Tomoki Hayashi, “Hybrid CTC/Attention Architecture for End-to-End Speech Recognition,” IEEE Journal of Selected Topics in Signal Processing, vol. 11, no. 8, pp. 1240-1253, Dec. 2017

语音识别学习系列（13）：语音识别中的情感识别与表达 DoYangTan 语音识别学习人工智能
语音识别学习系列（13）：语音识别中的情感识别与表达前言在语音识别领域，仅仅将语音准确转换为文字内容已不能满足日益多样化的人机交互需求。人们在交流过程中往往蕴含着丰富的情感信息，语音识别若能对情感进行识别与表达，将会使交互变得更加自然、智能且贴合人性化需求。本期我们就围绕语音识别中的情感识别与表达这一重要主题展开深入探讨，了解其背后的原理、方法以及实际应用价值。一、语音情感识别的基本原理与常用方法
第二十一篇：伦理/道德Ethics flying_1314 NLP ethics 伦理/道德隐私偏见双重用途
目录什么是伦理/道德？我们为什么要关心？为什么道德很难？学习成果大纲反对NLP道德检查的论据我们应该审查科学吗？H5N1透明度不是更好吗？AIvs.Cybersecurity核心NLP伦理概念偏见词嵌入中的偏差双重用途OpenAIGPT-2隐私GDPRAOL搜索数据泄露小组讨论提示自动刑期预测自动简历处理语言社区分类打包带走~什么是伦理/道德？我们应该如何生活——苏格拉底•正确的做法是什么？•为什
使用Titan Takeoff进行高效的自然语言处理模型推理 scaFHIO 自然语言处理人工智能 python
在自然语言处理(NLP)领域，每一家企业都在寻求更高效的模型训练和推理解决方案。TitanML的平台通过训练、压缩和推理优化帮助企业构建和部署更佳、更小、更便宜、更快速的NLP模型。特别是其推理服务器TitanTakeoff，使得在本地硬件上轻松部署大语言模型(LLMs)成为可能。技术背景介绍TitanTakeoff是TitanML提供的一项服务，它允许用户在本地硬件上运行推理工作负载。支持大多数
25道Python练手题（附详细答案），赶紧收藏！_python题库字节全栈_rJF python 开发语言
importrandomasrdnumber=rd.randint(0,100)foriinrange(10):choice=int(input("请输入你要猜测的数字："))ifchoice>number:print("你猜大了")elifchoice0and5*x+3*y+z/3==100:count+=1print("="*60)print(f'第{count}种买法，公鸡买了{x}只，母鸡
ZTE R218 4G Mobile WiFi Router Review 小2不语 LTE Router zte r218
IfyouhadknowntheZTEMF9204GMiFirouter,youwillknowtheZTER218soonafterwetellyoutheR218comesfromtheZTEMF920withVodafonecustomization.VodafoneintroducedtheMF920toitsproductrangeandrenameitasR218.Theofficia
高效快速教你DeepSeek如何进行本地部署并且可视化对话大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
科技文章：高效快速教你DeepSeek如何进行本地部署并且可视化对话摘要：随着自然语言处理（NLP）技术的进步，DeepSeek作为一款基于深度学习的语义搜索技术，广泛应用于文本理解、对话系统及信息检索等多个领域。本文将探讨如何高效快速地在本地部署DeepSeek，并结合可视化工具实现对话过程的监控与分析。通过详尽的步骤、案例分析与代码示例，帮助开发者更好地理解和应用DeepSeek技术。同时，本
NLP高频面试题（十）——目前常见的几种大模型架构是啥样的 Chaos_Wang_ NLP常见面试题自然语言处理架构人工智能
深入浅出：目前常见的几种大模型架构解析随着Transformer模型的提出与发展，语言大模型迅速崛起，已经成为人工智能领域最为关注的热点之一。本文将为大家详细解析几种目前常见的大模型架构，帮助读者理解其核心差异及适用场景。1.什么是LLM（大语言模型）？LLM通常指参数量巨大、能够捕捉丰富语义信息的Transformer模型，它们通过海量的文本数据训练而成，能够实现高度逼真的文本生成、复杂的语言理
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
大佬都在用的桑基图到底怎么做？告诉你个最简单的方法永洪科技 python
桑基图，即桑基能量分流图，也叫桑基能量平衡图。因1898年MatthewHenryPhineasRiallSankey绘制的“蒸汽机的能源效率图”而闻名，此后便以其名字命名为“桑基图”。桑基图常被用于能源损耗情况、材料成分分析、金融数据可视化；追踪用户状态；追踪跑票、变动、迁移；追踪人口流动情况等等业务场景，表现分配、归类、变化、流动情况。桑基图好在哪？它是一种特定类型的流图，图中延伸的分支的宽度
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
端到端的NLP框架（Haystack） deepdata_cn NLP 自然语言处理人工智能
Haystack是一个端到端的NLP框架，专门用于构建基于文档的问答系统，是实现RAG的理想选择。它提供了数据预处理、文档存储、检索和生成等一系列组件，支持多种语言模型和检索器。提供可视化界面，方便用户进行配置和调试；支持多模态数据，可处理文本、图像等多种类型的数据；具有可扩展性，可根据需求添加自定义组件。2020年在自然语言处理技术快速发展，对高效、易用且灵活的端到端NLP框架需求日益增长的背景
客服机器人怎么才能精准的回答用户问题？玩人工智能的辣条哥 AI面试机器人客服机器人
环境：客服机器人问题描述：客服机器人怎么才能精准的回答用户问题？解决方案：客服机器人要精准回答用户问题，需综合技术、数据和用户体验等多方面因素。以下是关键策略和步骤：1.精准理解用户意图自然语言处理（NLP）技术分词与实体识别：提取关键词（如“订单号”“退货”）和实体（如时间、地点）。意图分类：通过机器学习模型（如BERT、Transformer）将问题归类（如“售后”“支付”）。上下文理解记录对
深入了解盘古大模型：技术、应用与未来 Hardess-god Literature review 人工智能
随着人工智能技术的迅猛发展，预训练大模型已成为AI领域最前沿、最热门的研究方向之一。近年来，中国自主研发的大模型之一——盘古模型（PanGuModel）逐渐进入公众视野，凭借其强大的性能和广泛的应用前景，引发了行业内外的广泛关注。什么是盘古大模型？盘古大模型是华为公司联合多家科研机构共同研发的超大规模预训练语言模型。该模型以中文数据为主进行训练，旨在推动中文自然语言处理（NLP）以及跨模态应用的技
NLP高频面试题（七）——GPT和Bert的mask有什么区别？ Chaos_Wang_ NLP常见面试题自然语言处理 gpt bert
GPT和BERT的Mask机制对比：核心区别与优化策略在NLP领域，GPT和BERT是最具代表性的预训练语言模型之一。它们都在训练过程中使用了Mask机制来引导模型学习语言表示，但具体实现方式和目标却有所不同。本文将深入探讨GPT和BERT的Mask方法的核心区别，并分析其优化策略。1.BERT的Mask机制：基于MLM（MaskedLanguageModel）BERT（Bidirectional
知识图谱中NLP新技术魔王阿卡纳兹知识图谱入门大数据治理与分析知识图谱自然语言处理人工智能
知识图谱与自然语言处理（NLP）的结合是当前人工智能领域的前沿方向，其技术发展呈现多维度融合与场景深化的特点。以下从核心技术突破、应用场景创新及未来趋势三个层面，系统梳理知识图谱中NLP的最新进展：一、核心技术突破基于预训练模型的图谱构建与增强预训练语言模型与知识嵌入融合：以BERT、KEPLER为代表的模型通过联合优化知识嵌入（KE）和语言建模目标，将知识图谱中的结构化知识融入预训练过程，显著提
一文说清楚什么是预训练（Pre-Training）、微调（Fine-Tuning），零基础小白建议收藏！！小城哇哇人工智能语言模型 AI大模型大模型微调预训练 agi LLM
前言预训练和微调是现代AI模型的核心技术，通过两者的结合，机器能够在处理复杂任务时表现得更为高效和精准。预训练为模型提供了广泛的语言能力，而微调则确保了模型能够根据特定任务进行细化和优化。近年来，人工智能（AI）在各个领域的突破性进展，尤其是在自然语言处理（NLP）方面，引起了广泛关注。两项重要的技术方法——预训练和微调，成为了AI模型发展的基石。预训练通常是指在大规模数据集上进行模型训练，以帮助
GitHub项目推荐--基于LLM的开源爬虫项目惟贤箬溪穷玩Ai github 爬虫
以下是一些基于大语言模型（LLM，LargeLanguageModel）的开源爬虫项目，它们结合了自然语言处理（NLP）技术与爬虫的功能，能在一定程度上提升爬取的智能化和精度。这些项目可以用于自动化抓取、内容提取、数据分析等任务。1.GPT-3WebScraper简介：这是一个基于OpenAIGPT-3模型的网页抓取工具，利用GPT-3的自然语言理解能力来生成有用的爬虫策略、处理网页内容并提取有价
安全基线-rm命令防护晓夜残歌安全 chrome 前端运维 ubuntu 服务器
限制rm命令使用的多层级解决方案方案1：基础防护（个人/小型团队）1.1别名替换法#在~/.bashrc或全局/etc/bash.bashrc中添加aliasrm='echo"Usetrash-cliinstead.Installvia:sudoapt-getinstalltrash-cli"'aliasrm='trash-put'#安装后替换为实际命令优点：简单易行，防止误删缺点：可通过/bin
使用大语言模型API在AI应用中的实现 qq_37836323 人工智能语言模型自然语言处理 python
随着人工智能技术的迅速发展，大语言模型（LLM）在自然语言处理（NLP）领域的应用越来越广泛。本文将介绍如何使用大语言模型API来实现一些基础的AI应用，并提供一个简单的demo代码，帮助大家更好地理解和使用这些技术。大语言模型API简介大语言模型（如GPT-4）能够理解和生成类似人类的文本。这些模型可以应用于各种任务，包括文本生成、语言翻译、情感分析、对话系统等。为了方便国内用户访问这些强大的模
【NLP】 API在大语言模型中的应用 Nerous_ 深度学习自然语言处理语言模型人工智能
大语言模型（LargeLanguageModels,LLMs）通过API（应用程序接口）为开发者提供了便捷的调用方式，使其能够快速集成自然语言处理能力到各类应用中。以下是API在LLM中的核心应用场景及技术实现细节：一、核心应用场景自然语言理解与生成应用示例：智能客服：解析用户问题并生成回复（如ChatGPTAPI）。内容创作：自动生成文章、广告文案或代码（如OpenAI的GPT-4）。技术实现：
自动语音识别（ASR）：技术、应用与未来 ajie1117 语音识别人工智能
自动语音识别（ASR）：技术、应用与未来1.ASR简介自动语音识别（ASR，AutomaticSpeechRecognition）是一种将语音转换为文本的技术。它利用人工智能（AI）、深度学习和自然语言处理（NLP）技术来识别和理解人类的语言，使计算机能够与人类进行更自然的交互。2.ASR的工作原理ASR的核心流程通常包括以下几个步骤：语音信号采集：通过麦克风或其他设备获取音频数据。预处理：去除噪
linux 批量删除指定类型文件鸭梨山大哎 linux linux 运维服务器
如果使用rm*.xlsx时仍然提示确认，可能是因为你的系统默认启用了rm的交互模式（-i选项）。这是某些Linux发行版的默认行为（例如通过alias设置了rm为rm-i）。要避免确认提示，可以通过以下方法解决：方法1：强制删除（使用-f选项）使用rm-f强制删除文件，忽略确认提示：rm-f*.xlsx方法2：检查并移除rm的别名检查rm是否被设置了别名（例如rm-i）：aliasrm如果输出类似
《深度剖析：BERT与GPT——自然语言处理架构的璀璨双星》人工智能深度学习
在自然语言处理（NLP）的广袤星空中，BERT（BidirectionalEncoderRepresentationsfromTransformers）与GPT（GenerativePretrainedTransformer）系列模型宛如两颗最为耀眼的星辰，引领着NLP技术不断迈向新的高度。它们基于独特的架构设计，以强大的语言理解与生成能力，彻底革新了NLP的研究与应用范式，成为学界和业界竞相探索
python离线语音转文本_使用Python将语音转换为文本的方法 weixin_39760619 python离线语音转文本
使用Python将语音转换为文本的方法,语音,转换为,文本,您的,麦克风使用Python将语音转换为文本的方法易采站长站，站长之家为您整理了使用Python将语音转换为文本的方法的相关内容。语音识别是计算机软件识别口语中的单词和短语，并将其转换为可读文本的能力。那么如何在Python中将语音转换为文本？如何使用SpeechRecognition库在Python中将语音转换为文本？我们不需要从头开始
Hugging Face预训练GPT微调ChatGPT（微调入门！新手友好！） y江江江江机器学习大模型 gpt chatgpt
HuggingFace预训练GPT微调ChatGPT（微调入门！新手友好！）在实战中，⼤多数情况下都不需要从0开始训练模型，⽽是使⽤“⼤⼚”或者其他研究者开源的已经训练好的⼤模型。在各种⼤模型开源库中，最具代表性的就是HuggingFace。HuggingFace是⼀家专注于NLP领域的AI公司，开发了⼀个名为Transformers的开源库，该开源库拥有许多预训练后的深度学习模型，如BERT、G
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
GitHub在push推送到远程仓库的时候显示Logon failed登录失败奕雨. Git github Git
具体问题描述git.exepush--progress"origin"master:masterLogonfailed,usectrl+ctocancelbasiccredentialprompt.remote:SupportforpasswordauthenticationwasremovedonAugust13,2021.这是因为Git推送失败的原因是GitHub已经不支持密码认证，你需要使用
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》