Hai Liang Wang

使用Kaldi CVTE v2模型进行语音识别测试 1/2

初始文件

首先安装 kaldi，参考官方文档

然后，下载 http://kaldi-asr.org/models/m2 并解压到egs/cvte，保证文件 kaldi/egs/cvte/s5 文件存在。

以下介绍如何添加新的语音文件并进行识别测试。

data/wav/chat001

存储语音文件

data/wav/chat001
├── 001.wav
└── 002.wav

语音文件的录制，参考语音处理常用工具集，命令

语音文件格式

$ sox --info data/wav/chat001/001.wav

Input File     : 'data/wav/chat001/001.wav'
Channels       : 1
Sample Rate    : 16000
Precision      : 16-bit
Duration       : 00:00:06.25 = 100000 samples ~ 468.75 CDDA sectors
File Size      : 200k
Bit Rate       : 256k
Sample Encoding: 16-bit Signed Integer PCM

data/chat001/test

cd egs/cvte/s5
data/chat001/test
├── conf
│   └── fbank.conf
├── frame_shift
├── spk2utt
├── text
├── utt2spk
└── wav.scp

其中，conf,frame_shift的文件拷贝自 data/fbank/test

wav.scp, 语音文件的列表

CHAT001_20200801_001 data/wav/chat001/001.wav
CHAT001_20200801_002 data/wav/chat001/002.wav

第一列和第二列之间的空格是 tab，不能使用4个空格替换，下同

text, 语音文件的对应文本

CHAT001_20200801_001	上海 浦东机场 入境 防 输入 全 闭环 管理 
CHAT001_20200801_002	北京 地铁 宣武门 站 综合 改造 新增 换乘 通道

文本中，第二列是由空格分割的单词，词汇表在 exp/chain/tdnn/graph/words.txt

对应的语素文件 exp/chain/tdnn/graph/phones.txt

词汇表和语素文件的关系 exp/chain/tdnn/graph/phones/align_lexicon.int

以上，比如 149, 133 即语素，在exp/chain/tdnn/graph/phones.txt中定义。

spk2utt, utt2spk 说话人和语音文件的映射关系。

$ cat data/chat001/test/utt2spk
CHAT001_20200801_001 CHAT001_20200801_001
CHAT001_20200801_002 CHAT001_20200801_002

$ cat data/chat001/test/spk2utt
CHAT001_20200801_001 CHAT001_20200801_001
CHAT001_20200801_002 CHAT001_20200801_002

以上，使用了文件的索引ID作为说话人，在kaldi中，说话人是一个宽泛的概念，理想情况是为每个独立的“发音人”设定一个ID。

检查初始文件

utils/validate_data_dir.sh data/chat001/test

自动解决错误

utils/fix_data_dir.sh data/chat001/test
自动解决错误会考虑完成 sort等。

执行解码和查看WER

run脚本

kaldi/egs/cvte/s5/run_chat001.sh

#!/bin/bash


. ./cmd.sh
. ./path.sh

# step 1: generate fbank features
obj_dir=data/chat001

for x in test; do
  rm -rf fbank/$x
  mkdir -p fbank/$x

  # compute fbank without pitch
  steps/make_fbank.sh --nj 1 --cmd "run.pl" $obj_dir/$x exp/make_fbank/$x fbank/$x || exit 1;
  # compute cmvn
  steps/compute_cmvn_stats.sh $obj_dir/$x exp/fbank_cmvn/$x fbank/$x || exit 1;
done

# #step 2: offline-decoding
test_data=data/chat001/test
dir=exp/chain/tdnn

steps/nnet3/decode.sh --acwt 1.0 --post-decode-acwt 10.0 \
  --nj 1 --num-threads 1 \
  --cmd "$decode_cmd" --iter final \
  --frames-per-chunk 50 \
  $dir/graph $test_data $dir/decode_chat001_test

# # note: the model is trained using "apply-cmvn-online",
# # so you can modify the corresponding code in steps/nnet3/decode.sh to obtain the best performance,
# # but if you directly steps/nnet3/decode.sh,
# # the performance is also good, but a little poor than the "apply-cmvn-online" method.

该脚本执行中分为一下几步：

Step1 - 生成测试数据的特征

$ tree data/chat001/test
data/chat001/test
├── cmvn.scp
├── conf
│   └── fbank.conf
├── feats.scp
├── frame_shift
├── spk2utt
├── split1
│   └── 1
│       ├── cmvn.scp
│       ├── feats.scp
│       ├── spk2utt
│       ├── text
│       ├── utt2dur
│       ├── utt2num_frames
│       ├── utt2spk
│       └── wav.scp
├── text
├── utt2dur
├── utt2num_frames
├── utt2spk
└── wav.scp

feats.scp, utt2dur, utt2num_frames 都是 make_fbank.sh 生成，也会在 fbank/test 下生成其他文件。
cmvn.scp, 是归一化文件，steps/compute_cmvn_stats.sh 生成。
splitN 文件夹是在大量数据时，程序并发执行，然后合并，形成的一个个自文件夹。

fbank/test目录

fbank/test
├── cmvn_test.ark
├── cmvn_test.scp
├── raw_fbank_test.1.ark
└── raw_fbank_test.1.scp

exp/make_fbank目录

exp/make_fbank
└── test
    ├── make_fbank_test.1.log
    └── wav.1.scp

Step2 - 解码

steps/nnet3/decode.sh --acwt 1.0 --post-decode-acwt 10.0 \
  --nj 1 --num-threads 1 \
  --cmd "$decode_cmd" --iter final \
  --frames-per-chunk 50 \
  $dir/graph $test_data $dir/decode_chat001_test

解码同样会计算WER，可以设置输出 nBest.

查看解码信息

cat exp/chain/tdnn/decode_chat001_test/log/decode.1.log

最优WER结果

$ cat exp/chain/tdnn/decode_chat001_test/scoring_kaldi/best_cer
%WER 2.94 [ 1 / 34, 0 ins, 0 del, 1 sub ] exp/chain/tdnn/decode_chat001_test/cer_7_0.0

这次测试一共34个单词，和识别结果的编辑距离0插入，0删除，1个替换。
但是该替换单词为"闭环"在发音词典里不存在，识别结果为“闭”“环”，两个字，其实也可以认为识别准确。

其他日志

WER nBest输出 exp/chain/tdnn/decode_chat001_test/scoring_kaldi

解码命令解读

在解码阶段，执行的脚本如下：

# nnet3-latgen-faster --frame-subsampling-factor=3 --frames-per-chunk=50 --extra-left-context=0 --extra-right-context=0 --extra-left-context-initial=-1 --extra-right-context-final=-1 --minimize=false --max-active=7000 --min-active=200 --beam=15.0 --lattice-beam=8.0 --acoustic-scale=1.0 --allow-partial=true --word-symbol-table=exp/chain/tdnn/graph/words.txt exp/chain/tdnn/final.mdl exp/chain/tdnn/graph/HCLG.fst "ark,s,cs:apply-cmvn --norm-means=true --norm-vars=false --utt2spk=ark:data/chat001/test/split1/1/utt2spk scp:data/chat001/test/split1/1/cmvn.scp scp:data/chat001/test/split1/1/feats.scp ark:- |" "ark:|lattice-scale --acoustic-scale=10.0 ark:- ark:- | gzip -c >exp/chain/tdnn/decode_chat001_test/lat.1.gz"
# Started at Sat Aug  1 16:21:14 CST 2020
#
nnet3-latgen-faster --frame-subsampling-factor=3 --frames-per-chunk=50 --extra-left-context=0 --extra-right-context=0 --extra-left-context-initial=-1 --extra-right-context-final=-1 --minimize=false --max-active=7000 --min-active=200 --beam=15.0 --lattice-beam=8.0 --acoustic-scale=1.0 --allow-partial=true --word-symbol-table=exp/chain/tdnn/graph/words.txt exp/chain/tdnn/final.mdl exp/chain/tdnn/graph/HCLG.fst 'ark,s,cs:apply-cmvn --norm-means=true --norm-vars=false --utt2spk=ark:data/chat001/test/split1/1/utt2spk scp:data/chat001/test/split1/1/cmvn.scp scp:data/chat001/test/split1/1/feats.scp ark:- |' 'ark:|lattice-scale --acoustic-scale=10.0 ark:- ark:- | gzip -c >exp/chain/tdnn/decode_chat001_test/lat.1.gz'
LOG (nnet3-latgen-faster[5.5.765-f88d5]:RemoveOrphanNodes():nnet-nnet.cc:948) Removed 1 orphan nodes.
LOG (nnet3-latgen-faster[5.5.765-f88d5]:RemoveOrphanComponents():nnet-nnet.cc:847) Removing 2 orphan components.
LOG (nnet3-latgen-faster[5.5.765-f88d5]:Collapse():nnet-utils.cc:1472) Added 1 components, removed 2
lattice-scale --acoustic-scale=10.0 ark:- ark:-
apply-cmvn --norm-means=true --norm-vars=false --utt2spk=ark:data/chat001/test/split1/1/utt2spk scp:data/chat001/test/split1/1/cmvn.scp scp:data/chat001/test/split1/1/feats.scp ark:-
LOG (nnet3-latgen-faster[5.5.765-f88d5]:CheckAndFixConfigs():nnet-am-decodable-simple.cc:294) Increasing --frames-per-chunk from 50 to 51 to make it a multiple of --frame-subsampling-factor=3
CHAT001_20200801_001 上海 浦东机场 入境 房 输入 全 闭 环 管理
LOG (nnet3-latgen-faster[5.5.765-f88d5]:DecodeUtteranceLatticeFaster():decoder-wrappers.cc:375) Log-like per frame for utterance CHAT001_20200801_001 is 2.19918 over 208 frames.
LOG (apply-cmvn[5.5.765-f88d5]:main():apply-cmvn.cc:162) Applied cepstral mean normalization to 2 utterances, errors on 0
CHAT001_20200801_002 北京 地铁 宣武门 站 综合 改造 新增 换乘 通道
LOG (nnet3-latgen-faster[5.5.765-f88d5]:DecodeUtteranceLatticeFaster():decoder-wrappers.cc:375) Log-like per frame for utterance CHAT001_20200801_002 is 2.19511 over 333 frames.
LOG (nnet3-latgen-faster[5.5.765-f88d5]:main():nnet3-latgen-faster.cc:256) Time taken 10.9386s: real-time factor assuming 100 frames/sec is 0.673972
LOG (nnet3-latgen-faster[5.5.765-f88d5]:main():nnet3-latgen-faster.cc:259) Done 2 utterances, failed for 0
LOG (nnet3-latgen-faster[5.5.765-f88d5]:main():nnet3-latgen-faster.cc:261) Overall log-likelihood per frame is 2.19668 over 541 frames.
LOG (nnet3-latgen-faster[5.5.765-f88d5]:~CachingOptimizingCompiler():nnet-optimize.cc:710) 0.00447 seconds taken in nnet3 compilation total (breakdown: 0.00219 compilation, 0.00168 optimization, 0 shortcut expansion, 0.000385 checking, 1.1e-05 computing indexes, 0.000209 misc.) + 0 I/O.
LOG (lattice-scale[5.5.765-f88d5]:main():lattice-scale.cc:107) Done 2 lattices.
# Accounting: time=53 threads=1
# Ended (code 0) at Sat Aug  1 16:22:07 CST 2020, elapsed time 53 seconds

我们详细看一下参数列表

nnet3-latgen-faster \
    --frame-subsampling-factor=3 \
    --frames-per-chunk=50 \
    --extra-left-context=0 \
    --extra-right-context=0 \
    --extra-left-context-initial=-1 \
    --extra-right-context-final=-1 \
    --minimize=false \
    --max-active=7000 \
    --min-active=200 \
    --beam=15.0 \
    --lattice-beam=8.0 \
    --acoustic-scale=1.0 \
    --allow-partial=true \
    --word-symbol-table=exp/chain/tdnn/graph/words.txt \
    exp/chain/tdnn/final.mdl \
    exp/chain/tdnn/graph/HCLG.fst \
    "ark,s,cs:apply-cmvn --norm-means=true --norm-vars=false --utt2spk=ark:data/chat001/test/split1/1/utt2spk scp:data/chat001/test/split1/1/cmvn.scp scp:data/chat001/test/split1/1/feats.scp ark:- |" \
    "ark:|lattice-scale --acoustic-scale=10.0 ark:- ark:- | gzip -c >exp/chain/tdnn/decode_chat001_test/lat.1.gz"

nnet3-latgen-faster命令：
基于解码器LatticeFasterDecoder, 声学分来源，nnet3 模型

此外还有类似的 nnet3-latgen-faster-parallel, nnet3-latgen-faster-batch命令。

打印以下nnet3-latgen-faster的帮助：


Generate lattices using nnet3 neural net model.
Usage: nnet3-latgen-faster [options]     [  [] ]
See also: nnet3-latgen-faster-parallel, nnet3-latgen-faster-batch
 
Options:
  --acoustic-scale            : Scaling factor for acoustic log-likelihoods (caution: is a no-op if set in the program nnet3-compute (float, default = 0.1)
  --allow-partial             : If true, produce output even if end state was not reached. (bool, default = false)
  --beam                      : Decoding beam.  Larger->slower, more accurate. (float, default = 16)
  --beam-delta                : Increment used in decoding-- this parameter is obscure and relates to a speedup in the way the max-active constraint is applied.  Larger is more accurate. (float, default = 0.5)
  --computation.debug         : If true, turn on debug for the neural net computation (very verbose!) Will be turned on regardless if --verbose >= 5 (bool, default = false)
  --debug-computation         : If true, turn on debug for the actual computation (very verbose!) (bool, default = false)
  --delta                     : Tolerance used in determinization (float, default = 0.000976562)
  --determinize-lattice       : If true, determinize the lattice (lattice-determinization, keeping only best pdf-sequence for each word-sequence). (bool, default = true)
  --extra-left-context        : Number of frames of additional left-context to add on top of the neural net's inherent left context (may be useful in recurrent setups (int, default = 0)
  --extra-left-context-initial : If >= 0, overrides the --extra-left-context value at the start of an utterance. (int, default = -1)
  --extra-right-context       : Number of frames of additional right-context to add on top of the neural net's inherent right context (may be useful in recurrent setups (int, default = 0)
  --extra-right-context-final : If >= 0, overrides the --extra-right-context value at the end of an utterance. (int, default = -1)
  --frame-subsampling-factor  : Required if the frame-rate of the output (e.g. in 'chain' models) is less than the frame-rate of the original alignment. (int, default = 1)
  --frames-per-chunk          : Number of frames in each chunk that is separately evaluated by the neural net.  Measured before any subsampling, if the --frame-subsampling-factor options is used (i.e. counts input frames (int, default = 50)
  --hash-ratio                : Setting used in decoder to control hash behavior (float, default = 2)
  --ivectors                  : Rspecifier for iVectors as vectors (i.e. not estimated online); per utterance by default, or per speaker if you provide the --utt2spk option. (string, default = "")
  --lattice-beam              : Lattice generation beam.  Larger->slower, and deeper lattices (float, default = 10)
  --max-active                : Decoder max active states.  Larger->slower; more accurate (int, default = 2147483647)
  --max-mem                   : Maximum approximate memory usage in determinization (real usage might be many times this). (int, default = 50000000)
  --min-active                : Decoder minimum #active states. (int, default = 200)
  --minimize                  : If true, push and minimize after determinization. (bool, default = false)
  --online-ivector-period     : Number of frames between iVectors in matrices supplied to the --online-ivectors option (int, default = 0)
  --online-ivectors           : Rspecifier for iVectors estimated online, as matrices.  If you supply this, you must set the --online-ivector-period option. (string, default = "")
  --optimization.allocate-from-other : Instead of deleting a matrix of a given size and then allocating a matrix of the same size, allow re-use of that memory (bool, default = true)
  --optimization.allow-left-merge : Set to false to disable left-merging of variables in remove-assignments (obscure option) (bool, default = true)
  --optimization.allow-right-merge : Set to false to disable right-merging of variables in remove-assignments (obscure option) (bool, default = true)
  --optimization.backprop-in-place : Set to false to disable optimization that allows in-place backprop (bool, default = true)
  --optimization.consolidate-model-update : Set to false to disable optimization that consolidates the model-update phase of backprop (e.g. for recurrent architectures (bool, default = true)
  --optimization.convert-addition : Set to false to disable the optimization that converts Add commands into Copy commands wherever possible. (bool, default = true)
  --optimization.extend-matrices : This optimization can reduce memory requirements for TDNNs when applied together with --convert-addition=true (bool, default = true)
  --optimization.initialize-undefined : Set to false to disable optimization that avoids redundant zeroing (bool, default = true)
  --optimization.max-deriv-time : You can set this to the maximum t value that you want derivatives to be computed at when updating the model.  This is an optimization that saves time in the backprop phase for recurrent frameworks (int, default = 2147483647)
  --optimization.max-deriv-time-relative : An alternative mechanism for setting the --max-deriv-time, suitable for situations where the length of the egs is variable.  If set, it is equivalent to setting the --max-deriv-time to this value plus the largest 't' value in any 'output' node of the computation request. (int, default = 2147483647)
  --optimization.memory-compression-level : This is only relevant to training, not decoding.  Set this to 0,1,2; higher levels are more aggressive at reducing memory by compressing quantities needed for backprop, potentially at the expense of speed and the accuracy of derivatives.  0 means no compression at all; 1 means compression that shouldn't affect results at all. (int, default = 1)
  --optimization.min-deriv-time : You can set this to the minimum t value that you want derivatives to be computed at when updating the model.  This is an optimization that saves time in the backprop phase for recurrent frameworks (int, default = -2147483648)
  --optimization.move-sizing-commands : Set to false to disable optimization that moves matrix allocation and deallocation commands to conserve memory. (bool, default = true)
  --optimization.optimize     : Set this to false to turn off all optimizations (bool, default = true)
  --optimization.optimize-row-ops : Set to false to disable certain optimizations that act on operations of type *Row*. (bool, default = true)
  --optimization.propagate-in-place : Set to false to disable optimization that allows in-place propagation (bool, default = true)
  --optimization.remove-assignments : Set to false to disable optimization that removes redundant assignments (bool, default = true)
  --optimization.snip-row-ops : Set this to false to disable an optimization that reduces the size of certain per-row operations (bool, default = true)
  --optimization.split-row-ops : Set to false to disable an optimization that may replace some operations of type kCopyRowsMulti or kAddRowsMulti with up to two simpler operations. (bool, default = true)
  --phone-determinize         : If true, do an initial pass of determinization on both phones and words (see also --word-determinize) (bool, default = true)
  --prune-interval            : Interval (in frames) at which to prune tokens (int, default = 25)
  --utt2spk                   : Rspecifier for utt2spk option used to get ivectors per speaker (string, default = "")
  --word-determinize          : If true, do a second pass of determinization on words only (see also --phone-determinize) (bool, default = true)
  --word-symbol-table         : Symbol table for words [for debug output] (string, default = "")
 
Standard options:
  --config                    : Configuration file to read (this option may be repeated) (string, default = "")
  --help                      : Print out usage message (bool, default = false)
  --print-args                : Print the command line arguments (to stderr) (bool, default = true)
  --verbose                   : Verbose level (higher->more logging) (int, default = 0)

参考阅读

https://blog.csdn.net/qq_25750561/article/details/81070092

https://www.cnblogs.com/yszd/p/12192769.html

https://github.com/naxingyu/kaldi_cvte_model_test

Bedrock Claude Chat: 基于AWS Bedrock和Claude的智能聊天机器人 2401_87458778 aws 机器人云计算
BedrockClaudeChat:智能聊天的新选择在人工智能和自然语言处理技术飞速发展的今天，智能聊天机器人正在各行各业得到广泛应用。AWS推出的BedrockClaudeChat项目为开发者提供了一个强大而灵活的聊天机器人解决方案，让构建智能对话系统变得前所未有的简单。项目概述BedrockClaudeChat是一个基于AmazonBedrock平台和Anthropic公司Claude大语言模
2025年，值得关注的LLM大趋势 AI小白熊人工智能产品经理 python 开发语言学习 ai 大模型
随着人工智能技术不断进步，大语言模型正在改变各行各业的运作方式。从代码生成到语言学习应用，GenAI已经渗透到我们日常生活的方方面面。随着像上个月OpenAI的“12天”计划或谷歌的Veo2和Imagen3等新技术的发布，我们看到了快速的创新迭代。面对这些变化，2025年LLM的大趋势值得我们关注。LLM的新兴应用：不仅仅是聊天机器人回想起最初我们用ChatGPT来生成代码或修改文本时，可能没有意
LangChain入门：使用Python和通义千问打造免费的Qwen大模型聊天机器人闯江湖50年 langchain python 机器人人工智能
前言LangChain是一个用于开发由大型语言模型（LargeLanguageModels，简称LLMs）驱动的应用程序的框架。它提供了一个灵活的框架，使得开发者可以构建具有上下文感知能力和推理能力的应用程序，这些应用程序可以利用公司的数据和APIs。这个框架由几个部分组成。LangChain库：Python和JavaScript库。包含了各种组件的接口和集成，一个基本的运行时，用于将这些组件组合
深度学习-133-LangGraph之应用实例(二)使用面向过程和面向对象的两种编程方式构建带记忆的聊天机器人皮皮冰燃深度学习深度学习人工智能 LangGraph
文章目录1通用配置1.1大语言模型ChatOllama1.2函数trim_messages1.2.1函数概述1.2.2函数参数1.2.3测试应用2面向过程编程2.1不裁剪历史信息2.1.1创建图2.1.2调用图2.2裁剪历史信息2.2.1创建图2.2.2调用图3面向对象编程3.1定义类MyState3.2定义类AIChat3.3应用4附录4.1问题及解决tokenizer4.2参考附录1通用配置L
浏览器使用 + LightRAG + Ollama代理可以抓取任何网站!! 可乐泡枸杞· 前端人工智能 javascript
浏览器使用+LightRAG+Ollama代理可以抓取任何网站!!在这个故事中，我有一个快速教程，展示如何使用Browser-use、LightRAG和本地LLM创建一个强大的聊天机器人，能够抓取您选择的任何网站。此外，您可以就数据提问，它会给您相应的回答。免责声明：本文仅供教育用途。我们不鼓励任何人抓取网站，尤其是那些可能有反对此类行为条款和条件的网站。现有的RAG系统存在重大限制，包括依赖于平
【带你 langchain 双排系列教程】0. 走进大模型与 LangChain 的奇妙世界夜里慢慢行456 双排人工智能 python langchain
文章目录引言大模型的发展历史当前最火热的大模型技术LangChain架构及学习其的重要意义结语引言在当今数字化时代，人工智能技术飞速发展，大模型更是成为了科技领域的热门话题。它们正在改变着我们的生活和工作方式，从智能聊天机器人到自动文本生成，从图像识别到语音助手，大模型的应用无处不在。而LangChain作为构建大模型应用的强大框架，为我们打开了通往这一奇妙世界的大门。本文将带领初学者了解大模型的
deepseek-r1系列模型私有化部署分别需要的最低硬件配置 Sophie'sCookingLab 大模型 deepseek
‌DeepSeek-R1系列模型部署所需的最低硬件配置如下‌：‌DeepSeek-R1-1.5B‌‌CPU‌：最低4核（推荐多核处理器）‌内存‌：8GB+‌硬盘‌：3GB+存储空间（模型文件约1.5-2GB）‌显卡‌：非必需（纯CPU推理），若GPU加速可选4GB+显存（如GTX1650）‌适用场景‌：低资源设备部署（如树莓派、旧款笔记本）、实时文本生成（聊天机器人、简单问答）、嵌入式系统或物联网
独立开发者灵感日报：简化您生活的 IT 聊天机器人前端后花园前端热门开源项目生活机器人百度人工智能自动化 AI编程
独立开发者产品日刊，每日汇集ProductHunt热榜产品介绍，⚡️1句Slogan榨干产品灵魂，⚡️3秒get全球独立开发者的爆款灵感。关注小前，每日捕获全球产品灵感。这是日刊第28篇文章。FleetAICopilotSlogan：简化您生活的IT聊天机器人标签：人工智能·机器人·科技为什么值得推荐：FleetAICopilot是您新的AI驱动的IT助手，可简化设备管理并转换日常IT任务。它通过
ollama stream“:True django如何返回数据计算机辅助工程 django
在使用Django框架开发Web应用时，如果你想要通过Ollama流式返回数据，你可以通过Django的HttpResponse或者StreamingHttpResponse来实现。Ollama主要用于处理文本生成任务，如聊天机器人、自动完成等，通常这些任务会产生大量的文本输出，因此使用流式传输可以有效减少延迟和提高用户体验。使用StreamingHttpResponseStreamingHttp
深度学习-124-LangGraph之基础知识(一)基本聊天机器人和工具增强的聊天机器人皮皮冰燃深度学习深度学习人工智能 LangGraph
文章目录1基本使用1.1聊天模型1.2创建图1.3与ICEL交互2构建一个基本的聊天机器人2.1定义状态2.2添加节点2.3添加边(入口点)2.4添加边(终点)2.5编译图2.6调用2.7整体代码3使用工具增强聊天机器人3.1百度搜索工具3.2绑定工具的聊天模型3.3定义图3.4添加工具节点3.5添加条件边3.6调用4参考附录1基本使用下图包含一个名为“Lucy”的节点，它执行聊天模型，然后返回结
2024年国内人工智能大模型汇总 kiiy2 人工智能 ai 学习
文心一言文心一言（ERNIEBot）是百度基于文心大模型技术推出的生成式对话产品，将于2023年3月完成内测并面向公众开放。该产品是百度在人工智能领域深耕十余年后，拥有产业级知识增强文心大模型ERNIE的基础上，利用跨模态、跨语言的深度语义理解与生成能力而开发的一款AI聊天机器人。它被设计用于回答用户的问题和提供信息，以帮助人们解决问题和获取知识。此外，文心一言还可以通过学习和训练，不断提高自己的
使用BREEBS平台提升AI知识库 dgay_hua 人工智能 python
BREEBS是一个开放的协作知识平台，允许用户基于存储在GoogleDrive文件夹中的PDF文件创建知识胶囊（Breeb）。这些Breebs可供任何大语言模型（LLM）或聊天机器人使用，以提升其专业知识，减少幻觉，并提供访问来源的途径。Breebs背后实现了多种增强生成（RAG）模型，以在每次迭代中无缝提供有用的上下文。技术背景介绍随着自然语言处理（NLP）技术的进步，大语言模型（LLM）在生成
马斯克-全球最大算力集群-grok3效果任何数据分析能量站机器学习人工智能
就在刚刚，科技界巨头埃隆・马斯克正式揭晓了x.AI旗下的最新力作——Grok3。一经发布，Grok3便凭借其卓越表现，被赞誉为全球范围内最具智慧与力量的人工智能。（有待继续观察）作为x.AI精心打造的新型聊天机器人，Grok3展现出了令人惊叹的推理天赋，面对复杂问题时，能够凭借严密逻辑抽丝剥茧，给出精准解答。不仅如此，它还配备了如DeepSearch（深度搜索）这般的前沿功能，让信息获取与知识挖掘
《Grok3：AI新纪元的璀璨之星》空云风语人工智能深度学习神经网络人工智能百度
《Grok3：AI新纪元的璀璨之星》Grok3：横空出世，震撼AI界在科技飞速发展的今天，人工智能领域的每一次重大突破都如同巨石投入平静湖面，激起千层浪。而Grok3的发布，无疑是一颗重磅炸弹，在AI界掀起了惊涛骇浪，引发了全球范围内的广泛关注和激烈讨论。北京时间2月18日午间，马斯克旗下人工智能初创公司xAI正式发布新一代聊天机器人Grok3，这场发布会吸引了超过200万人观看，其受关注度可见一
【花雕学编程】ESP32 DeepSeek 之带样式的Web聊天机器人驴友花雕开源硬件机器人嵌入式硬件单片机 c++带样式的Web聊天机器人 ESP32 DeepSeek
Arduino是一个开放源码的电子原型平台，它可以让你用简单的硬件和软件来创建各种互动的项目。Arduino的核心是一个微控制器板，它可以通过一系列的引脚来连接各种传感器、执行器、显示器等外部设备。Arduino的编程是基于C/C++语言的，你可以使用ArduinoIDE（集成开发环境）来编写、编译和上传代码到Arduino板上。Arduino还有一个丰富的库和社区，你可以利用它们来扩展Ardui
使用DeepSeek建立一个智能聊天机器人0.1 yehaiwz python 机器人开发语言
我对代码进行进一步的完善，增加更多的节点连接及功能运用，并确保配置文件config.json的内容更加丰富和详细。以下是完善后的代码和config.json文件内容。完善后的代码importtkinterastkfromtkinterimportscrolledtext,filedialog,messageboximportrequestsimportosimportthreadingimport
Rasa：开源的机器学习框架 Indra_ran 开源机器学习人工智能 linux centos 运维
一、Rasa简介Rasa是一套用来构建基于上下文的AI小助手和聊天机器人框架。分为两个主要的模块：NLU：自然语言理解模块，实现意图识别以及槽值的提取，将用户的输入转化为结构性数据，在训练过程中，为了提高从用户信息的实体识别能力，采用了预先训练的实体提取器Pre-trainedEntityExtractors，正则表达式Regexes，同义词Synonyms等RasaCore：对话管理模块，也是一
知识图谱大模型系列之 11什么是 Neo4j LLM 知识图谱构建器？知识大胖 NVIDIA GPU和大语言模型开发教程知识图谱 neo4j 人工智能 llm
简介LLM知识图谱构建器是Neo4j的GraphRAG生态系统工具之一，可让您将非结构化数据转换为动态知识图谱。它与检索增强生成(RAG)聊天机器人集成，可实现自然语言查询和对数据的可解释洞察。推荐文章《使用ChatGPT从视频脚本创建知识图谱，使用GPT-4作为领域专家来帮助您从视频转录中提取知识（教程含完整源码）》权重2，知识图谱类《赋能知识图谱形成：利用BERTopic、DataMapPlo
2024-2025年主流的开源向量数据库推荐大囚长机器学习大模型开源数据库人工智能
以下是2024-2025年主流的开源向量数据库推荐，涵盖其核心功能和应用场景：1.Milvus特点：专为大规模向量搜索设计，支持万亿级向量数据集的毫秒级搜索，适用于图像搜索、聊天机器人、化学结构搜索等场景。采用无状态架构，具备高度可扩展性和混合搜索能力。开源协议：Apache2.0，由LFAI&DataFoundation支持。2.Weaviate特点：云原生开源向量数据库，支持多模态数据（文本、
使用 OpenAI API 创建智能聊天机器人 vaidfl 机器人 python
1.技术背景介绍在人工智能应用中，聊天机器人是一种非常流行的应用。得益于近几年自然语言处理（NLP）技术的飞速发展，聊天机器人已经从简单的问答模式发展到能够进行复杂对话的智能助手。本篇文章将深入介绍如何使用OpenAI提供的API构建一个智能聊天机器人，并通过实际代码演示实现过程。2.核心原理解析OpenAI提供的GPT模型是目前最先进的语言生成模型之一，它可以生成自然流畅的文本。我们可以通过调用
使用OpenAI的API构建聊天机器人 dgay_hua 机器人 python
技术背景介绍聊天机器人是近年来热门的AI应用之一，无论是客服系统、智能助手还是社交娱乐，都可以看到其身影。构建一个高效的聊天机器人，离不开强大的自然语言处理模型。OpenAI提供的API为开发者简化了这一过程，本文将介绍如何使用OpenAI的API服务构建一个基本的聊天机器人。核心原理解析聊天机器人主要依赖于生成式预训练模型（GPT），它通过大量文本数据训练，学习语言模式和上下文关联，从而能够生成
速度超越DeepSeek！Le Chat 1100tok/s闪电回答，ChatGPT 4o和DeepSeek R1被秒杀？ LinkTime_Cloud chatgpt DeepSeek Le Chat
2023年，当全球科技界还在ChatGPT引发的AI狂潮中沉浮时，一场来自欧洲的"静默革命"正悄然改变游戏规则。法国人工智能公司MistralAI推出的聊天机器人LeChat以"比ChatGPT快10倍"的惊人宣言震动业界，其背后承载的不仅是技术突破，更折射出全球AI版图重构的深层暗涌。一、法兰西奇迹：Mistral的逆袭密码在巴黎第十区一栋不起眼的办公楼里，Mistral团队用9个月时间创造了令
国内用户如何充值开通Claude Pro？详细指南附充值方法 claude
什么是Claude充值？Claude充值是指在Anthropic公司开发的人工智能聊天机器人——Claude中，付费获取更高级别服务的过程。与免费的Claude账号相比，ClaudePro账号每月需支付20美元或18英镑，用户可以获得更多的功能服务和更先进的聊天体验。区分Claude免费账号和付费账号的差异聊天体验：免费账号使用的是预先输入的信息模板，而Pro账号则拥有更智能、个性化的回复，相对于
深度学习-108-大语言模型LLM之基于langchain的结构化输出功能提取结构化信息皮皮冰燃深度学习深度学习语言模型 langchain
文章目录1langchain的结构化输出1.1推荐的使用流程1.2模式定义1.3返回结构化输出1.3.1工具调用(方式一)1.3.2JSON模式(方式二)1.3.3结构化输出法(方式三)2提取结构化信息2.1定义数据模型2.2配置提示模板2.3设置执行链3参考附录1langchain的结构化输出对于许多应用程序，例如聊天机器人，模型需要直接用自然语言响应用户。然而，在某些情况下，我们需要模型以结构
真正通俗易懂的Langchain入门学习（一） caridle 智能体 langchain 学习数据库
以下是针对初学者的LangChain基础学习提纲，从理论到实践逐步深入，帮助你系统掌握核心概念与应用：一、基础认知（1-2天）什么是LangChain？定义：基于语言模型（LLM）构建应用程序的框架。核心功能：连接LLM与外部数据/工具、管理对话流程、自动化复杂任务。典型应用场景：聊天机器人、文档问答、数据分析助手、自动化工作流。与普通LLM应用的区别：支持多步骤任务、记忆管理、外部工具集成。核心
deepseek和chatgpt对比 dev.null AI #NLP chatgpt
DeepSeek和ChatGPT都是自然语言处理领域的工具，但它们的设计目标和功能有所不同。功能定位：ChatGPT是一个基于OpenAIGPT-3或GPT-4的聊天机器人，旨在进行人机对话、文本生成、问题解答等，广泛应用于教育、客服、创意写作等领域。它的核心功能是生成自然、流畅的对话内容，并能够处理各种复杂的语言任务。DeepSeek（假设你是指某种搜索引擎工具或者特定的语义分析工具）通常聚焦于
职场人AI突围战：解密DeepSeek的36种反内耗姿势小momomo 人工智能
当你的周报被AI碾压，当同事用智能看板抢走升职机会，当00后实习生靠提示词工程赢得领导青睐——这个悄然降临的AI职场时代，正在重构我们的生存法则。**▍DeepSeek职场变形记**这不是你认知中的聊天机器人，而是一个会进化的数字同事：-**会议终结者**：自动生成带执行方案的会议纪要，智能识别7种无效讨论模型-**文档捕手**：跨平台抓取微信/钉钉/邮件文件，建立带知识图谱的智能档案馆-**数据
最通俗易懂的方式，由浅入深地讲讲DeepSeek（深度求索） Jing_saveSlave AI ai chatgpt AI编程
一、DeepSeek是什么？简单说，DeepSeek是一家专注做通用人工智能（AGI）的中国公司，目标就是让AI能像人类一样理解、推理、解决复杂问题。它最核心的产品是大语言模型（你可以理解为"超级聊天机器人"），比如DeepSeek-R1、DeepSeek-MoE等。二、发展历程：从成立到行业黑马成立初期（2023年前）公司早期主要在技术积累，研究如何让AI模型更聪明、更高效。他们发现传统的大模型
ChatTTS，一款基于Python的自然语言处理工具，适合智能聊天机器人领域！ m0_75259337 活动文章活动文章
###GitCode热门项目推荐我们为您精心挑选了一些GitCode上的热门项目，涵盖了不同的技术领域，并提供了对这些项目的分析和推荐。请按照您的兴趣和需求进行选择。 ####项目名称：ChatTTS #####项目介绍 ChatTTS是一个基于Python的自然语言处理工具，用于构建智能聊天机器人。它使用Tacotron算法来生成自然流畅的文本回复，支持多种语言和语音合成。 ##
AI技术崛起：DeepSeek用户增长速度超越ChatGPT的背后耶耶Norsea 网络杂烩 Deepseek gpt
摘要DeepSeek的日活跃用户数突破2000万，远超ChatGPT的增长速度。在AI技术快速发展的背景下，企业对AI的投资不断增加，但同时也面临着不少挑战。加拿大航空的聊天机器人事件暴露了AI技术承诺与实际交付之间的差距。CFO期望AI投资带来快速的可衡量回报，而CIO则需在AI技术的潜力与CFO的期望之间找到平衡。关键词AI用户增长、企业AI投资、聊天机器人、CFO期望、CIO平衡一、AI技术
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 fred@myhost.com # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla