Shmily_Young

kaldi特征和模型空间转换

博主话：这篇博客是对kaldi官网中Feature and model-space transforms in Kaldi 的翻译，因为不是专业翻译人士，接触kaldi时间也不长，所以难免有纰漏之处，希望读者如果有更好的建议和意见，可以在下面留言，有助于更好的交流，谢谢大家

介绍

Kaldi代码目前支持许多功能和模型空间的转换和预测。特征空间变换和预测以一致的方式被工具（它们在基本上只是矩阵）处理，以下部分涉及到共同点：

应用全局线性或仿射特征变换
说话人独立与每个说话人相对于每个发音匹配
发音到说话人和说话人到发音的映射
组合变换
估计变换时的静音权重

通常不具有说话人特征的变换，预测和其他功能操作包括：

线性判别分析（LDA）转换
帧拼接和Delta特征计算
异方差线性判别分析（HLDA）
全局半绑定协方差（STC）/最大似然线性变换（MLLT）估计

通常以说话人自适应方式应用的全局变换是：

全局CMLLR / fMLLR转换
线性VTLN（LVTLN）
指数变换（ET）
倒谱平均值和方差归一化

接下来讨论使用它们的回归类树和变换：

建立适应的回归树

应用全局线性或仿射特征变换

在特征空间变换和全局投影（不与类相关联的情况下）（例如语音/不发音或回归类）的情况下，我们将它们表示为矩阵。线性变换或投影被表示为一个矩阵，通过将这个矩阵左乘以特征向量，得到变换后的特征是。仿射变换或投影以相同的方式表示，但是我们假设1已经被附加到特征向量上，所以变换的特征是 $W \ left [\ begin {array} {c} x \\ 1 \ end {array} \ right]$ ，其中 $W = \ left [A; b \ right]$ ，A和b是线性变换和常数偏移。请注意，该约定与一些文献不同，其中1可能表现为第一维而不是最后一个维度。全局变换和投影通常以Matrix

在transform-feats中transforms 可以用来表示features。它的语法是

 transform-feats

其中是一个rspecifier，是一个wspecifier，而可能是一个rxfilename或rspecifier（请参阅指定表格式：wspecifiers和rspecifiers以及扩展文件名：rxfilenames和wxfilenames）。该程序将根据矩阵的列数是否等于特征维度，或者等于特征维度加上一个值，来确定变换是线性还是仿射。该程序通常用作管道的一部分。一个典型的例子是：

 feats="ark:splice-feats scp:data/train.scp ark:- |
          transform-feats $dir/0.mat ark:- ark:-|"
 some-program some-args "$feats" some-other-args ...

这里，文件0.mat包含单个矩阵。应用说话人特定转换的示例是：

 feats="ark:add-deltas scp:data/train.scp ark:- |
   transform-feats --utt2spk=ark:data/train.utt2spk ark:$dir/0.trans ark:- ark:-|"
 some-program some-args "$feats" some-other-args ...

一个完整的例子将如上所述，但删除了-utt2spk选项。在本例中，文件0.trans将包含由speaker-id索引的变换（例如CMLLR变换），文件数据/ train.utt2spk将具有“utt-id spk-id”形式的行（参见下一节更多的解释）。transform-feats不关心如何估计转换矩阵，它只适用于功能。在经过所有特征之后，它打印出每帧的平均对数行列式。当比较目标函数时，这可以是有用的（这个对数行列式必须被添加到像gmm-align，gmm-acc-stats或gmm-decode-kaldi这样的程序打印出来的每帧可能性上）。如果变换的线性部分A（即忽略偏移项）不是方阵，那么该程序将打印出 $\ frac {1} {2} \ mathbf {logdet}（AA ^ T）$ ，即伪对数行列式。当变换矩阵是MLLT矩阵乘以LDA矩阵时，对检查MLLT估计的收敛性很有用。

说话人独立与每个说话人相对于每个发音匹配

估计变换通常设置为进行特定类型的匹配，即与说话人无关的（特定说话人或语音）。例如，LDA和MLLT / STC变换是与说话人无关的，但是fMLLR变换是特定说话人或特定语音的。估计特定说话人或语音转换的程序默认情况下将按照发音模式工作，但如果提供了-spk2utt选项，则在每个说话人模式下（见下文）。

transform-feats既可以接受与说话人无关也可以接受特定说话人或语音转换。此程序检测第一个参数（变换）是否为rxfilename（请参阅扩展文件名：rxfilenames和wxfilenames）或rspecifier（请参阅指定表格式：wspecifiers和rspecifiers）。如果是前者，则将其视为与说话人无关的变换（例如，包含单个矩阵的文件）。如果后者有两个选择。如果没有提供-utt2spk选项，则将转换视为由utterance id索引的矩阵表。如果提供了一个-utt2spk选项（utt2spk是由包含speaker id的utterance索引的字符串表），那么这个变换被定为由speaker id索引。

发音到说话人和说话人到发音的映射

在这一点上，我们总结一下-utt2spk和-spk2utt选项。处理转换的程序和当你正在做每个说话人（而不是每个话语）的匹配时，都会用到它们。通常，处理已经创建的变换的程序将需要-utt2spk选项，创建转换的程序将需要-spk2utt选项。一个典型的例子是会有一个名为/ utt2spk的文件，如下所示：

spk1utt1 spk1
spk1utt2 spk1
spk2utt1 spk2
spk2utt2 spk2
...

这些字符串只是示例，它们代表通用的说话者和话语标识符; 并且会有一个名为/ spk2utt的文件，如下所示：

spk1 spk1utt1 spk1utt2
spk2 spk2utt1 spk2utt2
...

并且您将提供看起来像-utt2spk = ark： / utt2spk或-spk2utt = ark：/ spk2utt的选项。'ark：'前缀是必需的，因为这些文件由Table 代码作为rspecifier给出，并被解释为包含字符串（或者在spk2utt情况下的字符串向量）的归档。请注意，utt2spk通常以随机访问方式访问，因此，如果正在处理数据子集，则可以安全地提供整个文件，spk2utt通常以顺序的方式访问，因此，如果使用数据子集你将要拆分spk2utt。

接受spk2utt选项的程序通常会遍历spk2utt文件中的speaker-id，并且对于每个speaker-id，它们将遍历每个演讲者的话语（utterances），累加每个话语的统计信息。然后访问特征文件将处于随机访问模式，而不是正常的顺序访问。这需要设置一些注意事项，因为特征文件相当大，并且fully-processed 的特征通常要从存档读取（如果不仔细设置，则不允许最高效的内存随机访问）。为了避免在这种情况下访问功能文件时出现内存膨胀，建议确保所有归档按照utterance-id进行排序，提供给-spk2utt选项的文件中的说话按排序顺序显示，并且在指定向这些程序输入的特征的rspecifier中给出了适当的选项（例如“ark，s，cs： - ”，如果它是标准输入）。请参阅Avoiding memory bloat when reading archives in random-access mode ，以便进一步讨论此问题。

组合变换

另一个接受泛型变换的程序是compose-transforms。一般语法是“compose-transforms a b c”，它执行乘法c = ab（如果a是仿射，则比矩阵乘法多一点运算量）。从脚本修改的示例如下：

 feats="ark:splice-feats scp:data/train.scp ark:- |
         transform-feats
           \"ark:compose-transforms ark:1.trans 0.mat ark:- |\"
           ark:- ark:- |"
 some-program some-args "$feats" ...

该示例还说明了使用从程序调用的两个级别的命令。这里，0.mat是一个全局矩阵（例如LDA），而1.trans是一组由utterance id索引的fMLLR / CMLLR矩阵。compose-transforms将转换组合在一起。相同的特征可以更简单地计算，但是效率较低，如下所示：

 feats="ark:splice-feats scp:data/train.scp ark:- |
         transform-feats 0.mat ark:- ark:- |
         transform-feats ark:1.trans ark:- ark:- |"
 ...

通常，作为组合变换的输入的变换a和b可以是与说话人无关的变换或特定说话人或语音的变换。如果a是特定语音的，b是特定说话人的，那么你必须提供-utt2spk选项。然而，不支持如果a是特定语音的，b是特定说话人的组合（当然这也没有太大意义）。如果a或b是tables，组合转换的输出将是一个table。三个参数a，b和c可以代表table或正常文件（即{r，w}specifiers或{r，w} xfilenames），但须符合一致性要求。

如果a是仿射变换，为了正确地执行组合，组合变换需要知道b是仿射还是线性（它不知道，因为它不能访问由b转换的特征的维度）。这由选项-b-is-affine（bool，default false）控制。如果b是仿射的，但是您忘记设置此选项，并且a是仿射，则组合转换将b看做是实际输入特征维度加1的线性变换，并将输出实际输入特征维度加2的变换。当转换功能应用于特征时，没有办法用“transform-feats”来解释这一点，所以在这一点上，错误应该变得明显。

估计变换时的静音权重

估计说话人自适应变换（如CMLLR）时，消除静音帧是非常有用的。当使用回归树的多类方法（参见构建回归树进行适应）时，这似乎也是正确的。我们实现这一点的方式是通过降低与静音音素相关的后验概率，这相当于对状态水平后验概率的改善。下面提供了一个bash shell脚本的一部分（此脚本在Global CMLLR / fMLLR转换中有更详细的讨论）：

ali-to-post ark:$srcdir/test.ali ark:- | \
  weight-silence-post 0.0 $silphones $model ark:- ark:- | \
  gmm-est-fmllr --fmllr-min-count=$mincount \
    --spk2utt=ark:data/test.spk2utt $model "$sifeats" \
   ark,o:- ark:$dir/test.fmllr 2>$dir/fmllr.log

这里，shell变量“silphones”将被设置为无声电话的整数id的冒号分隔列表。

线性判别分析（LDA）转换

Kaldi通过LdaEstimate类支持LDA估计。该类不直接与任何特定类型的模型交互; 它需要使用类的数量进行初始化，累加函数被声明为：

class LdaEstimate {
  ...
  void Accumulate(const VectorBase &data, int32 class_id,
                  BaseFloat weight=1.0);
};

程序acc-lda将声学状态（即pdf-id）作为类来累计LDA统计量。它需要转换模型，以便将对齐（以transition-id表示）与pdf-id进行映射。然而，它不限于特定类型的声学模型。

est-lda是LDA估计（它读入acc-lda的统计数据）。从变换中获得的特征将具有单位方差，但不一定为零。程序est-lda输出LDA变换矩阵，并且使用选项-write-full-matrix可以写出没有降维的完整矩阵（其第一行将等效于LDA投影矩阵）。当使用LDA作为HLDA的初始化时，这可能很有用。

框架拼接

通常在LDA之前对原始MFCC特征进行帧拼接（例如，将九个连续的帧拼接在一起）。程序splice-feats这样做。使用此脚本的典型行如下：

feats="ark:splice-feats scp:data/train.scp ark:- |
        transform-feats $dir/0.mat ark:- ark:-|"

并且“feats”变量稍后将被某些需要读取功能的程序用作rspecifier（参见指定表格式：wspecifiers和rspecifiers）。在这个例子中，因为我们使用默认值（-left上下文= 4，右上下文= 4，总共9个帧），我们没有指定拼接在一起的帧数。

Delta特征计算

delta功能的计算由程序add-deltas完成，它使用ComputeDeltas函数。delta特征计算具有与HTK相同的默认设置，即，通过值[-2，-1,0,1,2]的滑动窗口来计算乘以特征的第一个增量特征，然后通过除以（2 ^ 2 + 1 ^ 2 + 0 ^ 2 + 1 ^ 2 + 2 ^ 2 = 10）。通过对第一个增量特征应用相同的方法来计算第二个增量特征。每一边上下文的帧数由-delta-window（默认值：2）控制，并且要添加的增量特征数由-delta-order（默认值：2）控制。使用这种方式的典型脚本行是：

feats =“ark：add-deltas --print-args = false scp：data / train.scp ark： -  |”

异方差线性判别分析（HLDA）

HLDA是使用最大似然估计的降维线性特征投影，其中使用全局平均值和方差对“被拒绝”维度进行建模，并且“接受的”维度用特征模型建模，其均值和方差是通过最大似然估计的。目前与工具集成的HLDA的形式在HldaAccsDiagGmm中实现。使用相对紧凑的统计形式来估计GMM的HLDA，这些类对应于模型中的高斯。由于它不使用标准估计方法，我们将在此解释这个想法。首先，由于内存限制，我们不想存储HLDA统计量（每个类的平均值和全协方差统计）的最大形式。我们观察到，如果在HLDA更新阶段，我们将方差保持固定，则HLDA估计的问题将降低到MLLT（或全局STC）估计问题。参见“用于隐马尔可夫模型的半绑合协方差矩阵”，由Mark Gales，IEEE Transactions on Speech and Audio Processing，vol。7，1999，第272-281页，例如等式（22）和（23）。 $\ mathbf {G} ^ {（ri）}$ 统计量也在这里使用，但是在HLDA案例中，需要对被接受和拒绝的维度进行稍微不同的定义。假设原始特征维度为D，缩小的特征维数为K。我们先忽略迭代上标r，并将下标j用于表示状态，m表示高斯混合数。对于可接受的维度（ $0 \ leq i <K$ ），统计量为：

$\ [\ mathbf {G} ^ {（i）} = \ sum_ {t，j，m} \ gamma_ {jm}（t）\ frac {1} {\ sigma ^ 2_ {jm}（i） mu_ {jm} - \ mathbf {x}（t））（\ mu_ {jm} - \ mathbf {x}（t））^ T \]$

其中 $\ mu_ {jm} \ in \ Re ^ {K}$ 原始D维空间中的高斯均值，并且 $\ mathbf {X}（t）的$ 是原始K维空间中的特征，但是 $\西格玛^ 2_8 {} JM（我）$ K维模型内的方差的第i维。

对于被拒绝的维度（ $K \ leq d <D$ ），我们使用单位方差高斯，统计量如下：

$\ [\ mathbf {G} ^ {（i）} = \ sum_ {t，j，m} \ gamma_ {jm}（t）（\ mu - \ mathbf {x}（t））（\ mu - \ mathbf {x}（t））^ T，\]$

其中 $$ \ $万亩$ 表示在K维空间中的全局特征均值。一旦我们得到这些统计量，HLDA估计与维D中的MLLT / STC估计相同。注意，所有拒绝维度的 $\ mathbf {G}$ 统计量是相同的，因此在代码中，我们仅存储K + 1维而不是D维的统计量。

此外，对于积累统计量的程序来说，只用访问K维模型很方便，所以在HLDA累加过程中，我们积累了足够的统计量来估计K维平均值 $\ {mu_ JM}$ ，而不是G我们积累的统计数据如下：

对于接受维度（ $0 \ leq i <K$ ），

$\ [\ mathbf {S} ^ {（i）} = \ sum_ {t，j，m} \ gamma_ {jm}（t）\ frac {1} {\ sigma ^ 2_ {jm}（i）} \ mathbf {x}（t）\ mathbf {x}（t）^ T \]$

对于拒绝维度 $K \ leq i <D$

$\ [\ mathbf {S} ^ {（i）} = \ sum_ {t，j，m} \ gamma_ {jm}（t）\ mathbf {x}（t）\ mathbf {x}（t） \]$

当然，我们只需要存储其中的一个（例如，对于i = K），因为它们都是一样的。然后在更新时间，我们可以计算维度为 $0 \ leq i <K$ 的G统计量：

$\ [\ mathbf {G} ^ {（i）} = \ mathbf {S} ^ {（i）} - \ sum_ {j，m} \ gamma_ {jm} \ mu_ {jm} \ mu_ {jm} ^ T ，\]$

对于 $K \ leq i <D$ ，

$\ [\ mathbf {G} ^ {（i）} = \ mathbf {S} ^ {（i）} - \ beta \ mu \ mu ^ T，\]$

其中 $\ beta = \ sum_ {j，m} \ gamma_ {jm}$ 是总数， $\ mu = \ frac {1} {\ beta} \ sum_ {j，m} \ mu_ {j，m}$ 是全局特征的均值。在使用与MLLT相同的计算方法从G统计量计算变换后，我们输出变换，并且还使用变换的第一个K行将均值投影到维K中，并写出变换后的模型。

这里描述的计算过程相当缓慢; 每个框架上的复杂度是，K也非常大（例如117）。这是我们为紧凑统计所付出的代价; 如果我们存储完整的均值和方差统计量，则每帧计算复杂度将是。为了加快速度，我们有一个可选参数（代码中的“speedup”），它可以选择一个随机的帧子集来计算HLDA统计量。例如，如果speedup = 0.1，我们只会在1/10的帧上累加HLDA统计量。如果此选项被激活，我们需要存储关于均值统计量的两个不同版本。一个版本的均值统计量，是在子集统计的，只能用于HLDA运算，其值对应着公式中的 $\ {gamma_ JM}$ 和 $\ {mu_ JM}$ 。另一个版本的均值统计量是由全部训练数据统计的，可以写出转换模型。

整体HLDA估计过程如下（见rm_recipe_2 / scripts / train_tri2j.sh）：

首先用LDA初始化它（我们存储缩减维矩阵和全矩阵）。
开始模型建立和训练过程。在我们决定进行HLDA更新的某些（非连续）迭代中，执行以下操作：
- 累加HLDA统计量（S，加上全维度均值统计量）。积累这些（gmm-acc-hlda）的程序需要模型，未转换的特征和当前的变换（它需要转换特征才能计算高斯验概率）
- 更新HLDA变换。这样做的程序（gmm-est-hlda）需要模型; 统计量; 和先前的全（平方）转换矩阵，它需要开始优化并正确地报告辅助功能变化。它输出新的变换（全部和缩小的维度），以及新的估计和转换均值的模型。

全局半绑定协方差（STC）/最大似然线性变换（MLLT）估计

全局STC / MLLT是一个特征变换方阵。有关更多细节，请参见"Semi-tied Covariance Matrices for Hidden Markov Models", by Mark Gales, IEEE Transactions on Speech and Audio Processing, vol. 7, 1999, pages 272-281.将其视为特征空间变换，目标函数是给定模型的变换特征的平均每帧对数似然，加上变换的对数行列式。模型的均值也在更新阶段通过变换旋转。足够的统计量如下，对于 $0 \ leq我<D$ ，其中D是特征维度：

$\ [\ mathbf {G} ^ {（i）} = \ sum_ {t，j，m} \ gamma_ {jm}（t）\ frac {1} {\ sigma ^ 2_ {jm}（i） mu_ {jm} - \ mathbf {x}（t））（\ mu_ {jm} - \ mathbf {x}（t））^ T \]$

有关更新方程，请参考等式（22）和（23）。这些基本上是对角线逐行约束MLLR / fMLLR更新方程的简化形式，其中二次方程的一阶项消失。请注意，我们的实现与参考的不同之处在于使用矩阵的逆矩阵而不是代数余子式，因为乘以行列式不会对结果产生影响，并且可能会导致浮点下溢或溢出的问题。

我们描述一下在LDA特征之上进行MLLT全过程，但它也适用于传统的差分特征。请参阅脚本rm_recipe_2 / steps / train_tri2f作为示例。过程如下：

估计LDA转换矩阵（我们只需要它的第一行，而不是整个矩阵）。调用这个矩阵 $\ mathbf {M}$ 。
启动正态模型构建过程，始终使用转换的特征。在某些选定的迭代过程（我们将更新MLLT矩阵）中，我们执行以下操作：
- 在当前完全转换的空间（即，与之相关的特征之上 $\ mathbf {M}$ ）累计MLLT统计量。为了提高效率，我们使用训练数据的一部分来实现。
- 做MLLT更新; 让它产生一个方阵 $\ mathbf {T】$ 。
- 通过设置 $\ mu_ {jm} \ leftarrow \ mathbf {T} \ mu_ {jm}$ 来转换模型。
- 通过设置 $\ mathbf {M} \ leftarrow \ mathbf {T} \ mathbf {M}$ 更新当前的变换

涉及MLLT估计的程序是gmm-acc-mllt和est-mllt。我们还需要程序gmm-transform-means（使用 $\ mathbf {T】$ 转换高斯函数均值），compose-transforms（做乘法 $\ mathbf {M} \ leftarrow \ mathbf {T} \ mathbf {M}$ ）。

全局CMLLR / fMLLR转换

约束最大似然线性回归（CMLLR），也称为特征空间MLLR（fMLLR），是 $\ mathbf {x} \ rightarrow \ mathbf {A} \ mathbf {x} + \ mathbf {b}$ 的仿射特征变换，也可以 $\ mathbf {x} \ rightarrow \ mathbf {W} \ mathbf {x} ^ +$ 表示，其中 $\ mathbf {x} ^ + = \ left [\ begin {array} {c} \ mathbf {x} \\ 1 \ end {array} \ right]$ 。请注意，这不同于文献中的1在最前面。

关于CMLLR和我们使用的估计技术的综述文章，参见"Maximum likelihood linear transformations for HMM-based speech recognition" by Mark Gales, Computer Speech and Language Vol. 12, pages 75-98.

我们存储的足够统计量是：

$\ [\ mathbf {K} = \ sum_ {t，j，m} \ gamma_ {j，m}（t）\ Sigma_ {jm} ^ { - 1} \ mu_ {jm} \ mathbf {x}（t） ^ + \]$

其中 $\ {Sigma_ JM} ^ { - 1}$ 是逆协方差矩阵，而对于 $0 \ leq我<D$ 其中D是特征维度，

$\ [\ mathbf {G} ^ {（i）} = \ sum_ {t，j，m} \ gamma_ {j，m}（t）\ frac {1} {\ sigma ^ 2_ {j，m} ）} \ mathbf {x}（t）^ + \ left。\ mathbf {x}（t）^ + \ right。^ T \]$

我们的估计方案是标准的，参见参考文献的附录B（特别是B.1节“Direct method over rows”）。我们不同的是使用逆矩阵的一列而不是代数余子式的行，即忽略行列式的因素，因为它不影响结果并引起数字下溢或溢出的危险。

全局约束MLLR（CMLLR）转换的估计由类FmllrDiagGmmAccs和程序gmm-est-fmllr完成（另见gmm-est-fmllr-gpost）。gmm-est-fmllr的语法是：

gmm-est-fmllr [options]   \

“”项目对应于transition-id 级别的后验概率（参见 State-level posteriors）。该程序写出一个默认由utterance索引的CMLLR变换表，或者如果给出了-spk2utt选项，则由说话者索引。

以下是脚本的简化摘录（rm_recipe_2 / steps / decode_tri_fmllr.sh），它基于来自先前的unadapted的解码的对齐来估计和使用CMLLR变换。假设以前的解码是使用相同的模型（否则我们必须使用程序“convert-ali”来转换对齐方式）。

...
silphones=48 # colon-separated list with one phone-id in it.
mincount=500 # min-count to estimate an fMLLR transform
sifeats="ark:add-deltas --print-args=false scp:data/test.scp ark:- |"

# The next comand computes the fMLLR transforms.
ali-to-post ark:$srcdir/test.ali ark:- | \
  weight-silence-post 0.0 $silphones $model ark:- ark:- | \
  gmm-est-fmllr --fmllr-min-count=$mincount \
    --spk2utt=ark:data/test.spk2utt $model "$sifeats" \
   ark,o:- ark:$dir/test.fmllr 2>$dir/fmllr.log

feats="ark:add-deltas --print-args=false scp:data/test.scp ark:- |
  transform-feats --utt2spk=ark:data/test.utt2spk ark:$dir/test.fmllr
       ark:- ark:- |"

# The next command decodes the data.
gmm-decode-faster --beam=30.0 --acoustic-scale=0.08333 \
  --word-symbol-table=data/words.txt $model $graphdir/HCLG.fst \
 "$feats" ark,t:$dir/test.tra ark,t:$dir/test.ali 2>$dir/decode.log

线性VTLN（LVTLN）

近年来，已经有许多论文描述了声道长度归一化（VTLN）的实现，该方法计算出对应于每个VTLN弯折因子的线性特征变换。参见``Using VTLN for broadcast news transcription'', by D. Y. Kim, S. Umesh, M. J. F. Gales, T. Hain and P. C. Woodland, ICSLP 2004.

我们使用LinearVtln类实现了这个一般类中的一个方法，以及诸如gmm-init-lvtln，gmm-train-lvtln-special和gmm-est-lvtln-trans之类的程序。所述LinearVtln对象本质上存储一组线性特征变换，每个对应着一个弯折因子。让这些线性特征变换矩阵为

$\ [\ mathbf {A} ^ {（i）}，0 \ leq i <N，\]$

其中例如我们可能= 31，对应于31个不同的弯折因子。我们将在下面描述我们如何获得以下这些矩阵。估计说话人特定变换的方式如下。首先，我们需要某种模型和相应的对齐方式。在示例脚本中，我们使用小型单音素模型，或使用完整的三音素模型。从这个模型和对齐方式，并使用原始的，未弯折的特征，我们计算用于估计CMLLR的常规统计量。要计算LVTLN变换，需得到每个矩阵 $\ mathbf {A} ^ {（I）}$ ，并计算使变换 $\ mathbf {W} = \ left [\ mathbf {A} ^ {（i）} \，; \，\ mathbf {b} \ right]$ 的CMLLR辅助函数最大化的偏移向量 $\ mathbf {B}$ 。给出最大辅助函数值（即最大化i）的 $\ mathbf {白}$ 值成为该说话人的变换（译者注：不太确定，附上原文 This value of $\mathbf{W}$ that gave the best auxiliary function value (i.e. maximizing over i) becomes the transform for that speaker）。由于我们在这里估计一个均值偏移量，所以我们基本上将一种基于模型的倒谱平均归一化（或者是仅偏移的CMLLR形式）与作为线性变换实现的VTLN曲折率（warping ）相结合。这避免了只有均值规范化这一个步骤。

我们接下来描述我们如何估计矩阵 $\ mathbf {A} ^ {（I）}$ 。我们不按照参考文献中所述的相同方式，我们的方法更简单（更容易证明）。这里我们只说一个特定的弯折因子的计算; 在目前的脚本中，我们有不同的弯折因子，从0.85，0.86，...，1.15。我们采用特征数据的一个子集（例如数十个话语），对于这个子集，我们计算原始和变换的特征，其中使用常规的VLTN计算来计算变换后的特征（参见特征级声道长度归一化（VTLN ））。调用原始和转换的特征分别是 $\ mathbf {X}（t）的$ 和 $\ mathbf {Y}（t）的$ ，其中的取值范围是所选语音的帧。我们计算最小二乘法意义上的从 $\ mathbf {X}$ 映射到 $\ mathbf {Y}$ 的仿射变换，即如果 $\ mathbf {y}'= \ mathbf {A} \ mathbf {x} + \ mathbf {b}$ 我们计算使 $\ sum_t（\ mathbf {y}'（t） - \ mathbf {y}（t））^ T（\ mathbf {y}'（t） - \ mathbf {y}（t））$ 最小的 $\ mathbf {A}$ 和 $\ mathbf {B}$ 。然后，我们归一化对角方差如下：我们计算的原始特征方差 $\ mathbf {\西格玛} ^ {（X）}$ 和线性变换特征方差 $\ mathbf {\西格玛} ^ {（Y'）}$ ，并且对于每个d，都将 $\ mathbf {A}$ 的第d行乘以 $\ sqrt {\ frac {\ mathbf {\ Sigma} ^ {（x）} _ {d，d}} {\ mathbf {\ Sigma} ^ {（y'）} _ {d，d}}}$ ，得到的矩阵就是 $\ mathbf {A} ^ {（I）}$ 。

命令行工具支持在评估要使用的变换矩阵时忽略对数行列式的选项（例如，可以设置-logdet-scale = 0.0）。在某些情况下，这似乎会改善结果; 忽略对数决定因素，它总是使得弯折因子的分布更加双峰，因为对数行列式不是正的，只是在弯折因子为1.0时为0，因此对数行列式相当于惩罚项为了使弯折因子不远离1。然而，对于某些类型的特征（特别是从LDA导出的特征），忽略对数行列式使得结果变得更糟，并导致非常奇怪的弯折因子分布，因此我们的示例脚本始终使用对数行列式。无论如何，这是正确的事情。

内部C ++代码支持对变换矩阵 $\ mathbf {A} ^ {（I）}$ 的最大似然重估计的累积统计。我们的期望这样会改善结果。然而，它导致性能下降，所以我们不包括这样做的示例脚本。

指数变换（ET）

指数变换（ET）是计算VTLN类变换的另一种方法，但与线性VTLN不同，我们完全切断与频率弯折的连接，并以数据驱动的方式学习。对于正常的训练数据，我们发现它的学习与传统的VTLN非常相似。

ET是一种转换形式：

$\ [\ mathbf {W} _s = \ mathbf {D} _s \ exp（t_s \ mathbf {A}）\ mathbf {B}，\]$

其中exp是通过 $\ mathbf {A}$ 的泰勒级数定义的矩阵指数函数，与标量指数函数一样。具有下标“s”的值是说话人特定的; 其他数量（即 $\ mathbf {A}$ 和 $\ mathbf {B}$ ）是全局的，并在所有说话人之间共享。

这个方程中最重要的因子是中间的指数函数。因子 $\ mathbf {D} _s$ 整合基于模型的均值和可选的方差归一化（即仅偏移或仅对角话的CMLLR），因子 $\ mathbf {B}$ 允许变换到MLLT（也称为全局STC），也是在每次重新估计的迭代中重新归一化的副产物。这些因子的维度如下，其中D是特征的维度：

$\ \ \ mathbf {D} _s \ in \ Re ^ {D \ times（D + 1）}，\ t_s \ in \ Re，\ \ mathbf {A} \ in \ Re ^ {（D + 1）\ times （D + 1）}，\ \ mathbf {B} \ in \ Re ^ {（D + 1）\ times（D + 1）}。 \]$

请注意，如果 $\ mathbf {D} _s$ 是一个完全无约束的CMLLR矩阵，那么这个方法就没有意义，因为方程式中的其他因子不会增加自由度。这些工具支持对 $\ mathbf {D} _s$ 的三种约束：它可以是 $[{\ mathbf I} \，\; \，{\ mathbf 0}]$ （无适应），或 $[{\ mathbf I} \，\; \，{\ mathbf m}]$ （仅偏移）或 ${{\ mathrm {diag}}（{\ mathbf d}）\，\; \，{\ mathbf m}]$ （对角CMLLR）; 这由命令行工具的-normalize-type选项控制。 $\ mathbf {A}$ 的最后行和 $\ mathbf {B}$ 被固定在特定的值（这些行参与与值1.0，它被附加到特征，以表达一个仿射变换作为基质中传播的最后一个载体元件）。最后一行 $\ mathbf {A}$ 固定为零， $\ mathbf {B}$ 的最后一行固定为 $[0 \ 0 \ 0 \ \ ldots \ 0 \ 1]$ 。

说话人特定量可以被解释为说话人特定的弯折因子的对数。使用指数函数是因为，如果先被因子f弯折然后被因子g弯折，弯折度应该与组合因子fg的相同。令l = log（f），m = log（g）。然后我们通过定义证明这个性质

$\ [\ exp（l \ mathbf {A}）\ exp（m \ mathbf {A}）= \ exp（（l + m）\ mathbf {A}）。 \]$

特定说话人的ET计算如下：这假设给定 $\ mathbf {A}$ 和 $\ mathbf {B}$ 。并累计每个说话人的足够的常规CMLLR统计量。在更新阶段，我们迭代优化和 $\ mathbf {D} _s$ 使辅助函数（ auxiliary function）最大化。用基于牛顿法的迭代过程来更新; 用基于传统的CMLLR方法来更新 $\ mathbf {D} _s$ ，特别的关于对角线或仅偏移的情况，我们通过对 $\ mathbf {D} _s$ 的约束来实现。

整体训练计算如下：

首先，初始化 $\ mathbf {B}$ 为id， $\ mathbf {A}$ 为最后一行为零的随机矩阵。

然后，从一些已知的模型开始，开始迭代 EM过程。在每次迭代中，我们首先估算特定说话人的参数和 $\ mathbf {D} _s$ ，并计算变换 $\ mathbf {白} _s$ ，然后我们选择更新 $\ mathbf {A}$ 、 $\ mathbf {B}$ 和模型三者中的一个。

如果更新 $\ mathbf {A}$ ，则固定给定和 $\ mathbf {D} _s$ 。这个更新不能保证收敛，但在实践中迅速收敛; 它基于二次“弱感辅助功能（weak-sense auxiliary function）”，其中使用矩阵指数函数的泰勒级数展开的一阶截断来获得二次项。更新 $\ mathbf {A}$ 后，我们将修改 $\ mathbf {B}$ 使重新归一化到0，使 $\ exp（t \ mathbf {A}）$ 左乘 $\ mathbf {B}$ ，其中t是的平均值。
如果更新 $\ mathbf {B}$ ，也是固定给定和 $\ mathbf {D} _s$ ，并且更新类似于MLLT（也称为全局STC）。为了累计和更新，想象估计MLLT矩阵是矩阵 $\ mathbf {A}$ 的左边，如 $\ mathbf {C} \ in \ Re ^ {D \ times D}$ ，定义 $\ mathbf {C} ^ + = \ left [\ begin {array} {cc} \ mathbf {C}＆0 \\ 0＆1 \ end {array} \ right]$ ，变换变成 $\ mathbf {W} _s = \ mathbf {D} _s \ mathbf {C} ^ + \ exp（t_s \ mathbf {A}）\ mathbf {B}$ 。在概念上，在估计 $\ mathbf {C}$ 时，我们把 $\ mathbf {D} _s$ 当做创建说话者特定的模型空间变换，这是唯一可能的 $\ mathbf {D} _s$ 对角线结构; 并且将 $\ exp（t_s \ mathbf {A}）\ mathbf {B}$ 视为特征空间变换（即作为特征的一部分）。估计 $\ mathbf {C}$ 后，我们将使用定义
$\ [\ mathbf {C} ^ + \ exp（t_s \ mathbf {A}）= \ exp（t_s \ mathbf {C} ^ + \ mathbf {A} \ left。\ mathbf {C} ^ + \ right。 {-1}）\ mathbf {C} ^ + \]$
所以更新成为：
$\ [\ mathbf {A} \ leftarrow \ mathbf {C} ^ + \ mathbf {A} \ left。\ mathbf {C} ^ + \ right。^ { - 1}，\ \ \ mathbf {B} \ leftarrow \ mathbf {C} ^ + \ mathbf {B}。 \]$
在这一点上，我们需要用矩阵来转换模型 $\ mathbf {C}$ 。读者可能会对估计 $\ mathbf {C}$ 时那些因子如何相互作用的有疑惑，我们将数量 $\ mathbf {D} _s$ 视为模型空间变换。如果 $\ mathbf {D} _s$ 只包含一个均值偏移，我们仍然可以证明辅助函数会增加，除非我们必须适当地改变偏移量（这样做不好，因为我们将在下一次迭代中重新估计它们）。然而，如果 $\ mathbf {D} _s$ 有非单元对角线（即有对角但没有CMLLR偏移），则不能保证这种重估计过程能够提高似然性; 在这种情况下，工具将会打印一个警告。为了避免遇到这种情况，我们的脚本以一种 $\ mathbf {D} _s$ 仅偏移转换的模式进行训练;但是在测试中我们允许 $\ mathbf {D} _s$ 为对角CMLLR变换时，结果比只偏移的要好一丢丢。
更新模型很简单; 它只涉及适应了的特征的训练。

与使用指数变换相关的重要程序如下：

gmm-init-et 初始化指数变换对象（包含A和B）并将其写入磁盘; A的初始化是随机的。
gmm-est-et 估计一组说话人的指数变换; 它读取指数变换对象，模型，特征和高斯层的后验概率，并写出变换 $\ mathbf {白} _s$ 和可选的“扭曲因子” 。
gmm-et-acc-a 累积更新的统计数据 $\ mathbf {A}$ ，gmm-et-est-a进行相应的更新。
gmm-et-acc-b 积累更新的统计数据 $\ mathbf {B}$ ，gmm-et-est-b进行相应的更新。

倒谱平均值和方差归一化

倒谱平均值和方差归一化包括对原始cepstra的平均值和方差进行归一化，通常以发音（utterance）或每个说话人为基础，给出零均值，单位方差cepstra。我们提供代码来支持这一点，还有一些示例脚本，但我们并不特别推荐使用它。一般来说，我们更喜欢基于模型的方法来表示均值和方差归一化; 例如，线性VTLN（LVTLN）学习平均偏移量和指数变换（ET）执行对角CMLLR变换，其具有与倒谱平均值和方差归一化相同的功率（通常应用于完全扩展的特征）。对于非常快速的操作，可以在基于发音的非常小的语言模型使用这个方法，我们的一些示例脚本演示了这一点。特征提取代码中也可以在每个语音（utterance）的基础上减去平均值（计算-mfcc-feats和compute-plp-feats的-subtract-mean选项）。

为了支持每个语音和每个说话人的均值和方差归一化，我们提供程序compute-cmvn-stats和apply-cmvn。默认情况下，程序compute-cmvn-stats将计算均值和方差归一化的足够统计量，作为一个矩阵（格式不是很重要;详见代码），并将写出用utterance-id索引的统计量。如果给出-spk2utt选项，它将以每个演讲者的方式写出统计量（警告：在使用此选项之前，请阅读在随机访问模式下读取归档时避免内存膨胀，因为此选项会导致输入功能以随机访问模式读取）。程序“apply-cmvn”读入特征和倒谱均值和方差统计; 如果应用了-utt2spk选项，则默认情况下，每个话语的统计量都将被索引（或者每个说话人进行索引）。它在均值和方差归一化之后写出特征。尽管有这些名称，这些程序并不在意，这些功能是由cepstra还是其他任何东西组成; 它只是将它们视为矩阵。当然，给定的ecompute-cmvn-stats和apply-cmvn函数必须具有相同的维度。

我们注意到，它可能与特征变换代码的整体设计更一致，提供一个版本的compute-cmvn-stats，它将平均和方差归一化变换以通用仿射变换（与CMLLR转换格式一样）的形式写出，以便它们可以被程序transform-feats调用，并根据需要和compose-transforms的变换进行组合。如果需要，我们可能会提供这样一个程序，但是由于我们不把平均值和方差归一化作为任何方法的重要组成部分，我们还没有这样做。

建立适应的回归树

Kaldi支持回归树MLLR和CMLLR（也称为fMLLR）。有关回归树的概述，请参见 "The generation and use of regression class trees for MLLR adaptation" by M. J. F. Gales, CUED technical report, 1996。

你可能感兴趣的:(语音识别)

语音识别学习系列（13）：语音识别中的情感识别与表达 DoYangTan 语音识别学习人工智能
语音识别学习系列（13）：语音识别中的情感识别与表达前言在语音识别领域，仅仅将语音准确转换为文字内容已不能满足日益多样化的人机交互需求。人们在交流过程中往往蕴含着丰富的情感信息，语音识别若能对情感进行识别与表达，将会使交互变得更加自然、智能且贴合人性化需求。本期我们就围绕语音识别中的情感识别与表达这一重要主题展开深入探讨，了解其背后的原理、方法以及实际应用价值。一、语音情感识别的基本原理与常用方法
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
自动语音识别（ASR）：技术、应用与未来 ajie1117 语音识别人工智能
自动语音识别（ASR）：技术、应用与未来1.ASR简介自动语音识别（ASR，AutomaticSpeechRecognition）是一种将语音转换为文本的技术。它利用人工智能（AI）、深度学习和自然语言处理（NLP）技术来识别和理解人类的语言，使计算机能够与人类进行更自然的交互。2.ASR的工作原理ASR的核心流程通常包括以下几个步骤：语音信号采集：通过麦克风或其他设备获取音频数据。预处理：去除噪
python离线语音转文本_使用Python将语音转换为文本的方法 weixin_39760619 python离线语音转文本
使用Python将语音转换为文本的方法,语音,转换为,文本,您的,麦克风使用Python将语音转换为文本的方法易采站长站，站长之家为您整理了使用Python将语音转换为文本的方法的相关内容。语音识别是计算机软件识别口语中的单词和短语，并将其转换为可读文本的能力。那么如何在Python中将语音转换为文本？如何使用SpeechRecognition库在Python中将语音转换为文本？我们不需要从头开始
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
【微信小程序（云开发模式）变通实现DeepSeek支持语音】技术与健康微信小程序 notepad++小程序
整体架构前端（微信小程序）：使用微信小程序云开发能力，实现录音功能。将录音文件上传到云存储。调用云函数进行语音识别和DeepSeek处理。界面模仿DeepSeek，支持文本编辑。后端（云函数+Node.js）：使用云函数调用腾讯云语音识别（ASR）服务。调用DeepSeekAPI处理文本。步骤1：初始化云开发环境在微信开发者工具中创建小程序项目，并开通云开发。在project.config.jso
AI 大模型应用数据中心的数据迁移架构 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
AI大模型、数据中心、数据迁移、架构设计、迁移策略、性能优化、安全保障1.背景介绍随着人工智能（AI）技术的飞速发展，大规模AI模型的应用日益广泛，涵盖了自然语言处理、计算机视觉、语音识别等多个领域。这些AI模型通常需要海量的数据进行训练和推理，因此数据中心作为AI应用的基础设施，显得尤为重要。然而，随着AI模型规模的不断扩大，数据中心面临着新的挑战：数据规模庞大:AI模型的训练和推理需要海量数据
录音文字转换专家，一键搞定音转文字，让你的工作效率飞起来！开开心心_Every python eclipse django virtualenv pygame tornado flask
录音转文字助手是一款功能丰富的app，主要聚焦于语音识别、音频转文字以及实时语音翻译等功能。在这个app中，其内置了一套强大的识别系统。这套系统具备快速且无损转换的能力，无论是语音内容，还是音频文件内容，它都能够迅速地将其转换为文字内容并输出。而且，该app的功能不仅局限于此，它还可以进行多语种的翻译操作，这为不同语言需求的用户提供了极大的便利。帮助中心帮助中心相关问题解答：一、安装报错的处理安卓
视频转音频, 音频转文字言之。 python 音视频
Ubuntu24环境准备#系统级依赖sudoaptupdate&&sudoaptinstall-yffmpegpython3-venvgitbuild-essentialpython3-dev#Python虚拟环境python3-mvenv~/ai_summarysource~/ai_summary/bin/activate核心工具链工具用途安装命令Whisper语音识别pipinstallope
H5语音识别功能(Web Speech API+科大讯飞) 辣辣1 语音识别前端
H5语音识别效果图:方案一:WebSpeechAPI(免费,IE浏览器可用,谷歌浏览器不可用)方案一：WebSpeechAPI开始停止识别结果:{{finalTranscript}}{{interimTranscript}}import{ref,onMounted,onBeforeUnmount}from"vue";constisSupported=ref(false);constisRecord
如何在 Python 中将语音转换为文本无水先生语音处理人工智能综合 python xcode 开发语言
一、说明学习如何使用语音识别Python库执行语音识别，以在Python中将音频语音转换为文本。想要更快地编码吗？我们的Python代码生成器让您只需点击几下即可创建Python脚本。现在就现在试试！二、语言AI库2.1相当给力的转文字库语音识别是计算机软件识别口语中的单词和短语并将其转换为人类可读文本的能力。在本教程中，您将学习如何使用SpeechRecognition库在Python中
书籍-《动手学深度学习（英文版）》
书籍：DiveintoDeepLearning作者：AstonZhang，ZacharyC.Lipton，MuLi，AlexanderJ.Smola出版：CambridgeUniversityPress编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《动手学深度学习（英文版）》01书籍介绍深度学习已经彻底改变了模式识别，为计算机视觉、自然语言处理和自动语音识别等领域提供了强大的工具。应用深度学
【微信小程序变通实现DeepSeek支持语音】技术与健康微信小程序小程序
微信小程序实现录音转文字，并调用后端服务（Node.js）进行语音识别和，然后调用DeepSeek处理的完整实现。整体架构前端（微信小程序）：实现录音功能。将录音文件上传到后端。接收后端返回的语音识别结果，并显示在可编辑的文本框中。调用DeepSeek处理文本。后端（Node.js）：接收小程序上传的录音文件。调用腾讯云语音识别（ASR）服务，将语音转换为文字。返回识别结果给小程序。提供DeepS
深入探索 PyTorch 在语音识别中的应用 Zoro｜ PyTorch Deep Learning 机器学习 pytorch 语音识别人工智能
深入探索PyTorch在语音识别中的应用在本篇博客中，我将分享如何使用PyTorch进行语音识别任务，重点围绕环境配置、数据预处理、特征提取、模型设计以及模型比较展开。本文基于最近一次机器学习作业（HW2）的任务内容，任务目标是对语音信号进行逐帧音素预测，从而完成多类别分类任务。一、介绍任务背景任务目标：利用深度神经网络对语音信号进行逐帧音素预测。音素定义：音素是语音中能够区分单词的最小语音单位。
AI人工智能深度学习算法：搭建可拓展的深度学习模型架构 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
深度学习、模型架构、可拓展性、神经网络、机器学习1.背景介绍深度学习作为人工智能领域最前沿的技术之一，在图像识别、自然语言处理、语音识别等领域取得了突破性的进展。深度学习模型的成功离不开其强大的学习能力和可拓展性。本文将深入探讨深度学习算法的原理、模型架构设计以及可拓展性的关键要素，并通过代码实例和实际应用场景，帮助读者理解如何搭建可拓展的深度学习模型架构。2.核心概念与联系深度学习的核心概念是人
《AI大模型趣味实战》 No3：快速搭建一个漂亮的AI家庭网站-相册/时间线/日历/多用户/个性化配色/博客/聊天室/AI管家(下) 带娃的IT创业者 AI大模型趣味实战人工智能 xcode macos
《AI大模型趣味实战》No3：快速搭建一个漂亮的AI家庭网站-相册/时间线/日历/多用户/个性化配色/博客/聊天室/AI管家(下)摘要本文介绍了家庭网站V1.3版本的更新内容，主要聚焦于AI管家功能的优化与完善。V1.3版本对AI管家模块进行了全面升级，包括使用更快速的GLM-4-Flash模型、优化语音交互体验、改进用户界面以及增强系统稳定性。本文详细解析了这些改进的技术实现，包括语音识别与合成
李开复：AI 2.0 时代的价值 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
人工智能，AI2.0，价值创造，伦理挑战，未来趋势1.背景介绍人工智能（AI）技术近年来发展迅速，从语音识别、图像识别到自然语言处理，AI已经渗透到我们生活的方方面面。李开复，作为一位享誉全球的人工智能专家，在《AI2.0时代的价值》一文中，深刻地探讨了AI2.0时代带来的机遇与挑战，以及AI如何为人类创造价值。AI1.0时代主要集中在规则驱动的系统，例如围棋、象棋等游戏的AI。而AI2.0时代则
李开复：AI 2.0 时代的机遇 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
人工智能，深度学习，Transformer，大模型，通用人工智能，AI2.0，应用场景，未来趋势1.背景介绍人工智能（AI）技术近年来发展迅速，从语音识别、图像识别到自然语言处理等领域取得了突破性进展。其中，深度学习作为人工智能的核心技术之一，推动了AI技术的飞速发展。然而，深度学习模型的训练成本高、数据依赖性强、可解释性差等问题仍然制约着AI技术的进一步发展。李开复先生在《AI2.0时代的机遇》
Python 中的离线语音转文本无水先生语音编程人工智能综合 python 开发语言
Python中的离线语音转文本一、说明写作、编码、写博客、办公室工作、文档、报告都需要一个人在键盘上打字。这会导致健康问题，如腕管综合症、手和手指疼痛等。我非常了解这种痛苦。这是用于创建自己的离线运行的听写程序的Python代码。只需对着耳机的麦克风说话，它就会将您的话转换为文本并将其保存在文本文件中。二、安装您将需要安装Python库—vosk、pyaudio。 Vosk是一个语音识别
最方便的离线python实时中文语音识别！迟钝皮纳德 python 语音识别
废话不多说，直接上代码，先安装环境需要安装的包：jsonpyaudionumpyvosk新建一个py文件写入：importjsonimportpyaudioimportnumpyasnpfromvoskimportModel,KaldiRecognizer,SetLogLeveldefSaveWave(model):#设置音频参数FORMAT=pyaudio.paInt16#音频流的格式RATE=
基于树莓派的轻量级AI数字人开发全流程指南 ——从硬件选型到语音视觉交互实战 zhz5214 AI ai 人工智能 AI写作 AI编程智能体
1.背景与目标AI数字人，像是虚拟助手、交互式角色，在当下数字化浪潮中扮演着越来越重要的角色。其核心在于整合语音识别、视觉感知、自然语言处理（NLP）和动态反馈四大关键功能。本文将以树莓派5开发板为核心，搭配AI加速硬件，结合开源框架，为大家详细阐述如何实现本地化轻量级数字人开发。这一方案特别适用于教育领域，帮助学生更直观地理解AI技术；在智能家居场景中，也能为用户带来更智能、便捷的交互体验。2.
AI 大模型应用数据中心建设：高性能计算与存储架构 AI智能涌现深度研究 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
AI大模型、数据中心、高性能计算、存储架构、分布式训练、GPU加速、数据管理1.背景介绍近年来，人工智能（AI）技术取得了飞速发展，特别是深度学习模型的突破性进展，催生了一系列基于大规模数据训练的强大AI模型，例如GPT-3、BERT、DALL-E等。这些AI大模型在自然语言处理、计算机视觉、语音识别等领域展现出强大的应用潜力，但也对计算资源和数据存储提出了极高的要求。传统的计算架构难以满足AI大
一个简单的语音识别实现---百度在线语音识别REST API SDK（Python）简单使用 DerrickOzil 语音识别 python sdk 语音识别
百度在线语音识别RESTAPISDK（Python）简单使用首先申请开发者权限注册开发者信息完成注册创建新应用下载SDK并查看key在应用管理中，选择查看key，记录AppID、APIKey、SecretKey三个参数值。测试音频链接：http://pan.baidu.com/s/1o8Ue4B4密码：o5r1]注意事项音频格式限制pcm（不压缩）、wav、amr采样频率及位数支持评测8k/16k
AI大模型从入门到精通，2025终极指南！好卷啊，又不能躺平，只能悄悄卷你们了！大模型教程人工智能大模型训练 LLM 知识库大模型大模型入门大模型学习
什么是AI大模型？AI大模型是指使用大规模数据和强大的计算能力训练出来的人工智能模型。这些模型通常具有高度的准确性和泛化能力，可以应用于各种领域，如自然语言处理、图像识别、语音识别等。为什么要学AI大模型？2024人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于
FireRedASR：精准识别普通话、方言和歌曲歌词！小红书开源工业级自动语音识别模型蚝油菜花每日 AI 项目与应用实例语音识别人工智能人工智能开源
❤️如果你也关注AI的发展现状，且对AI应用开发感兴趣，我会每日分享大模型与AI领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！微信公众号｜搜一搜：蚝油菜花大家好，我是蚝油菜花，今天跟大家分享一下FireRedASR这个小红书开源的工业级自动语音识别模型。快速阅读FireRedASR是小红书开源的工业级自动语音识别模型，支持普通话、中文方言和英语。该模型在普通话ASR基准测试
语音识别后处理代码 hitsz_syl 语音识别后处理
importreimportdifflibimportosfromdatetimeimportdatetime,timedeltadefextract_snippets_no_duplicates(input_file,output_file,window=150):"""从输入文本文件中提取包含目标字符（A、B、C、D、"开始"、"结束"）前后`window`个字符范围的文本。提取时扩展到完整的
热门AI创作助手推荐【第一期】量子星澜文心一言 AI写作 chatgpt
星游AI创作助手人工智能在现代科技中的应用非常广泛，涵盖了诸多领域，包括但不限于以下几个方面：1.语音识别和自然语言处理：人工智能技术被广泛应用于语音识别和自然语言处理领域，例如智能助手、翻译系统、语音交互系统等。2.机器学习和数据分析：人工智能的机器学习算法被用于数据分析、预测建模、用户个性化推荐等领域，帮助企业做出更准确的商业决策。3.计算机视觉：人工智能在计算机视觉领域的应用包括图像识别、视
AI笔记——语音识别 Yuki-^_^ 人工智能 AI 人工智能笔记语音识别
摘要：语音识别（AutomaticSpeechRecognition,ASR）是人工智能领域的一项重要技术，它将人类的语音信号转换成文字。随着科技的发展，语音识别已经成为现代生活和工作中不可或缺的一部分。本文旨在介绍语音识别的基本原理、关键技术、应用场景以及未来发展趋势。一、历史与发展语音识别技术的历史可以追溯到20世纪50年代，那时的技术基于规则和模板。随着计算能力的提升和深度学习方法的出现，语
自动语音识别（ASR）模型全览 u013250861 #语音识别人工智能
以下为截至2024年底主流ASR模型的详细列表，涵盖传统模型、端到端模型、开源框架及商业解决方案，按技术类型分类整理，并标注适用场景：一、传统混合模型（GMM/HMM、DNN/HMM）GMM/HMM公开时间：1980年代参数量：百万级（依赖状态数）特点：基于高斯混合模型（GMM）与隐马尔可夫模型（HMM）结合，需手工对齐音素状态。适用场景：早期电话语音识别（嵌入式设备）、孤立词识别（工业控制终端）
Assembly语言的自然语言处理花韵婷包罗万象 golang 开发语言后端
Assembly语言在自然语言处理中的应用引言自然语言处理（NaturalLanguageProcessing,NLP）作为人工智能的一个重要分支，致力于实现计算机与人类语言之间的互动。随着计算能力的提升以及大数据的蓬勃发展，NLP在各个领域的应用如火如荼。从语音识别、机器翻译到情感分析等，NLP正在改变我们与信息之间的互动方式。不过，当前主流的NLP研究通常是用高级编程语言（如Python、Ja
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr