shichaog

语音识别概述

我的书：

淘宝购买链接
当当购买链接
京东购买链接

#语音识别概述
语音识别问题就是模式分类问题。
一个基本的语音识别系统如下图，实现是正常工作流程，虚线是训练模式分类问题中的模板（这里就是声学模型，字典和语言模型）。

图1语音识别系统组件关系图
语音识别是把语音声波转换成文字。给定目标语音的训练数据，可以训练一个识别的统计模型。用傅里叶变换将声波变换成频谱和幅度。
基于HMM的传统的声学模型依赖于语音和文本数据，以及一个单词到音素的发音字典。HMM是序列数据的生成模型。
训练后该模型将为每一个文本语句对应的备选发声波形给一个概率。这时如果给定一个说话的声波波形，则可以根据该模型找到最有可能的文本语句，但是这并不意味着找到的语句一定是正确的。
将音素以及音素序列用离散的类来模拟。语音识别的目标是预测正确的类序列。如果 $z$ 表示从声波提取的特征向量序列，那么语音识别系统可以根据最优分类方程来工作：
$KaTeX parse error: Limit controls must follow a math operator at position 31: …orname*{argmax}\̲l̲i̲m̲i̲t̲s̲_{w \in W}P(w|z…$
实际上 $\hat w$ 使用贝叶斯准则来计算该值。
$KaTeX parse error: Limit controls must follow a math operator at position 31: …orname*{argmax}\̲l̲i̲m̲i̲t̲s̲_{w \in W}\frac…$
其中 $P (Z ∣ w)$ 是声学似然（声学打分），代表了词 $w$ 被说了的情况下，语音序列 $Z$ 出现的概率。 $p (w)$ 是语音打分，是语音序列出现的先验概率，其计算依赖于语言模型，在忽略语音序列出现概率的情况下，上式可以简化为：
$KaTeX parse error: Limit controls must follow a math operator at position 31: …orname*{argmax}\̲l̲i̲m̲i̲t̲s̲_{w \in W}{P(Z|…$
这样语音识别可以分为两个主要步骤，特征提取和解码。
ASR主要包括四个部分：信号处理和特征提取，声学模型（AM，acoustic model），语言模型（LM，language model）和解码搜索（hypothesis search）。

图2　连续语音识别

基于深度学习的改进如下：

其中可以看到声学模型和语言模型是分开的，这两个部分也是分开训练的，声学模型和语言模型两者经过训练各自最优，而二组组合成的系统并不一定是最优（即系统的WER（word error rate）），这在基于深度学习领域又提出了CTC（Connectionist temporal Classification ）模型，CTC是端到端模型，即由语音特征序列直接到文字串的输出，此外，端到端模型还有LAS（Listen Attend and spell）

##语音特征提取
###用于训练的数据集

经过标注的文集
发音字典
一些其它用于训练语音模型的数据
###kaldi依赖的工具
OpenFst 加权有限自动状态转换器（Weighted Finite State Transducer）
ATLAS/CLAPACK标准的线性代数库
###贝叶斯准则和ASR
$P(S|audio)=\frac{p(audio|S)P(S)}{p(audio)}$
其中 $p$ 是概率密度， $P$ 是概率
$S$ 是单词序列， $P (S)$ 是语言模型，如n-gram语言模型或者概率模型。 $p (a u d i o ∣ S)$ 是由数据训练得到的在已经单词序列 $S$ 时观察到发音序列 $a u d i o$ 的统计概率密度。语音识别时，根据给定的语音，找到单词序列 $S$ ,其要满足 $P (S ∣ a u d i o)$ 概率最大，p(audio)是一个归一化因子，可以忽略。
###语音特征处理
对于语音识别系统，语音特征这里指图一中的Signal Analysis。对于麦克风采集到的信号，可以使用谱或者倒谱分析，对于ASR，常用的特征是FBANK，MFCCs以及PLP特征。
- 特征应该包括足够的信息以区分音素（好的时间分辨率10ms，好的频率分辨率20~40ms)
- 独立于基频 $F_0$ 和其谐波
- 对不同的说话人要有鲁棒性
- 对噪声和通道失真要有鲁棒性
- 具有好的模型匹配特征（特征维度尽量低，对于GMM还要求特征之间独立，对于NN方法则无此要求）

预加重模块增加了高频语音信号的幅度，预加重公式如下：
$x'[t_d]=x[t_d]-\alpha x[t_d-1], 0.95<\alpha <0.99$
语音信号是非稳态信号，但是信号处理的算法通常认为信号是稳态的，通常加窗以获得短时平稳信号：
$x[n]=w[n]s[n] $即$ x_t[n]=w[n]x’[t_d+n]$
为了减小截断带来的影响，通常使用hanning或者hamming窗
$w[n]=(1-\alpha)-\alpha cos(\frac{2\pi n}{L-1})$

####麦克风采集
对于ASR情况，采样率 $f_s \le 20KHz$ 即有效语音频谱包含 $10 K H z$ 就足够了。为了识别率，通常有以下指标需要关注：

采样率，截止频率在8KHz，这要求采样率 $f_s \ge 16KHz$ ，为了防止频谱混跌，通常采样率大于 $16 K H z$ ,经过重采样后到 $16 K H z$
为了减小语音失真，通常处理过程不加AGC，可以的化也不加NS（如果服务端有抗噪训练,如果不能处理噪声，ns也是需要的）
避免语音被截幅（AOP要高， $120 d B @ 1 K H z$ ），峰值电平在-20~10dBFS为宜
频谱尽量平坦（ $±3dB \pm 3dB$ , $100 - 8000 H z$ ），有两层意义，一个是麦克风频谱要求尽量频谱，一个是声音传播损耗需要预加重来增强。
总谐波失真要小，小于1%（从 $100 H z - 8 K H z, @ 90 d B S P L$ ）
SNR要高（ $\ge 65dB$ 为佳），减小ADC器件本身带来的噪声。
采样有效比特数，其影响的是信噪比，大于等于16bit即可
语音传输到服务端，对识别率由好到差（网络带宽由大到小）是：FLAC/LINEAR16， AWR_WB,OGG_OPUS

频谱平坦度实例

THD实例
元音的频谱共振峰特征明显。使用STFT（short time fourier specturm）将其变换到频域，这是因为声道的形状（舌头，牙齿）能用短时功率谱的包络表示出来，
一个处理的实例过程是，对输入的16khz语音，以25ms为窗大小，对窗长内数据加窗（汉宁窗）做FFT变换，对于每一个频点取对数能量，做DCT（离散余弦变换），获得导谱，取导谱的前13个系数，然后将前述25ms的窗向后滑动10ms重复上面的操作，那么每10ms将有一个向量输出。
在做DCT前，使用“梅尔”缩放对频率轴进行缩放，并不直接取DCT变换后的个频谱分量，而是采用和“梅尔”缩放一样的粒度对DCT后的频谱取三角窗平均；通常也会采取预加重技术抵消加窗带来的影响。对信号加噪。得到MFCC（Mel Frequency Ceptural Coeffs）。
此外，可选取的特征还有RASTA-PLP（相对频谱变换-感知线性预测， perceptual linear prediction）

##声学模型
声学模型使用GMM-HMM（混合高斯-隐马尔科夫模型，Gaussian mixture model-HMM），训练该模型的准则有早期的最大似然准则（ML，maximum likelihood），中期的序列判别训练法（sequence hierarchical model），以及目前广泛使用的给予deep learning的特征学习法：深度神经元网络（Deep Neural Network DNN）。
###GMM模型
用在说话人识别，语音特性降噪以及语音识别方面。
若随机变量 $X$ 服从均值为 $\mu$ ,，方差为 $\sigma$ 的概率分布，则其概率密度函数是：
$f(x)=\frac{1}{\sqrt{2 \pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$
则称 $x$ 服从高斯分布（正态分布）。记作：
$X\sim N(\mu,\sigma^2)$
正态随机向量 $\mathbf{X}=(x_1,x_2,...,x_D)^T$ 的高斯分布是：
$f(\mathbf{x})=\frac{1}{\sqrt[D]{2\pi}\sqrt{|{\sum}|}}exp{[-\frac{1}{2}\frac{(\mathbf{x}-\mathbf{\mu})^T]}{\sum(\mathbf{x-\mu})}}$
记作： $X\sim N(\mu \in R^D,\sum \in R^{D×D})$ ，其中 $\sum$ 是 $D \times D$ 维协方差矩阵， $|\sum |$ 是 $\sum$ 的行列式， $\sum=E{(X-\mu)(X-\mu)}$ 。
一个连续标量 $X$ 的混合高斯分布的概率密度函数：
$f(X)=\sum_{m=1}^M\frac{c_m}{\sqrt{2\pi\sigma_m}}e^{-\frac{1}{2}(\frac{x-\mu_m}{\sigma_m})}=\sum_{m=1}^Mc_mN(x;\mu_m,\sigma_m^2),(-\infty0; c_m>0)$
混合权重的累加和等于一，即 $\sum_{m=1}^Mc_m=1.$ 和单高斯分布相比，上式是一个具有多个峰值分布（混合高斯分布），体现在Ｍ>1。混合高斯分布随机变量 $x$ 的期望是 $E(x)=\sum_{m=1}^Mc_m\mu_m$
多元混合高斯分布的联合概率密度函数是：
$f(\mathbf{x})=\sum_{m=1}^M\frac{c_m}{\sqrt[D]{2\pi}{\sqrt{|\sum_m|}}}e^{-\frac{1}{2}(\mathbf{x-\mu_m})^T\sum_m^{-1}(\mathbf{x-\mu})}=\sum_{m=1}^Mc_mN(x;\mu_m,\sum_m),(c_m>0)$
###参数估计
对于多元混合高斯分布，参数变量 $\Theta={c_m,\mu_m,\sum_m}$ ,这里参数估计的目标是选择合适的参数以使混合高斯模型符合建立的语音模型.
使用最大似然估计法估计混合高斯分布的参数：
$c_m^{(j+1)}=\frac{1}{N}\sum_{t=1}^Nh_m^{(j)}(t)$
$\mu_m^{(j+1)}=\frac{\sum_{t=1}^Nh_m^{(j)}(t)\mathbf{X}^{(t)}}{\sum_{t=1}^Nh_m^{j}(t)}$
$\sum_m^{(j+1)}=\frac{\sum_{t=1}^Nh_m^{(j)}[\mathbf{x}^t-\mu_m^j][\mathbf{x}^t-\mu_m^j]^T}{\sum_{t=1}^Nh_m^{(j)}(t)}$
后验概率 $h$ 的计算如下：
$h_m^j(t)=\frac{c_m^{(j)}N\mathbf(X^t;\mu_m^{j},\sum_m^j)}{\sum_{i=1}^nc_i^jN(\mathbf{x^t;\mu_i^j,\sum_i^j})}$
基于当前（第ｊ次）的参数估计， $x^t$ 的条件概率取决于每一个采样。
ＧＭＭ模型适合用来对语音特征建模，而现实世界中组成的字的音节所包含的语音特征是有顺序概念在里面的，这时使用ＨＭＭ来表示其次序特征。
GMM模型不能有效的对呈非线性或者近似线性的数据进行建模。
##隐马尔科夫模型HMM(hidden markov model)
HMM,的核心就是状态的概念，状态本身是离散的随机变量，用于描述随机过程。
###马尔科夫链
设马尔科夫链的状态空间是 $q_t\in {s^{(j)},j=1,2,...,N}$ ，一个马尔科夫链 $\mathbf{q}_1^T=q_1,q_2,...,q_T$ ,可被转移概率完全表示，定义如下：
$p(q_t=s^{(j)}|q_{t-1}=s(i))\doteq p_{ij}(t),i,j=1,2,...,N$
如果转移概率和时间无关，则得到齐次马尔科夫链，其矩阵表示方式如下：
$A=\begin{bmatrix} p_{11}&p_{12}&p_{13}&...\\ p_{21}&p_{22}&p_{23}&...\\ p_{31}&p_{32}&p_{33}&... \end{bmatrix},\sum p_{ij}=1$
其观察概率分布 $P(o_tt|s^{(i)}),i=1,2,...,N$ ，观察向量 $o_t$ 是离散的，每个状态对应的概率分布用来描述观察 ${v_1,v_2,...,v_N}$ 的概率：
$b_i(k)=P(o_t=v_k|q_t=i),i=1,2,...,N$
在语音识别中，使用HMM的概率密度函数来描述观察向量 $o_t \in R^D$ 的概率分布，其概率密度函数在语音识别中选择GMM的概率密度函数：
$b_i(o_t)=\sum_{m=1}^M\frac{c_im}{(2\pi)^{D/2}|\sum_i|^{1/2}}exp[-\frac{1}{2}(o_t-\mu_{i,m})^T\sum_{i,m}^{-1}(o_t-\mu_i,m)]$
隐马尔科夫模型是统计模型，其被用来描述一个含有隐含位置参数的马尔科夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来进一步的分析。例如模式识别。
###隐马尔科夫模型
其是序列的概率模型，在每一个时刻都有一个状态与之对应。计算 $p (s e q u e n c e ∣ m o d e l)$ 包括以对指数状态序列求和。可以使用动态规划递归求解，模型参数训练的目标是最大化训练数据集的概率。
其涉及两个重要的算法

前向后向算法
递归计算状态概率，在模型训练时使用。
维特比算法
对于给定的字符序列，查找到最有可能的HMM状态序列。
早期基于HMM的语言模型使用向量量化（Vector Quantization）将语音特征映射到一个符号（通常有256个符号），每一个发音由三个马尔科夫状态表示，也就是三音素模型。
###HMM参数学习－Baum-Welch法
定义“完整的数据”为 $\mathbf{y}=\mathbf{\{o,h\}}$ ,其中是 $o$ 观测值(如语音特征)。 $h$ 是隐藏随机变量（如非观测的HMM状态序列），这里要解决的是对未知模型参数 $\theta$ 的估计，这通过最大化对数似然度 $logp(o|\theta)可以求得$ ，然而直接求解不易。可转换为如下公式求 $\theta$ 的估计：
$Q(\theta|\theta_0)=E_{h|o}[\log p(\mathbf{y};\theta)|\mathbf{o};\theta_0]=E[\log p(\mathbf{o},\mathbf{h};\theta)|\mathbf{o};\theta_0]$
其中 $\theta_0$ 是前一次的估计。则上式离散情况下的期望值如下：
$Q(\theta|theta_0)=\sum_hp(\mathbf{h}|\mathbf{o})\log p(\mathbf{y}:\theta)$
为了计算的方便，将数据集改为 $\mathbf{y}=[\mathbf{o}_1^T,\mathbf{q}_1^T]$ , $\mathbf{o}依然是观测序列$ ， $\mathbf{h}是观测序列$ ， $mathbf{q}$ 是马尔科夫链状态序列，BaTum-Welch算法中需要在Ｅ步骤中计算得到如下的条件期望值，或成为辅助函数 $Q(\theta|\theta_0)$ :
$Q(\theta|\theta_0)=E[\log p(\mathbf{o_1^T,q_1^T|\theta})\mathbf{o_1^T,\theta_0}]$
这里期望通过隐藏状态序列 $\mathbf{q_1^T}$ 确定得到。
###维特比算法
在给定观察序列 $\mathbf{o}_1^T=\mathbf{o}_1,\mathbf{o}_2,...,\mathbf{o}_T$ 的情况下，如何高效的找到最优的HMM状态序列。动态规划算法用于解决这类 $\mathbf{T}$ 阶路劲最优化的问题被称为维特比（Viterbi）算法。对于转移状态 $a_{ij}$ 给定的HMM，设状态输出概率分布为 $b_i(\mathbf{o_t})$ ，令 $\delta_i(t)$ 表示部分观察序列 $\mathbf{o}_1^t$ 到达时间 $t$ ，同时相应的HMM状态序列在该时间处在状态 $i$ 时的联合似然度的最大值：
$\delta_i(t)=max_{q_1,q_2,...,q_{t-1}}P(\mathbf{o}_1^t,q_1^{t-1},q_t=i)$
对于最终阶段 $t = T$ ，有最优函数 $\delta_i^T$ ，这通过计算所有 $t\le{T-1}$ 的阶段来得到。当前处理 $t + 1$ 阶段的局部最优似然度，可以使用下面的函数等式来进行递归得到：
$\delta_j^{t=1}=max_i\delta_i(t)a_{ij}b_j(\mathbf{o}_{t+1})$
在语音建模和相关语音识别应用中一个最有趣且特别的问题就是声学特征序列的长度可变性。
###HMM识别器
单词序列 $\mathbf{W}(w_1,w_2,...,w_k)$ 被分解为基音序列。在已知单词序列 $\mathbf{W}$ 下观察到特征序列 $\mathbf{Y}$ 的概率 $p(\mathbf{Y}|\mathbf{W})$ 按如下公式计算：
$P(Y|W)=\sum_QP(y|Q)P(Q|W)$
$\mathbf{Q}$ 是单词发音序列 $Q_1,...,Q_k$ ，每一个序列有事基音的序列 $Q_k=q_1^{(k)},q_2^({k)}...,$ ,则有：
$P(Q|W)=\prod_{k=1}^KP(Q_k|w_k)$

图2 基于HMM的音素模型
如上图所示，基音 $q$ 由隐马尔科夫密度表示，状态转移参数是 ${a_{ij}}$ ,观察分布是{b_j()}，其通常是混合高斯分布：
$b_j(\mathbf{y})=\sum_{m=1}^Mc_{jm}N(\mathbf{y};\mu_{jm},\sum_{jm})$
其中 $N$ 是均值为 $\mu_{jm}$ ,方差为 $\sum_{jm}$ ,约10到20维的联合高斯分布。由于声学向量 $\mathbf{y}$ 维度较高，协方差矩阵通常限制为对角阵。状态进入和退出是非发散。 $\mathbf{Q}$ 是基音序列的线性组合，声学似然如下：
$p(\mathbf{Y}|\mathbf{Q})=\sum_Xp(\mathbf{X,Y|Q})$
其中 $\mathbf{X}=x(0),...,x(T)$ 是混合模型的状态序列。
$p(\mathbf{X,Y|Q})=a_{x(0),x(1)}\prod_{t=1}^Tb_x(t)(y_t)a_{x(t),x(t+1)}$
声学模型参数 ${a_{ij}}$ 和 ${b_j()}$ 可以使用期望最大化的方式从语料库中训练得到。
由于发音通常是上下文相关的，如food和cool，通常使用三音子模型，以实现上下文相关法。如果有N个基音。那么将有 $N^3$ 个可能的三音子。可以使用映射集群的方式缩减规模。
逻辑到物理模型集群通常是对状态层次的集聚而非模型层级的集群，每个状态所属的集群通过决策树确定。每个音素 $q$ 的状态位置有一个二进制决策树与之相关。每一个音素模型有三个状态，树的每个节点都是语义的判断。将由 $q$ 得到的逻辑模型音素 $q$ 的状态 $i$ 的集群。以最大化训练数据集的最终状态集概率为准则设置各个节点的判断条件。

##语言模型
语言模型计算单词序列的概率 $p(w_1,w_2,...,w_3)$ ,传统语言模型当前词的概率依赖前n个单词，这通常由马尔科夫过程描述。
$p(w_1,...,w_m)=\prod_{i=1}^{m}p(w_i|w_1,...,w_{i-1})\approx \prod_{i=1}^{m}p(w_i|w_{i-(n-1)},...,w_{i-1})$
###N-gram语言模型
一个单词序列 $W=w_1,...,w_k$ 的概率由以下公式表示：
$p(W)=\prod_{k=1}^Kp(w_k|w_{k-1},...,w_1)$
对于大词汇量的识别问题，第 $N$ 个单词的概率只依赖于前 $N - 1$ 个。
$p(W)=\prod_{k=1}^Kp(w_k|w_{k-1},w_{k-2},...,w_{k-N+1})$
通常N取2~4。通过计算训练数据集中N-gram出现的次数来形成最大似然概率。例如：
$C(w_{k-2}w_{k-1}w_k)$ 是 $w_{k-2}w_{k-1}w_k$ 三个词出现的次数， $C(w_{k-2}w_{k-1})$ 是 $w_{k-2}w_{k-1}$ 出现的概率，则：
$p(w_k|w_{k-1}w_{k-2})\approx \frac{C(w_{k-2}w_{k-1}w_k)}{C(w_{k-2}w_{k-1})}$
这种统计方式存在一个数据稀疏性问题。这通过结合非技术概率模型解决。
$p(w_k|w_{k-1},w_{k-2})=\frac{C(w_{k-2}{w_{k-1}w_k})}{C(w_{k-2}w{k-1})}$
一元和二元语法模型的概率基于训练文集中单词出现的次数来统计。
$p(w_2|w_1)=\frac{count(w_1,w_2)}{count(w_1)}$
$p(w_3|w_1,w_2)=\frac{count(w_1,w_2,w_3)}{count(w_1,w_2)}，如果c>c'; =d\frac{count(w_1,w_2,w_3)}{count(w_1,w_2)}，如果0p(w3∣w1,w2)=count(w1,w2)count(w1,w2,w3)，如果c>c′;=dcount(w1,w2)count(w1,w2,w3)，如果0<C<C′;=α(wk−1,wk−2)p(wk∣wk−1)，其它$

##DNN（Deep neutral network）深度神经网络
2013年算是语音识别新高度的又一个重要年份，该年提出基于深度学习的方法获得的效果比传统的好，不需要进行声学和语言进行建模，且自动学习过程可以获得比传统高斯等模型获得更加准确的毕竟（前提条件是训练模型的数据要准）。

名字起的很霸气，神经网络，实际上和生物神经相比还差十万八千里的距离，这里的DNN实际上就是计算图，更具体的多就是矩阵运算再加上非线性计算。
不过这里依然沿用媒体上的流行说法“神经元”。
2013~205
由于语音的前后相关性，所以多用RNN的方式进行处理，但是villa DNN（经典）由于其训练难度大等特性，其不同的变种RNN（区别于CNN）被各类学者提出来，这些模型包括LSTM/GRU，以及它们的很多其它的变种，这带来的好处是，计算量大大减小，很快称为新一代工程实现的首选。
这期间为了提升性能，也有其它额外的组件出来，如attention方法，行卷积方法等等
2016～
由于之前的声学模型和语言模型是分开训练的，它们的判决准则并不一致，所以会有一些拟合的方法加以改进这种不足，不过以前的方法多是修修补补，这个时段提出“端到端”的思想，举例来说，输入和传统语音识别系统一样，可以是MFCC或者PLP等特征，中间模块不再区分声学模型还是语言模型，一步到位，输出可以是音素，字符或者单词，这种模型的好处是对训练数据集不再要求是按照音素对齐的（loss函数是基于对其的方式求得的），可以丢弃掉音素的概念，这里的损失函数。基本思想是对于给定的输入序列，将网络输出理解成所有可能label的一个概率分布。经过分类后可以得到一个label。CTC就是端到端用的非常广的一种方法。

这期间还有将CNN和RNN拼接起来获得更高性能的，还有使用深度学习方法处理前端语音增强的。

###深度神经元网络架构
深度神经元网络是传统的多层感知系统（MLP，multilayer perception）。
$\mathbf{V}^l=f(z^l)=f(\mathbf{W}^l\mathbf{v}^l+\mathbf{b}^l),0Vl=f(zl)=f(Wlvl+bl),0<l<L$

###SyntaxNet
谷歌2016开源，称“世界最准确解析器”，tensorflow框架下快速，高性能的句法分析器。有三个特色

无标注数据-Tri-training
调整过的神经网络模型
结构感知
###Word2vec&Glove
word2verc是谷歌2013年开源的词向量处理法，占用内存少，glove是全局向量的缩写，也是谷歌开源词向量技术，数据量充足时训练效果会优于word2vec，训练时间长。
####Skip-Gram模型
每一个字 $\in W$ 由一个向量表示 $v_w \in R^d$ ，类似的每一个上下文 $\in C$ 由向量 $v_c \in R^d$ 表示， $W$ 是单词， $C$ 是上下文, $d$ 是嵌入的维度。
该语法模型的目的是查找使单词-上下文对最为合理的 $v_w \cdot v_c$ 乘积。
假设观察到的单词 $w$ 和上下文 $c$ 对 $(w, c)$ 的数据集是 $D$ .
使用 $p (D = 1 ∣ w, c)$ 指示 $(w, c)$ 源于数据集 $D$ 的概率。 $p (D = 0 ∣ w, c) = 1 - p (D = 1 ∣ w, c)$ 表示 $(w, c)$ 不在数据集 $D$ 的概率。分布模型如下：
$p(D=1|w,c)=\frac{1}{1+e^{-v_w\cdot v_c}}$
其中 $v_w$ 和 $v_c$ 是两个要学习的 $d$ 维向量。目标是使观察到的单词/语句对的对数概率最大化，这样可以得到目标函数：
$argmax_{v_w,v_c}\sum_{(w,c) \in D}log\frac{1}{1+e^{-v_c\cdot v_w}}$

自动语音识别（ASR）：技术、应用与未来 ajie1117 语音识别人工智能
自动语音识别（ASR）：技术、应用与未来1.ASR简介自动语音识别（ASR，AutomaticSpeechRecognition）是一种将语音转换为文本的技术。它利用人工智能（AI）、深度学习和自然语言处理（NLP）技术来识别和理解人类的语言，使计算机能够与人类进行更自然的交互。2.ASR的工作原理ASR的核心流程通常包括以下几个步骤：语音信号采集：通过麦克风或其他设备获取音频数据。预处理：去除噪
python离线语音转文本_使用Python将语音转换为文本的方法 weixin_39760619 python离线语音转文本
使用Python将语音转换为文本的方法,语音,转换为,文本,您的,麦克风使用Python将语音转换为文本的方法易采站长站，站长之家为您整理了使用Python将语音转换为文本的方法的相关内容。语音识别是计算机软件识别口语中的单词和短语，并将其转换为可读文本的能力。那么如何在Python中将语音转换为文本？如何使用SpeechRecognition库在Python中将语音转换为文本？我们不需要从头开始
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
【微信小程序（云开发模式）变通实现DeepSeek支持语音】技术与健康微信小程序 notepad++小程序
整体架构前端（微信小程序）：使用微信小程序云开发能力，实现录音功能。将录音文件上传到云存储。调用云函数进行语音识别和DeepSeek处理。界面模仿DeepSeek，支持文本编辑。后端（云函数+Node.js）：使用云函数调用腾讯云语音识别（ASR）服务。调用DeepSeekAPI处理文本。步骤1：初始化云开发环境在微信开发者工具中创建小程序项目，并开通云开发。在project.config.jso
AI 大模型应用数据中心的数据迁移架构 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
AI大模型、数据中心、数据迁移、架构设计、迁移策略、性能优化、安全保障1.背景介绍随着人工智能（AI）技术的飞速发展，大规模AI模型的应用日益广泛，涵盖了自然语言处理、计算机视觉、语音识别等多个领域。这些AI模型通常需要海量的数据进行训练和推理，因此数据中心作为AI应用的基础设施，显得尤为重要。然而，随着AI模型规模的不断扩大，数据中心面临着新的挑战：数据规模庞大:AI模型的训练和推理需要海量数据
录音文字转换专家，一键搞定音转文字，让你的工作效率飞起来！开开心心_Every python eclipse django virtualenv pygame tornado flask
录音转文字助手是一款功能丰富的app，主要聚焦于语音识别、音频转文字以及实时语音翻译等功能。在这个app中，其内置了一套强大的识别系统。这套系统具备快速且无损转换的能力，无论是语音内容，还是音频文件内容，它都能够迅速地将其转换为文字内容并输出。而且，该app的功能不仅局限于此，它还可以进行多语种的翻译操作，这为不同语言需求的用户提供了极大的便利。帮助中心帮助中心相关问题解答：一、安装报错的处理安卓
视频转音频, 音频转文字言之。 python 音视频
Ubuntu24环境准备#系统级依赖sudoaptupdate&&sudoaptinstall-yffmpegpython3-venvgitbuild-essentialpython3-dev#Python虚拟环境python3-mvenv~/ai_summarysource~/ai_summary/bin/activate核心工具链工具用途安装命令Whisper语音识别pipinstallope
H5语音识别功能(Web Speech API+科大讯飞) 辣辣1 语音识别前端
H5语音识别效果图:方案一:WebSpeechAPI(免费,IE浏览器可用,谷歌浏览器不可用)方案一：WebSpeechAPI开始停止识别结果:{{finalTranscript}}{{interimTranscript}}import{ref,onMounted,onBeforeUnmount}from"vue";constisSupported=ref(false);constisRecord
如何在 Python 中将语音转换为文本无水先生语音处理人工智能综合 python xcode 开发语言
一、说明学习如何使用语音识别Python库执行语音识别，以在Python中将音频语音转换为文本。想要更快地编码吗？我们的Python代码生成器让您只需点击几下即可创建Python脚本。现在就现在试试！二、语言AI库2.1相当给力的转文字库语音识别是计算机软件识别口语中的单词和短语并将其转换为人类可读文本的能力。在本教程中，您将学习如何使用SpeechRecognition库在Python中
书籍-《动手学深度学习（英文版）》
书籍：DiveintoDeepLearning作者：AstonZhang，ZacharyC.Lipton，MuLi，AlexanderJ.Smola出版：CambridgeUniversityPress编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《动手学深度学习（英文版）》01书籍介绍深度学习已经彻底改变了模式识别，为计算机视觉、自然语言处理和自动语音识别等领域提供了强大的工具。应用深度学
【微信小程序变通实现DeepSeek支持语音】技术与健康微信小程序小程序
微信小程序实现录音转文字，并调用后端服务（Node.js）进行语音识别和，然后调用DeepSeek处理的完整实现。整体架构前端（微信小程序）：实现录音功能。将录音文件上传到后端。接收后端返回的语音识别结果，并显示在可编辑的文本框中。调用DeepSeek处理文本。后端（Node.js）：接收小程序上传的录音文件。调用腾讯云语音识别（ASR）服务，将语音转换为文字。返回识别结果给小程序。提供DeepS
深入探索 PyTorch 在语音识别中的应用 Zoro｜ PyTorch Deep Learning 机器学习 pytorch 语音识别人工智能
深入探索PyTorch在语音识别中的应用在本篇博客中，我将分享如何使用PyTorch进行语音识别任务，重点围绕环境配置、数据预处理、特征提取、模型设计以及模型比较展开。本文基于最近一次机器学习作业（HW2）的任务内容，任务目标是对语音信号进行逐帧音素预测，从而完成多类别分类任务。一、介绍任务背景任务目标：利用深度神经网络对语音信号进行逐帧音素预测。音素定义：音素是语音中能够区分单词的最小语音单位。
AI人工智能深度学习算法：搭建可拓展的深度学习模型架构 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
深度学习、模型架构、可拓展性、神经网络、机器学习1.背景介绍深度学习作为人工智能领域最前沿的技术之一，在图像识别、自然语言处理、语音识别等领域取得了突破性的进展。深度学习模型的成功离不开其强大的学习能力和可拓展性。本文将深入探讨深度学习算法的原理、模型架构设计以及可拓展性的关键要素，并通过代码实例和实际应用场景，帮助读者理解如何搭建可拓展的深度学习模型架构。2.核心概念与联系深度学习的核心概念是人
《AI大模型趣味实战》 No3：快速搭建一个漂亮的AI家庭网站-相册/时间线/日历/多用户/个性化配色/博客/聊天室/AI管家(下) 带娃的IT创业者 AI大模型趣味实战人工智能 xcode macos
《AI大模型趣味实战》No3：快速搭建一个漂亮的AI家庭网站-相册/时间线/日历/多用户/个性化配色/博客/聊天室/AI管家(下)摘要本文介绍了家庭网站V1.3版本的更新内容，主要聚焦于AI管家功能的优化与完善。V1.3版本对AI管家模块进行了全面升级，包括使用更快速的GLM-4-Flash模型、优化语音交互体验、改进用户界面以及增强系统稳定性。本文详细解析了这些改进的技术实现，包括语音识别与合成
李开复：AI 2.0 时代的价值 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
人工智能，AI2.0，价值创造，伦理挑战，未来趋势1.背景介绍人工智能（AI）技术近年来发展迅速，从语音识别、图像识别到自然语言处理，AI已经渗透到我们生活的方方面面。李开复，作为一位享誉全球的人工智能专家，在《AI2.0时代的价值》一文中，深刻地探讨了AI2.0时代带来的机遇与挑战，以及AI如何为人类创造价值。AI1.0时代主要集中在规则驱动的系统，例如围棋、象棋等游戏的AI。而AI2.0时代则
李开复：AI 2.0 时代的机遇 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
人工智能，深度学习，Transformer，大模型，通用人工智能，AI2.0，应用场景，未来趋势1.背景介绍人工智能（AI）技术近年来发展迅速，从语音识别、图像识别到自然语言处理等领域取得了突破性进展。其中，深度学习作为人工智能的核心技术之一，推动了AI技术的飞速发展。然而，深度学习模型的训练成本高、数据依赖性强、可解释性差等问题仍然制约着AI技术的进一步发展。李开复先生在《AI2.0时代的机遇》
Python 中的离线语音转文本无水先生语音编程人工智能综合 python 开发语言
Python中的离线语音转文本一、说明写作、编码、写博客、办公室工作、文档、报告都需要一个人在键盘上打字。这会导致健康问题，如腕管综合症、手和手指疼痛等。我非常了解这种痛苦。这是用于创建自己的离线运行的听写程序的Python代码。只需对着耳机的麦克风说话，它就会将您的话转换为文本并将其保存在文本文件中。二、安装您将需要安装Python库—vosk、pyaudio。 Vosk是一个语音识别
最方便的离线python实时中文语音识别！迟钝皮纳德 python 语音识别
废话不多说，直接上代码，先安装环境需要安装的包：jsonpyaudionumpyvosk新建一个py文件写入：importjsonimportpyaudioimportnumpyasnpfromvoskimportModel,KaldiRecognizer,SetLogLeveldefSaveWave(model):#设置音频参数FORMAT=pyaudio.paInt16#音频流的格式RATE=
基于树莓派的轻量级AI数字人开发全流程指南 ——从硬件选型到语音视觉交互实战 zhz5214 AI ai 人工智能 AI写作 AI编程智能体
1.背景与目标AI数字人，像是虚拟助手、交互式角色，在当下数字化浪潮中扮演着越来越重要的角色。其核心在于整合语音识别、视觉感知、自然语言处理（NLP）和动态反馈四大关键功能。本文将以树莓派5开发板为核心，搭配AI加速硬件，结合开源框架，为大家详细阐述如何实现本地化轻量级数字人开发。这一方案特别适用于教育领域，帮助学生更直观地理解AI技术；在智能家居场景中，也能为用户带来更智能、便捷的交互体验。2.
AI 大模型应用数据中心建设：高性能计算与存储架构 AI智能涌现深度研究 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
AI大模型、数据中心、高性能计算、存储架构、分布式训练、GPU加速、数据管理1.背景介绍近年来，人工智能（AI）技术取得了飞速发展，特别是深度学习模型的突破性进展，催生了一系列基于大规模数据训练的强大AI模型，例如GPT-3、BERT、DALL-E等。这些AI大模型在自然语言处理、计算机视觉、语音识别等领域展现出强大的应用潜力，但也对计算资源和数据存储提出了极高的要求。传统的计算架构难以满足AI大
一个简单的语音识别实现---百度在线语音识别REST API SDK（Python）简单使用 DerrickOzil 语音识别 python sdk 语音识别
百度在线语音识别RESTAPISDK（Python）简单使用首先申请开发者权限注册开发者信息完成注册创建新应用下载SDK并查看key在应用管理中，选择查看key，记录AppID、APIKey、SecretKey三个参数值。测试音频链接：http://pan.baidu.com/s/1o8Ue4B4密码：o5r1]注意事项音频格式限制pcm（不压缩）、wav、amr采样频率及位数支持评测8k/16k
AI大模型从入门到精通，2025终极指南！好卷啊，又不能躺平，只能悄悄卷你们了！大模型教程人工智能大模型训练 LLM 知识库大模型大模型入门大模型学习
什么是AI大模型？AI大模型是指使用大规模数据和强大的计算能力训练出来的人工智能模型。这些模型通常具有高度的准确性和泛化能力，可以应用于各种领域，如自然语言处理、图像识别、语音识别等。为什么要学AI大模型？2024人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于
FireRedASR：精准识别普通话、方言和歌曲歌词！小红书开源工业级自动语音识别模型蚝油菜花每日 AI 项目与应用实例语音识别人工智能人工智能开源
❤️如果你也关注AI的发展现状，且对AI应用开发感兴趣，我会每日分享大模型与AI领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！微信公众号｜搜一搜：蚝油菜花大家好，我是蚝油菜花，今天跟大家分享一下FireRedASR这个小红书开源的工业级自动语音识别模型。快速阅读FireRedASR是小红书开源的工业级自动语音识别模型，支持普通话、中文方言和英语。该模型在普通话ASR基准测试
语音识别后处理代码 hitsz_syl 语音识别后处理
importreimportdifflibimportosfromdatetimeimportdatetime,timedeltadefextract_snippets_no_duplicates(input_file,output_file,window=150):"""从输入文本文件中提取包含目标字符（A、B、C、D、"开始"、"结束"）前后`window`个字符范围的文本。提取时扩展到完整的
热门AI创作助手推荐【第一期】量子星澜文心一言 AI写作 chatgpt
星游AI创作助手人工智能在现代科技中的应用非常广泛，涵盖了诸多领域，包括但不限于以下几个方面：1.语音识别和自然语言处理：人工智能技术被广泛应用于语音识别和自然语言处理领域，例如智能助手、翻译系统、语音交互系统等。2.机器学习和数据分析：人工智能的机器学习算法被用于数据分析、预测建模、用户个性化推荐等领域，帮助企业做出更准确的商业决策。3.计算机视觉：人工智能在计算机视觉领域的应用包括图像识别、视
AI笔记——语音识别 Yuki-^_^ 人工智能 AI 人工智能笔记语音识别
摘要：语音识别（AutomaticSpeechRecognition,ASR）是人工智能领域的一项重要技术，它将人类的语音信号转换成文字。随着科技的发展，语音识别已经成为现代生活和工作中不可或缺的一部分。本文旨在介绍语音识别的基本原理、关键技术、应用场景以及未来发展趋势。一、历史与发展语音识别技术的历史可以追溯到20世纪50年代，那时的技术基于规则和模板。随着计算能力的提升和深度学习方法的出现，语
自动语音识别（ASR）模型全览 u013250861 #语音识别人工智能
以下为截至2024年底主流ASR模型的详细列表，涵盖传统模型、端到端模型、开源框架及商业解决方案，按技术类型分类整理，并标注适用场景：一、传统混合模型（GMM/HMM、DNN/HMM）GMM/HMM公开时间：1980年代参数量：百万级（依赖状态数）特点：基于高斯混合模型（GMM）与隐马尔可夫模型（HMM）结合，需手工对齐音素状态。适用场景：早期电话语音识别（嵌入式设备）、孤立词识别（工业控制终端）
Assembly语言的自然语言处理花韵婷包罗万象 golang 开发语言后端
Assembly语言在自然语言处理中的应用引言自然语言处理（NaturalLanguageProcessing,NLP）作为人工智能的一个重要分支，致力于实现计算机与人类语言之间的互动。随着计算能力的提升以及大数据的蓬勃发展，NLP在各个领域的应用如火如荼。从语音识别、机器翻译到情感分析等，NLP正在改变我们与信息之间的互动方式。不过，当前主流的NLP研究通常是用高级编程语言（如Python、Ja
NPU的应用场景：从云端到边缘绿算技术 NPU架构介绍缓存人工智能科技深度学习
NPU的应用场景非常广泛，主要包括以下几个方面：1.云计算与数据中心AI推理服务：在云端提供高效的AI推理服务，例如图像识别、语音识别。模型训练加速：在大规模训练任务中，NPU可以作为加速单元，提升训练效率。2.边缘计算智能摄像头：在安防监控中，NPU可以实时处理视频流，实现目标检测和跟踪。智能音箱：在语音助手中，NPU可以加速语音识别和自然语言处理任务。3.自动驾驶实时感知：NPU可以加速自动驾
吴恩达机器学习笔记复盘（二）监督学习和无监督学习 wgc2k 机器学习机器学习笔记学习
监督学习经济价值以及定义监督学习是机器学习中创造了99%经济价值的类型，它是学习输入到输出映射的算法，关键在于给学习算法提供包含正确答案（即给定输入X的正确标签Y）的学习例子。生活中的例子邮件分类，输入是电子邮件，输出是判断邮件是否为垃圾邮件。语音识别，输入音频剪辑，输出文本记录。机器翻译，输入一种语言文本，输出其他语言的相应翻译。在线广告，输入广告和用户信息，预测用户是否点击广告，为公司带来大量
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，

语音识别概述

你可能感兴趣的:(语音识别)