weixin_30348519

语音识别ASR - HTK(HResults)计算字错率WER、句错率SER

HResults计算字错率(WER)、句错率(SER)

前言

好久没发文，看到仍有这么多关注的小伙伴，觉得不发篇文对不住。确实好久没有输出经验总结相关的文档，抽了个时间，整理了下笔记，发一篇关于ASR常用测试指标。比如字错率、句错率指标，以及计算工具HResults的使用篇，后续慢慢找时间输出一些人工智能领域，小白可理解可用的基础知识，或者整理一些其他笔记发一发。

转载说明

本文为原创文章，如需转载，请在开篇显著位置注明作者Findyou和出处

一、基础概念

1.1、语音识别(ASR)

语音识别（speech recognition）技术，也被称为自动语音识别（英语：Automatic Speech Recognition, ASR），

狭隘一点白话说：将语音转换为文字的技术。

维基百科： https://zh.wikipedia.org/wiki/语音识别

Findyou：一般使用ASR缩写。

1.2、句错率(SER)

句错误率：Sentence Error Rate
解释：句子识别错误的的个数，除以总的句子个数即为SER
计算公式：(所有公式省了 * 100%)

SER = 错误句数 / 总句数

1.3、句正确率(S.Corr）

句正确率：Sentence Correct

计算公式：

S.Corr = 1 - SER = 正确句数 / 总句数

1.4、字错率(WER/CER)

WER，Word error rate，词错率，但一般称为字错率，是语音识别领域的关键性评估指标，WER越低表示效果越好！

CER，Character Error Rate，字符错误率，中文一般用CER来表示字错率，原因请见1.4.3。

维基百科：https://en.wikipedia.org/wiki/Word_error_rate

»1.4.1 、计算原理

字符串编辑距离（Levenshtein距离）算法

编辑距离：https://en.wikipedia.org/wiki/Levenshtein_distance

»1.4.2、计算公式(重要)

WER = (S + D + I ) / N = (S + D + I ) / (S + D + H )

（公式图片和文字一样，仅方便拷贝）

S 为替换的字数，常用缩写WS
D 为删除的字数，常用缩写WD
I 为插入的字数，常用缩写WI
H 为正确的字数，维基百科是C，但我统一改用H
N 为（S替换+ D删除+ H正确）的字数

Findyou：

1.正确的字数：维基百科里用的是C代表，H = N - (S+D) = C，我这边直接改成H，减少过多概念与变量。

2.大多数文章都没有给出N的计算方式，很容易误以为是原句总字数或者识别结果总字数。

3.不理解没关系，下面实例会帮助理解。

»1.4.3、问题

问题1：为什么WER会大于100%

因为有插入字(识别多出来的字)，所以理论上WER有可能大于100%，在下面实例我会举例（请见2.3.5），但实际场景，特别是大样本量的时候，基本太不可能出现。

问题2：说中文应该用CER，即“字符错误率”（Character Error Rate）

Findyou举个栗子：

英文：hello   # 算一个Word
中文：你好     # 算两个字符

啰嗦文字解释，就是：

英文，因为最小单元是Word，语音识别应该用"字错误率"（WER），

中文，因为最小单元是字符，语音识别应该用“字符错误率”（CER）。

BUT(就是但是的意思...)，他跟我前面那一句一样，说的都是废话！

我们计算的时候谁不是按：中文的一个字符 = 英文的一个Word，那这样用WER的公式有什么问题呢？

谁再跟你咬文嚼字，怼他，使劲怼！

怼完，说回严谨的话，建议采用CER表示，哈哈哈哈哈......

1.5、字正确率(W.Corr）

字正确率，Word Correct，一般国内宣传用的多，识别率(识别正确率)达到多少多少(请见1.7)。

计算公式

W.Corr = ( N - D - S ) / N = H / N

问题：只计算了识别正确的字，没有管多出来的字（I插入），当然一般情况下不会有什么问题。

1.6、字准确率(W.Acc）

字准确率，Word Accuracy

计算公式

W.Acc = 1 - WER = ( N - D - S - I ) / N = (H - I) / N

（图片和文字一样，方便拷贝，W.Acc是Findyou自己用的简写）

特殊情况：当 I=0 时， W.Acc = W.Corr
问题：为什么W.Acc会是负数？

同WER，因为有插入字。换个说法，因为字准确率=1 - WER，而WER可能大于1，所以W.Acc会出现负数，但实际情况基本不存在。

1.7、聊点其他

ASR影响素因

人群：男、女、老人、小孩...
音量)
距离(与拾音设备的距离)
角度(与拾音设备的角度)
设备(拾音设备的硬件)
环境：安静、嘈杂(自噪、外噪)、家庭、商场...
句长
口音、方言
语速
语言：中文、英语
等等

大概举例几个影响因素(懒得放脑图，文字也方便大家拷贝)，

因为ASR的识别影响因素过多，所以很多时候会从各种纬度测试，比如：男生字错率、女生字错率，或者小孩字错率、平均字错率等等,

如果没有公布测试数据与方法，不可信，因会存在几个操作，最大的问题是：

过拟合：训练数据、测试数据、验证数据是同一份，打外比方说：要考试的卷子就是你前一天发的老师发的练习卷还带答案的。

先扯到这，后面找时间再整理一篇ASR测试方法系统讲一讲，

做为测试我们如何去测ASR以及制定各种测试标准。

行业水平

- 英语-WER；
  - IBM：行业标准Switchboard语音识别任务，2016年 6.9%，2017年 5.5%
  - 微软：行业标准Switchboard语音识别任务，2016年 6.3% -> 5.9%，2017年 5.1%，这个目前最低的。

说明：ICASSP2017上IBM说人类速记员WER是5.1%，一般认为5.9% 的字错率是人类速记员的水平。

- 中文-WER/CER：
  - 小米：2018年小米电视 2.81%
  - 百度：2016年短语识别 3.7%
- 中文-W.Corr：
  - 百度：2016年识别准确率 97%
  - 搜狗：2016年识别准确率 97%
  - 讯飞：2016年识别准确率 97%

Findyou部分数据来源：

微软WER 5.9%：https://arxiv.org/abs/1610.05256

微软WER 5.1%： https://www.microsoft.com/en-us/research/wp-content/uploads/2017/08/ms_swbd17-2.pdf

小米电视CER 2.81% ：https://arxiv.org/pdf/1707.07167.pdf

国内百度等同时宣布识别准确率97% ： https://www.zhihu.com/question/53001402

二、HTK工具

了解了ASR相关的指标，需要有工具来进行结果统计计算，

本次主要介绍HTK工具，python也有Levenshtein的库，但没有HResults现成的来的简单。

2.1、HTK工具简介

HTK工具，HTK（HMM Toolkit）一款基于HMM模型(隐马尔可夫模型)的语音处理工具，HTK主要用于语音识别研究，尽管它已被用于许多其他应用，包括语音合成，字符识别和DNA测序的研究。HTK最初是在剑桥大学工程系（CUED）的机器智能实验室（以前称为语音视觉和机器人小组）开发的。后版权辗转到Microsoft，其保留了原始HTK代码的版权，具体介绍请移步HTK官网。

HTK官方主页：http://htk.eng.cam.ac.uk/
最新稳定版：HTK 3.4.1
最新版：HTK 3.5

Findyou：下载你需要先注册用户，记住你的密码，FTP下载的时候需要。

2.2、HResults简介与使用

HTK有一系列工具，但我主要想写的是HResults。

Centos系统编译后的HTK3.4.1版本,HResults下载地址

百度网盘: https://pan.baidu.com/s/1gfm9jjqjZzJXU0lyGrLrCA 提取码: wbfp

»2.2.1 、使用帮助

$ HResults

USAGE: HResults [options] labelList recFiles...

 Option                                       Default

 -a s    Redefine string level label          SENT
 -b s    Redefine unitlevel label             WORD
 -c      Ignore case differences              off
 -d N    Find best of N levels                1
 -e s t  Label t is equivalent to s
 -f      Enable full results                  off
 -g fmt  Set test label format to fmt         HTK
 -h      Enable NIST style formatting         off
 -k s    Results per spkr using mask s        off
 -m N    Process only the first N rec files   all
 -n      Use NIST alignment procedure         off
 -p      Output phoneme statistics            off
 -s      Strip triphone contexts              off
 -t      Output time aligned transcriptions   off
 -u f    False alarm time units (hours)       1.0
 -w      Enable word spotting analysis        off
 -z s    Redefine null class name to s        ???
 -A      Print command line arguments         off
 -C cf   Set config file to cf                default
 -D      Display configuration variables      off
 -G fmt  Set source label format to fmt       as config
 -I mlf  Load master label file mlf
 -L dir  Set input label (or net) dir         current
 -S f    Set script file to f                 none
 -T N    Set trace flags to N                 0
 -V      Print version information            off
 -X ext  Set input label (or net) file ext    lab

HTKBook: https://labrosa.ee.columbia.edu/doc/HTKBook21/node233.html

»2.2.2 、文本转换为MLF文件

测试用例：src.txt (暂时不要去管专业术语)

1 今天天气怎么样
2 明天天气怎么样

Findyou:

1.第一列是数字，主要是为了与ASR结果一一对应

2.我们一般会剔除标点符号计算WER，所以注意去标点符号

src.txt - > src.mlf 文件

#!MLF!#
"*No1.lab"
今
天
天
气
怎
么
样
.
"*No2.lab"
明
天
天
气
怎
么
样
.

Findyou：

1.注意第一行加：#!MLF!#

2.注意"*xxx.lab"

3.注意每句的点

ASR识别结果：testResult.txt 文件

1 惊天天气
2 明天天气怎么样

Findyou：

1.很多时间是自动化执行，或手工执行得到识别结果

2.测试结果，第一列应该与src.txt对齐，通过第一列来识别需要对比的语料。

例：HResults 会根据 "*No1.lab" 对应 "*No1.rec" 来找到对应的文本计算WER。

testResult.txt - > testResult.mlf 文件

#!MLF!#
"*No1.rec"
惊
天
天
气
.
"*No2.rec"
明
天
天
气
怎
么
样
.

Findyou：

1.txt转换到mlf可以用脚本转换，注意双个mlf文件的不同，lab与rec关键字。

»2.2.3 、TXT转换为MLF脚本

src2mlf.py

 1 #-*- coding:utf-8 -*-
 2 import os,sys
 3 
 4 def to_mlf(xi):
 5     dx={
 6        "0":"零",
 7        "1":"一",
 8        "2":"二",
 9        "3":"三",
10        "4":"四",
11        "5":"五",
12        "6":"六",
13        "7":"七",
14        "8":"八",
15        "9":"九"
16     };
17     d=[]
18     eng=[]
19     tx=[",",".","!","(",")","，","。","！",'；','、','：','？','“','”'];
20     for x in xi:
21         u=x.encode("utf-8")
22         if u in tx:
23             continue;
24         if len(u)==1:
25             if u in dx:
26                 u=dx[u]
27             eng.append(str(u, encoding='utf-8'))
28         else:
29             if len(eng)>0:
30                 d.append("".join(eng).upper())
31                 eng=[]
32             d.append(str(u, encoding='utf-8'))
33     if len(eng)>0:
34             d.append("".join(eng).upper())
35     return d
36 
37 def fn_to_lab(s):
38     x=s.split()
39     for i in x:
40         d=to_mlf(i.strip())
41         if len(d)>0:
42             print("\n".join(d))
43     print('.')
44 
45 fn=sys.argv[1]
46 print('#!MLF!#')
47 for l in open(fn):
48     l=l.strip()
49     x=l.split()
50     k=x[0].strip()
51     v=" ".join(x[1:])
52     t=".".join(k)
53     print('"*No%s.lab" ' % t)
54     fn_to_lab(v)

Findyou：

1.此脚本是将测试用例转为src.mlf

2.如需将测试结果testResult.txt 转testResult.mlf，则拷贝一份如 rec2mlf.py，改第53行的关键字lab为rec即可。

脚本使用

1 python src2mlf.py src.txt >src.mlf
2 python rec2mlf.py testResult.txt >testResult.mlf

»2.2.4 、常用命令

以上文2.2.2 举例文本为例

HResults -t -I src.mlf /dev/null testResult.mlf

Aligned transcription: *No.1.lab vs *No.1.rec
 LAB: 今 天 天 气 好 吗
 REC: 惊 天 天 气
    ,-------------------------------------------------------------.
    | HTK Results Analysis at Wed Apr  3 16:26:59 2019            |
    | Ref: src.mlf                                                |
    | Rec: testResult.mlf                                         |
    |=============================================================|
    |           # Snt |  Corr    Sub    Del    Ins    Err  S. Err |
    |-------------------------------------------------------------|
    | Sum/Avg |    2  |  76.92   7.69  15.38   0.00  23.08  50.00 |
    `-------------------------------------------------------------'

HResults -t -I src.mlf /dev/null testResult.mlf

Aligned transcription: *No.1.lab vs *No.1.rec
 LAB: 今 天 天 气 好 吗
 REC: 惊 天 天 气
====================== HTK Results Analysis =======================
  Date: Wed Apr  3 16:26:59 2019
  Ref : src.mlf
  Rec : testResult.mlf
------------------------ Overall Results --------------------------
SENT: %Correct=50.00 [H=1, S=1, N=2]
WORD: %Corr=76.92, Acc=76.92 [H=10, D=2, S=1, I=0, N=13]
===================================================================

2.3、HResults样例解析

以一句测试用例与测试结果为例，举实例让大家快速了解HResults的WER。

»2.3.1 只有删除(D)

# 说明
LAB:测试用例
REC:识别结果

# 结果
Aligned transcription: *No.1.lab vs *No.1.rec
LAB: 今 天 天 气 怎 么 样
REC: 今 天 天 气
,-------------------------------------------------------------.
| HTK Results Analysis at Tue Apr  2 22:37:09 2019            |
| Ref: src.mlf                                                |
| Rec: testResult.mlf                                         |
|=============================================================|
|           # Snt |  Corr    Sub    Del    Ins    Err  S. Err |
|-------------------------------------------------------------|
| Sum/Avg |    1  |  57.14   0.00  42.86   0.00  42.86 100.00 |
`-------------------------------------------------------------'

...
------------------------ Overall Results --------------------------
SENT: %Correct=0.00 [H=0, S=1, N=1]
WORD: %Corr=57.14, Acc=57.14 [H=4, D=3, S=0, I=0, N=7]
===================================================================

SER(句错率) = 1 / 1 = 100 %
S.Correct(句正确率) = 0 S.H / 1 S.N = 0.00 %
N = 0替换 + 3删除 + 4正确 = 7

WER(字错率) = ( S 0 + D 3 + I 0 ) / 7 = 42.86 %
W.Correct(字正确率) = H / N = 4 / 7 = 57.14 %
W.Accuracy(字准确率) = (H - I)/ N = 1 - W.Err = 57.14 %

»2.3.2 替换(S) + 删除(D)

LAB: 今 天 天 气 怎 么 样
REC: 惊 天 天 气
# 结果
...
|=============================================================|
|           # Snt |  Corr    Sub    Del    Ins    Err  S. Err |
|-------------------------------------------------------------|
| Sum/Avg |    1  |  42.86  14.29  42.86   0.00  57.14 100.00 |
`-------------------------------------------------------------'
...
SENT: %Correct=0.00 [H=0, S=1, N=1]
WORD: %Corr=42.86, Acc=42.86 [H=3, D=3, S=1, I=0, N=7]

SER = 1 - S.Corr = 100 %
S.Correct = S.H / S.N = 0.00 %
N = 1替 + 3删 + 3H = 7

WER = (S + D + I ) / N = 57.14 %
W.Correct = H / N = 42.86 %
W.Accuracy = (H - I) / N = 1 - W.Err = 42.86 %

»2.3.3 替换(S) + 删除(D) + 插入(I)

LAB: 今 天     天 气 怎 么 样
REC: 惊 天 田 天 气
# 结果
...
|=============================================================|
|           # Snt |  Corr    Sub    Del    Ins    Err  S. Err |
|-------------------------------------------------------------|
| Sum/Avg |    1  |  42.86  14.29  42.86  14.29  71.43 100.00 |
`-------------------------------------------------------------'
...
SENT: %Correct=0.00 [H=0, S=1, N=1]
WORD: %Corr=42.86, Acc=28.57 [H=3, D=3, S=1, I=1, N=7]

SER = 1 - S.Corr = 100 %
S.Correct = S.H / S.N = 0.00 %
N = 1S + 3D + 3H = 7

WER = (S + D + I) / N = 5/7 = 71.43 %
W.Correct = H / N = 42.86 %
W.Accuracy = (H - I) / N = 1 - W.Err = 28.57 %

»2.3.4 全错（结果字数<语料字数）

LAB: 今 天 天 气 好 吗
REC:             不 知 道
...
|=============================================================|
|           # Snt |  Corr    Sub    Del    Ins    Err  S. Err |
|-------------------------------------------------------------|
| Sum/Avg |    1  |   0.00  50.00  50.00   0.00 100.00 100.00 |
`-------------------------------------------------------------'
...
SENT: %Correct=0.00 [H=0, S=1, N=1]
WORD: %Corr=0.00, Acc=0.00 [H=0, D=3, S=3, I=0, N=6]

SER = 1 - S.Corr = 100 %
S.Correct = S.H / S.N = 0.00 %
N = 3S + 3D + 0H = 6

WER = (S + D + I) / N = 6/6 = 100.00 %
W.Correct = H / N = 0.00 %
W.Accuracy = (H - I) / N = 1 - W.Err = 0.00 %

»2.3.5 全错（结果字数>语料字数）

LAB:     今 天 天 气 好 吗
REC: 惊 田 田 七 豪 嘛 嘛
...
|=============================================================|
|           # Snt |  Corr    Sub    Del    Ins    Err  S. Err |
|-------------------------------------------------------------|
| Sum/Avg |    1  |   0.00 100.00   0.00  16.67 116.67 100.00 |
`-------------------------------------------------------------'
...
SENT: %Correct=0.00 [H=0, S=1, N=1]
WORD: %Corr=0.00, Acc=-16.67 [H=0, D=0, S=6, I=1, N=6]

SER = 1 - S.Corr = 100 %
S.Correct = S.H / S.N = 0.00 %
N = 6S + 0D + 0H = 6

WER = (S + D + I) / N = 7/6 = 116.67 %
W.Correct = H / N = 0.00 %
W.Accuracy = (H - I) / N = 1 - W.Err = -16.67 %

转载说明

本文为原创文章，如需转载，请在开篇显著位置注明作者Findyou和出处

转载于:https://www.cnblogs.com/findyou/p/10646312.html

VB.NET,C#字典对象来保存用户数据,支持大小写专注VB编程开发20年 java 开发语言
用这个保存的,登录时大小写不一样会不会无法识别根据你提供的SaveUsersToJson方法，我注意到你使用了JSON序列化来保存用户数据，但没有显式指定字典的比较器。这意味着在反序列化时，默认会使用区分大小写的比较器，导致大小写不同的用户名无法正确匹配。问题分析当你保存用户数据时：PrivateSubSaveUsersToJson(usersAsDictionary(OfString,UserI
三阶落地：腾讯云Serverless+Spring Cloud的微服务实战架构大熊计算机 #腾讯云架构腾讯云 serverless
云原生演进的关键挑战（1）传统微服务架构痛点资源利用率低（非峰值期资源闲置率>60%）运维复杂度高（需管理数百个容器实例）突发流量处理能力弱（扩容延迟导致P99延迟飙升）（2）Serverless的破局价值腾讯云SCF（ServerlessCloudFunction）提供：毫秒级计费粒度（成本下降40%~70%）百毫秒级弹性伸缩（支持每秒万级并发扩容）零基础设施运维同步调用异步事件用户请求API网
GPT-4o重磅升级！只需一条指令，教你秒出SCI级专业科研图！智写AI AI学术写作指南信息可视化人工智能
经过数月爆肝，七哥终于完成专业的学术AI使用教程，估计也有个80万字的详细操作指南。分为多个细分的专业写作场景，跟着一步一步操作，借助ChatGPT做学术、干科研、写论文、课题申报都变得超简单。欢迎加我交流（yida985），祝你一臂之力。七哥之前写过关于用AI生成流程图的教程，不过需要借助其他软件才能搞定完美的流程图。近期GPT-4o全新推出了“生图功能”，这个生图的过程就更加方便轻松了，全能G
Nginx与Tomcat：谁更适合你的服务器？当归1024 java 中间件 nginx nginx tomcat 服务器
nginx和Tomcat是两种不同类型的服务器软件，它们各有不同的用途和特点：基本定义nginx轻量级的HTTP服务器和反向代理服务器主要用于静态文件服务、负载均衡、反向代理TomcatJavaWeb应用服务器专门用于运行JavaWeb应用（JSP、Servlet）主要区别1.功能定位nginx：静态文件服务器反向代理服务器负载均衡器HTTP缓存服务器Tomcat：Java应用容器JSP/Serv
008 【入门】算法和数据结构简介要天天开心啊算法专栏算法数据结构
算法与数据结构系统概览|[算法]-[基础]-[通用]一、算法分类与应用1.硬计算类算法|[算法]-[中级]-[通用]特点应用场景复杂度特征-精确求解问题-可能带来较高计算复杂度-大厂笔试/面试-ACM竞赛-所有程序员岗位必考⏱️通常为O(n)~O(n²)//[示例]快速排序算法-分治思想核心实现publicvoidquickSort(int[]arr,intleft,intright){if(le
技术调研：时序数据库（一） myskybeyond 时序数据库时序数据库数据库
选择时序数据库时，选择当下主流的解决方案。目前主流的开源解决方案有InfluxDB、TDengine和TimescaleDB。下文从多个维度对比分析，最终根据需求做出选型决策。1.核心架构与设计理念数据库架构特点核心优势InfluxDB-专为时序数据设计的分布式数据库-基于时间线（TimeSeries）模型-开源版（OSS）与商业版（Cloud/Enterprise）功能差异大高写入吞吐量、原生支
【数据结构】顺序表 nanguochenchuan 数据结构数据结构
一，顺序表1.顺序表的定义顺序表是一种线性表的数据结构，它的数据元素按照一定次序依次存储在计算机存储器中，使用连续的存储空间来存储。顺序表中每个数据元素的位置都有一个序号，这个序号也称为元素在顺序表中的下标。顺序表的特点是：元素的逻辑顺序与物理顺序相同，支持随机访问，插入和删除元素的时间复杂度为O(n)，查找元素的时间复杂度为O(1)。2.优点与不足优点是访问速度快，因为它的元素在内存中是连续存储
Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
ssh -T [email protected]失败后解决方案青草地溪水旁 linux ssh git github
这个错误表示你的SSH连接无法到达GitHub服务器。以下是详细解决方案，按照优先级排序：首选解决方案：使用SSHoverHTTPS（端口443）这是最有效的解决方案，因为许多网络会阻止22端口：#编辑SSH配置文件nano~/.ssh/config添加以下内容：Hostgithub.comHostnamessh.github.comPort443Usergit保存后测试连接：ssh-Tgit@g
TDengine 3.3.5.0 新功能 —— 查看库文件占用空间、压缩率 TDengine （老段） TDengine 产品设计数据库时序数据库物联网 tdengine 涛思数据 iot
1.背景TDengine之前版本一直没有通过SQL命令查看数据库占用的磁盘空间大小，从3.3.5.0开始，增加了这个方便且实用的小功能，这里详细介绍下。2.SQL基本语法selectexprfrominformation_schema.ins_disk_usage[wherecondtion]行为说明：查看各个vgroup的各个组件磁盘占用情况，并且可以通过查询语句计算压缩率等。示例：taos>s
JavaScript性能优化 lyh1344 javascript 性能优化开发语言
JavaScript性能优化方法减少重绘和回流频繁操作DOM会导致浏览器反复计算布局，引发性能问题。使用documentFragment进行批量DOM操作，或通过classList一次性修改多个样式属性。缓存DOM查询结果，避免重复访问。事件委托利用事件冒泡机制，将事件监听器绑定到父元素而非多个子元素。减少内存占用，提升动态内容的事件处理效率。节流与防抖高频事件（如滚动、输入）通过节流（Throt
uiautomation控制计算器，不动鼠标（界面控制） alooffox python 用户界面
importosimportuiautomationasautoimportsubprocessimporttimeclassuiautoCalc():"""uiautomation控制计算器（完全后台操作方案）"""def__init__(self):auto.uiautomation.DEBUG_SEARCH_TIME=Trueauto.uiautomation.SetGlobalSearch
【Pandas】pandas DataFrame resample liuweidong0802 DataFrame pandas
Pandas2.2DataFrameTimeSeries-related方法描述DataFrame.asfreq(freq[,method,how,…])用于**将时间序列数据转换为指定频率（resampletofrequency）**的方法DataFrame.asof(where[,subset])用于查找时间序列中最接近指定时间点的非NaN值的方法DataFrame.shift([period
【Pandas】pandas Series tz_convert liuweidong0802 Pandas Series pandas
Pandas2.2SeriesTimeSeries-related方法描述Series.asfreq(freq[,method,how,…])用于将时间序列数据转换为指定的频率Series.asof(where[,subset])用于返回时间序列中指定索引位置的最近一个非缺失值Series.shift([periods,freq,axis,…])用于将时间序列数据沿指定轴移动指定的周期数Serie
使用 C 语言操作 MySQL 实现图片写入与读取（Charon） mysql 数据库
在实际项目中，常常需要将图片或文件以二进制方式存储至数据库中，并能正确读取还原为文件。本文以C语言配合MySQLCAPI为例，完整演示如何实现将一张JPG图片写入数据库并再读出生成新图片文件的过程。项目背景我们使用如下表结构：--创建用户信息表CREATETABLETBL_USER(U_IDINTPRIMARYKEYAUTO_INCREMENT,--用户编号，整型，主键，自动递增，系统自动分配唯一
首次拿到无线USB转换器TOS-WLink使用介绍
TOS-WLink的开发到今持续了大半年、先不知羞耻的夸夸自己的毅力；这里主要介绍一些无线助手的使用，可能也能体现一点点我的设计思想；感谢对我帮助极大这些开源库的大佬们；感谢CSDN一些我记不住名字的作者写的文章、对USB标准的理解、C#的一些实例；无线USB助手参考：Win蓝牙GitHub-miuser00/BLEComm:BLECommbasedonnewAPIofWindows10OS.Th
《Python数据分析与挖掘实战》Chapter8中医证型关联规则挖掘笔记茫茫大地真干净机器学习 Python 数据挖掘
最近在学习《Python数据分析与挖掘实战》中的案例，写写自己的心得。代码分为两大部分：1.读取数据并进行聚类分析2.应用Apriori关联规则挖掘规律1.聚类部分函数分析：defprogrammer_1():datafile="C:/Users/longming/Desktop/chapter8/data/data.xls"processedfile="C:/Users/longming/Des
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
TensorFlow Serving学习笔记3: 组件调用关系
一、整体架构TensorFlowServing采用模块化设计，核心组件包括：Servables：可服务对象（如模型、查找表）Managers：管理Servable生命周期（加载/卸载）Loaders：负责Servable的初始化状态管理Sources：提供新版本Servable的LoaderAspiredVersions：Servable的期望状态集合Core：连接所有组件的核心枢纽APIs：gR
构建四则运算解析器：字符串处理与计算逻辑实战大熊小清新
本文还有配套的精品资源，点击获取简介：四则运算解析器是将包含四则运算符号的字符串表达式转化为可执行计算的程序。它对编程初学者而言是理解编程逻辑和语法分析的基础。通过理解四则运算的优先级规则，实现输入处理、词法分析、语法分析和计算步骤，可以采用递归下降解析或堆栈解析等方法。本解析器的实现涉及字符串处理、数据结构的运用，有助于学习者掌握编程语言的底层工作方式，提升编程技能和问题解决能力。1.四则运算解
计算机考研408真题解析（2024-34 二进制数字调制方法深度解析与FSK双频载波实现）
【良师408】计算机考研408真题解析（2024-34二进制数字调制方法深度解析与FSK双频载波实现）传播知识，做懂学生的好老师1.【哔哩哔哩】（良师408）2.【抖音】（良师408）goodteacher4083.【小红书】（良师408）4.【CSDN】（良师408）goodteacher4085.【微信】（良师408）goodteacher408特别提醒：【良师408】所收录真题根据考生回忆整
力扣网C语言编程题：接雨水（双指针法）魏劭逻辑编程题 C语言 c语言 leetcode 算法
一.简介前面文章是以动态规划方法实现的，文章如下：力扣网C语言编程题：接雨水（动态规划实现）-CSDN博客本文继续针对力扣网的接雨水问题，以另一种解题思路（双指针）以C语言实现和Python实现。二.力扣网C语言编程题：接雨水（双指针法）题目：接雨水给定n个非负整数表示每个宽度为1的柱子的高度图，计算按此排列的柱子，下雨之后能接多少雨水。示例2：输入：height=[4,2,0,3,2,5]输出：
基于SIP的视频会议系统研究 weixin_33921089 数据库
摘要根据IETFSIPPING工作组提出的集中式会议模型，设计并实现了基于SIP的视频会议系统。该系统各部分可分别设计，具有良好的可扩展性。详细介绍了此系统的结构和工作原理。关键词SIP视频会议会议控制服务器会场控制媒体服务器0前言近几年来，随着计算机技术、通信技术和互联网技术的飞速发展，视频会议的应用范围正逐渐从传统的专业领域、大型企业等高端用户向中小企业等普通用户和个人用户拓展。据有关机构的分
RPC与HTTP API对比漫谈网络 NetDevOps 智联空间 rpc http 网络协议
一、核心流程对比环节RPCHTTPAPI调用方式调用远程函数/方法（如userService.getUser(123)）调用远程端点（如GET/users/123）参数传递通过序列化直接传递编程语言对象通过URL参数、Header或Body传递结构化数据网络传输通常基于TCP/UDP+二进制协议（如gRPC的HTTP/2）基于HTTP/HTTPS文本协议数据封装由框架自动处理序列化/反序列化需手动
【Html实现“心形日出”（附效果+源代码）】| JavaScript面试题：解释一下异步编程中的回调函数、Promise和Async/Await的概念。它们有什么区别？追光者♂ html5 css3 心形日出前端特效 JS面试题 Promise Async/Await
风会带走你曾经存在过的证明。——虞姬作者主页：追光者♂个人简介：[1]计算机专业硕士研究生[2]2023年城市之星领跑者TOP1(哈尔滨)[3]2022年度博客之星人工智能领域TOP4[4]阿里云社区特邀专家博主[5]CSDN-人工智能领域优质创作者无限进步，一起追光！！！
css优化之提高代码拓展性小小不吃香菜 css 前端 css3 代码规范
css优化系列文章css优化系列：通过“使用CSS变量”和“整合重复样式”来优化代码的可维护性。文章目录css优化系列文章使用css变量整合重复样式总结使用css变量将重复使用的颜色、间距值等等定义为变量，提高代码的可维护性。对于使用函数获取值的情况，也可以降低重复计算的次数。例如：/**跟节点里设置变量**/.chat-window{--cw-z-index:1000;--cw-bg-gradi
mybatis批量插入数据时，如果是sql server库只返回一条自增主键小小不吃香菜 mybatis sqlserver java
有个功能需要做个批量插入，表是自增主键，本来是很简单的事情，结果一测试发现一个神奇的事情，由于数据库是sqlserver的，插入一条时，id可以正常返回，多条时，就出现了标题的问题，只返回一个id，使用的是mybatis自带的jar包，甚至如何使用人家还加了备注在里面，很清晰，是这样的:然后我就按照上面描述的，自己加了一个自定义的Mapper，把主键名称改成我自己的，然后发现依然只能获取到一条，后
flowable 修改历史变量小云小白 springboot flowable 修改历史变量 springboot
简洁场景：对已结束流程的变量进行改动方法包含2个类1）核心方法，flowablecommand类：HistoricVariablesUpdateCmd2）执行command类：BpmProcessCommandService然后springboot执行方法即可：bpmProcessCommandService.executeUpdateHistoricVariables(processInstan
RK3399 驱动开发 _ 07 - ADC 开发 chenkanuo 驱动开发
文章目录前言一、ADC简介二、ADC配置1.dts节点配置2.重新编译并烧录三、ADC值获取1.计算采集到的电压2.获取ADC值在这里插入图片描述总结前言在RK3399平台开发过程中，经常需要用到ADC功能。例如：检测主板温度、复位/音量按键、DRAMID检测等。一、ADC简介RK3399板卡上常见的AD接口有2种：温度传感器(TemperatureSensor)、逐次逼近ADC(Successi
InfiniBand架构规范第一卷：深入解析高性能计算的未来明祯跃
InfiniBand架构规范第一卷：深入解析高性能计算的未来【下载地址】InfiniBand架构规范第一卷探索InfiniBand架构的奥秘，开启高性能计算的新篇章！本资源提供InfiniBand架构规范第一卷1.4版本，深入解析RDMA和RoCE核心协议，助您掌握高速网络通信的精髓。无论是高性能计算还是数据中心领域，这份文档都是您不可或缺的指南。下载、解压、阅读，轻松获取前沿技术知识，提升专业能
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &

语音识别ASR - HTK(HResults)计算字错率WER、句错率SER

HResults计算字错率(WER)、句错率(SER)

一、基础概念

1.1、语音识别(ASR)

1.2、句错率(SER)

SER = 错误句数 / 总句数

1.3、句正确率(S.Corr）

S.Corr = 1 - SER = 正确句数 / 总句数

1.4、字错率(WER/CER)

»1.4.1 、计算原理

»1.4.2、计算公式(重要)

WER = (S + D + I ) / N = (S + D + I ) / (S + D + H )

»1.4.3、 问题

1.5、字正确率(W.Corr）

W.Corr = ( N - D - S ) / N = H / N

1.6、字准确率(W.Acc）

W.Acc = 1 - WER = ( N - D - S - I ) / N = (H - I) / N

1.7、聊点其他

ASR影响素因

行业水平

二、HTK工具

2.1、HTK工具简介

2.2、HResults简介与使用

»2.2.1 、使用帮助

»2.2.2 、文本转换为MLF文件

»2.2.3 、TXT转换为MLF脚本

»2.2.4 、常用命令

2.3、HResults样例解析

»2.3.1 只有删除(D)

»2.3.2 替换(S) + 删除(D)

»2.3.3 替换(S) + 删除(D) + 插入(I)

»2.3.4 全错（结果字数<语料字数）

»2.3.5 全错（结果字数>语料字数）

你可能感兴趣的:(语音识别ASR - HTK(HResults)计算字错率WER、句错率SER)

»1.4.3、问题