E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
n-gram
n-gram
模型
出处:http://www.cnblogs.com/chaosimple/p/3376438.htmlN-Gram模型时大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM,ChineseLanguageModel)。汉语语言模型利用上下文中相邻词间的搭配信息,在需要把连续无空格的拼音、笔画,或代表字母或笔画的数字,转换成汉字串(即句子)时,可以计算出最大概率的句子,
weilianyishi
·
2015-11-13 14:00
算法
Smoothing of Language Model
(2)
N-gram
作为LM的主要工具.下面所涉及都指
N-gram
(3)
·
2015-11-12 12:25
language
Solr Using n-grams for suggestions
N-grams
N-gram
分析会根据配置中指定的子中最小最大长度,将一个词的最小到最大的子串全部得到,比如Tonight这个单词,如果NGramFilterFactory配置中指定了minGramSize
ystyaoshengting
·
2015-11-10 16:00
用 Apache Tika 理解信息内容
简介 在本教程中,我们将通过解释性的例子介绍 Apache Tika 框架并解释它的概念(比如
N-gram
、解析、mime 检测以及内容分析),这些例子不仅适用于老练的软件开发人员,而且也同样适用于内容分析和编程的初学者
·
2015-10-31 16:16
apache
srilm使用杂记
训练
n-gram
语言模型 ngram-count -text train.txt -order 5 -lm model -kndiscount -interpolate -gt3min 1 -gt4min
·
2015-10-31 11:06
使用
k-mer
(or x-mer where x can be virtually any consonant of choice) usually refers to a specific n-tuple or
n-gram
·
2015-10-31 10:04
r
小试 solr 的 spellcheck
用
n-gram
方法和 Levenshtein distance (编辑距离,算相似度)算法实现。
·
2015-10-30 13:19
check
统计模型-n元文法
在谈
N-Gram
模型之前,我们先来看一下Mrkove假设: 1.一个词的出现仅仅依赖于它前面出现的有限的一个或者几个词; 2.一个词出现的概率条件地依赖于前N-1个词的词类。
·
2015-10-27 13:55
统计
古德-图灵估计
古德-图灵估计可以解决n元语法模型(
n-gram
)中的数据的稀疏问题。
·
2015-10-27 13:08
图
从
n-gram
中文文本纠错,到依存树中文语法纠错以及同义词查找
前记 本文简单地讲解如何使用
n-gram
模型结合汉字拼音来作中文错别字纠错,然后介绍最短编辑距离在中文搜索纠错方面的应用;最后从依赖树入手讲解如何作文本长距离纠错(语法纠错),并从该方法中得到一种启示
初雪之音
·
2015-10-13 21:00
ESA
CGED
中文文本纠错
依存树
n-gram
语言模型/
N-Gram
模型
N-Gram
马尔科夫假设:一个词的出现仅仅依赖于它前面出现的有限的一个或几个词。
N-Gram
模型用于中文,称为汉语语言模型CLM。
ae5555
·
2015-10-08 16:20
自然语言处理
[moses笔记]编译含有nplm的moses解码器
bestpaperFastandRobustNeuralNetworkJointModelsforStatisticalMachineTranslation在SMT中使用深度学习知识,提出了一种neuralnetworkjointmodel(其实就是融合源端语言知识去做语言模型),论文实验给出的结果宣称大幅度提高了以往基于
n-gram
warrioR_wx
·
2015-07-04 12:11
学习笔记
LanguageModel API 语言模型
publicinterfaceLanguageModelextendsConfigurable 代表了对言一个N(
N-Gram
)元语模型的一般接口。所有的概率都在log域的。
taiyb
·
2015-06-16 21:00
sphinx
语音识别
BackoffLanguageModel API
publicinterfaceBackoffLanguageModelextendsLanguageModel 代表使用后向(回退)方法来估计不可见概率的一个
N-Gram
语言模型的一般接口。
taiyb
·
2015-06-16 21:00
sphinx
语音识别
NGramProbability API
classNGramProbability 代表一个字的id(字在一个
N-gram
中的位置)。一个
N-Gram
概率id。
taiyb
·
2015-06-16 21:00
sphinx
语音识别
NGramBuffer API
它假定每一个
n-gram
项的前两个字节是
n-gram
的id。 本类的属性: privatefinalbyte[]buffer;ngrams的字节数组,存储ngrams的缓存。
taiyb
·
2015-06-16 21:00
sphinx
语音识别
神经网络语言模型详解
简而言之,统计语言模型表示为:在词序列中,给定一个词和上下文中所有词,这个序列出现的概率,如下式,其中,是序列中第词,,可以使用近似,这就是
n-gram
语言模型,详细请阅读[我们是这样理解语言的-2]统计语言模型
hechenghai
·
2015-05-07 14:35
学习笔记
神经网络语言模型详解
简而言之,统计语言模型表示为:在词序列中,给定一个词和上下文中所有词,这个序列出现的概率,如下式,其中,是序列中第词,,可以使用近似,这就是
n-gram
语言模型,详细请阅读[我们是这样理解语言的-2]统计语言模型
hechenghai
·
2015-05-07 14:00
bigram分词
N-gram
:P(w1w2w3...wn)=P(w1)P(w2|w1)P(w3|w2,w1)...P(wn|wn-1,wn-2,...,w1)bigram的语言模型:P(w1w2w3...wn)=P(w1
Sissi_cici
·
2015-04-14 12:50
分词
Recurrent Neural Network Based Language Model(RNNLM)原理及BPTT数学推导
Aguidetorecurrentneuralnetworksandbackpropagation前一篇文章介绍了nnlm,用神经网络来对语言进行建模,nnlm一个很大的优点就是将历史映射到一个低维的空间而并不像普通
n-gram
a635661820
·
2015-03-19 18:02
Deep
learning
NLP
N-gram
语言模型文本分类器
N-gram
语言模型文本分类一语言模型(LanguageModelLM)1、定义假设一个字符串w=w1w2….wn;wi可以是一个字,一个词或者一个短语我们把一个可以计算P(W)或者P(wn|w1,w2
Sweety_Wei
·
2015-02-04 10:28
文本分类
数据挖掘
文本分类
自然语言处理
N-gram语言模型
分类器
常用分词算法笔记
N-Gram
这是一种依赖于上下文环境的词的概率分布的统计计算语言模型。
earbao
·
2015-01-23 10:00
lucene 4.x 使用
N-Gram
模型分词器实例。
N-Gram
模型:
N-Gram
是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM,ChineseLanguageModel)。
yunshouhu
·
2014-12-02 11:20
搜索引擎
java
lucene 4.x 使用
N-Gram
模型分词器实例。
N-Gram
模型:
N-Gram
是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM,ChineseLanguageModel)。
earbao
·
2014-12-02 11:00
字符串相似算法-(3) NGram Distance
就是
N-Gram
version of edit distance public float getDistance(String source, String target) {
jimmee
·
2014-06-08 17:00
ngram distance
字符串相似性
字符串相似算法-(3) NGram Distance
就是
N-Gram
version of edit distance public float getDistance(String source, String target) {
jimmee
·
2014-06-08 17:00
字符串相似性
ngram distance
语言模型
n-gram
deletedinterpolationtrigramhttp://www.cslu.ogi.edu/HLTsurvey/ch1node41.html
haimengao
·
2014-04-17 18:00
n-gram
模型
N-Gram
是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM,ChineseLanguageModel)。
zhangzeguang88
·
2014-04-12 13:00
搜索引擎
语音识别
n-gram
N-gram
模型的优缺点
题外话:最近发现学了一些东东貌似都可以用在查询扩展上,慢慢开始总结一下吧,xixi~附一下查询扩展的解释吧
N-gram
模型的优点在于它包含了前N-1个词所能提供的全部信息,这些词对于当前词的出现具有很强的约束力
Sissi_cici
·
2014-04-10 16:19
查询扩展
NLP
中文分词算法——基于统计的分词
主要统计模型为:N元文法模型(
N-gram
)、隐马尔科夫模型(HiddenMarkovModel,HMM)1.1N-gram模型思想模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关
坚持到底cw
·
2014-03-17 13:04
中文分词
Ngram 算法原理
语言模型就是要求句子S的概率P(S):这个概率的计算量太大,解决问题的方法是将所有历史w1w2…wi-1按照某个规则映射到等价类S(w1w2…wi-1),等价类的数目远远小于不同历史的数目,即假定:
N-Gram
alvine008
·
2013-12-25 14:00
N-gram
模型
更多参考:http://www.52nlp.cn/tag/
n-gram
N-Gram
是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM,ChineseLanguageModel
san_yun
·
2013-12-06 11:00
模型
Word2Vec的一些理解
这里先回顾一下大家比较熟悉的
N-gram
语言模型。在自然语言任务里我们经常要计算一句话的概率。比如语音识别中对于一个语音段O,需要找到一个使P(W|O)最大的文本段W。
zjimily
·
2013-12-05 11:31
word2vec
N-gram
模型
N-Gram
是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM,ChineseLanguageModel)。
haimengao
·
2013-11-09 10:00
词语纠错原理简介(corrector, do you mean?)
在google上搜"spellingcorrector"会得到很多有用的信息,大概有两种实现:一种是基于
N-GRAM
,另外一种是基于状态跳转来实现。
余争
·
2013-09-14 13:00
纠错
Yaha
corrector
词语
SRILM--语言模型--
N-Gram
基本介绍
转自:http://hi.baidu.com/isswangqing/item/1b8e3ad096c286be32db9033N-Gram是常用的一种语言模型,该模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。设w1 w2 ⋯w n 是长度为n的词串,则词串w的出现的
caiye917015406
·
2013-08-19 14:00
sphinx4整体架构分析
下面总结一下它的特点:1、高度可配置的前端点处理2、支持孤立词,
n-gram
,contextfree语法3、支持任意unitcontextsizes来提高识别率4、允许使用新的搜索和裁剪算法sphinx4
iKingLai
·
2013-07-12 09:52
java
语音识别
sphinx4
N-gram
模型
N-Gram
是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM,ChineseLanguageModel)。
oanqoanq
·
2013-07-04 00:00
N-Gram
的数据结构
ARPA的
n-gram
语法如下:\data\ ngram1=64000 ngram2=522530 ngram3=173445 \1-grams: -5.24036'cause-0.2084827 -
j_am_jack
·
2013-02-26 17:00
All Our
N-gram
are Belong to You
Google的超大5元语言模型----------------------------------《BeautifulData》第14章,讲得是Google的超大5元语言模型对此模型有兴趣的读者可以查阅,下文----------------------------------GoogleResearchBlog上的文章《OfficialGoogleResearchBlog:AllOurN-gram
huangtanxiao2007
·
2013-02-22 09:00
自然语言处理
NLP
ARPA的
n-gram
语言模型格式
先看一下语言模型的格式\data\ ngram1=64000 ngram2=522530 ngram3=173445 \1-grams: -5.24036'cause-0.2084827 -4.675221'em-0.221857 -4.989297'n-0.05809768 -5.365303'til-0.1855581 -2.1115390.0 -99-0.7736475 -1.128404
j_am_jack
·
2013-02-20 18:00
mahout SparseVectorsFromSequenceFiles详解(3)
,tfVectorsFolderName,baseConf,这几个参数很明显minSupport--最少要在文档中出现多少次才会放置到sparsevector,缺省值2maxNGramSize--最大
n-gram
softwarehe
·
2013-01-17 14:00
java实现Google和Baidu的“您是不是要找”功能
因为建立在大数据上的搜索引擎会帮你自动纠错,就这个例子Google和Baidu返回给我的分别是:显示以下查询字词的结果: 十二生肖 和 您要找的是不是: 十二生肖 ,他们都做到了自动纠错,关于自动纠错我之前也写过一篇陋文,当时是自己实现的
N-Gram
海水正蓝
·
2013-01-16 17:00
TAC中评价文本相似度的4种方法
First:Rouge-N,基于
N-gram
同现统计 事实上,Rouge-N是用候选文档和参考文档比较的召回方法,计算公式如下: 对于分母是计算每个参考文献句子中匹配Gram-N的数目,对于分子是计算每个参考文献句子中能够匹配
wangzhiqing3
·
2012-11-29 22:00
N-gram
模型
N-Gram
是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM,ChineseLanguageModel)。
zhoubl668
·
2012-07-26 15:00
N元语言模型的训练方法
我之前介绍了语言模型的基本概念,本文介绍一下
N-gram
语言模型的训练方法。
zhoubl668
·
2012-07-18 09:00
c
算法
优化
语言
工具
微软
基于词表和
N-gram
算法的新词识别实验
本文提出了一种选择期刊论文的题名和摘要作为训练语料,利用
N-gram
算法切分和停用词典等过滤筛选非专名的新词识别方法。
zhoubl668
·
2012-04-10 17:00
算法
工作
测试
语言
internet
农业
N-gram
模型
N-Gram
是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM,ChineseLanguageModel)。
lixuemei504
·
2012-02-13 14:00
游戏
工作
输入法
语言
微软
搜狗
N-Gram
原码分析
N表示词的长度,Gram表示按长度N切分原词得到的词段1.N最小取值规则,如果原词的长度大于5,则最小值为3,如果原词的长度等于5,则最小值为2,否则最小值为1.2.N最大值取值规则,如果原词长度大于5,则最大值为4,原词长度等于5,则最大值为3,否则最大值为2.原码如下: //获取最小值 privatestaticintgetMin(intl){ if(l>5){ return3;
tangyajun_168
·
2011-12-12 15:00
String
query
N元语言模型的训练方法
我之前介绍了语言模型的基本概念,本文介绍一下
N-gram
语言模型的训练方法。
MSPinyin
·
2011-01-15 11:00
c
算法
优化
语言
工具
微软
上一页
8
9
10
11
12
13
14
15
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他