n-gram 第14页

n-gram模型

出处：http://www.cnblogs.com/chaosimple/p/3376438.htmlN-Gram模型时大词汇连续语音识别中常用的一种语言模型，对中文而言，我们称之为汉语语言模型（CLM,ChineseLanguageModel）。汉语语言模型利用上下文中相邻词间的搭配信息，在需要把连续无空格的拼音、笔画，或代表字母或笔画的数字，转换成汉字串（即句子）时，可以计算出最大概率的句子，

weilianyishi·2015-11-13 14:00

Smoothing of Language Model

(2) N-gram作为LM的主要工具.下面所涉及都指N-gram (3)

·2015-11-12 12:25

Solr Using n-grams for suggestions

N-grams N-gram分析会根据配置中指定的子中最小最大长度，将一个词的最小到最大的子串全部得到，比如Tonight这个单词，如果NGramFilterFactory配置中指定了minGramSize

ystyaoshengting·2015-11-10 16:00

用 Apache Tika 理解信息内容

简介在本教程中，我们将通过解释性的例子介绍 Apache Tika 框架并解释它的概念（比如 N-gram、解析、mime 检测以及内容分析），这些例子不仅适用于老练的软件开发人员，而且也同样适用于内容分析和编程的初学者

·2015-10-31 16:16

srilm使用杂记

训练n-gram语言模型 ngram-count -text train.txt -order 5 -lm model -kndiscount -interpolate -gt3min 1 -gt4min

·2015-10-31 11:06

k-mer

(or x-mer where x can be virtually any consonant of choice) usually refers to a specific n-tuple or n-gram

·2015-10-31 10:04

小试 solr 的 spellcheck

用 n-gram 方法和 Levenshtein distance （编辑距离，算相似度）算法实现。

·2015-10-30 13:19

统计模型-n元文法

在谈N-Gram模型之前，我们先来看一下Mrkove假设：　　1.一个词的出现仅仅依赖于它前面出现的有限的一个或者几个词；　　2.一个词出现的概率条件地依赖于前N-1个词的词类。

·2015-10-27 13:55

古德-图灵估计

古德-图灵估计可以解决n元语法模型(n-gram)中的数据的稀疏问题。

·2015-10-27 13:08

从n-gram中文文本纠错，到依存树中文语法纠错以及同义词查找

前记本文简单地讲解如何使用n-gram模型结合汉字拼音来作中文错别字纠错，然后介绍最短编辑距离在中文搜索纠错方面的应用；最后从依赖树入手讲解如何作文本长距离纠错（语法纠错），并从该方法中得到一种启示

初雪之音·2015-10-13 21:00

语言模型/N-Gram模型

N-Gram马尔科夫假设：一个词的出现仅仅依赖于它前面出现的有限的一个或几个词。N-Gram模型用于中文，称为汉语语言模型CLM。

ae5555·2015-10-08 16:20

[moses笔记]编译含有nplm的moses解码器

bestpaperFastandRobustNeuralNetworkJointModelsforStatisticalMachineTranslation在SMT中使用深度学习知识，提出了一种neuralnetworkjointmodel（其实就是融合源端语言知识去做语言模型），论文实验给出的结果宣称大幅度提高了以往基于n-gram

warrioR_wx·2015-07-04 12:11

LanguageModel API 语言模型

publicinterfaceLanguageModelextendsConfigurable 代表了对言一个N（N-Gram）元语模型的一般接口。所有的概率都在log域的。

taiyb·2015-06-16 21:00

BackoffLanguageModel API

publicinterfaceBackoffLanguageModelextendsLanguageModel 代表使用后向（回退）方法来估计不可见概率的一个N-Gram语言模型的一般接口。

taiyb·2015-06-16 21:00

NGramProbability API

classNGramProbability 代表一个字的id（字在一个N-gram中的位置）。一个N-Gram概率id。

taiyb·2015-06-16 21:00

NGramBuffer API

它假定每一个n-gram项的前两个字节是n-gram的id。本类的属性： privatefinalbyte[]buffer;ngrams的字节数组，存储ngrams的缓存。

taiyb·2015-06-16 21:00

神经网络语言模型详解

简而言之，统计语言模型表示为：在词序列中，给定一个词和上下文中所有词，这个序列出现的概率，如下式，其中，是序列中第词，，可以使用近似，这就是n-gram语言模型，详细请阅读[我们是这样理解语言的-2]统计语言模型

hechenghai·2015-05-07 14:35

神经网络语言模型详解

简而言之，统计语言模型表示为：在词序列中，给定一个词和上下文中所有词，这个序列出现的概率，如下式，其中，是序列中第词，，可以使用近似，这就是n-gram语言模型，详细请阅读[我们是这样理解语言的-2]统计语言模型

hechenghai·2015-05-07 14:00

bigram分词

N-gram:P(w1w2w3...wn)=P(w1)P(w2|w1)P(w3|w2,w1)...P(wn|wn-1,wn-2,...,w1)bigram的语言模型：P(w1w2w3...wn)=P(w1

Sissi_cici·2015-04-14 12:50

Recurrent Neural Network Based Language Model(RNNLM)原理及BPTT数学推导

Aguidetorecurrentneuralnetworksandbackpropagation前一篇文章介绍了nnlm，用神经网络来对语言进行建模，nnlm一个很大的优点就是将历史映射到一个低维的空间而并不像普通n-gram

a635661820·2015-03-19 18:02

N-gram语言模型文本分类器

N-gram语言模型文本分类一语言模型（LanguageModelLM）1、定义假设一个字符串w=w1w2….wn;wi可以是一个字，一个词或者一个短语我们把一个可以计算P(W)或者P(wn|w1,w2

Sweety_Wei·2015-02-04 10:28

常用分词算法笔记

N-Gram这是一种依赖于上下文环境的词的概率分布的统计计算语言模型。

earbao·2015-01-23 10:00

lucene 4.x 使用N-Gram模型分词器实例。

N-Gram模型：N-Gram是大词汇连续语音识别中常用的一种语言模型，对中文而言，我们称之为汉语语言模型(CLM,ChineseLanguageModel)。

yunshouhu·2014-12-02 11:20

lucene 4.x 使用N-Gram模型分词器实例。

N-Gram模型：N-Gram是大词汇连续语音识别中常用的一种语言模型，对中文而言，我们称之为汉语语言模型(CLM,ChineseLanguageModel)。

earbao·2014-12-02 11:00

字符串相似算法-(3) NGram Distance

就是N-Gram version of edit distance public float getDistance(String source, String target) {

jimmee·2014-06-08 17:00

字符串相似算法-(3) NGram Distance

就是N-Gram version of edit distance public float getDistance(String source, String target) {

jimmee·2014-06-08 17:00

语言模型n-gram

deletedinterpolationtrigramhttp://www.cslu.ogi.edu/HLTsurvey/ch1node41.html

haimengao·2014-04-17 18:00

n-gram模型

N-Gram是大词汇连续语音识别中常用的一种语言模型，对中文而言，我们称之为汉语语言模型(CLM,ChineseLanguageModel)。

zhangzeguang88·2014-04-12 13:00

N-gram模型的优缺点

题外话：最近发现学了一些东东貌似都可以用在查询扩展上，慢慢开始总结一下吧，xixi~附一下查询扩展的解释吧N-gram模型的优点在于它包含了前N-1个词所能提供的全部信息，这些词对于当前词的出现具有很强的约束力

Sissi_cici·2014-04-10 16:19

中文分词算法——基于统计的分词

主要统计模型为：N元文法模型（N-gram）、隐马尔科夫模型(HiddenMarkovModel,HMM)1.1N-gram模型思想模型基于这样一种假设，第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关

坚持到底cw·2014-03-17 13:04

Ngram 算法原理

语言模型就是要求句子S的概率P(S)：这个概率的计算量太大，解决问题的方法是将所有历史w1w2…wi-1按照某个规则映射到等价类S(w1w2…wi-1)，等价类的数目远远小于不同历史的数目，即假定： N-Gram

alvine008·2013-12-25 14:00

N-gram模型

san_yun·2013-12-06 11:00

Word2Vec的一些理解

这里先回顾一下大家比较熟悉的N-gram语言模型。在自然语言任务里我们经常要计算一句话的概率。比如语音识别中对于一个语音段O，需要找到一个使P(W|O)最大的文本段W。

zjimily·2013-12-05 11:31

N-gram模型

N-Gram是大词汇连续语音识别中常用的一种语言模型，对中文而言，我们称之为汉语语言模型(CLM,ChineseLanguageModel)。

haimengao·2013-11-09 10:00

词语纠错原理简介(corrector, do you mean?)

在google上搜"spellingcorrector"会得到很多有用的信息，大概有两种实现：一种是基于N-GRAM，另外一种是基于状态跳转来实现。

余争·2013-09-14 13:00

SRILM--语言模型--N-Gram基本介绍

转自：http://hi.baidu.com/isswangqing/item/1b8e3ad096c286be32db9033N-Gram是常用的一种语言模型，该模型基于这样一种假设，第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。设w1 w2 ⋯w n 是长度为n的词串，则词串w的出现的

caiye917015406·2013-08-19 14:00

sphinx4整体架构分析

下面总结一下它的特点：1、高度可配置的前端点处理2、支持孤立词，n-gram，contextfree语法3、支持任意unitcontextsizes来提高识别率4、允许使用新的搜索和裁剪算法sphinx4

iKingLai·2013-07-12 09:52

N-gram模型

N-Gram是大词汇连续语音识别中常用的一种语言模型，对中文而言，我们称之为汉语语言模型(CLM,ChineseLanguageModel)。

oanqoanq·2013-07-04 00:00

N-Gram的数据结构

ARPA的n-gram语法如下：\data\ ngram1=64000 ngram2=522530 ngram3=173445 \1-grams: -5.24036'cause-0.2084827 -

j_am_jack·2013-02-26 17:00

All Our N-gram are Belong to You

Google的超大5元语言模型----------------------------------《BeautifulData》第14章，讲得是Google的超大5元语言模型对此模型有兴趣的读者可以查阅，下文----------------------------------GoogleResearchBlog上的文章《OfficialGoogleResearchBlog:AllOurN-gram

huangtanxiao2007·2013-02-22 09:00

ARPA的n-gram语言模型格式

先看一下语言模型的格式\data\ ngram1=64000 ngram2=522530 ngram3=173445 \1-grams: -5.24036'cause-0.2084827 -4.675221'em-0.221857 -4.989297'n-0.05809768 -5.365303'til-0.1855581 -2.1115390.0 -99-0.7736475 -1.128404

j_am_jack·2013-02-20 18:00

mahout SparseVectorsFromSequenceFiles详解（3）

，tfVectorsFolderName，baseConf，这几个参数很明显minSupport--最少要在文档中出现多少次才会放置到sparsevector，缺省值2maxNGramSize--最大n-gram

softwarehe·2013-01-17 14:00

java实现Google和Baidu的“您是不是要找”功能

因为建立在大数据上的搜索引擎会帮你自动纠错，就这个例子Google和Baidu返回给我的分别是：显示以下查询字词的结果：十二生肖和您要找的是不是: 十二生肖，他们都做到了自动纠错，关于自动纠错我之前也写过一篇陋文，当时是自己实现的N-Gram

海水正蓝·2013-01-16 17:00

TAC中评价文本相似度的4种方法

First:Rouge-N,基于N-gram同现统计事实上，Rouge-N是用候选文档和参考文档比较的召回方法，计算公式如下：对于分母是计算每个参考文献句子中匹配Gram-N的数目，对于分子是计算每个参考文献句子中能够匹配

wangzhiqing3·2012-11-29 22:00

N-gram模型

N-Gram是大词汇连续语音识别中常用的一种语言模型，对中文而言，我们称之为汉语语言模型(CLM,ChineseLanguageModel)。

zhoubl668·2012-07-26 15:00

N元语言模型的训练方法

我之前介绍了语言模型的基本概念，本文介绍一下N-gram语言模型的训练方法。

zhoubl668·2012-07-18 09:00

基于词表和N-gram算法的新词识别实验

本文提出了一种选择期刊论文的题名和摘要作为训练语料，利用N-gram算法切分和停用词典等过滤筛选非专名的新词识别方法。

zhoubl668·2012-04-10 17:00

N-gram模型

N-Gram是大词汇连续语音识别中常用的一种语言模型，对中文而言，我们称之为汉语语言模型(CLM,ChineseLanguageModel)。

lixuemei504·2012-02-13 14:00

N-Gram原码分析

N表示词的长度，Gram表示按长度N切分原词得到的词段1.N最小取值规则，如果原词的长度大于5，则最小值为3,如果原词的长度等于5，则最小值为2，否则最小值为1.2.N最大值取值规则,如果原词长度大于5,则最大值为4,原词长度等于5,则最大值为3,否则最大值为2.原码如下： //获取最小值 privatestaticintgetMin(intl){ if(l>5){ return3;

tangyajun_168·2011-12-12 15:00

N元语言模型的训练方法

我之前介绍了语言模型的基本概念，本文介绍一下N-gram语言模型的训练方法。

MSPinyin·2011-01-15 11:00

推荐频道

n-gram

n-gram模型

Smoothing of Language Model

Solr Using n-grams for suggestions

用 Apache Tika 理解信息内容

srilm使用杂记

k-mer

小试 solr 的 spellcheck

统计模型-n元文法

古德-图灵估计

从n-gram中文文本纠错，到依存树中文语法纠错以及同义词查找

语言模型/N-Gram模型

[moses笔记]编译含有nplm的moses解码器

LanguageModel API 语言模型

BackoffLanguageModel API

NGramProbability API

NGramBuffer API

神经网络语言模型详解

神经网络语言模型详解

bigram分词

Recurrent Neural Network Based Language Model(RNNLM)原理及BPTT数学推导

N-gram语言模型文本分类器

常用分词算法笔记

lucene 4.x 使用N-Gram模型分词器实例。

lucene 4.x 使用N-Gram模型分词器实例。

字符串相似算法-(3) NGram Distance

字符串相似算法-(3) NGram Distance

语言模型n-gram

n-gram模型

N-gram模型的优缺点

中文分词算法——基于统计的分词

Ngram 算法原理

N-gram模型

Word2Vec的一些理解

N-gram模型

词语纠错原理简介(corrector, do you mean?)

SRILM--语言模型--N-Gram基本介绍

sphinx4整体架构分析

N-gram模型

N-Gram的数据结构

All Our N-gram are Belong to You

ARPA的n-gram语言模型格式

mahout SparseVectorsFromSequenceFiles详解（3）

java实现Google和Baidu的“您是不是要找”功能

TAC中评价文本相似度的4种方法

N-gram模型

N元语言模型的训练方法

基于词表和N-gram算法的新词识别实验

N-gram模型

N-Gram原码分析

N元语言模型的训练方法