n-gram 第13页

NLP之文本分类方法之基础知识

因为研究表明特征粒度为词粒度远远好于字粒度，其大部分分类算法不考虑词序信息，基于字粒度的损失了过多的n-gram信息。中文分词主要分为两类方法：基于词典的中文分词和基于统计的中文分词。

gentelyang·2018-01-05 15:17

DeepLearning笔记: 语言模型和 N-gram

语言模式是自然语言处理的一个基础概念。我们可以从语料中得到「语言模型」——即句子的概率，可用于：发现错别句子发现新短语生成句子（如模仿汪峰写歌）机器怎样理解自然语言呢？有两种思路：学习语法：词性、句子成分，但不能保证语义，如，火星追杀绿色的梦概率统计齐夫定律：频率最高的单词出现的频率大约是出现频率第二位的单词的2倍，而出现频率第二位的单词则是出现频率第四位的单词的2倍），香农的信息论概率论基本原理

Kidult·2018-01-02 17:02

文本分类-fastText

一、FastText架构1.fastText原理fastText方法包含三部分：模型架构、层次Softmax和N-gram特征。下面我们一一介绍。1.1模型架构fastText模型架构如下图所示。

九指码农·2017-12-23 15:26

python 与自然语言处理之语言模型n-gram

有，就是本节要接到的N-gram语言模型。2.N-gram语言模型是啥？2.1从假设性独立到联合概

数据科学家corten·2017-12-21 12:18

文本特征工程之N-Gram

最近在做文本的特征工程构建，陆陆续续搜集到一些公认的对文本表征能力比较强的特征，比如频次法、tf-idf、互信息方法、N-Gram、Word2Vec等，文本特征包含以上这些但也不限于这些。

AI深入浅出·2017-12-20 00:00

N-gram

该文章转载，，出处：http://blog.csdn.net/longxinchen_ml/article/details/50543337,http://blog.csdn.net/han_xiaoyang/article/details/50545650

重新出发_砥砺前行·2017-12-06 00:33

BLEU 评价指标总结

Bleu的具体计算过程看下图：在这里解释一下：式中的n为当前匹配n-gram的长度，这里的N=4(也可以是其1,2,3),是n-gram匹配权重，BP是用来对过短候选翻译的惩罚系数，是利用当前n-gram

brith_for_AI·2017-12-02 20:18

文本分类算法带监督的FastText

fastText原理fastText方法包含三部分：模型架构、层次Softmax和N-gram特征。下面我们一一介绍。1.1模型架构fastText模型架构如下图所示。

IT界的小小小学生·2017-11-27 19:04

快速文本分类器 FastText

1.fastText原理fastText方法包含三部分：模型架构、层次Softmax和N-gram特征。下面我们一一介绍。1.1模型架构fastText模型架构如下图所示。

梦无痕123·2017-11-08 19:31

N-Gram模型入门

摘要：本文主要是简单讲解一下语言模型N-Gram。网上已经有许多关于N-Gram模型讲解了，下面几个链接是我在阅读过程中认为比较好的文章。和大家分享一下。

kingsam_·2017-11-02 14:43

深度学习在搜索的应用：学术前沿与工业方案解析

搜索：文本表示与匹配问题DL4Search通用框架搜索相关深度学习基础构件基础构件之间的关系基础构件关系：先特征后匹配基础构件关系：先匹配后特征输入层WordEmbedding表示字符N-Gram文档/

谢厂节·2017-10-28 14:31

2017招行AI专场现场笔试题目

选择题填空题N-gram题目，给定一个文本分词列表，三元组有（）个。Logistic回归无法处理缺损值，（）模型可以处理有缺损值的模型。

FakerLi·2017-09-27 16:03

NLP：language model(n-gram/Word2Vec/Glove)

首先，大概讲一下自然语言处理的背景。互联网上充斥着大规模、多样化、非结构化的自然语言描述的文本，如何较好的理解这些文本，服务于实际业务系统，如搜索引擎、在线广告、推荐系统、问答系统等，给我们提出了挑战。例如在效果广告系统中，需要将Query(UserorPage)和广告Ad投影到相同的特征语义空间做精准匹配，如果Query是用户，需要基于用户历史数据离线做用户行为分析，如果Query是网页，则需要

hlang8160·2017-09-21 08:30

n-gram python实现（基于sklearn）

#n-gramfromsklearn.feature_extraction.textimportCountVectorizerimportpandasaspdimportjiebadata=["他用报话机向上级呼喊：“为了祖国，为了胜利，向我开炮！向我开炮！","记者：你怎么会说出那番话？","韦昌进：我只是觉得，对准我自己打，才有可能把上了我哨位的这些敌人打死，或者打下去。"]data=["".

Sinsa_SI·2017-08-07 18:44

自然语言处理（六）词向量

现代基于统计一、词编码方式1——离散表示1、One-hot编码和句子中顺序无关，耗空间耗时2、词袋模型每个数表示该词出现的次数（One-hot的加和）3、TF_IDF每个数代表该词在整个文档中的占比4、N-gram

谦芊珺·2017-07-26 20:33

NLP中的用N-gram语言模型做英语完型填空的环境搭建

本文是对github上fork的xing_NLP中的用N-gram语言模型做完型填空这样一个NLP项目环境搭建的一个说明，本来写在README.md中。

丰泽园的天空·2017-07-20 22:00

N-gram的原理、用途和研究

转载自：http://blog.sciencenet.cn/u/wl2119N-gram的基本原理N-gram是计算机语言学和概率论范畴内的概念，是指给定的一段文本或语音中N个项目（item）的序列。

林林同學·2017-07-17 11:03

TF-IDF特征提取用sklearn提取tfidf特征

n-gram此处的TF和IDF的公式，都是sklearn中的tfidf使用的公式。和最原始的公式会有些出入。并且根据一些参数的不同而不同。

钱哲琦·2017-07-09 20:04

FastText的词向量表征

//blog.csdn.net/sinat_26917383/article/details/54850933近来做Fasttext方面的研究，对看到的相关资料进行收集整理如下：1、FastText的N-gram

程序猿进化之旅·2017-06-17 16:14

[置顶] NLTK学习笔记(五):分类和标注词汇

词性标注器标注语料库表示已经标注的标识符nltktagstr2tupleword类型读取已经标注的语料库名词动词形容词等尝试找出每个名词类型中最频繁的名词探索已经标注的语料库自动标注默认标注器正则表达式标注器查询标注器N-gram

AsuraDong·2017-06-13 00:00

语言模型系列之N-Gram、NPLM及Word2vec

上一篇博客简单梳理了NLP的技术架构、NLP语言模型的演化，以及最基本的语言模型Bag-of-Word词袋模型及基于词袋模型的重要模型和算法。本文将继续探讨NLP中重要的语言模型N元语言模型，并探究其变形。根据上文公式1P(w1w2...wT)=∏ni=1P(w1)P(w2|w1)P(wi|w1w2...wi−1)，词w出现的在序列位置T的概率取决于序列前面1~T-1所有词，而这样的模型参数空间巨

冰糖少女·2017-05-23 17:47

N-gram模型表示文本

什么是N-Gram模型？在自然语言里有一个模型叫做n-gram，表示文字或语言中的n个连续的单词组成序列。

低空飞行的·2017-05-18 23:46

常见的两种注意力机制

seq2seq虽然相比传统的n-gram统计模型更具非线性刻画能力，但其也有自身的缺点。主要缺点主要有两个：第一是长程记忆能力有限，如果源句子序列非常长

算法学习者·2017-03-25 18:13

Class-Based N-Grams

Class-BasedN-grams，又被称为ClusterN-grams，是一种基于词的类别信息或族信息的N-gram变体。它针对训练语料的稀疏性特征可以起到良好的效果。

chfe910·2017-03-03 18:53

n-gram

4.7N元分词方法在介绍N元模型之前，让我们先来做个香农游戏（ShannonGame）。我们给定一个词，然后猜测下一个词是什么。当我说"NBA"这个词时，你想到下一个词是什么呢？我想大家有可能会想到"篮球"，基本上不会有人想到"足球"吧。切分出来的词序列越通顺，越有可能是正确的切分方案。N元模型主要用来衡量词序列搭配的合理性。N元模型指句子中在n个单词序列后出现的单词w的概率。但是这种方法存在两个

Johnson0722·2017-01-21 14:58

word2vec 过程理解&词向量的获取

通过对于一个神经网络的训练，得到每个词对应的一个向量表达基于：这个神经网络，是基于语言模型，即给定T个词的字符串s，计算s是自然语言的概率p（w1，w2,…,wt）而构建的，更直白点，就是通过输入wi的上下相邻的n个词（n-gram

BVL10101111·2016-12-15 10:41

SRILM使用之用平滑Katz回退训练语言模型

cattest_coupus2.txtbirdschirpngram-lmcorpus.lm-ppltest_coupus2.txt-debug2使用catzs回退方法，进行模型训练要旨：对于次数较少的N-gram

笨笨的企鹅·2016-08-28 22:54

利用N-Gram模型概括数据（Python描述）

什么是N-Gram模型？在自然语言里有一个模型叫做n-gram，表示文字或语言中的n个连续的单词组成序列。

哈士奇说喵·2016-08-08 16:14

利用N-Gram模型概括数据（Python描述）

什么是N-Gram模型？在自然语言里有一个模型叫做n-gram，表示文字或语言中的n个连续的单词组成序列。

MrLevo520·2016-08-08 16:00

N-Gram 模型

N-Gram是大词汇连续语音识别中常用的一种语言模型。在语音识别中，对中文而言，我们称之为汉语语言模型(CLM,ChineseLanguageModel)。

dengpei187·2016-07-05 14:00

InnoDB全文索引：N-gram Parser

本文来自：http://mysqlserverteam.com/innodb%E5%85%A8%E6%96%87%E7%B4%A2%E5%BC%95%EF%BC%9An-gram-parser/InnoDB默认的全文索引parser非常合适于Latin，因为Latin是通过空格来分词的。但对于像中文，日文和韩文来说，没有这样的分隔符。一个词可以由多个字来组成，所以我们需要用不同的方式来处理。在My

jyzhou·2016-07-05 14:00

InnoDB全文索引：N-gram Parser

本文来自：http://mysqlserverteam.com/innodb%E5%85%A8%E6%96%87%E7%B4%A2%E5%BC%95%EF%BC%9An-gram-parser/InnoDB默认的全文索引parser非常合适于Latin，因为Latin是通过空格来分词的。但对于像中文，日文和韩文来说，没有这样的分隔符。一个词可以由多个字来组成，所以我们需要用不同的方式来处理。在My

jyzhou·2016-07-05 14:00

N -Gram模型

我把N-Gram关键的几句话贴出来（对别人帖子的一些修改）：该模型基于这样一种假设，第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。

Code_lr·2016-05-16 16:35

统计语言模型

个单词顺序组成：那么该句子的联合概率如下：其中模型参数如下：根据贝叶斯公式可得：根据大数定理可得：其中count表示统计词串在语料中的出现次数，当k比较大时，上述计算比较耗时；3.常见的计算模型参数的方法有n-gram

zakexu·2016-05-09 10:50

自然语言处理中N-Gram模型的Smoothing算法

在之前的文章《自然语言处理中的N-Gram模型详解》里，我们介绍了NLP中的模型。最后谈到，为了解决使用N-Gram模型时可能引入的稀疏数据问题，人们设计了多种平滑算法，本文将讨论其中最为重要的几种。

白马负金羁·2016-05-02 19:34

自然语言处理中N-Gram模型的Smoothing算法

在之前的文章《自然语言处理中的N-Gram模型详解》里，我们介绍了NLP中的模型。最后谈到，为了解决使用N-Gram模型时可能引入的稀疏数据问题，人们设计了多种平滑算法，本文将讨论其中最为重要的几种。

baimafujinji·2016-05-02 19:00

自然语言处理中的N-Gram模型详解

N-Gram（有时也称为N元模型）是自然语言处理中一个非常重要的概念，通常在NLP中，人们基于一定的语料库，可以利用N-Gram来预计或者评估一个句子是否合理。

白马负金羁·2016-04-29 21:23

自然语言处理中的N-Gram模型详解

N-Gram（有时也称为N元模型）是自然语言处理中一个非常重要的概念，通常在NLP中，人们基于一定的语料库，可以利用N-Gram来预计或者评估一个句子是否合理。

baimafujinji·2016-04-29 21:00

N-Gram语言模型

一、n-gram是什么wikipedia上有关n-gram的定义：n-gram是一种统计语言模型，用来根据前(n-1)个item来预测第n个item。

阿满子·2016-04-28 13:53

根据给出的语料库，训练n-gram模型。根据训练出的模型，判断测试集中每个句子是不是语法合法的句子

2-Gram的训练：先是将下载好的汉语分词工具NLPIR导入eclipse中，注意在使用这个分词工具的时候必须将Data包更新为最新，不然会初始化失败。编写代码实现对文件的分词，由于这个分词工具只可以实现3M左右的文件分词，过大的文件会出现无法读取从而报错，所以需要我们把100M的文件进行切割读入。我的程序中是把文件切成101份文本，然后进行分词，用bufferwriter进行写入afterSeg

hongtao_fan·2016-03-21 13:26

NLP系列(5)_从朴素贝叶斯到N-gram语言模型

yaoqiang2011·2016-02-09 13:00

NLP系列(5)_从朴素贝叶斯到N-gram语言模型

yaoqiang2011·2016-02-09 13:00

NLP系列(5)_从朴素贝叶斯到N-gram语言模型

longxinchen_ml·2016-02-09 11:00

初识文本建模

Unigram,Bigram,Trigram均是自然语言处理（NLP）中的问题（N-gram问题衍生而来）。

lanchunhui·2016-01-21 14:00

n-gram模型

出处：http://www.cnblogs.com/chaosimple/p/3376438.htmlN-Gram模型时大词汇连续语音识别中常用的一种语言模型，对中文而言，我们称之为汉语语言模型（CLM,ChineseLanguageModel）。汉语语言模型利用上下文中相邻词间的搭配信息，在需要把连续无空格的拼音、笔画，或代表字母或笔画的数字，转换成汉字串（即句子）时，可以计算出最大概率的句子，

weilianyishi·2015-11-13 14:00

Smoothing of Language Model

(2) N-gram作为LM的主要工具.下面所涉及都指N-gram (3)

·2015-11-12 12:25

Solr Using n-grams for suggestions

N-grams N-gram分析会根据配置中指定的子中最小最大长度，将一个词的最小到最大的子串全部得到，比如Tonight这个单词，如果NGramFilterFactory配置中指定了minGramSize

ystyaoshengting·2015-11-10 16:00

用 Apache Tika 理解信息内容

简介在本教程中，我们将通过解释性的例子介绍 Apache Tika 框架并解释它的概念（比如 N-gram、解析、mime 检测以及内容分析），这些例子不仅适用于老练的软件开发人员，而且也同样适用于内容分析和编程的初学者

·2015-10-31 16:16

srilm使用杂记

训练n-gram语言模型 ngram-count -text train.txt -order 5 -lm model -kndiscount -interpolate -gt3min 1 -gt4min

·2015-10-31 11:06

k-mer

(or x-mer where x can be virtually any consonant of choice) usually refers to a specific n-tuple or n-gram

·2015-10-31 10:04

推荐频道

n-gram

NLP之文本分类方法之基础知识

DeepLearning笔记: 语言模型和 N-gram

文本分类-fastText

python 与自然语言处理之语言模型n-gram

文本特征工程之N-Gram

N-gram

BLEU 评价指标总结

文本分类算法带监督的FastText

快速文本分类器 FastText

N-Gram模型入门

深度学习在搜索的应用：学术前沿与工业方案解析

2017招行AI专场现场笔试题目

NLP：language model(n-gram/Word2Vec/Glove)

n-gram python实现（基于sklearn）

自然语言处理（六）词向量

NLP中的用N-gram语言模型做英语完型填空的环境搭建

N-gram的原理、用途和研究

TF-IDF特征提取 用sklearn提取tfidf特征

FastText的词向量表征

[置顶] NLTK学习笔记(五):分类和标注词汇

语言模型系列之N-Gram、NPLM及Word2vec

N-gram模型表示文本

常见的两种注意力机制

Class-Based N-Grams

n-gram

word2vec 过程理解&词向量的获取

SRILM使用之用平滑Katz回退训练语言模型

利用N-Gram模型概括数据（Python描述）

利用N-Gram模型概括数据（Python描述）

N-Gram 模型

InnoDB全文索引：N-gram Parser

InnoDB全文索引：N-gram Parser

N -Gram模型

统计语言模型

自然语言处理中N-Gram模型的Smoothing算法

自然语言处理中N-Gram模型的Smoothing算法

自然语言处理中的N-Gram模型详解

自然语言处理中的N-Gram模型详解

N-Gram语言模型

根据给出的语料库，训练n-gram模型。根据训练出的模型，判断测试集中每个句子是不是语法合法的句子

NLP系列(5)_从朴素贝叶斯到N-gram语言模型

NLP系列(5)_从朴素贝叶斯到N-gram语言模型

NLP系列(5)_从朴素贝叶斯到N-gram语言模型

初识文本建模

n-gram模型

Smoothing of Language Model

Solr Using n-grams for suggestions

用 Apache Tika 理解信息内容

srilm使用杂记

k-mer

TF-IDF特征提取用sklearn提取tfidf特征