n-gram 第9页

Pytorch模型(2)——N-gram CNN

概述N-gramCNN在NLP中的应用主要是可以通过N-gram来捕捉局部语义信息，相比于加入了自注意力机制的模型而言，缺陷在于无法捕捉长距离的句子依赖，而且Transformer也可以并行去训练，我们可以将

某热心知名群众·2020-07-07 17:15

Python深度学习读书笔记（六）（使用预训练的词嵌入优化IMDB评论分类）

（文本可分割为标记：单词，字符，n-gram，分解为标记的过程叫做分词，然后将其转换为张量）one-hot将每个单词与一个唯一的整数索引相关联，将整数索引i转换为长度为N的二进制向量。

EmDan·2020-07-07 07:22

DLM：微信大规模分布式n-gram语言模型系统

摘要n-gram语言模型广泛用于语言处理，例如自动语音识别(ASR)。它可以对从发生器（例如声学模型）产生的候选单词序列进行排序。大型n-gr

AI科技大本营·2020-07-06 16:12

语音识别框架

一、语音识别框架传统理论重点研究声学模型，发音字典不用关心，语言模型一般用n-gram预处理：1.首尾端的静音切除，降低对后续步骤造成的干扰，静音切除的操作一般称为VAD。

yang_daxia·2020-07-06 10:48

语言模型（N-Gram）

问题描述：由于公司业务产品中，需要用户自己填写公司名称，而这个公司名称存在大量的乱填现象，因此需要对其做一些归一化的问题。在这基础上，能延伸出一个预测用户填写的公司名是否有效的模型出来。目标：问题提出来了，就是想找到一种办法来预测用户填写的公司名是否有效？问题分析：要想预测用户填写的公司名称是否有效，需要用到NLP的知识内容，我们首先能够想到的是利用NLP中的语言模型，来对公司名称进行训练建模，并

weixin_30563319·2020-07-05 21:17

N-gram算法

n-gram模型是一种统计语言模型。在语音识别中，一个声学信号对应于一个语句，语音识别器需要找到其对应的可能性最大的语言文本。

枫叶dandan·2020-07-05 17:23

中文信息处理 N-gram模型

一.什么是建模？模型又是什么？建模，是人们为了理解事物而对事物做出的一种抽象，是对事务进行书面无歧义的描述。模型就是对实际问题或者是客观规律进行的形式化的表达。二.关于语言模型长久以来，人们一直希望计算机可以理解我们人类的语言，从而进行一系列其他的应用，比如机器翻译，语音识别，分词，输入法，搜索引擎的自动补全等。以前人们是进行基于规则的语言模型的研究方向，遇到了很大的问题，后来便出现了基于统计的语

SummmerSnow·2020-07-05 16:28

自然语言处理中n-gram模型学习笔记

语言模型对于很多自然语言处理领域的问题，比如机器翻译，处理要确定预测结果中的字词集合以外，还有一个非常重要的方面就是要评估文本序列是否符合人类使用的习惯。也就是要判断文本是否通顺、自然、甚至在翻译问题上，“信”、“达”、“雅”是一种高级的要求。语言模型就是用于评估文本符合语言使用习惯程度的模型。要让机器来评估文本是否符合人类的使用习惯，一种方式是通过语言学方面的研究，制定出人类语言的范式，比如：陈

Charles_yy·2020-07-05 15:48

n-gram语言模型

一、StatisticalLanguageModel在自然语言处理中的一个基本问题：如何计算一段文本序列在某种语言下出现的概率？之所为称其为一个基本问题，是因为它在很多NLP任务中都扮演着重要的角色。例如，"我经常会去图书馆____"，预测该句后面的词。我们会通过已有的语料或上下文，来统计预测这句话可以填某个词的概率。将概率最大的作为预测结果返回。再比如机器翻译中，‘IlikeTomsomuch.

来路与归途·2020-07-05 09:21

机器学习项目（二）人工智能辅助信息抽取（七）

nlp任务特征：1.序列输入，前后依赖2.输入不定长3.位置敏感卷积神经网络卷积->池化->全连接局部感知，参数共享，并行化，速度快卷积神经网络在图像中应用局部特征：N-Gram无法捕捉长距离特征卷积神经网络在文本中应用膨胀

TongYixuan_LUT·2020-07-05 04:58

N-gram 特征提取

N-gram是一种基于统计语言模型的算法，又被称为一阶马尔科夫链。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。

ouprince·2020-07-05 04:51

NLP系列(5)_从朴素贝叶斯到N-gram语言模型

龙心尘·2020-07-04 22:24

N-gram语言模型 & Perplexity & 平滑

kingzone_2008·2020-07-04 20:26

图解N-gram语言模型的原理--以kenlm为例

常用的N-gram训练工具有SRILM、IRSTLM、BerkeleyLM和KenLM等。这几种工具所用的算法思想基本一致，只是在实现细节上有所不同，所以我们只需理解其中一个训练工具即可。

nlpgeek·2020-07-04 11:15

文本相似度度量

1.1文本切分粒度可以按照字，词，n-gram对文本进行切分；当文本是长文本时，也可以利用主题模型提取关键词，来减少词的维度。1.2文本特征构建特征构

Fron Suk·2020-07-04 07:14

[NLP]n-gram-Bleu理解学习

对于N-grambleu，N-gram指的是

哞哞哞是Echo·2020-07-04 05:49

依存树

来历a.简单的短语分词（正向逆向最大匹配，n-gram，机器学习...）(以单个词为重点)比如:猴子喜欢吃香蕉。->猴子喜欢吃香蕉。b.由分词转向词性标注猴子/NN喜欢/VV吃/VV香蕉/NN。

zenRRan·2020-07-04 03:29

自然语言处理中的N-Gram模型详解

N-Gram（有时也称为N元模子）是天然说话处置惩罚中一个很是主要的观点，平日在NLP中，人们基于必定的语料库，可以使用N-Gram来估计或者评估一个句子是否合理。

taoqick·2020-07-04 02:16

自然语言处理之语言模型（一）——NLP中的各种嵌入Embedding概述（词嵌入Word Embedding的基本分类）

前言：我们常常会看见很多的概念，Wordembedding,CBOW,n-gram,NNLM,RNNLM等等一系列的概念，很容易傻傻分不清楚，本文对NLP中的各种嵌入做了一个归纳，出书个人归纳，不正确地方还请指正

LoveMIss-Y·2020-07-02 17:50

A Neural Probabilistic Language Model阅读笔记

Bengio用了一个三层的神经网络来构建语言模型，同样也是n-gram模型。

herosunly·2020-07-02 02:51

Language Model 论文阅读笔记

首先解释一下什么叫作语言模型，简单地讲就是计算文字序列的联合概率，即如这个公式进行表示：先验分布好进行计算，按照n-gram的算法难以有效地表示语言模型，因为没有generality，忽视了语言语义的相似度

Hackerzer·2020-07-01 20:53

论文学习《A Neural Probabilistic Language Model》

作者基于n-gram模型，通过使用语料对神经网络进行训练，最大化上文的n个词语对当前词语的预测。该模型同时学到了（1）每个单词的分布式表示和（2）单词序列的概率分布函数。该模型学

XB_please·2020-07-01 14:00

NLP论文研读之路：A Neural Probabilistic Language Model

传统的N-gram模型在语言模型中取得了一定的成功，但也无法避免稀疏性的问题。本文旨在提出一种稠密低维度的词的表达方式，使得输入每一个测试的

AlbertSjtu·2020-07-01 13:42

python自然语言处理之分类和标注词性5.1-5.3

介绍下NLP的基本技术：包括序列标注、N-gram模型、回退和评估。

LawenceRay·2020-07-01 11:23

NLTK学习笔记(五):分类和标注词汇

词性标注器标注语料库表示已经标注的标识符nltktagstr2tupleword类型读取已经标注的语料库名词动词形容词等尝试找出每个名词类型中最频繁的名词探索已经标注的语料库自动标注默认标注器正则表达式标注器查询标注器N-gram

心谭·2020-07-01 07:46

[论文笔记] [2003] A Neural Probabilistic Language Model

在这之前的统计语言模型，比如n-gram，它们的缺陷在于：缺乏长期依赖，只考虑了前n-1个词；随着n的增大，参数空间呈指数增

Alexzhuan·2020-07-01 04:40

nlp基础学习中文分词原理

也可转化为序列标注问题基于词典的分词最大匹配分词算法（正向、逆向、双向）先将字典构造成一个字典树（提升查找效率降低存储空间）最短路径分词算法将一句话中的所有词匹配出来，构成词图（有向无环图），然后起始点到终点的最短路径作为最佳组合方式基于n-gram

YEE_HOLIC·2020-06-30 08:50

N-gram 新词发现总结

jieba与N-gram结合进行新词发现使用jieba作为基础分词组件针对新的文本，利用信息熵进行新词发现使用字典树存储单词和统计词频取TopN作为新词此方法主要依托互信息和左右信息熵互信息表示的是两个词的凝聚力

向阳争渡·2020-06-30 06:41

以kenlm为例，详细介绍N-gram语言模型

本文以KenlM介绍常用的N-gram语言模型原理。

笨笨猪的学习之路·2020-06-30 03:04

【简单总结】FastText的复习回顾

【简单总结】FastText的复习回顾1.FastText简单介绍FastText方法包含三部分：模型架构、层次Softmax和N-gram特征。

雾行·2020-06-29 12:33

14亿数据，用Python怎么分析

它是由谷歌的n-gram数据集驱动的，根据书本印刷的每一个年份，记录了一个特定单词或词组在谷歌图书的使用量。

鉴皇师·2020-06-29 04:18

Language Model 论文

ANeuralProbabilisticLanguageModelwww.jmlr.org/papers/volume3/bengio03a/bengio03a.pdfBegio的一篇文章，建立语言模型根本的问题是维度灾难，为了解决这个问题使用N-gram

ippputeeel·2020-06-28 23:01

斯坦福大学2019自然语言处理CS224n，Lecture6：Language Models and Recurrent Neural Networks

内容大纲：语言模型：N-gram语言模型：n-gram指的是n个连续的词。通过统计不同n-gram的词频信息来预测下一个词是什么。

不吃西瓜霜含片·2020-06-28 23:56

Facebook 开源的快速文本分类器 FastTex

fastText原理fastText方法包含三部分：模型架构、层次Softmax和N-gram特征。下面我们一一介绍。1.1模型架构fastText模型架构如下图所示。

weixin_34355715·2020-06-28 17:33

如何让语言模型充分利用GPU：针对大规模并行设备的N-gram

爱丁堡大学的论文《N-gramlanguagemodelsformassivelyparalleldevices》介绍了用于大规模并行设备的N-gram语言模型。机器之心技术分析师对该论文进行了解读。

weixin_34112900·2020-06-28 11:41

sphinx4整体架构分析

下面总结一下它的特点：1、高度可配置的前端点处理2、支持孤立词，n-gram，contextfree语法3、支持任意unitcontextsizes来提高识别率4、允许使用新的搜索和裁剪算法sphinx4

weixin_34050389·2020-06-28 10:11

从n-gram中文文本纠错，到依存树中文语法纠错以及同义词查找

>>>前记本文简单地讲解如何使用n-gram模型结合汉字拼音来作中文错别字纠错，然后介绍最短编辑距离在中文搜索纠错方面的应用；最后从依赖树入手讲解如何作文本长距离纠错（语法纠错），并从该方法中得到一种启示

weixin_33851177·2020-06-28 06:19

python自然语言处理-数据概括

在前面的学习中，我们介绍了如何把文本内容分解成n-gram模型，或者说是n个单词长度的词组。从最基本的功能上说，这个集合可以用来确定这段文字中最常见的单词和短语。

perfecttshoot·2020-06-27 12:38

自然语言处理-哈工大笔记

文章目录词处理语句处理篇章处理当前热点统计语言模型分词语料库词性标注句法分析语料库多机加工系统词语搭配识别技术N-Gram统计模型平滑方法动态-自适应-基于缓存的语言模型马尔科夫模型隐马尔科夫模型基于HMM

wang2008start·2020-06-27 12:54

【Python+中文自然语言处理】（二）中文分词工具包：jieba

主要统计机器学习模型：N元文法模型（N-gram）

奋青的那些事·2020-06-27 12:17

capsules系列Investigating Capsule Networks with Dynamic Routing for Text Classification

损失函数4.小结5.新趋势参考1.背景介绍早期对文本建模的成果，已经在文本分类方面取得了一些成功，使用简单的词袋子分类器（Joachims，1998；McCallum等，1998），意味着理解独立单词或N-gram

蜗牛蜗牛慢慢爬·2020-06-27 09:54

文本分类系列(1):textcnn及其pytorch实现

:TextCNN及其pytorch实现文本分类系列(2):TextRNN及其pytorch实现textcnn原理：核心点在于使用卷积来捕捉局部相关性，具体到文本分类任务中可以利用CNN来提取句子中类似n-gram

BruceWu1234·2020-06-27 09:28

Using Machine Learning Methods to Establish Program Authorship 阅读笔记

机器学习方法建立程序作者详细讨论了各种机器学习特征分配方法：词法度量，位置/样式度量，控制和信息结构样式度量，抽象语法树的使用，n-gram分析，项目架构研究和编程范例的使用。

都说没想好·2020-06-27 05:39

自然语言处理NLP中的N-gram模型

自然语言处理NLP中的N-gram模型文章目录自然语言处理NLP中的N-gram模型@[toc]NaiveBayesN-gramN-gram简介N-gram中的概率计算N-gram的用途用途一：词性标注用途二

蕉叉熵·2020-06-26 13:21

DSSM的细节

wordhashingwordhashing方法是用来减少输入向量的维度，该方法基于字母的n-gram。

smartcat2010·2020-06-26 13:53

python jieba 分词初识

很多文档都是英文的（暴击），此博客就是帮助萌新快速上手的，不会牵涉很复杂的理论，老司机请自动略过（当然欢迎指正）jieba分词的作用在做文本分析的时候，我们经常要做的一件事就是对文本进行分词，最直接的就是n-gram

Slwhy·2020-06-26 13:50

N-gram语言模型以及kenlm(1)

N-gram语言模型kenlmN-gramkenlm安装kenlm，他是基于cmake的c++程序，在非root情况下需要指定几个参数，还需要下载几个安装包；安装教程见之后的博客，或者可查阅其它，教程很多

qq_37938547·2020-06-25 13:16

NNLM原理及简单pytorch实现

前置：以前的处理办法会出现维度灾难和数据稀疏性问题N-gram无法体现出词之间的相似性关系传统的处理办法如果出现了语料中没有出现的情况，则最后的概率就会变成0.解决办法是平滑，插值，回退等方法。

p0ther·2020-06-25 10:24

NLP自然语言处理：神经网络语言模型（NNLM）

传统的离散计数类语言模型，比如bi-gram，n-gram

陈宸-研究僧·2020-06-25 10:29

基于tensorflow和deepspeech的中文语音识别模型，训练+部署

工业级中文语音识别系统，电子书，点我文章目录项目背景一、和百度deepspeech2的不同点1.框架选择2.声学模型结构3.其他调整项4.增加beamsearch和n-gram组合解码模块（这里是重点）

大数据AI笔记·2020-06-25 04:27

推荐频道

n-gram