n-gram 第11页

李宏毅深度学习视频摘要

另外提到一种特殊的Rnn结构stackRNNP3讲了深度学习反向传播的知识，其中提到链式法则，fc网络的bp方法和RNN的bp方法P4讲语言模型n-gram:P(a|b)直接统计语料库的概率nn-based-LM

Matrix-yang·2019-09-03 23:22

NLP点滴——文本相似度

html目录前言字面距离commonlang库相同字符数莱文斯坦距离(编辑距离)定义实现方式Jaro距离定义实现方式应用SimHash定义基本流程相似性度量存储索引实现应用语义相似性背景知识统计语言模型n-gram

尽拣寒枝不肯栖·2019-08-25 14:13

基于word2vec的文档向量模型的应用

在《word2vec中的数学》中谈到了训练语言模型的一些方法：比如n-gram和神经网络。在使用神经网络训练语言模型时得到的"副产物"，就是word2vec词向量。基于神经网络训练语言模

hapjin·2019-08-23 21:00

N-gram模型

原文链接：https://blog.csdn.net/lengyuhong/article/details/6022053N-gram是一种传统的统计语言模型，该模型基于这样一种假设：第nnn个词的出现只与前面m−1m-1m−1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计mmm个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tr

transformer_WSZ·2019-08-17 18:48

自然语言处理-Word2Vec视频教程

目录001、课程简介.mp4002、自然语言处理与深度学习.mp4003、语言模型.mp4004、N-gram模型.mp4005、词向量.mp4006、神经网络模型.mp4007、HierarchicalSoftmax.mp4008

真全栈程序员·2019-08-11 23:45

深度学习PyTorch（三）循环神经网络

GRU(GatedRecurrentUnit)RNN的应用用RNN做图像分类mnistpytorch实现RNN做时间序列（回归）pytorch实现自然语言处理词嵌入pytorch实现Skip-Gram模型N-Gram

ChunyeLi·2019-08-09 21:59

N-gram模型的训练以及应用

语言模型语言模型在实际应用中可以解决非常多的问题，例如判断一个句子的质量：thehouseisbig!goodhousebigisthe!badthehouseisxxl!worse可以用于词的排序，比如thehouseissmall优于smalltheishouse；可以用于词的选择，Iamgoing___(home/house)，其中Iamgoinghome优于Iamgoinghouse，除此

我一点也不皮·2019-08-01 12:32

NLP - TextCNN

文本分类(转自：Text-CNN文本分类）Text-CNN合理性：深度学习模型在计算机视觉与语音识别方面取得了卓越的成就，在NLP也是可以的，卷积具有局部特征提取的功能，所以可用CNN来提取句子中类似n-gram

Jessie_83bf·2019-07-26 11:58

BLEU源码笔记

BLEU源码笔记本文参考代码为coco-caption回顾详细解释参见我的这篇博客，本文仅仅是代码解释BLEU是2002年提出的一个机器翻译的自动度量，它从n-gram准确率的角度对比机器翻译和人工翻译的结果

luputo·2019-07-18 21:58

BPE提取subword

BPE全称BytePairEncoding，通过不断迭代分词，每次按照最大出现频率将某一种n-gram子串组合在一起。随着迭代的推进，就像滚雪球一样，将subword的组成字符们聚在一起。

sunrise_ccx·2019-07-14 23:50

从n-gram到Bert聊一聊词向量：Word2Vec

Word2Vec模型中有CBOW和Skip-Gram两种模式：CBOW（多到一）是给定上下文来预测输入单词，训练方法为负采样Skip-Gram（一到多）是给定输入单词来预测上下文，训练方法为哈夫曼树训练步骤：1.将输入的文本生成词汇表，统计词频选择前ｋ个构成词汇表vocab.txt。每个词对应生成one-hot向量，向量的维度是V2.将输入的文本的每个词生成一个one-hot向量，如果不在词汇表中

姬香·2019-07-14 00:03

python sklearn CountVectorizer的使用及相关说明

初步想法是利用n-gram方法，因此查询到了python的sklearn中有一个CountVectorizer方法可以使用，在这里介绍一下这个函数的使用方法，以及其输出的相关含义。

Clannad_niu·2019-07-09 18:49

python sklearn CountVectorizer的使用及相关说明

初步想法是利用n-gram方法，因此查询到了python的sklearn中有一个CountVectorizer方法可以使用，在这里介绍一下这个函数的使用方法，以及其输出的相关含义。

Clannad_niu·2019-07-09 18:49

新词发现算法

新词发现基于统计的经典算法（无监督学习）：基于已有的大量语料，枚举可能所有新词（原始字的顺序组合，限制长度为n-gram），然后计算一些统计指标（主要是凝固度、自由度）进行过滤，尽量准确地筛选出潜在的新词

爱学习的段哥哥·2019-06-30 19:51

中文纠错之N-gram

中文纠错之N-gram1.N-gram介绍2.公式3.Bi-gram例子4.评估模型优劣5.参考博文1.N-gram介绍N-gram是基于一个假设：第n个词出现与前n-1个词相关，而与其他任何词不相关。

越丘·2019-06-19 15:01

NLP学习记录4——n-gram模型（待整理）

NLP学习记录4——n-gram模型主要参考博客自然语言处理之seq2seq模型原始论文learningphaserepresentationsusingRNNEncoder-decoderforstatisticalmachinetranslationSequencetosequencelearningwithneuralnetworks

青崖间·2019-06-18 11:29

语言模型：n-gram语言模型和神经网络语言模型

语言模型n-gram语言模型神经网络语言模型（NNLM）n-gram语言模型什么是n-gram语言模型：n-gram语言模型是基于统计建立的，可以由此计算概率的模型。

CyanSai·2019-06-16 16:07

PyTorch搭建N-gram模型实现单词预测

N-gram模型就是假设预测这个单词只与前面的N-1个单词有关，并不是和前面所有的词都有关系。

Answerlzd·2019-05-29 15:42

fastText原理及实践

文章目录fastText原理及实践预备知识Softmax回归分层Softmaxn-gram特征fastText分类字符级别的n-gram模型架构核心思想关于分类效果keras构建fastText参考资料

张酒肉·2019-05-22 15:51

N-gram介绍

1、简介N-gram是一种基于统计的语言模型，常常用来做句子相似度比较，句子合理性判断。

guohui_0907·2019-05-20 20:07

文本情感分析(一)：基于词袋模型(VSM、LSA、n-gram)的文本表示

现在自然语言处理用深度学习做的比较多，我还没试过用传统的监督学习方法做分类器，比如SVM、Xgboost、随机森林，来训练模型。因此，用Kaggle上经典的电影评论情感分析题，来学习如何用传统机器学习方法解决分类问题。通过这个情感分析的题目，我会整理做特征工程、参数调优和模型融合的方法，这一系列会有四篇文章。这篇文章整理文本特征工程的内容。文本的特征工程主要包括数据清洗、特征构造、降维和特征选择等

weixin_30664539·2019-05-19 10:00

NLP基础实验②：TextCNN实现THUCNews新闻文本分类

fastText中的网络结果是完全没有考虑词序信息的，而它用的n-gram特征trick恰恰说明了局部序列信息的重要意义。

NLP_victor·2019-05-12 21:22

《Phrase-Based & Neural Unsupervised Machine Translation》阅读

这周例会上分享了《Phrase-Based&NeuralUnsupervisedMachineTranslation》这篇文章，同时在csdn上也写一下吧论文中主要提出了两个模型，分别是基于神经网络的NMT和基于N-Gram

Fly_TheWind·2019-05-07 20:04

NLP技术总结

如何过滤掉不符合常规的词，比如标点符号：N-GRAM、TF-IDF当分词字典的词冲突,相互影响该怎么办?调整词频和字典顺序

Alphapeople·2019-04-30 15:32

LM比较：bert、emlo、GPT、NNLM、word2vec

语言模型的比较语言模型N-gram模型NNLMword2vecELMOGPTbert附录语言模型词向量表示：one-hot形式：缺点：维度灾难、无法捕捉词之间的相似度分布式表示：通过训练将每个词表示成一个

damuge2·2019-04-12 14:30

自然语言处理特征提取

分词有很多种算法：基于字符串匹配算法、基于理解的算法、基于统计的算法（如HMM和n-gram）等。下面重点介绍第一种字符串匹配算法。

herosunly·2019-04-10 14:02

NLP框架

语言模型(Bi-Gram/Tri-Gram/N-Gram)频率派：统计不同词汇出现频率，从而知道某个词汇之后出现下一个词的概率。放弃寻找语言中的规律，直接以概率的方式预测最有可能出现的词汇。

Young_618·2019-04-01 00:00

【NLP】朴素贝叶斯——新闻、邮件分类以及语种检测

前言从贝叶斯谈到N-gram语言模型，此文中我们对贝叶斯定理、朴素贝叶斯、N-gram语言模型的相关理论，本篇主要针对上篇的理论进行案例实现。

Daycym·2019-03-27 16:09

【NLP】朴素贝叶斯——新闻、邮件分类以及语种检测

前言从贝叶斯谈到N-gram语言模型，此文中我们对贝叶斯定理、朴素贝叶斯、N-gram语言模型的相关理论，本篇主要针对上篇的理论进行案例实现。

Daycym·2019-03-27 16:09

【NLP】从贝叶斯谈到N-gram语言模型

前言本篇主要是从贝叶斯方法谈起，由于贝叶斯方法具有坚实的理论基础，同时也是研究自然语言处理的一个好的开始。而且很多高级自然语言处理模型也是由此演化而来，所以从贝叶斯方法谈起非常适合。再由朴素贝叶斯谈到语言模型，由此开始自然语言处理学习之路。本篇案例实战可见：朴素贝叶斯——新闻、邮件分类以及语种检测，通过案例可以更好的理解理论一、贝叶斯定理在谈贝叶斯方法之前，我们要先了解什么是概率、什么是条

Daycym·2019-03-23 13:41

【NLP】从贝叶斯谈到N-gram语言模型

前言本篇主要是从贝叶斯方法谈起，由于贝叶斯方法具有坚实的理论基础，同时也是研究自然语言处理的一个好的开始。而且很多高级自然语言处理模型也是由此演化而来，所以从贝叶斯方法谈起非常适合。再由朴素贝叶斯谈到语言模型，由此开始自然语言处理学习之路。本篇案例实战可见：朴素贝叶斯——新闻、邮件分类以及语种检测，通过案例可以更好的理解理论一、贝叶斯定理在谈贝叶斯方法之前，我们要先了解什么是概率、什么是条

Daycym·2019-03-23 13:41

从n-gram到Bert聊一聊词向量（一）：n-gram

一元语法二元语法对于一个句子，近似认为一个词的概率只依赖于它前面的1个词。即一个状态只跟上一个状态有关，也称为一阶马尔科夫链。假设表示二元语法在给定文本中的出现次数,三元语法n元语法认为一个词出现的概率和它前面的n个词有关系，一般取n=2或者n=3。其概率计算公式为如下：对于n>2的n元语法模型，条件概率要考虑前面n−1个词的概率，设wji表示wi⋯wj，则有：Add-one平滑对于bigram模

姬香·2019-03-20 14:33

【自然语言处理】word2vec模型

3.1CBOW模型3.2Skip-Gram模型3.3HierarchicalSoftmax3.4负采样1N-gram模型在自然语言处理(NaturalLanguageProcessing,NLP)中，N-gram

Mankind_萌凯·2019-03-15 23:39

详解依存树的来龙去脉及用法

来历a.简单的短语分词（正向逆向最大匹配，n-gram，机器学习...）(以单个词为重点)比如:猴子喜欢吃香蕉。->猴子喜欢吃香蕉。b.由分词转向词性标注猴子/NN喜欢/VV吃/VV香蕉/NN。

zenRRan·2019-03-08 13:47

正向最大匹配法、逆向最大匹配法、双向最大匹配法的分析、语言模型中unigram、bigram、trigram的概念以及N-Gram模型介绍

分词算法设计中的几个基本原则：1、颗粒度越大越好：用于进行语义分析的文本分词，要求分词结果的颗粒度越大，即单词的字数越多，所能表示的含义越确切，如：“公安局长”可以分为“公安局长”、“公安局长”、“公安局长”都算对，但是要用于语义分析，则“公安局长”的分词结果最好（当然前提是所使用的词典中有这个词）2、切分结果中非词典词越少越好，单字字典词数越少越好，这里的“非词典词”就是不包含在词典中的单字，而

c_木ss·2019-03-04 20:33

FastText模型原理

FastText简介预备知识N-gram模型对句子或单词的所有长度为N的子句或子字符串进行操作，如2-gram中，对“girl”的字符串为“gi”,“ir”,"rl"进行操作，通常有操作如下：比较两个单词的相似度

zhierzyc·2019-02-23 20:31

N-Gram模型介绍

1.N-Gram的原理N-Gram是基于一个假设：第n个词出现与前n-1个词相关，而与其他任何词不相关。（这也是隐马尔可夫当中的假设。）整个句子出现的概率就等于各个词出现的概率乘积。

简单随风·2019-02-23 01:27

基于n-gram模型的中文分词

一、前言n-gram模型，称为N元模型，可用于定义字符串中的距离，也可用于中文的分词；该模型假设第n个词的出现只与前面n-1个词相关，与其他词都不相关，整个语句的概率就是各个词出现概率的乘积；而这些概率

zh823275484·2019-02-22 14:37

1.5特征（feature）

Fortuna_i·2019-02-14 20:07

自然语言处理NLP（3）——神经网络语言模型、词向量

在上一部分中，我们了解到了统计语言模型，n-gram模型以及语料库的基本知识：自然语言处理NLP（2）——统计语言模型、语料库在这一部分中，我们将在此基础上介绍神经网络语言模型以及词向量的相关知识。

echoKangYL·2019-02-09 15:24

学习：N-Gram模型

一、什么是n-gram模型N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。

BruceCheen·2019-02-02 19:40

语言模型（N-Gram）

问题描述：由于公司业务产品中，需要用户自己填写公司名称，而这个公司名称存在大量的乱填现象，因此需要对其做一些归一化的问题。在这基础上，能延伸出一个预测用户填写的公司名是否有效的模型出来。目标：问题提出来了，就是想找到一种办法来预测用户填写的公司名是否有效？问题分析：要想预测用户填写的公司名称是否有效，需要用到NLP的知识内容，我们首先能够想到的是利用NLP中的语言模型，来对公司名称进行训练建模，并

genghaihua·2019-01-25 15:23

NLP常见语言模型总结

目录一、词的离散表示1、One-hot编码（独热编码）2、BagofWords（BOW，词袋模型）3、N-gram语言模型二、词的分布式表示（DistributedRepresentation）1、共现矩阵

Asia-Lee·2019-01-19 10:19

NLP面试题目汇总1-5

知识点：词袋模型TF-IDFN-gram词袋模型与N-gram 最基本的文本表示模型是词袋模型(BagofWords)。基本思想是把每篇文章看成一袋子词，并忽略每个词出现的顺序。

饥渴的小苹果·2019-01-14 01:31

【NLP】n-gram LM & NN LM

这里主要介绍一个简单的LM方法，n-gram。任务描述输入一个句子的开头单词：比如I；输出最有可

maershii·2019-01-06 16:04

【NLP】CNN文本分类原理及python代码实现

cnn网络处理文本的理解，可以把卷积层看作n-gram的一种处理。每一句话可以当做一个图像问题。卷积就是对每个词的上下文提取特征。python代码实现#!

zkq_1986·2019-01-03 14:04

【NLP篇-分词】分词的几种方法综述

第一部分：分词的方法概述基于词表:正向最大匹配法、逆向最大匹配法基于统计：基于N-gram语言模型的分词方法基于序列标注:基于HMM/CRF/DeepLearning的端到端的分词方法第二部分：方法简要说明正向最大匹配法

塵世星空·2019-01-03 09:36

一波NLP算法实习生面经（12月中旬）

平安金融一账通：一面：（大概）1.LSTM的结构2.讲一下n-gram和词袋模型二面：1.将1234000翻译成0001234，或者讲一下seq2seq答：听过，但是没深入了解（我项目上只写了情感分析啊

Jaykie_·2018-12-29 20:17

深度学习：TextCNN

从直观上理解，TextCNN通过一维卷积来获取句子中n-gram的特征表示。TextCNN对文本浅层特征的抽取能力很强，在短文本领域如搜索、对话领域专注于意图分类时效果很好，应

-柚子皮-·2018-12-18 20:48

Python 最大概率法进行汉语切分的方法

2切分算法中的语言模型可以采用n-gram语言模型，要求n>1，并至少采用一种平滑方法；代码：废话不说，代码是最好的语言importreimportmathMAX_SPLITLEN=4#最大切分长度corpus_lib

qijingpei·2018-12-14 16:31

推荐频道

n-gram

李宏毅深度学习视频摘要

NLP点滴——文本相似度

基于word2vec的文档向量模型的应用

N-gram模型

自然语言处理-Word2Vec视频教程

深度学习PyTorch（三）循环神经网络

N-gram模型的训练以及应用

NLP - TextCNN

BLEU源码笔记

BPE提取subword

从n-gram到Bert聊一聊词向量：Word2Vec

python sklearn CountVectorizer的使用及相关说明

python sklearn CountVectorizer的使用及相关说明

新词发现算法

中文纠错之N-gram

NLP学习记录4——n-gram模型（待整理）

语言模型：n-gram语言模型和神经网络语言模型

PyTorch搭建N-gram模型实现单词预测

fastText原理及实践

N-gram介绍

文本情感分析(一)：基于词袋模型(VSM、LSA、n-gram)的文本表示

NLP基础实验②：TextCNN实现THUCNews新闻文本分类

《Phrase-Based & Neural Unsupervised Machine Translation》阅读

NLP技术总结

LM比较：bert、emlo、GPT、NNLM、word2vec

自然语言处理 特征提取

NLP框架

【NLP】朴素贝叶斯——新闻、邮件分类以及语种检测

【NLP】朴素贝叶斯——新闻、邮件分类以及语种检测

【NLP】从贝叶斯谈到N-gram语言模型

【NLP】从贝叶斯谈到N-gram语言模型

从n-gram到Bert聊一聊词向量（一）：n-gram

【自然语言处理】word2vec模型

详解依存树的来龙去脉及用法

正向最大匹配法、逆向最大匹配法、双向最大匹配法的分析、语言模型中unigram、bigram、trigram的概念以及N-Gram模型介绍

FastText模型原理

N-Gram模型介绍

基于n-gram模型的中文分词

1.5特征（feature）

自然语言处理NLP（3）——神经网络语言模型、词向量

学习：N-Gram模型

语言模型（N-Gram）

NLP常见语言模型总结

NLP面试题目汇总1-5

【NLP】n-gram LM & NN LM

【NLP】CNN文本分类原理及python代码实现

【NLP篇-分词】分词的几种方法综述

一波NLP算法实习生面经（12月中旬）

深度学习：TextCNN

Python 最大概率法进行汉语切分的方法

自然语言处理特征提取