语料第43页

Python3实现计算文本相似度（查重机制）

使用Python3中jieba包进行分词，整理为指定格式，gensim库将要对比的文档通过doc2bow转化为稀疏向量，再通过models中的tf-idf将语料库进行处理，特征值和稀疏矩阵相似度建立索引

NLP的菜鸡平·2020-08-18 19:09

利用scrapy框架爬取某招聘网站，并对数据进行简单分析

决定先利用之前为了搜集语料学习的爬虫去搜寻一些职位相关讯息，看看大家现在都在招什么样的工作。目标网站：这个就很多辣，什么某直聘，某勾。

奥卡姆剪刀脚·2020-08-18 17:19

TF-IDF算法以及场景应用

需要有一个语料库corpus。

热衷开源的Boy·2020-08-18 17:06

word2vec的pytorch实现

word2vec将词表示成一个定长的向量，然后通过在语料库中的预训练使得这些向量能够学习到词与词之间的相似关系和类比关系。

超级无敌吉士堡·2020-08-18 05:24

gensim 中文语料训练 word2vec

gensim的word2vecapi参见：https://radimrehurek.com/gensim/models/word2vec.html本文说一下中文语料的使用，很简单。

一个人的场域·2020-08-17 23:28

Pytorch-LSTM+Attention文本分类

摘抄笔记语料链接：https://pan.baidu.com/s/1aDIp3Hxw-Xuxcx-lQ_0w9A提取码：hpg7train.txtpos/neg各500条，一共1000条（用于训练模型）

Douzi1024·2020-08-17 20:41

官网实例详解4.18（lstm_seq2seq.py）-keras学习笔记四

英文翻译为法文的实例准备下载fra-eng并解压到和py文件同目录fra-eng目录文件fra.txt（corpus，语料库）文件内容，每行英文单词+空格+法文单词Keras实例目录代码注释'''SequencetosequenceexampleinKeras

wyx100·2020-08-17 17:01

Language Modeling---NLP学习笔记（原创）

课程链接为：https://class.coursera.org/nlangp-0011.语言模型定义：ModelRepresentation：V：集合V包含语料中所有单词，例如：V={the,dog,

weixin_30241919·2020-08-17 15:16

NLP学习记录（三）语言模型

语言模型通俗的来说就是通过语料，计算某个句子出现的概率N-Gram（有时也称为N元模型）是自然语言处理中一个非常重要的概念，通常在NLP中，人们基于一定的语料库，可以利用N-Gram来预计或者评估一个句子是否合理

只想安静的一个人·2020-08-17 15:58

Reuters-21578 数据集处理

具体处理方法如下：处理后的语料下载地址点击打开链接fromtimeimportstrptimeimportcsvimportnumpyarticle_components=['DATE','PLACES

白又白胖又胖·2020-08-17 15:41

情感极性：基于fasttext的情感极性判断模型实现

3、中文分词与jieba4、数据来源二、实战1、语料处理语料处理方面，使用jieba分词，添加自定义词典进行分词：def__load_user_dict(cls):"""加载用户词典"""config=

lpty·2020-08-17 15:06

事件本体以及突发事件语料库--CEC（Chinese Emergency Corpus）

1、什么是本体？本体最初是一个哲学上的概念，十多年前被引入计算机领域中作为知识表示的方法并被广泛使用。Studer给出了本体的定义：“本体是共享概念模型的明确的形式化规范说明”。本体对于探索人的认知原理、发展自然语言理解技术和人机交互技术有重要意义。但是传统的本体模型存在着一系列的不足之处，1、作为知识的表示形式，在描述多远关系的能力上存在先天不足；2、认知科学家认为，人的概念大体可分为实体和事件

shijiebei2009·2020-08-17 14:21

《Hierarchical Recurrent Attention Network for Response Generation》阅读笔记（层次注意力）

生成时既利用了词级有利用了话语级的attetion，话语级是单向的编码原因是越近的对话历史越重要，详细参考https://zhuanlan.zhihu.com/p/61101200实验数据处理分词，删除回复在整个语料库中出现次数超过

greenhand2014·2020-08-17 13:41

上海大学建了一个“突发事件语料库”，包括地震、恐怖袭击等5大类

（来源：上海大学官网）作者|阿司匹林出品|AI科技大本营（公众号ID：rgznai100）本体最初是一个哲学上的概念，十多年前被引入计算机领域中作为知识表示的方法并被广泛使用。本体对于探索人的认知原理、发展自然语言理解技术和人机交互技术有重要意义。要理解这些话语文本,就必须知道这些事件类丰富的内容,这些内容的绝大部分是不可能在话语文本中叙述的,而是作为共同知识预先存在于每个交流者的头脑中。事件本体

AI科技大本营·2020-08-17 12:00

Neural Architectures for Named Entity Recognition翻译

nopSled·2020-08-17 08:39

在“3_人民日报语料”中统计“日语借词”的词频;

3.在“3_人民日报语料”中统计“日语借词”的词频;pyhton方法#-*-coding:utf-8-*-importjsonjapanese_words_file=open('japanese_words.txt

kangyucheng·2020-08-17 07:07

古德-图灵估计(Good-Turing Estimate) From 《数学之美》（笔记）

假定在语料库中出现

zjy997·2020-08-16 22:03

「自然语言处理(NLP)」中文自然语言处理可能用到的数据集

具体主要包括：中文常用词停用词数据集、汉语拆字词表、中文词表、人名语料库、中文缩写数据库、中文专业领域词库、中文敏感词库、维基百科词条(104万)、新闻语料json版(250万篇)、百科类问答jso

yinizhilianlove·2020-08-16 17:44

广告图片过滤

weixin_33744141·2020-08-16 15:53

NLP点滴——文本相似度，计算文本间的距离

而有了文本之间相似性的度量方式，我们便可以利用划分法的K-means、基于密度的DBSCAN或者是基于模型的概率方法进行文本之间的聚类分析；另一方面，我们也可以利用文本之间的相似性对大规模语料进行去重预处理

huanghanqian·2020-08-16 12:12

[内附完整源码和文档] 基于python的新闻检索系统

1.2系统思路与框架本系统总体的实现思路如图1所示：一个完整的搜索系统主要的步骤是：对新闻网页进行爬虫得到语料库抽取新闻的主体内容，得到结构化的xml数据内存式单遍扫描索引构建方法构建倒排索引，供检索模块使用

LEMFOooO·2020-08-16 11:25

【LDA】LDA主题模型

对于语料集中的每篇文档，其生成过程是：首先，从文档的所有主题分布中选取一个主题，这个过程服从所有主题的多项式分布。同时文档所有主题服从Dirichlet分布。

zkq_1986·2020-08-16 10:05

文本分类和聚类有什么区别？

分类器需要由人工标注的分类训练语料训练得到，属于有指导学习范畴。聚类则没有事先预定的类别，类别数不确定。聚类不需要人工标注和预先训练分类器，类别在聚类过程

yaoxy·2020-08-16 10:13

Python之LDA主题模型算法应用

然而，这个模型的主要参考，Bleietal2003可以在线免费获得，我认为将语料库（文档集）中的文档分配给基于单词矢量的潜在（隐藏）主题的主要思想是相当容易理解的而这个例子（来自lda）将有助于巩固我们对

weixin_33939380·2020-08-16 09:09

主题模型初学者指南[Python]

主题可以由语料库中的共现词项所定义，一个好的主

wangyajie_11·2020-08-16 08:49

论文浅尝 | K-BERT: Enabling Language Representation with Knowledge Graph

1.论文动机论文认为通过泛用型公开语料预训练得到的BERT模型只拥有“常识”，在特定垂直领域（如科技、医疗、教育等）的任务中表现效果存在提升空间。

游离态GLZ不可能是金融技术宅·2020-08-16 07:43

python下进行lda主题挖掘(二)——利用gensim训练LDA模型

)——利用gensim训练LDA模型python下进行lda主题挖掘(三)——计算困惑度perplexity本篇是我的LDA主题挖掘系列的第二篇，介绍如何利用gensim包提供的方法来训练自己处理好的语料

MoonBreeze_Ma·2020-08-16 07:19

[机器学习]TF-IDF是什么

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

茫茫人海一粒沙·2020-08-16 06:08

基于财经新闻的LDA主题模型实现：Python

LDA主题模型虽然有时候结果难以解释，但由于其无监督属性还是广泛被用来初步窥看大规模语料(如财经新闻)的主题分布。

空城0707·2020-08-16 06:39

带你读论文：基于深度学习的图像分类中数据增强的有效性

他还举了一个例子，用来说明谷歌语料库的发布如何基于文本的模型受益。作者并以此提出了一个有趣的观点，大量的非结构化数据出现的任务就是寻找一个模式。

cl15926282674·2020-08-16 06:24

[NLP] TorchText 使用指南

TorchText是PyTorch的一个功能包，主要提供文本数据读取、创建迭代器的的功能与语料库、词向量的信息，分别对应了torchtext.data、torchtext.datasets和torchtext.vocab

文森特没有眼泪·2020-08-16 03:22

语音识别—声学模型训练（前向-后向算法）

声学模型训练（前向-后向算法）前文讲述了语音识别声学模型训练算法，主要基于Viterbi-EM算法来估计模型中参数，但是该方法对于计算语料中帧对应状态的弧号存在计算复杂度指数级增加的问题，为解决上述问题

Xwei1226·2020-08-15 22:58

作为BERT模型命名实体识别任务的输入，对于IBO标注数据进行检测判断标注正确性

从2018年google提出bert后，一直在使用bert模型作为训练基础经常会需要标注语料数据在数据量极大的情况下，数万标注后头晕眼花，如何快速差错也是一个问题于是设置了3条规则作为检查的基本属性，后续欢迎补充前置

Junruiqwertyuiop·2020-08-15 20:47

rnnoise 降噪算法与传统算法对比分析

特征点提取，以及语料成为了算法的核心部分。从两种算法的核

zeark·2020-08-15 16:53

【分享】690人中文车载语音数据库（样例）

数据介绍不同籍贯、性别的发音人在车载环境下用三星手机录制的中文普通话语料，共690多名录音人，每人310句。所有数据均做过人工转写，转写后有效语音数据为214990条。

狗熊不偷白菜·2020-08-15 15:23

自然语言处理之word2vec原理词向量生成

从头开始讲的话，首先有了文本语料库，你需要对语料库进行预处理，这个处理流程与你的语料库种类以及个人目的有关，比如，如果是英文语料库你可能需要大小写转换检查拼写错误等操作，如果是中文日语语料库你需要增加分词处理

平原2018·2020-08-15 15:31

语音识别（二）——基本框架, Microphone Array, 声源定位

语言模型估计通过重训练语料学习

antkillerfarm·2020-08-15 13:21

Pyspark Word2Vec + jieba 训练词向量流程

摘要:用商品描述为语料库训练商品词向量为例,分享一下用pyspark自带word2vec+jieba分词训练词向量的流程.工具:python,pyspark,jieba,pandas,numpy数据格式

levy_cui·2020-08-15 02:31

Pyspark机器学习之Word2Vec（推荐系统内容相似）

Word2Vec简介Word2Vec是一个词嵌入方法，可以计算每个单词在给定的语料库环境下的分布式向量，如果两个单词的语义相近，那么词向量在向量空间中也相互接近，判断向量空间的接近程度来判断来两个单词是否相似

levy_cui·2020-08-15 02:59

Gensim做中文主题模型（LDA)

环境：Ubuntu12.04,gensim,jieba中文语料来自http://www.sogou.com/labs/dl/c.html的精简版（tar.gz格式）24Mjerry@hq:/u01/jerry

csdn666666666·2020-08-14 10:39

PostgreSQL\GPDB 多维数据透视典型案例分享

标签PostgreSQL,数据透视,实时,物化,预计算,多维分析,流计算,增量合并,调度,HLL背景典型的电商类数据透视业务，透视的语料可能会包含一些用户的标签数据：例如包含品牌的ID，销售区域的ID，

weixin_34377065·2020-08-14 09:23

PostgreSQL\HybridDB for PG 毫秒级多维数据透视案例分享

阅读原文请点击摘要：标签PostgreSQL,数据透视,实时,物化,预计算,多维分析,流计算,增量合并,调度,HLL背景典型的电商类数据透视业务，透视的语料可能会包含一些用户的标签数据：例如包含品牌的ID

qq_35267530·2020-08-14 09:49

NLP面试题总结.02

3.文本语料库的可能特征是什么？4.你在20K文档的输入数据上为机器学习模型创建了文档-词矩阵（document-termmatrix）。以下哪项可用于减少数据维度？5.哪些文本分

fly_Xiaoma·2020-08-14 08:38

python词云wordcloud

思路1，读取本地的数据文件，包括用来生成词云的语料(txt格式)，中文停顿词袋(txt格式)，默认词袋(txt格式)以及词云模板(jpg格式)。

帅帅de三叔·2020-08-14 05:31

音频采样率批量转换

因为之前训练的模型采样率是22050，现在手上有采样率48000的数据，虽说调整下参数也可以，但效果不是太好，就试着转一下，用的是BZNSYP的语料库。

赫凯·2020-08-14 03:07

Tensorflow教程之语音识别

训练模型的语料除了标注具体的文字外。还要标注按时间对应的音素，这就需要大量的人工成本。（标记因素是个很大的坑）而使用神经网络的语音识别就变得简

James_Bobo·2020-08-13 22:23

词向量 - 实际动手使用word2vec

这对后续的文本分类，文本聚类等等算法提供良好的数据样本，本文将详细介绍如何使用word2vec构建中文词向量这里所需要用到的包，这些包需要首先使用pip或者conda安装jiabagensimsklearn一、中文语料库本文采用的

阿农安贵人·2020-08-13 18:31

《Improving Langugage Understanding by Generative Pre-Tranining》 —— GPT

目录《ImprovingLangugageUnderstandingbyGenerativePre-Tranining》1、GPT历史意义2、无监督预训练——通过大量未标记语料学习网络的初始参数3、SupervisedFine-Tuning4

努力努力努力努力·2020-08-13 17:01

词向量可视化，Embedding projector实现——基于维基中文语料库

本文词向量训练过程参考如下博客：https://blog.csdn.net/svenhuayuncheng/article/details/78751311按照该文的步骤得到一个wiki.zh.text.vector文件，用txt打开，可见如下数据：其中478328是词的个数，100是词向量的维度（在训练的时候自己设定），每一个词后的100个数是该词的词向量。下面将其进行可视化，利用的工具是Emb

三·川·2020-08-12 13:40

通俗易懂ELMO原理+中文词嵌入实现（训练神雕侠侣小说）

简单来说，本文的模型其实本质上就是基于大规模语料训练后的双向语言模型内部隐状态特征的组合。实

东东oyey·2020-08-12 13:09

推荐频道

语料