语料第41页

papagraph vector 训练过程

训练过程中新增了paragraphid，即训练语料中每个句子都有一个唯一的id。paragraphid和普通的word一样，也是先映射成一个向量，即paragraphvector。

baoyan2015·2020-08-23 05:43

2 Connectionist Temporal Classification在语音识别中的运用(未完待续)

一摘要RNN运用到序列的学习中很有用，但是还是需要预处理数据，即例如处理语音数据，之前每一帧的输入需要对应一个label，本文直接利用RNN处理未预处理的数据，并在TIMIT语料库中进行实验，相对HMM

HxShine·2020-08-23 04:34

04-05

（其实就是建立语料库，并生成索引；训练完成之后，模型的语料库就建好了，就不用添加了）测试的时候就比如对测试集的每一个example（句子

Preke·2020-08-23 03:42

历史从哪里来 - 古希腊史是如何被我们拼凑出来的(中）

有趣的是，最早发现的古希腊文语料文物居然是喝酒的杯子，而在杯子上发现的最早的文学形式-诗歌，一般都是短短几句以“我是某某人的杯子”开头，戏谑结尾

书袋鱼Nerdyfish·2020-08-23 03:39

TF-IDF 提取文本关键词

TF-IDF是一种统计方法，用于评估某个词语对于一个文本集或者一个语料库中的一个文件的重要程度，字词的重要性随着其在文本的出现次数成比例增加，但是又会随着其在语料库中的频率反比率下降，多为搜索引擎应用，

XD122·2020-08-22 22:58

下载 | 9G火爆的Python爬虫教程+ 520页《图解机器学习》

爬虫作为机器学习语料库构建的主要方式，建议大家都了解学习一下，现在不用并不代表将来用不到，建议将视频资源收藏或保存。

木东居士·2020-08-22 20:28

用python进行数据处理（numpy+pandas）

正文之前的BB时间还是个人实验的需要，实验语料数据句子Sequence的长短不一，最长的和最短的差了两个数量级，一起训练非常耗时。

茶多多多多多·2020-08-22 17:15

平行语料库

平行语料库：1.TED官网Transcript栏目下有多种语言；https://www.ted.com/talks/jeanne_gang_buildings_that_blend_nature_and_city

huang_yx005·2020-08-22 17:08

NLP理论基础

1.NLTK的安装pipinstallnltk2.安装语料库importnltknltk.download()例如安装布朗大学的语料库：brown也可以在程序中下载nltk.download('brown

chuimie3724·2020-08-22 16:19

四期21天训练营宣言

时间：2016年6月6日-2016年6月26日【刘旭晖公开承诺】【1】我的主题词及其解释：学习英语：雅思王英语语料、剑桥雅思阅读理解、剑桥雅思听力，websocialclub。

刘旭晖·2020-08-22 16:35

nktk.download()出现getaddrinfo failed

最近在下载nltk语料库出现getaddrinfofailed原因是因为serverindex这里地址错误了我们改成www.nltk.org/nltk_data就可以啦

·Barton··2020-08-22 14:29

如何使用Python对中文文档进行可视化的主题建模?

主题建模是一种无监督的机器学习方法，它帮助我们发现文档(语料库)中隐藏的语义结构，它使我们能够快速的发现文档中所包含的主题。主题模型可以应用于推荐系统和论坛中的帖子自动加注标签等这样的应用中。

-派神-·2020-08-22 14:01

史上最全的中文词汇数据集

数据集中有800多万中文词汇，相比现有搜狗实验室，清华和哈工大公布的语料库，覆盖率、新鲜度及准确性上有大幅的提高。

中国小宝·2020-08-22 14:12

中文语料的 Bert finetune

在节省资源避免重头开始训练的同时，为更好的拟合垂直领域的语料，我们有了finetune的动机。

weixin_34377919·2020-08-22 14:57

最简版Seq2Seq的英法机器翻译实践和详细代码解释

Seq2Seq的英法机器翻译实践本文的内容主要是基于英法平行语料库来实现一个简单的英法翻译模型。

weixin_34161032·2020-08-22 14:11

mmseg中文分词算法的python实现及其优化

输入输出该分词的训练语料取自人民日报1998年公开的语料库。为了保证测试的严谨性，选择另一份语料库做测试文档。

say_c_box·2020-08-22 13:33

python实现的基于hmm模型的词性标注系统

python实现的基于hmm模型的词性标注系统任务定义实现一个词性标注系统，输入分好词的单词序列，输出一个词性标注后的结果序使用的语料库为人民日报98年公开语料库，一共约18000行语料。

say_c_box·2020-08-22 13:32

CS224n - 任务3 - 2. RNN解决命名实体问题

我们对每个预测的标记使用交叉熵损失：(a)i.RNN模型：有个参数，有个参数基于window的模型：有个参数ii.预测长T的句子标签的时间复杂度：：：：(b)很难直接对F1进行优化F1不可微分需要从整个语料库预测来计算

yyyybupt·2020-08-22 13:18

DL之Attention-ED：基于TF NMT利用带有Attention的 ED模型训练、测试(中英文平行语料库)实现将英文翻译为中文的LSTM翻译模型过程全记录

DL之Attention-ED：基于TFNMT利用带有Attention的ED模型训练(中英文平行语料库)实现将英文翻译为中文的LSTM翻译模型过程全记录目录测试输出结果模型监控训练过程全记录测试输出结果轻轻的我走了

一个处女座的程序猿·2020-08-22 13:40

LSTM_文本生成（text_generation）

1.文本生成（char）用LSTM做文本生成举个小小的例子，来看看LSTM是怎么玩的我们这里用温斯顿丘吉尔的人物传记作为我们的学习语料。

AI算法工程师YC·2020-08-22 13:20

Keras实现seq2seq案例代码：Bi-LSTM

论文：《LearningPhraseRepresentationsusingRNNEncoder–DecoderforStatisticalMachineTranslation》，即“开发基准语料库，以支持从医疗病例

满腹的小不甘·2020-08-22 13:14

基于裁判文书与犯罪案例文本挖掘项目

LawCrimeMiningLawCrimeMiningBasedonCorpusbuildandcontentanalysisbyNLPmethods.基于领域语料库构建与NLP方法的裁判文书与犯罪案例文本挖掘项目项目地址

liuhuanyong_iscas·2020-08-22 12:48

如何快速搭建实用的爬虫管理平台

对搜索引擎来说，爬虫不可或缺；对舆情公司来说，爬虫是基础；对NLP来说，爬虫可以获取语料；对初创公司来说，爬虫可以获取初始内容。但是爬虫技术纷繁复杂，不同类型的抓取场景会运用到不同的技术。

MarvinZhang·2020-08-22 12:25

NLP-task4 EMLO &BERT Models

简单来说，本文的模型其实本质上就是基于大规模语料训练后的双向语言模型内部隐状态特征的组合。实验证明，新的词向量模型能够很轻松的与NLP的现有主流模型相结合，并且在六大NLP任务的结

学机器学习的机械工程师·2020-08-22 12:07

cs224n学习1：Word2Vec发展及代码实现

计算表示整句话在训练语料库中出现的次数除以不算当前词Wi后句⼦出现的

Rock_y·2020-08-22 12:57

中文NLP处理方法-to-do-list

中文自然语言处理流程获取语料语料，即语言材料。语料是语言学研究的内容。语料是构成语料库的基本单元。所以，人们简单地用文本作为替代，并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。

sakwsnow·2020-08-22 11:47

通用词向量、句向量研究现状

现如今，一个巨大的趋势是对通用嵌入的探索：在一个大语料库中进行预先嵌入训练，并且可以插入各种下游的任务模型（情感分析、分类、翻译……），通过包含一些在更大的数据集上训练过的常规词或者语句的表示来自动提高其性能

阿里云云栖号·2020-08-22 10:42

pyltp实战

#导入/读取自己的中文语料

superyangtze·2020-08-22 10:20

Graph Convolutional Networks for Text Classification [阅读笔记]

GraphConvolutionalNetworksforTextClassification[阅读笔记]简介贡献相关研究传统文本分类方法基于深度学习的文本分类方法图神经网络方法图卷积网络（GCN）文本图神经网络TextGCN图的构建网络结构结论简介文章基于词的共线和文档的词关系，构建了语料库的知识图谱

WENSHASHA_·2020-08-22 04:45

《用Python进行自然语言处理》第7章从文本提取信息

3.哪些语料库适合这项工作，我们如何使用它们来训练和评估我们的模型?7.1信息提取#一个重要的形式是结构化数据:实体和关系的可预测的规范的结构。

剑九黄·2020-08-22 03:07

《用Python进行自然语言处理》代码笔记（五）：第七章：从文本提取信息

envpython#-*-coding:utf-8-*-#@Author:Peidong#@Site:#@File:eg7.py#@Software:PyCharm"""从文本提取信息"""importnltk#读取语料库的

Pd-pony·2020-08-22 03:37

Python自然语言处理第二章部分习题

使用语料库模块使用语料库模块处理austen-persuasion.txt。这本书中有多少词标识符？多少词类型？

美利坚合众国圣安东尼奥马刺村·2020-08-22 03:03

unigrams,bigrams,trigrams

这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。参考自然语言处理中的N-Gram模型详解

小楼闻夜雨·2020-08-22 03:54

中文分词技术--统计分词

因为大规模语料的建立，统计机器学习方法的研究与发展，基于统计的中文分词成为主流主要思想将每个词看做是由词的最小单位字组成的，如果相连的字在大量的文本中出现的次数越多，则说明这几个字组成词的概率越大。

海青色·2020-08-22 02:44

运用Keras框架对图书评论进行情感分析

，现在开始来写这篇博客我的本科毕业论文是《融合图书评论情感分析、图书评分和用户评分的图书推荐系统》其中一部分就运用到了自然语言处理中的情感分析，我用的是深度学习的方法解决，用的深度学习的Keras框架语料数据来源于公开的

江西师范大学-20届-吴悠·2020-08-22 02:03

python自然语言处理第六章习题

从将名字语料库分成3个子集开始：500个词为测试集，500个词为开发测试集，剩余6900个词为训练集。然后从示例的名字性别分类器开始，逐步改善。使用开发测试集检查你的进展。

qq_34505594·2020-08-22 02:13

聚类、文本分类、倾向性分析

season_sue·2020-08-22 02:02

知识图谱 --- 面向非结构化数据的知识抽取 No.2 关系抽取

1基于模板的关系抽取方法特点：早期，基于语言学知识，结合语料特点，由领域专家手工编写模板示例：1）模板1：[X]与妻子[Y]2）模板2：[X]老婆[Y]利用上述模板在文本中进行匹配，可以获得新的具有“夫妻

谁怕平生太急·2020-08-22 01:38

《使用Python进行自然语言处理》学习笔记五

2处理的HTML好像很多公测语料

活着的隐形人·2020-08-22 01:04

使用sklearn提取TF-IDF文本特征

TF-IDF统计算法参考资料TF-IDF（词频-逆文档频率）算法是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

_carpe_diem_·2020-08-22 01:18

2018-05-06-CS224学习笔记-Word2vec

Word2Vec算法主要包括两个子算法:CBOW(ContinuosBagOfWords)和Skip-Gram算法.Word2Vec算法具体过程如下: 首先,给定一个数据集(一组句子,也叫语料库),然后模型遍历每一个句子的每一个单词

王难难难·2020-08-22 00:37

基于深度学习的汽车行业评论文本的情感分析

dateset爬取汽车之家车主口碑评论文本，抽取口碑中最满意以及最不满意评论文本，分别作为正向情感语料库和负向情感语料库。

就是求关注·2020-08-21 22:39

海天瑞声做智能语音界的“幕后英雄”

作为中国最早进入到工程化应用语音语料领域的资源供应商，海天瑞声可以提供110多种语言、覆盖全球75个国家和地区的语音语料数据的采集和人

weixin_33836223·2020-08-21 22:59

NLP常用资源

Hanlp词向量-北京师范大学&人民大学中文词向量语料库对于国内自然语言处理的研究者而言，中文词向量语料库是需求很大的资源。

lotus_tang·2020-08-21 21:35

Gensim官方教程翻译（三）——主题与转换（Topics and Transformations）

>>>logging.basicConfig(format='%(asctime)s:%(levelname)s:%(message)s',level=logging.INFO)转换接口在之前的教程《语料库与向量空间

在路上吗·2020-08-21 21:50

Gensim官方教程翻译（一）——快速入门

本教程包括为以下几个部分：语料库与向量空间从字符串到向量语料库流-一次一个文档语料库格式与NumPy和SciPy的兼容性主题与转换