语料第39页

CCKS2019—面向金融的事件主题识别思路分享

2.方法探索3.用bert模型进行迁移学习4.答案规则的尝试5.模型的训练和调优6.赛后总结6.1不足和遗憾6.2展望1.题目概述本次赛题的本质是nlp的阅读理解，由于本次比赛可以使用预训练模型和外部语料库

格拉迪沃·2020-09-11 22:08

nltk的安装

命令安装nltkpipinstallnltkStep2：运行python命令Step3：输入importnltkStep4：输入nltk.download()Step5：会弹出一个界面，可以选择你想下载语料

jyfhsszq·2020-09-11 21:09

NLTK-自然语言工具包

NLTK配套有文档，有语料库，有书籍。

Baby_Snow·2020-09-11 21:45

拼写纠错python代码

fromnltkimport*fromnltk.corpusimportbrown#每次访问数据需要添加数据至路径当中corpus=brown.sents()#.sent()整个语料库中的句子,sents

赤醒醒·2020-09-11 17:36

聊天机器人之文本聚类分析

算法概述特点选择算法计算过程优化聚类API设计参考资料文本聚类文本聚类(TextClustering)，是依据同类文档的相似度较大，而不同类的文档相似度较小的原则，使用无监督的机器学习方法，将同类文档从目标语料库聚集到一簇的任务

Hai Liang Wang·2020-09-11 12:09

一个可以使用自己语料进行训练的聊天机器人开源项目

目录背景关于语料的说明seq2seq版本代码执行顺序seqGAN版本代码执行顺序参考代码和文献建议环境已更新功能清单版本路线图背景自定义语料训练聊天机器人，可以用于智能客服、在线问答、智能聊天等场景。

Hai Liang Wang·2020-09-11 12:09

派特心理：招募心理咨询语料标注志愿者

伴随着国内对心理咨询服务的需求增长，出现了供需之间的不平衡的问题：一方面是心理咨询人的不断增加，难以找到好的心理咨询师；另外一方面是心理咨询师的主要经历是在做一些常见问题的回答，在很多工作上是低效率的，尤其是接待早期咨询者和回访。目前，国人在慢慢接受心理咨询，通过互联网、在线音视频。我们在很多心理咨询平台上看到了很多咨询没有得到积极、有效的帮助，这个现象亟需得到改变。虽然在网络上，有很多心理咨询社

Hai Liang Wang·2020-09-11 12:37

为什么特征数据要做对数变换？

例如，每个数据项的值都很大，许多这样的值进行计算可能对超过常用数据类型的取值范围，这时取对数，就把数值缩小了，例如TF-IDF计算时，由于在大规模语料库中，很多词的频率是非常大的数字。

colorful_-_·2020-09-11 11:50

论文阅读：A Survey on Deep Learning for Named Entity Recognition

这是一篇2020年发的命名实体识别的综述性论文，从NER的语料库，定义，评估指标，到深度学习中的NER的技术都有涉及到。

Rock_y·2020-09-11 09:11

IMDB影评分析实验

5万个txt文件中工作步骤如下：1-将这50000个txt文件（评论）整合成一个表格，表格分为两列，第一列表示评论的内容，第二列表示评论是属于正面(用1表示)还是负面(用0表示)2-将评论的内容（原始语料进行预处理

无敌小熊猫·2020-09-11 07:23

[nltk_data] Error loading stopwords: urlopen error [Errno 11004] 解决办法

今天在用NLTK下载语料库的时候提示如下问题：[nltk_data]Errorloadingstopwords:False先百度了一下发现结果都在扯淡。。

RainyD4y·2020-09-11 00:40

从google产品来看搜索引擎需求

MP3搜索,新闻搜索等都是其一个子项,要么是限制站点的站内搜索,要么就是对时间特别敏感,有时效性;3)网页目录导航这是从信息中抽取关键字,自动网页分类技术;用到的是数据挖掘技术,这个也比较成熟了.首先建起语料库

仰望星空WU·2020-09-10 21:50

百度2019校园招聘 —— 机器学习/数据挖掘/自然语言处理部分题

2019校园招聘计算机视觉算法研发工程师百度笔试题练习[1]（08-17）1.下列关于语言模型的说法错误的是（）BA基于知识的语言模型通过非歧义的规则解释歧义过程B基于知识的语言模型是经验主义方法C基于语料库的统计分析模型需要从大规模的真实文本中发现知识

北木.·2020-09-10 20:36

自然语言处理 - LSA

比如语料库是1000个单词，200篇文档的情况下，矩阵M的维度是1000x200，该矩阵有20万个元素。通过奇异值分解，可以得到三个矩阵，分别是1000x1000，

风华明远·2020-09-10 20:26

AAAI 2020 | 通过解纠缠模型探测语义和语法的大脑表征机制

由于大脑语言处理过程十分复杂，传统认知神经科学使用人工设计的语料来收集神经影像数据进而研究这个问题。由于人工

喜欢打酱油的老鸟·2020-09-10 20:15

python.nlp随笔（四）简单的全文检索系统

实现一个简单的电影评论语料库的全文检索系统#!

Answerman33·2020-09-10 20:46

AI最全数据集汇总：语音、歌声、音乐、图片、视频等领域开源数据集链接汇总

文章目录**音乐数据集**百万歌数据集**语音数据集**口语维基百科语料库语音命令数据集零资源语音挑战ISOLET数据集阿拉伯语言语料库TIMIT语料库**音响/自然**环境音频数据集城市声音分类城市声音数据集鸟类音频检测挑战中文文本分类数据集

缠禅可禅·2020-09-10 19:53

[AAAI2018]SEE:Syntax-aware Entity Embedding for Neural Relation Extraction

Distantsupervised的用处（１）扩大训练语料（２）找到新的关系我一度混淆了远程监督和多示例的概念，特在此再强调下：远程监督是借助外部已有知识库多示例是：给包打标签，一个包里包含多个句子，这些句子都包含相同的实体对

小妖精Fsky·2020-09-10 18:47

LSTM模型训练精准率高测试精准率很低解决办法

使用小语料集训练，测试精准率还行，当语料集达到2000组时，问题来了，训练精准率很高，但测试精准率非常低。

彭朝劲·2020-09-10 18:37

【NLP】自然语言处理完整流程

自然语言处理完整流程第一步：获取语料1、已有语料2、网上下载、抓取语料第二步：语料预处理1、语料清洗2、分词3、词性标注4、去停用词三、特征工程1、词袋模型（BoW）2、词向量第四步：特征选择第五步：模型训练

__盛夏光年__·2020-09-10 18:54

sigma_Tian·2020-09-10 17:10

windows安装gensim

主要是用来主题建模、文档索引以及使用大规模语料数据的相似性检索，被作者称为“根据纯文本进行监督性建模最健壮、最有效的、最让人

修炼之路·2020-09-10 17:04

python实现中文的繁简转换

我们在对中文语料作预处理时，往往会遇到繁简体转换的问题，这也是预处理环节的重要一环。

中科小白·2020-09-10 17:33

介绍N-gram比较清楚的博客

www.cnblogs.com/think90/articles/11522978.html无监督构建词库：更快更好的新词发现算法新词发现是NLP的基础任务之一，主要是希望通过无监督发掘一些语言特征（主要是统计特征），来判断一批语料中哪些字符片段可能是一个新词

hellocsz·2020-09-10 13:53

关于Transformer的个人理解

在一个大语料库上进行训练后，每个单词的向量就固定下来，在不同的语境中的表示是完全一样的。我们每天使用语言，应该知道同样的词在不同的情况下属性能够体现

劉北习·2020-09-10 12:58

TF-IDF算法和余弦相似度算法计算文本相似度（纯手撕）

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同

野指针S-E·2020-09-06 12:26

最全NLP中文文本分类实践（上）——中文分词获取和Word2Vec模型构建

因此，自己从网上找了一个中文语料库进行尝试。本文的实践内容包括文件的读取、中文分词、词向量表达、模型构建和模型融合。本文所采用的语料库为复旦中文文本分类语料库，包含20个类别。

我是你博哥啊·2020-09-02 11:57

如何打造中国版的“万能AI”GPT-3

▲GPT-3支持输入自然语言自动生成公式GPT-3是用英文语料做预训练的，主要应用于英文相关场景，而中文业界和学术界已经出现了期待中文版GPT-3的声音。“GPT-3与出门问问

PingWest品玩·2020-09-02 00:00

A Survey on Deep Learning for Named Entity Recognition(2020)阅读笔记

1.Summary文章主要介绍了NER的资源（NER语料及工具），并从distributedrepresentationforinput，contextencoder和tagdecoder三个维度介绍了目前现有的工作

Mecthew·2020-08-31 20:30

Pytorch-使用Bert预训练模型微调中文文本分类

笔记摘抄语料链接：https://pan.baidu.com/s/1YxGGYmeByuAlRdAVov_ZLg提取码：tzaoneg.txt和pos.txt各5000条酒店评论，每条评论一行。

Douzi1024·2020-08-28 22:00

[NLP] 中文文本自动辅助标注工具推荐

我们的项目需要用到文本挖掘和事件提取技术，没有现成的工具可以用，所以我们自己开发了一套小工具来为我们的事件图提供初级的中文标注语料。经过我们的多次迭代逐渐趋于稳定，现在开放出部分功能来为大家提供服务。

本识·2020-08-26 16:38

第6章实战之聊天语料处理

代码学习：extract_conv.py文件：函数1：defmake_split(line):ifre.match(r'.*([，…?!\.,!？])$',''.join(line)):return[]return[',']首先，定义函数make_split()：其主要实现功能是匹配开头为.*([，…?!\.,!？])$的字符串，若有这些字符串，将其用空格表示。用空格代替来连接line中的字符串。

Chz9523·2020-08-26 15:23

word2vec

Corpuszh_cn搜狗语料库：ftp://ftp.labs.sogou.com/Data/SogouCS/SogouCS.tar.gz中文维基百科语料库：https://dumps.wikimedia.org

treasuresss·2020-08-26 14:43

word2vec词向量训练-python版

一、gensim介绍gensim是一款强大的自然语言处理工具，里面包括N多常见模型：-基本的语料处理工具-LSI-LDA-HDP-DTM-DIM-TF-IDF-word2vec、paragraph2vec

MiracleJQ·2020-08-26 13:58

back translation时如何选取源语言生成方式

Sergey2018EMNLP_UnderstandingBack-TranslationatScale摘要：采样/加噪的合成数据，比greedy/beam方法生成的数据训练效果更好研究了合成数据较之真正双语数据效果如何研究了各种domaineffectsIntro：关于如何使用单语语料优化模型

Geek Fly·2020-08-26 11:51

基于结构化感知机的词性标注与命名实体识别框架

词性标注训练词性标注是分词后紧接着的一个任务，训练语料同上，接口如下：命令行java-cphanlp.jarcom.hankcs.hanlp.model.perceptron.Main-taskPOS-train-referencedat

adnb34g·2020-08-25 17:06

词嵌入之Word2vec

虽然one-hot词向量构造起来很容易，但有两个缺点：在语料库过大时，词汇表可能达到百万级别，但向量只有一个位置是1，其余的

Yasin_·2020-08-25 17:29

自然语言处理之word2vec

该挑战突出表现在模型的平滑问题上：标注语料是有限的，而语言整体是无限的，传统模型无法借力未标注的海量语料，只能靠人工设计平滑算法，而这些算法往往效果

Wenweno0o·2020-08-25 17:55

英语语料库与英文写作

语料库以数字系统为根基存放生活中会出现的语料，分析处理后成为可检索的资源。中国学者泰半在英语写作都不这么吃香，当代科研中把英语水平提升到论文初稿的水准才能取得平均水平的成绩。

enago·2020-08-25 16:28

python多进程提取处理大量文本的关键词

实验测试语料：message

怀梦远航·2020-08-25 09:39

nltk包的下载与离线导入

课程中需要导入nltk包中的Reuters语料库，但是原始代码是在线下载的，国内连不上服务器，挂梯子都不行原始代码如下：fromgensim.modelsimportKeyedVectorsfromgensim.test.utilsimportdatapathimportpprintimportmatplotlib.pyplotaspltplt.rcParams

Metralix·2020-08-25 09:44

第一周学习小结

课堂中做了一道简单的自然语言处理例题：假设训练语料S由下面3个句子构成，(“BROWNREADHOLYBIBLE”,“MARKREADATEXTBOOK”,“HEREADABOOKBYDAVID”)用计算最大似然估计的方法计算概率

yaoqinghao·2020-08-25 08:24

20191124_射雕侠侣和天龙八部小说分类

关键字提取importpandasaspd#载入语料raw=pd.read_csv("data/附件2_金庸-射雕英雄传txt精校版.txt",names=['txt'],sep='aaa',encoding

Happy丶lazy·2020-08-25 07:11

word2vec and glove优缺点

传统方法假设我们有一个足够大的语料库（其中包含各种各样的句子，比如维基百科词库就是很好的语料来源）那么最笨（但很管用）的办法莫过于将语料库里的所有句子扫描一遍，挨个数出每个单词周围出现其它单词的次数，做成下面这样的表格就可以了

To_be_brave1·2020-08-25 04:32

KALDI工具箱运行TIMIT语料库库实例教程

TIMIT数据库介绍：TIMIT数据库由630个话者组成，每个人讲10句，美式英语的8种主要方言。TIMITS5实例：首先，将TIMIT.ISO中的TIMIT复制到主文件夹。1.进入对应的目录，进行如下操作：zhangju@ubuntu:~$cdkaldi-trunk/egs/timit/s5/zhangju@ubuntu:~/kaldi-trunk/egs/timit/s5$sudolocal/

ldd530314297·2020-08-25 03:54

2018-08-11 考拉阅读

对于分级阅读中“如何科学划分文本的难度等级”的问题，考拉阅读结合语言学、测量心理学以及AI算法构建起中文分级底层语料库。依托自主研

赵雪奎·2020-08-25 00:02

文本标注工具BRAT安装使用

利用该工具可以方便的获得各项NLP任务需要的标注语料。

小小她爹·2020-08-24 19:55

智能催收机器人

智能催收机器人语料训练针对逾期一天的客户的催收机器人主要以提醒客户还款为主，对话流程设置较为简单，主要为1.确定是不是本人2.情况说明，询问逾期原因3.第一次催收4.第二次催收5.结束语针对第一次和第二次催收得到的肯定或者否定答案

sparkapi·2020-08-24 16:58

nltk下载stopwords触发SSL错误解决办法

问题如果你在下载stopwords或者其他nltk语料的时候遇到类似如下的错误，那你来对地方了[nltk_data]ErrorloadingPunkt:解决方法很简单，Terminal里直接运行下面的命令

农业频道新星·2020-08-24 15:41

图表示学习之Deepwalk

在NLP领域，word2vec算法根据语料库中单词的共现关系，将自然语言中的单词表示为低维向量。

AGUILLER·2020-08-24 15:38

推荐频道

语料