语料第49页

Word2Vec词向量模型代码

Word2Vec也称WordEmbedding，中文的叫法是“词向量”或“词嵌入”，是一种计算非常高效的，可以从原始语料中学习字词空间向量的预测模型。

fxfviolet·2020-07-10 16:34

fasttext

在标准的多核CPU上，能够训练10亿词级别语料库的词向量在10分钟之

梦游--·2020-07-10 14:49

GBK编码中汉字的提取

在训练语音模型、整理用于文本搜索的语料库时，通常要需要从GBK编码中提取汉字。GBK编码是怎样的呢？在一堆ASCII码、图形字符、汉字中怎样提取汉字呢？我是这么做的。

yzd_real·2020-07-10 14:14

命名实体识别方法汇总

其目的是识别语料中人名、地名、组织机构名等命名实体。由于这些命名实体数量不断增加，通常不可能在词典中穷尽列出，且其构成方法具

小小小小小飞鸟·2020-07-10 14:07

nltk-构建和使用语料库-可用于小说的推荐-完整实例

步骤1：构建语料库：[python]viewplaincopy#!

笔尖的痕·2020-07-10 12:26

文本自动分类

(可选)根据2步结果，调整参数/特征等示例：数据：搜狗文本分类语料库精简版分类器：朴素贝叶斯编程语言：Python+nltk自然语言处理库+jieba分词库[python]viewplaincopy__

笔尖的痕·2020-07-10 12:26

命名实体识别方法

其目的是识别语料中人名、地名、组织机构名等命名实体。

Future-Miracle·2020-07-10 12:27

文本分析-词频统计

词频：指的是某一个给定的词在该文档中出现的次数概念了解：1.语料库：预料库是我们要分析的所有文档的集合2.中文分词：指的是将一个汉字序列切成一个一个单独的词3.停用词：数据处理的时候，自动过滤掉某些字或词

阿达t·2020-07-10 12:09

chatterbot训练集构建自己的智能NPL机器人（三）

一些常见的中文语料库资源：中文语料库汇总链接直接上代码，是为了将别的语料库导入到chatterbot中。#!

爱学习的森·2020-07-10 10:28

[NLP论文阅读]Distributed Representations of Sentences and Documents

例如，确定上下文窗口的大小为2C，那么Context(w)就是语料库中单词w的前后各C个单词。

左脚能拉小提琴·2020-07-10 02:57

gensim基本使用+文本相似度分析

gensim基本使用gensim是一个通过衡量词组（或更高级结构，如整句或文档）模式来挖掘文档语义结构的工具三大核心概念：文集（语料）–>向量–>模型文集：将原始的文档处理后生成语料库fromgensimimportcorporaimportjiebadocuments

走在下雨天的人·2020-07-10 00:03

机器学习案例实战：Python文本数据分析新闻分类任务

原创文章,如需转载请保留出处本博客为唐宇迪老师python数据分析与机器学习实战课程学习笔记一.文本分析与关键词提取1.1文本数据1.2停用词语料中大量出现没啥大用留着过年吗1.3Tf-idf：关键词提取

Something Just Like·2020-07-09 21:55

FastText算法调研

在标准的多核CPU上，能够训练10亿词级别语料库

舟·2020-07-09 14:13

Python自然语言处理分析倚天屠龙记

语料是倚天屠龙记。之前也有很多人用金庸的武侠小说做分析和处理，希望带来一些不同的地方。截几张图来看看：所有人物的相似图连接。关系同

Python中文社区·2020-07-09 10:55

中文分词十年回顾

中文分词四个难题词的清晰定义分词和理解熟先熟后分词歧义消解未登录词词的清晰界定规范+词表到分词语料库的词语定义过程；语料标注的质量取决于一下三条：严格执行词表驱动原则：词表驱动，就是在上下文未见歧义的情况下

galois_xiong·2020-07-09 09:10

数学之美笔记（2）

语料的选取：训练数据通常越多愈好；训练数据跟应用数据一致性噪声，进行预处理第4章谈谈分词1.查字典找最长的词匹配à最少次数的分词理论：对具有二义性的时候，就不能准确的分割了2.

liche717·2020-07-09 09:47

康奈尔大学的电影对白语料库介绍 --Cornell Movie-Dialogs Corpus

这个公开的资源被很多和自然语言处理NLP相关的开源代码和论文提到，所以仔细阅读了readme，并记录相关要点所有文件以"+++$+++"分隔符-movie_titles_metadata.txt-包含每部电影标题信息-fields:-movieID,-movietitle,-movieyear,-IMDBrating,-no.IMDBvotes,-genresintheformat['genre1

zdcs·2020-07-09 04:42

2018-10-30日记

纪念日：emmm～任务清单今日完成的任务，最重要的三件事：1.整理完前几次的翻译语料库加写完五篇翻译2.测试了长篇阅读的时间3.见了一个很重要的人改进：计划已过了安全期，浪费的时间该风风火火补回来了（哭脸

是超能不是超人呀·2020-07-09 03:41

高效的文本分类

一夜了·2020-07-09 03:41

关于机器学习-深度学习的总结

目前已经更新的blog有：数据篇：1.关于中英文语料的获取途径总结基础总结篇：1.机器学习中的相似性度量2.机器学习中的损失函数总结3.pearson相关系数与spearman相关系数4.机器学习中error

一夜了·2020-07-09 03:10

英语单词后缀规则总结

基于英国国家语料库中最常见的18299个英语单词进行分析，如-ABLE,-ABLY(ableto,capableofbeing.)

sdfjlkjsdfsaldfsdf·2020-07-09 03:49

python自然语言处理-就职演说语料库

书中-就职演说语料库这个小程序统计词汇america和citizen随时间推移的使用情况这个小程序有点bug，我电脑python版本（Python3.6.1）原书中代码是>>>cfd=nltk.ConditionalFreqDist

寻找现实扭曲力场·2020-07-09 03:43

《懒人Shell脚本》之二——语料库的格式化输出

现有的复旦大学提供的语料库有20种分类。（参考：http://www.nlpir.org/?action-viewnews-itemid-103），网上也有提供更多种分类的。分词网上比较NB的

铭毅天下·2020-07-09 00:29

TFIDF

TF-IDF（词频-逆文件频率）定义：TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

weixin_44613663·2020-07-08 23:25

简单理解TFIDF及其算法python实现

字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

雾行·2020-07-08 22:57

文本挖掘之LDA主题模型

在文本挖掘领域，大量的数据都是非结构化的，很难从信息中直接获取相关和期望的信息，一种文本挖掘的方法：主题模型（TopicModel）能够识别在文档里的主题，并且挖掘语料里隐藏信息，并且在主题聚合、从非结构化文本中提取信息

MoModel·2020-07-08 22:42

《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记：04 预处理

03预处理4.1处理原始语料库文本4.1.1获取原始文本4.1.2小写化转换4.1.3分句4.1.4原始文本词干提取4.1.5原始文本词形还原4.1.6停用词去除4.2处理原始语料库句子4.2.1词条化

miniAI学堂·2020-07-08 22:11

基于Keras预训练词向量模型的文本分类方法

本文语料仍然是上篇所用的搜狗新闻语料，采用中文预训练词向量模型对词进行向量表示。

lijqhs·2020-07-08 22:22

chatterbot基于中文语料库得聊天机器人

fromchatterbotimportChatBotfromchatterbot.trainersimportChatterBotCorpusTrainerchatbot=ChatBot("ChineseChatBot")chatbot.set_trainer(ChatterBotCorpusTrainer)#使用中文语料库训练它

爱吃五仁·2020-07-08 21:12

处理数据时，对数据取对数的意义

例如，每个数据项的值都很大，许多这样的值进行计算可能对超过常用数据类型的取值范围，这时取对数，就把数值缩小了，例如TF-IDF计算时，由于在大规模语料库中，很多词的频率是非常大的数字。

illusion_小驴·2020-07-08 19:21

机器学习-贝叶斯拼写纠正器实战

#python版本3.7importre,collections#将语料库里的单词全部转换为小写defwords(text):returnre.findall('[a-z]+',text.lower()

欧阳今朝·2020-07-08 19:46

初识NLP在智能客服中的应用

语料准备：智能客服语料在实际生产，语料一般是需要自己爬取，或者垂直领域的语料由客户提供的，这些数据都是需要清洗、预处理的。

Steven灬·2020-07-08 19:24

ICLR 2020 匿名评审九篇满分论文，最佳论文或许就在其中

从反传的自动微分机制，到不平行语料的翻译模型，ICLR2020这9篇满分论文值得你仔细阅读。早在去年12月，ICLR2020的论文接收结果就已经出来了，其接收率达到了26.5%。

南归北渡·2020-07-08 18:53

python的字符串以及对应向量的遍历，并导入csv

通过word2vector建立语料模型model后，想要得出所有model的词以及对应向量坐标。

雪杉飞狐·2020-07-08 18:40

LDA-math-文本建模

包含M篇文档的语料库统计文本建模的目的就是追问这些观察到语料库中的的词序列是如何生成的。统计学被人们描述为猜测上帝的游戏，人类产生的所有的语料文本我们都可以看

weixin_34416649·2020-07-08 18:47

机器学习入门-贝叶斯拼写纠错实例

问题如果我们看到用户输入一个不在字典中的词，我们需要推测他实际想要输入的词使用贝叶斯公式表示：p(实际想要输入词|用户输入)=p(实际想要输入词)*p(用户输入|实际想要输入词)/p(用户输入)p(实际输入词)表示的是这个词在语料库中出现的词频

weixin_34405332·2020-07-08 18:30

机器学习入门-文本数据-构造Tf-idf词袋模型(词频和逆文档频率) 1.TfidfVectorizer(构造tf-idf词袋模型)...

+出现该词的文档个数)可以看出出现该词的文档个数越小，表示这个词越稀有，在这篇文档中也是越重要的TF-idf：表示TF*idf,即词频*逆文档频率词袋模型不仅考虑了一个词的词频，同时考虑了这个词在整个语料库中的重要性代码

weixin_34331102·2020-07-08 17:40

TF-IDF及其算法

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

weixin_34290000·2020-07-08 17:49

智能聊天机器人语料库的设计编写（一）——Dialogflow

工作快一年，平时做的并不是什么太有技术含量的事情，但突然有一天突发奇想，很想把工作中的一些东西记录下来，于是打算开始在这里记录，当做平时的工作总结吧。大学毕业一年，目前在一家小型公司进行人工智能聊天机器人的对话设计工作。平时主要使用的智能对话工具主要包括Google的Dialogflow，以及AIML文件编写两种方式。今天首先想写的是Dialogflow这种智能聊天设计工具。Dialogflow的

weixin_33893473·2020-07-08 16:58

Test

##语料说明--------------------来源：新浪财经——点击查看；-标记规则：说明文档——点击下载；标记源

wavejkd·2020-07-08 15:16

国内可用免费语料库（已经整理过，凡没有标注不可用的链接均可用）

(一)国家语委1国家语委现代汉语语料库http://www.cncorpus.org/现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快，功能更强，同时提供检索结果下载。

weixin_30681121·2020-07-08 14:31

文本情感分类：传统模型(1)

我们首先通过学习来记忆一些基本词汇，如否定词语有“不”，积极词语有“喜欢”、“爱”，消极词语有“讨厌”、“恨”等，从而在大脑中形成一个基本的语料库。

weixin_30439067·2020-07-08 13:21

Python 实现小型文本分类系统

查了很多资料，找到一篇适合新手的一篇博文：https://blog.csdn.net/github_36326955/article/details/54891204，本人提供了人工分好类的文章训练集语料库

w_yuqing·2020-07-08 12:50

基于scipy层次聚类的python实现

前段时间的项目中碰到一个分层聚类问题，任务是对语料库中的高频词汇进行分层聚类并刻画分类结果中的簇内的层次关系。第一想法是到网上去搜搜看看有没有什么好用的库。

csg_mozl123·2020-07-08 09:13

语料库资源

文章目录国内可用免费语料库(一)国家语委(二)北京大学计算语言学研究中心(三)北京语言大学国外可用免费语料库国内可用免费语料库(一)国家语委国家语委现代汉语语料库http://www.cncorpus.org

zy_ky·2020-07-08 09:24

中英文翻译、语料库等资料

本文整理了一些中英文的翻译类资讯和语料库等，仅供参考。

仗剑smile·2020-07-08 09:05

中文语料库有哪些

中文自然语言处理开放平台由中国科学院计算技术研究所·数字化室＆软件室创立一个研究自然语言处理的一个平台，里面包含有大量的训练测试语料。

千寻～·2020-07-08 09:06

基于贝叶斯算法的拼写纠错案例

importre,collectionsimportsys#把语料库的单词全部抽取出来，转写成小写，并去掉单词中间的特殊符号defwords(text):returnre.findall('[a-z]+

--天行健地势坤--·2020-07-08 09:23

【汇总】语料库资源

感谢豆友prayever分享：Tmxmall是公开的专业平行双语语料库平台，可以查询和下载双语语料库。

苏悟空·2020-07-08 06:47

TF-IDF及其算法

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

sofuzi·2020-07-08 06:46

推荐频道

语料

Word2Vec词向量模型代码

fasttext

GBK编码中汉字的提取

命名实体识别方法汇总

nltk-构建和使用语料库-可用于小说的推荐-完整实例

文本自动分类

命名实体识别方法

文本分析-词频统计

chatterbot训练集构建自己的智能NPL机器人（三）

[NLP论文阅读]Distributed Representations of Sentences and Documents

gensim基本使用+文本相似度分析

机器学习案例实战：Python文本数据分析新闻分类任务

FastText算法调研

Python自然语言处理分析倚天屠龙记

中文分词十年回顾

数学之美笔记（2）

康奈尔大学的电影对白语料库介绍 --Cornell Movie-Dialogs Corpus

2018-10-30日记

高效的文本分类

关于机器学习-深度学习的总结

英语单词后缀规则总结

python自然语言处理-就职演说语料库

《懒人Shell脚本》之二——语料库的格式化输出

TFIDF

简单理解TFIDF及其算法python实现

文本挖掘之LDA主题模型

《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记：04 预处理

基于Keras预训练词向量模型的文本分类方法

chatterbot基于中文语料库得聊天机器人

处理数据时，对数据取对数的意义

机器学习-贝叶斯拼写纠正器实战

初识NLP在智能客服中的应用

ICLR 2020 匿名评审九篇满分论文，最佳论文或许就在其中

python的字符串以及对应向量的遍历，并导入csv

LDA-math-文本建模

机器学习入门-贝叶斯拼写纠错实例

机器学习入门-文本数据-构造Tf-idf词袋模型(词频和逆文档频率) 1.TfidfVectorizer(构造tf-idf词袋模型)...

TF-IDF及其算法

智能聊天机器人语料库的设计编写（一）——Dialogflow

Test

国内可用免费语料库（已经整理过，凡没有标注不可用的链接均可用）

文本情感分类：传统模型(1)

Python 实现小型文本分类系统

基于scipy层次聚类的python实现

语料库资源

中英文翻译、语料库等资料

中文语料库有哪些

基于贝叶斯算法的拼写纠错案例

【汇总】语料库资源

TF-IDF及其算法