E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
语料
Word2Vec词向量模型代码
Word2Vec也称WordEmbedding,中文的叫法是“词向量”或“词嵌入”,是一种计算非常高效的,可以从原始
语料
中学习字词空间向量的预测模型。
fxfviolet
·
2020-07-10 16:34
fasttext
在标准的多核CPU上,能够训练10亿词级别
语料
库的词向量在10分钟之
梦游--
·
2020-07-10 14:49
图像
GBK编码中汉字的提取
在训练语音模型、整理用于文本搜索的
语料
库时,通常要需要从GBK编码中提取汉字。GBK编码是怎样的呢?在一堆ASCII码、图形字符、汉字中怎样提取汉字呢?我是这么做的。
yzd_real
·
2020-07-10 14:14
语音信号处理
命名实体识别方法汇总
其目的是识别
语料
中人名、地名、组织机构名等命名实体。由于这些命名实体数量不断增加,通常不可能在词典中穷尽列出,且其构成方法具
小小小小小飞鸟
·
2020-07-10 14:07
自然语言处理
nltk-构建和使用
语料
库-可用于小说的推荐-完整实例
步骤1:构建
语料
库:[python]viewplaincopy#!
笔尖的痕
·
2020-07-10 12:26
记录
python
实战
机器学习
文本自动分类
(可选)根据2步结果,调整参数/特征等示例:数据:搜狗文本分类
语料
库精简版分类器:朴素贝叶斯编程语言:Python+nltk自然语言处理库+jieba分词库[python]viewplaincopy__
笔尖的痕
·
2020-07-10 12:26
机器
命名实体识别方法
其目的是识别
语料
中人名、地名、组织机构名等命名实体。
Future-Miracle
·
2020-07-10 12:27
自然语言处理
文本分析-词频统计
词频:指的是某一个给定的词在该文档中出现的次数概念了解:1.
语料
库:预料库是我们要分析的所有文档的集合2.中文分词:指的是将一个汉字序列切成一个一个单独的词3.停用词:数据处理的时候,自动过滤掉某些字或词
阿达t
·
2020-07-10 12:09
chatterbot训练集构建自己的智能NPL机器人(三)
一些常见的中文
语料
库资源:中文
语料
库汇总链接直接上代码,是为了将别的
语料
库导入到chatterbot中。#!
爱学习的森
·
2020-07-10 10:28
chatterbot
[NLP论文阅读]Distributed Representations of Sentences and Documents
例如,确定上下文窗口的大小为2C,那么Context(w)就是
语料
库中单词w的前后各C个单词。
左脚能拉小提琴
·
2020-07-10 02:57
paper阅读
nlp
阅读
gensim基本使用+文本相似度分析
gensim基本使用gensim是一个通过衡量词组(或更高级结构,如整句或文档)模式来挖掘文档语义结构的工具三大核心概念:文集(
语料
)–>向量–>模型文集:将原始的文档处理后生成
语料
库fromgensimimportcorporaimportjiebadocuments
走在下雨天的人
·
2020-07-10 00:03
文本分析
python
机器学习案例实战:Python文本数据分析新闻分类任务
原创文章,如需转载请保留出处本博客为唐宇迪老师python数据分析与机器学习实战课程学习笔记一.文本分析与关键词提取1.1文本数据1.2停用词
语料
中大量出现没啥大用留着过年吗1.3Tf-idf:关键词提取
Something Just Like
·
2020-07-09 21:55
贝叶斯算法
FastText算法调研
在标准的多核CPU上,能够训练10亿词级别
语料
库
舟
·
2020-07-09 14:13
数据挖掘/机器学习
Python自然语言处理分析倚天屠龙记
语料
是倚天屠龙记。之前也有很多人用金庸的武侠小说做分析和处理,希望带来一些不同的地方。截几张图来看看:所有人物的相似图连接。关系同
Python中文社区
·
2020-07-09 10:55
中文分词十年回顾
中文分词四个难题词的清晰定义分词和理解熟先熟后分词歧义消解未登录词词的清晰界定规范+词表到分词
语料
库的词语定义过程;
语料
标注的质量取决于一下三条:严格执行词表驱动原则:词表驱动,就是在上下文未见歧义的情况下
galois_xiong
·
2020-07-09 09:10
数学之美笔记(2)
语料
的选取:训练数据通常越多愈好;训练数据跟应用数据一致性噪声,进行预处理第4章谈谈分词1.查字典找最长的词匹配à最少次数的分词理论:对具有二义性的时候,就不能准确的分割了2.
liche717
·
2020-07-09 09:47
数据分析基础知识
机器学习
康奈尔大学的电影对白
语料
库介绍 --Cornell Movie-Dialogs Corpus
这个公开的资源被很多和自然语言处理NLP相关的开源代码和论文提到,所以仔细阅读了readme,并记录相关要点所有文件以"+++$+++"分隔符-movie_titles_metadata.txt-包含每部电影标题信息-fields:-movieID,-movietitle,-movieyear,-IMDBrating,-no.IMDBvotes,-genresintheformat['genre1
zdcs
·
2020-07-09 04:42
一般技巧和资源介绍
自然语言处理
2018-10-30日记
纪念日:emmm~任务清单今日完成的任务,最重要的三件事:1.整理完前几次的翻译
语料
库加写完五篇翻译2.测试了长篇阅读的时间3.见了一个很重要的人改进:计划已过了安全期,浪费的时间该风风火火补回来了(哭脸
是超能不是超人呀
·
2020-07-09 03:41
高效的文本分类
相关介绍文本分类任务是自然语言处理中重要的任务之一,近来,神经网络的使用变得更为普遍,神经网络在文本分类任务中表现更好,但是在训练和测试时间比较慢,限制了在大型
语料
库中的使用。
一夜了
·
2020-07-09 03:41
机器学习及深度学习相关
NLP
关于机器学习-深度学习的总结
目前已经更新的blog有:数据篇:1.关于中英文
语料
的获取途径总结基础总结篇:1.机器学习中的相似性度量2.机器学习中的损失函数总结3.pearson相关系数与spearman相关系数4.机器学习中error
一夜了
·
2020-07-09 03:10
机器学习及深度学习相关
英语单词后缀规则总结
基于英国国家
语料
库中最常见的18299个英语单词进行分析,如-ABLE,-ABLY(ableto,capableofbeing.)
sdfjlkjsdfsaldfsdf
·
2020-07-09 03:49
superword
python自然语言处理-就职演说
语料
库
书中-就职演说
语料
库这个小程序统计词汇america和citizen随时间推移的使用情况这个小程序有点bug,我电脑python版本(Python3.6.1)原书中代码是>>>cfd=nltk.ConditionalFreqDist
寻找现实扭曲力场
·
2020-07-09 03:43
Python
《懒人Shell脚本》之二——
语料
库的格式化输出
现有的复旦大学提供的
语料
库有20种分类。(参考:http://www.nlpir.org/?action-viewnews-itemid-103),网上也有提供更多种分类的。分词网上比较NB的
铭毅天下
·
2020-07-09 00:29
【懒人Shell脚本】
懒人Shell脚本
TFIDF
TF-IDF(词频-逆文件频率)定义:TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个
语料
库中的其中一份文件的重要程度。
weixin_44613663
·
2020-07-08 23:25
简单理解TFIDF及其算法python实现
字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在
语料
库中出现的频率成反比下降。
雾行
·
2020-07-08 22:57
自然语言处理
文本挖掘之LDA主题模型
在文本挖掘领域,大量的数据都是非结构化的,很难从信息中直接获取相关和期望的信息,一种文本挖掘的方法:主题模型(TopicModel)能够识别在文档里的主题,并且挖掘
语料
里隐藏信息,并且在主题聚合、从非结构化文本中提取信息
MoModel
·
2020-07-08 22:42
机器学习
人工智能
《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记:04 预处理
03预处理4.1处理原始
语料
库文本4.1.1获取原始文本4.1.2小写化转换4.1.3分句4.1.4原始文本词干提取4.1.5原始文本词形还原4.1.6停用词去除4.2处理原始
语料
库句子4.2.1词条化
miniAI学堂
·
2020-07-08 22:11
2017年度
基于Keras预训练词向量模型的文本分类方法
本文
语料
仍然是上篇所用的搜狗新闻
语料
,采用中文预训练词向量模型对词进行向量表示。
lijqhs
·
2020-07-08 22:22
chatterbot基于中文
语料
库得聊天机器人
fromchatterbotimportChatBotfromchatterbot.trainersimportChatterBotCorpusTrainerchatbot=ChatBot("ChineseChatBot")chatbot.set_trainer(ChatterBotCorpusTrainer)#使用中文
语料
库训练它
爱吃五仁
·
2020-07-08 21:12
nlp
处理数据时,对数据取对数的意义
例如,每个数据项的值都很大,许多这样的值进行计算可能对超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模
语料
库中,很多词的频率是非常大的数字。
illusion_小驴
·
2020-07-08 19:21
数据处理
特征工程
数学
数据平滑
log函数
数据处理
机器学习-贝叶斯拼写纠正器实战
#python版本3.7importre,collections#将
语料
库里的单词全部转换为小写defwords(text):returnre.findall('[a-z]+',text.lower()
欧阳今朝
·
2020-07-08 19:46
机器学习
初识NLP在智能客服中的应用
语料
准备:智能客服
语料
在实际生产,
语料
一般是需要自己爬取,或者垂直领域的
语料
由客户提供的,这些数据都是需要清洗、预处理的。
Steven灬
·
2020-07-08 19:24
智能问答
AI与NLP
ICLR 2020 匿名评审九篇满分论文,最佳论文或许就在其中
从反传的自动微分机制,到不平行
语料
的翻译模型,ICLR2020这9篇满分论文值得你仔细阅读。早在去年12月,ICLR2020的论文接收结果就已经出来了,其接收率达到了26.5%。
南归北渡
·
2020-07-08 18:53
人工智能
python的字符串以及对应向量的遍历,并导入csv
通过word2vector建立
语料
模型model后,想要得出所有model的词以及对应向量坐标。
雪杉飞狐
·
2020-07-08 18:40
Python
LDA-math-文本建模
包含M篇文档的
语料
库统计文本建模的目的就是追问这些观察到
语料
库中的的词序列是如何生成的。统计学被人们描述为猜测上帝的游戏,人类产生的所有的
语料
文本我们都可以看
weixin_34416649
·
2020-07-08 18:47
机器学习入门-贝叶斯拼写纠错实例
问题如果我们看到用户输入一个不在字典中的词,我们需要推测他实际想要输入的词使用贝叶斯公式表示:p(实际想要输入词|用户输入)=p(实际想要输入词)*p(用户输入|实际想要输入词)/p(用户输入)p(实际输入词)表示的是这个词在
语料
库中出现的词频
weixin_34405332
·
2020-07-08 18:30
机器学习入门-文本数据-构造Tf-idf词袋模型(词频和逆文档频率) 1.TfidfVectorizer(构造tf-idf词袋模型)...
+出现该词的文档个数)可以看出出现该词的文档个数越小,表示这个词越稀有,在这篇文档中也是越重要的TF-idf:表示TF*idf,即词频*逆文档频率词袋模型不仅考虑了一个词的词频,同时考虑了这个词在整个
语料
库中的重要性代码
weixin_34331102
·
2020-07-08 17:40
TF-IDF及其算法
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个
语料
库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在
语料
库中出现的频率成反比下降。
weixin_34290000
·
2020-07-08 17:49
智能聊天机器人
语料
库的设计编写(一)——Dialogflow
工作快一年,平时做的并不是什么太有技术含量的事情,但突然有一天突发奇想,很想把工作中的一些东西记录下来,于是打算开始在这里记录,当做平时的工作总结吧。大学毕业一年,目前在一家小型公司进行人工智能聊天机器人的对话设计工作。平时主要使用的智能对话工具主要包括Google的Dialogflow,以及AIML文件编写两种方式。今天首先想写的是Dialogflow这种智能聊天设计工具。Dialogflow的
weixin_33893473
·
2020-07-08 16:58
Test
##
语料
说明--------------------来源:新浪财经——点击查看;-标记规则:说明文档——点击下载;标记源
wavejkd
·
2020-07-08 15:16
国内可用免费
语料
库(已经整理过,凡没有标注不可用的链接均可用)
(一)国家语委1国家语委现代汉语
语料
库http://www.cncorpus.org/现代汉语通用平衡
语料
库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。
weixin_30681121
·
2020-07-08 14:31
文本情感分类:传统模型(1)
我们首先通过学习来记忆一些基本词汇,如否定词语有“不”,积极词语有“喜欢”、“爱”,消极词语有“讨厌”、“恨”等,从而在大脑中形成一个基本的
语料
库。
weixin_30439067
·
2020-07-08 13:21
Python 实现小型文本分类系统
查了很多资料,找到一篇适合新手的一篇博文:https://blog.csdn.net/github_36326955/article/details/54891204,本人提供了人工分好类的文章训练集
语料
库
w_yuqing
·
2020-07-08 12:50
【自然语言处理】
基于scipy层次聚类的python实现
前段时间的项目中碰到一个分层聚类问题,任务是对
语料
库中的高频词汇进行分层聚类并刻画分类结果中的簇内的层次关系。第一想法是到网上去搜搜看看有没有什么好用的库。
csg_mozl123
·
2020-07-08 09:13
scipy
语料
库资源
文章目录国内可用免费
语料
库(一)国家语委(二)北京大学计算语言学研究中心(三)北京语言大学国外可用免费
语料
库国内可用免费
语料
库(一)国家语委国家语委现代汉语
语料
库http://www.cncorpus.org
zy_ky
·
2020-07-08 09:24
语音识别
中英文翻译、
语料
库等资料
本文整理了一些中英文的翻译类资讯和
语料
库等,仅供参考。
仗剑smile
·
2020-07-08 09:05
中文
语料
库有哪些
中文自然语言处理开放平台由中国科学院计算技术研究所·数字化室&软件室创立一个研究自然语言处理的一个平台,里面包含有大量的训练测试
语料
。
千寻~
·
2020-07-08 09:06
自然语言处理
机器学习
语料库
基于贝叶斯算法的拼写纠错案例
importre,collectionsimportsys#把
语料
库的单词全部抽取出来,转写成小写,并去掉单词中间的特殊符号defwords(text):returnre.findall('[a-z]+
--天行健地势坤--
·
2020-07-08 09:23
机器学习
Python相关学习
【汇总】
语料
库资源
感谢豆友prayever分享:Tmxmall是公开的专业平行双语
语料
库平台,可以查询和下载双语
语料
库。
苏悟空
·
2020-07-08 06:47
TF-IDF及其算法
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个
语料
库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在
语料
库中出现的频率成反比下降。
sofuzi
·
2020-07-08 06:46
算法
上一页
45
46
47
48
49
50
51
52
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他