E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
语料
LDA主题模型,生成模型VS判别模型
LDA主题模型LDA主题模型是一种文档主题生成模型,是一种非监督机器学习技术,通过模拟文档生成过程,可以用于识别大规模文档集或
语料
库中潜藏的主题信息。
邜玥
·
2020-09-15 04:19
机器学习
中文文本预处理及表示
文本分类一、建立
语料
库文本数据的获取方法一般有两种:使用别人做好的
语料
库爬虫去获取自己的预料数据二、文本预处理1、除去数据中非文本部分一般可以使用正则表达式去进行删除2、处理中文编码问题由于python2
王爷的大房子
·
2020-09-15 01:39
python
爬虫
简易中文自动文摘系统(合集)
目录简易中文自动文摘系统(一):绪论自动文摘的介绍自动文摘分类简易中文自动文摘系统(二):中文
语料
库的准备中文
语料
库jieba分词简易中文自动文摘系统(三):模型训练词向量word2vec与自然语言模型模型训练简易中文自动文摘系统
安藤青司
·
2020-09-15 01:44
深度学习
自动文摘
深度学习
新词发现
新词发现是NLP的基础任务之一,通过对已有
语料
进行挖掘,从中识别出新词。新词发现也可称为未登录词识别,严格来讲,新词是指随时代发展而新出现或旧词新用的词语。
clvsit
·
2020-09-14 21:17
自然语言处理
nlp
新词发现
基于中文维基百科的词向量构建及可视化
)词向量训练实践请参考:词向量技术原理及应用详解(四)运行环境:IDE:Pycharm2019python版本:3.6.3电脑配置:window7,i7,16G内存Step-01:使用维基百科下载中文
语料
Steven灬
·
2020-09-14 21:12
AI与NLP
NLP
中文维基百科
词向量原理
词向量训练
词向量可视化
词云
TF-IDF教程
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个
语料
库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,
瑟瑟发抖的菜鸡望
·
2020-09-14 17:20
机器学习
博客
自然语言处理
hanLP的分词的使用
HanLP具备功能完善、性能高效、架构清晰、
语料
时新、可自定义的特点。
All too well℡
·
2020-09-14 16:17
hanlp
snownlp:自定义训练样本与模型保存
然而,如果我们有自己的
语料
库可以用来训练,则可以大大提高预测的准确率。我们现在从该包的文件存储入手,来看一看它是如何存储并应用模型的。1、找到snownlp包的安装目录本人是在Anaconda上安装
叶舟
·
2020-09-14 14:18
Python
NLP
【NLP学习笔记】词共现矩阵
具体来说,我们通过从大量的
语料
文本中构建一个共现矩阵来定义wordrepresentation。
Murphy.AI
·
2020-09-14 10:22
学习笔记
自然语言处理
nlp
北大学姐博士阶段收官之作ACL2020-低资源场景下的对话系统任务模型定制
用最少的
语料
训练生成模型是构建开放域对话系统的关键挑战之一。现有的方法倾向于使用元学习框架,首先预训练所有非目标任务的参数,然后在目标任务上进行微调。
AITIME论道
·
2020-09-14 03:36
算法
大数据
机器学习
人工智能
深度学习
直播预告: 低资源场景下的对话系统任务的模型定制 | 对话系统专题-5
哔哩哔哩官方账号观看直播链接:https://live.bilibili.com/21813994第五期:2020年8月7日19:30-20:30报告题目:低资源场景下的对话系统任务的模型定制用最少的
语料
训练生成模型是构建
AITIME论道
·
2020-09-14 03:35
推荐系统
人工智能
3d
deep
learning
自然语言处理
好的数据集能让生成的对话配的上你的才华-------知识驱动的中文多轮对话数据集KdConv...
在开放领域对话系统中,由于缺少包含知识标注、涵盖多个话题的多轮对话
语料
的支撑,知识驱动对话中的知识交互的研究受到了一定的限制。
AITIME论道
·
2020-09-14 03:35
大数据
编程语言
机器学习
人工智能
知识图谱
文本分类中遇到的小问题总结
1.当
语料
很大,并且编码和自己期望的不一样,用iconv命令单独转换很麻烦,可以考虑下边的形式。
专注成就专业_
·
2020-09-14 01:45
文本分类
知识图谱中传统关系抽取方法
目前主要采用统计机器学习的方法,将关系实例转换成高维空间中的特征向量或直接用离散结构来表示,在标注
语料
库上训练生成分类模型,然后再识别实体间关系基于特征向量方法最大熵模型(Kambhatla2004)
sty945
·
2020-09-14 01:16
自然语言处理
NLP实践五-----nn基础(fasttext实践)
文章目录简要原理代码实践简要原理fastText的两个任务是分类和训练词向量,传统的word2vec把
语料
库的每个单词当作原子的,为每个单词生成一个词向量,而fastText是对每个字符进行处理的,也就是字符级别的
Yang-Zhou
·
2020-09-14 01:43
nlp学习
fastText简单介绍和使用
support.htmlfastTextisalibraryforefficientlearningofwordrepresentationsandsentenceclassification.fastText是一个单词表示学习和文本分类的库优点:在标准的多核CPU上,在10分钟之内能够训练10亿词级别
语料
?Darkness?
·
2020-09-14 00:00
机器学习
python
HanLP自然语言处理包的使用
HanLP具备功能完善、性能高效、架构清晰、
语料
时新、可自定义的特点。
yue2008
·
2020-09-13 23:47
Java
送丹入炉:学会使用Dataloader方法包装我们的数据 【PyTorch】
在构建Dataloader之前要构建好一个继承了Dataset类的数据集类,在Dataset类中完成
语料
的预处理(主要是tokenizer和embeeding过程),之后再用Dataloader包装Dataset
天才小呵呵
·
2020-09-13 21:00
Pytorch
自然语言处理
pytorch
数据预处理
BiGRU-Attention实体识别
已有的文献和代码,大都是针对英文
语料
,使用词向量作为输入进行训练。这里以实践为目的,介绍一个用双向GRU、字与句子的双重A
sliderSun
·
2020-09-13 17:19
NLP任务之情感分类
使用的
语料
集如下:链接提取码:5uvl流程第一步:统计单词数分布(数据可视化)fromcollectionsimportCounterimportmatplotlib.pyplotaspltlen_lst
Muasci
·
2020-09-13 15:40
机器学习
自然语言处理
Python文章相关性分析---金庸武侠小说分析-2018.1.16
下载完成后可以用自己习惯的工具或程序做相应调整,因
语料
内容太长,博客里面
deujsx4286
·
2020-09-13 15:15
开源分词软件
Bakeoff是一个国际中文处理比赛,有多个
语料
,所以每个
语料
都有排名。只有部分优秀的Bakeoff工具开源。介绍了以下18种分词工具
aigui1439
·
2020-09-13 15:40
基于TF-IDF的关键字提取
因素:某词在同一文章中出现次数)IDF:反文档频率(因素:某词是否在不同文章中出现)TF-IDF=TF*IDF词频(TF)=某个词在当前文章中出现的次数/当前文章的总词数反文档频率(IDF)=Log(
语料
库的文档总数
Da小伙儿
·
2020-09-13 13:10
大数据
ngram语言模型—基于KneserNey及Modified Kneser Ney平滑
预处理用到的库以及预处理
语料
。清除所有符号,并分句,分词importreimportzipfileimportlxml.etreef
Chase_Ray
·
2020-09-13 13:50
NLP
python
nlp
自然语言处理
机器学习
TF-IDF学习笔记
TF-IDF的核心思想是:如果某个词在一篇文章中出现的频率很高,但在其他文章中很少出现,即在
语料
库中出现频率不高,则认为这个词具有很好的类别区分能力,适合用来分类。因此TF-IDF实
yizhi_amber
·
2020-09-13 07:57
自然语言处理
TF—IDF
TF-IDF是一种用于信息检索与数据挖掘的常用加权技术,可以评估一个词在一个文件集或者一个
语料
库中对某个文件的重要程度。
道法—自然
·
2020-09-13 07:55
机器学习
详解TF-IDF
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个
语料
库中
来自宇宙岛的海龟
·
2020-09-13 06:15
算法
ML
中英文
语料
公开数据集大全
用于对话系统的中英文
语料
数据,点击超链接直接进入即可。
数据山谷
·
2020-09-13 05:03
数据挖掘
自然语言处理
nlp
对话系统
tfidf原理及实现
IDF=log(
语料
库的总文档数/包含该词条的文档数+1),分母+1是为了避免分母为0TFIDF=TF*IDF代码实现:两种方法:gesim实现和sklearn实现。先提供g
努力努力再努力_越努力越幸运
·
2020-09-13 05:25
NLP自然语言处理
tf-idf理解与使用
2.idf统计的是log10
语料
库句子总数/包含该词组的句子的个数log_{10}^{
语料
库句子总数/包含该词组的句子的个数}log10
语料
库句子总数/包含该词组的句子的个数,反应的是这个词组重不重要,
HxShine
·
2020-09-13 05:54
python
算法学习总结
算法
TF-IDF个人总结
现将个人对该算法的理解整理如下:TF-IDF是一种统计方法,用来评估一字词对于一个文件集或一个
语料
库中的其中一份文件的重要程度。字词的重要性随着它①在文件中出现的次数成正比增加,但同时会随着
dt_lizhen
·
2020-09-13 05:14
NLP
计算分词的Tf-idf值
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个
语料
库中的其中一份文件的重要程度。字词的重要性随著它在文件中出现的次数成正比增加,但同时会随著它在
语料
库中出现的频率成反比下降。
longyi_java
·
2020-09-13 05:33
【NLP】TF-IDF
有一个词a,有一个
语料
D,D中有n篇文档TFTF,TermFrequency的缩写,中文为词频,意思是一个词在某一
语料
库中出现的次数频率,用公式表达就是这样:a在这篇
语料
库中出现的次数
语料
库的词汇总数\
Ezrealmore
·
2020-09-13 05:01
【NLP】
TF-IDF的定义及计算
假设有
语料
库一共只要2篇文档:d1d_1d1和d2d_2d2,其中d1=(A,B,C,D,A)d_1=(A,B,C,D,A)d1=(A,B,C,D,A)一共有5个单词组成;d2=(B,E,A,B)d_2
HawardScut
·
2020-09-13 05:43
NLP
应用于文本分类问题的TF-IDF改进方法
应用于文本分类问题的TF-IDF改进方法一、传统意义上的TF-IDF(以下内容摘自维基百科)TF-IDF是一种统计方法,用以评估某一字词对于一个文件集或一个
语料
库中的其中一份文件的重要程度。
F_Guardian
·
2020-09-13 04:23
数据挖掘
TF-IDF介绍及应用
主要用于评估某个字词对于一篇文章或一个
语料
库里的一篇文章的重要性。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在
语料
库中出现的频率成反比下降。
海涛anywn
·
2020-09-13 04:17
自然语言处理
机器学习
算法
智能技术与自然语言处理研究室
自八十年代初期以来,先后开展了俄汉机器翻译、固定段落问答、自动文摘、文本纠错、汉字智能输入、语音识别与合成、
语料
库多级加工、语言建模、信息检索、问答系统等多项研究。研究室的代表性成果是开创性
弩马天涯
·
2020-09-13 01:24
实验室
Py之gensim:gensim的简介、安装、使用方法之详细攻略
Py之gensim:gensim的简介、安装、使用方法之详细攻略目录gensim的简介gensim的安装gensim的使用方法gensim的简介Gensim是一个用于主题建模、文档索引和大型
语料
库相似检索的
一个处女座的程序猿
·
2020-09-12 23:37
python自然语言处理实战-第三章中文分词技术
中文分词技术主要有以下三类:规则分词新词难处理统计分词太依赖
语料
质量混合分词(规则+统计)一、规则分词基于规则分词是一种机械的分词方法,需要维护词典,将词语中每个字符串与词表中的词进行逐一匹配,找到则切分
xinzhancs
·
2020-09-12 21:24
nlp
使用LSTM进行文本分类
使用包含10个商品类别,60000+数据的,已标注正负情感的商品评论数据作为训练
语料
。原文件为csv格式,包含3个字段:cat(类别)、label(正负情感)
蓝白江山
·
2020-09-12 21:49
NLP
文本分类:短文本分类
但是训练神经网络需要充足的
语料
来训练,否
让风逝去
·
2020-09-12 20:40
NLP_文本分类
tf-idf使用-提取文章关键词-搜索文章
tf-idf使用我们的目标是提取一篇文章中的关键词or给出关键词,在
语料
库中找到这组关键词最相近的文章。两个目标要解决的问题是差不多的。今天用一种很简单却很有效的方法来解决这个问题,TF-IDF。
EastWR
·
2020-09-12 20:09
机器学习
nlp
python
wiki中文文本
语料
下载,在维基百科中文
语料
训练Word2vec and doc2vec 文本向量化代码示例
首先下载wiki中文
语料
(大约1.7G)https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2下载的文件名为
光英的记忆
·
2020-09-12 19:48
gensim
gensim
word2vec
doc2vec
wiki
中文语料
Python数据预处理--Gensim构建
语料
词典
支持
语料
处理、LSA、LDA、RP、TF-IDF、word2vec等主题模型内存独立,可实现向量空间算法,支持主题建模的可扩展框架核心:
语料
、稀疏向量和模型Gensim构建
语料
词典主要用到corpora.Dictionary
chenxy02
·
2020-09-12 19:48
Python
NLP
context2vec:Learning Generic Context Embedding with Bidirectional LSTM
tatsuokun/context2vechttps://blog.csdn.net/yang191919/article/details/106141327论文解读*提出了一种无监督模型,借助双向LSTM从大型
语料
库中有效学习通用句子上下文表征
wjunneng
·
2020-09-12 14:34
NLP
预训练模型
context2vec
NLP
自然语言处理(二)马尔可夫模型
初始概率矩阵:找出所有出现在词首的汉字,并统计它们出现在词首的次数,这个汉字的初始概率就是以这个汉字开始的单词/所有单词(是词库所有词还是
语料
所有词(重复的问题,为什么)),没统计的汉字就认为出现在词首的概率是
才大难为用
·
2020-09-12 12:29
自然语言处理
原始
语料
库
第一步:判断数据中是否存在重复数据创建python文件–代码框架'''author:kzbtime:2018-12-10'''importpandasaspdimportos,csvdataPath=os.path.join("音译原始数据.csv")defimport_data(dataPath):'''导入文件中的数据return:dataFrame'''passdeffind_En_Cn_e
明天依旧可好
·
2020-09-12 09:35
python
国内
语料
库建设一览表
国内
语料
库建设一览表类型
语料
库名称及大小建设单位英语学习者
语料
库(书面语及口语)中国学习者
语料
库CLEC(100万)广外、上海交大大学英语学习者口语
语料
库COLSEC(5万)上海交大香港科技大学学习者
语料
库
yujun00
·
2020-09-12 08:21
挑战杯后整理
word2vec模型原理(一):基于哈夫曼树的word2vec
一、要解决的问题对于
语料
中的每一个词,最简单的表达方式就是one-hot,即利用位数编码的方式每个词占据一个“1”位,其余为0,。这样做虽然简单,但由于工
zynash2
·
2020-09-12 05:11
深度学习
机器学习
opencc-python使用
opencc-python使用需求:有个7G的
语料
库,希望将其中的繁体字转换为简体;思路:采用opencc进行逐行转换;坑来了:1、opencc-python模块安装:安装存在各种问题,放弃了使用pip
pkongfu
·
2020-09-12 03:27
python
上一页
34
35
36
37
38
39
40
41
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他