E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
文本挖掘
文本挖掘
浅述
文本挖掘
是一个融合了多学科的交叉领域,对
文本挖掘
的研究需要将自然语言处理、数据挖掘、信息检索、机器学习等众多领域的知识相结合。
坚信小佐
·
2020-09-14 15:01
组队学习7:自然语言处理NLP(一)
学习小组的目的主要是细致地学习NLP的一些概念,更好地巩固自己的
文本挖掘
能力。
绝对是谨慎提交的昵称
·
2020-09-14 11:48
组队学习·数据竞赛
自然语言处理
深度学习
python中文文本分类
这是来自一个菜鸟的总结前言除去非中文部分中文分词读取文档并且去除非中文部分,在利用jieba分词处理引用停用词进行向量化,TF-IDF和标准化K-means算法聚类优化main()函数总体test.py代码文件目录结构前言在做
文本挖掘
的时候
重邮小瓜皮
·
2020-09-14 00:41
python自然语言处理
大数据还能这么用:看穿式监管 精准锁定异动账户
近年来,深交所积极推进科技监管、智能监管,充分运用
文本挖掘
、机器学习等先进技术,结合一线监管实践,开发了大数据智能监察系统、上市公司监管系统、风险监测监控系统等智能化应用系统,
weixin_34128237
·
2020-09-13 17:03
数据库
大数据
人工智能
中文情感分析——snownlp类库 源码注释及使用
最近发现了snownlp这个库,这个类库是专门针对中文文本进行
文本挖掘
的。
weixin_30663391
·
2020-09-13 13:57
借助亚马逊S3和RapidMiner将机器学习应用到
文本挖掘
在本篇博客帖中,你将会学习到如何将机器学习技术应用到
文本挖掘
中。我将会向你展示如何使用RapidMiner(一款流行的预测分析开源工具)和亚马逊S3业务来创建一个文件挖掘应用。亚马逊S3业务是
dizhong1566
·
2020-09-13 10:03
人工智能
数据结构与算法
数据库
【视频】Rapidminer关联规则和
文本挖掘
模型对评论数据进行分析
原文链接:http://tecdat.cn/?p=14919关联规则是if/then语句,可帮助发现看似无关的数据之间的关系。关联规则的一个示例是“如果客户购买鸡蛋,那么他有80%的可能性也购买牛奶”。关联规则包含两个部分,一个前提(if)和一个后果(then)。前项是在数据中找到的一个或多个项目。结果就是与前项组合在一起的项(或项集)。关联规则是通过分析频繁使用的“如果/然后”模式的数据并使用条
qq_19600291
·
2020-09-13 09:01
访问原文链接下载完整资料
RapidMiner
机器学习
Rapidminer
关联规则
文本挖掘
评论数据
在面试机器学习、大数据岗位时遇到的各种问题
机器学习、大数据相关岗位的职责平台搭建类数据计算平台搭建,基础算法实现,当然,要求支持大样本量、高维度数据,所以可能还需要底层开发、并行计算、分布式计算等方面的知识;算法研究类
文本挖掘
,如领域知识图谱构建
zdy0_2004
·
2020-09-13 09:24
面试
机器学习
Weka学习之Filter(2)-StringToWordVector
它是我们在
文本挖掘
中用得比较普遍的一个类。
helen_PhDing
·
2020-09-13 04:36
R: RStudio的中文读取、保存与显示
做中文
文本挖掘
的时候经常要读取中文网站上的信息,但英文系统RStudio在WINDOWS系统下有无法完全兼容中文字符,所以print到显示器上的中文字符统统是乱码。
岁月催猪老
·
2020-09-13 03:50
R
R
中文字符
A road map to become a Data Scientist(上)
该地图一共十条路线,分别是基础原理、统计学、编程能力、机器学习、
文本挖掘
/自然语言处理、数据可视化、大数据、数据获取、数据清理、常用工具。
Kevin的BLOG
·
2020-09-13 02:14
数据博文
Image Captioning Metrics —— CIDEr的计算
博客:
文本挖掘
预处理之TF-IDF余弦相似性余弦
忘泪
·
2020-09-12 21:41
论文阅读
R语言︱
文本挖掘
——词云wordcloud2包
每每以为攀得众山小,可、每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~———————————————————————————笔者看到微信公众号探数寻理中提到郎大为Chiffon老师的wordcloud2,于是尝鲜准备用一下。但是在下载的时候,遇见很多问题,安装问题困扰着。。。包中函数本身很好用,很简单,而且图形众多。————————————————————————————
悟乙己
·
2020-09-12 20:49
NLP︱R+python
R︱可视化
R语言与自然语言处理
情感分析 综述
它在数据挖掘、Web挖掘、
文本挖掘
和信息检索方面得到了广泛的研究。实际
k+
·
2020-09-12 20:28
情感分析
综述
情感分析
机器学习
文本特征选择
在做
文本挖掘
,特别是有监督的学习时,常常需要从文本中提取特征,提取出对学习有价值的分类,而不是把所有的词都用上,因此一些词对分类的作用不大,比如“的、是、在、了”等停用词。
赵志雄
·
2020-09-12 12:52
自然语言处理
机器学习
nlp
特征选择
卡方
互信息
R语言ETL工程:分组(group_by)
作者:黄天元,复旦大学博士在读,目前研究涉及
文本挖掘
、社交网络分析和机器学习等。希望与大家分享学习经验,推广并加深R语言在业界的应用。
R语言中文社区
·
2020-09-12 10:42
文本特征提取基本概念介绍----文档模型、相似度计算、潜在语义分析(LSA)
----------------------------------------------------------------------------------------------------
文本挖掘
模型结构示意图
lifelegendc
·
2020-09-11 09:19
机器学习
R语言实现
文本挖掘
和tagxedo词云可视化技术
本文将通过KNIME、R语言和tagxedo三个工具来实现
文本挖掘
和词云可视化技术,体验一下舆情分析的魅力。
野生数据分析
·
2020-09-11 02:51
数据分析
数据挖掘
基于大数据的情绪分析
导语社交媒体、电子邮件、聊天、产品评论和推荐的
文本挖掘
和分析已经成为几乎所有行业垂直行业研究数据模式的宝贵资源,它能够帮助企业获得更多信息、更加了解客户、预测和增强客户体验、量身定制营销活动,并协助做决策
架构师小秘圈
·
2020-09-11 01:33
文本挖掘
和文本分析的九大应用场景
采用基于
文本挖掘
技术的风险管理软件可以显着提高降低风险的能力,实现数千个来源的文本文档的完整管理。l知识管理管理大量文本文档时,一个很大的问题就是——无法快速地找到重要的信息。
congzhou9273
·
2020-09-11 00:53
TF-IDF算法和余弦相似度算法计算文本相似度(纯手撕)
一、TF-IDF算法 TF-IDF(termfrequency–inversedocumentfrequency,词频-逆向文件频率)是一种用于信息检索(informationretrieval)与
文本挖掘
野指针S-E
·
2020-09-06 12:26
NLP
nlp
算法
[NLP] 中文文本自动辅助标注工具推荐
我们的项目需要用到
文本挖掘
和事件提取技术,没有现成的工具可以用,所以我们自己开发了一套小工具来为我们的事件图提供初级的中文标注语料。经过我们的多次迭代逐渐趋于稳定,现在开放出部分功能来为大家提供服务。
本识
·
2020-08-26 16:38
工具介绍
【小白总结】NLP算法:文本研究领域与NLP文本标注工具(一)
自然语言处理本身是为了让计算机能够处理、理解以及运用人类语言,从而达到人与计算机之间的有效通讯,为了研究信息检索、情感分析、文本分类、智能问答、摘要提取、
文本挖掘
,舆情分析、知识图谱等方面的问题,解决在词态
liuxiangjunzzz
·
2020-08-26 16:45
NLP
标注平台
text mining and analysis 学习笔记week1
2.挖掘文本中的内容3.得到观察者的思想或观点等4.推断预测现实生活里的变量此外,
文本挖掘
并不局限于文本数据,一些相关的数值数据也能给该
文本挖掘
提供一些有帮助的背景信息。
xy773545778
·
2020-08-26 16:57
数据
机器学习、数模相关算法知识
机器学习算法GBDTLightGBM两种使用方式2020年第八届泰迪杯数据挖掘C题“智慧政务
文本挖掘
”特等奖作品(论文与代码)数据科学利器PyCaret灰色关联分析(GRA)的理论及应用(matlab和
Geek_
·
2020-08-25 15:45
机器学习
用
文本挖掘
深度剖析54万首诗歌
楔子许多年之后,面对书桌上的两句残词,贬居黄州的东坡居士将会回想起,他在故乡眉山见到朱姓老尼的那个遥远的下午。彼时的东坡还不是东坡,还只是一个七岁孩童。有一天,他在家附近偶遇一位年约九十的朱姓老尼。老尼看到苏轼天资聪颖,就跟他聊起自己年轻时的经历,曾跟随师父进入后蜀主孟昶的宫中。一日,天酷热,孟昶和他的妃子花蕊夫人深夜纳凉于摩诃池上。面对此情此景,蜀主即兴赋词一首...老尼将她印象中仅存的打头两句
Python中文社区
·
2020-08-25 09:34
自然语言处理
webgl
机器学习
gwt
人工智能
R语言 数据挖掘-文本分析(1)
刚接触R语言一周,和matab不同R作用于数据挖掘的库很多,详解见R语言数据挖掘包,下面简介文本分析经常使用到的三个包tm为
文本挖掘
提供综合性处理Rwordmsg进行中文分词wordcloud统计词云以第三届泰迪杯
语落心生
·
2020-08-25 00:18
scrapy爬虫框架和selenium的使用:对优惠券推荐网站数据LDA
文本挖掘
原文链接:http://tecdat.cn/?p=12203介绍每个人都喜欢省钱。我们都试图充分利用我们的资金,有时候这是最简单的事情,可以造成最大的不同。长期以来,优惠券一直被带到超市拿到折扣,但使用优惠券从未如此简单,这要归功于Groupon。Groupon是一个优惠券推荐服务,可以在您附近的餐馆和商店广播电子优惠券。其中一些优惠券可能非常重要,特别是在计划小组活动时,因为折扣可以高达60%。
LT_Ge
·
2020-08-24 17:52
scrapy
网页爬虫
sas
文本挖掘
案例:如何使用SAS计算Word Mover的距离
原文链接:http://tecdat.cn/?p=6181WordMover的距离(WMD)是用于衡量两个文档之间差异的距离度量,它在文本分析中的应用是由华盛顿大学的一个研究小组在2015年引入的。WordMover距离的定义WMD是两个文档之间的距离,作为将所有单词从一个文档移动到另一个文档所需的最小(加权)累积成本。通过解决以下线性程序问题来计算距离。Tij表示文档d中的单词i在文档d'中移动
LT_Ge
·
2020-08-24 17:27
sas
sas
文本挖掘
案例:如何使用SAS计算WordMover的距离
原文链接:http://tecdat.cn/?p=6181WordMover的距离(WMD)是用于衡量两个文档之间差异的距离度量,它在文本分析中的应用是由华盛顿大学的一个研究小组在2015年引入的。WordMover距离的定义WMD是两个文档之间的距离,作为将所有单词从一个文档移动到另一个文档所需的最小(加权)累积成本。通过解决以下线性程序问题来计算距离。Tij表示文档d中的单词i在文档d'中移动
LT_Ge
·
2020-08-24 16:49
sas
推荐系统_01_UserCF和ItemCF
推荐系统可能涉及的常见算法聚类关联模式挖掘大规模矩阵计算
文本挖掘
复杂网络和图论算法协同过滤的基本思想协同过滤一般指在海量的用户中发掘出一小部分和你品味比较类似的。
Levy_Y
·
2020-08-24 13:04
推荐系统
无标题文章
#实证条件下的酒店评论
文本挖掘
标签(空格分隔):酒店评论
文本挖掘
---##背景携程网是中国领先的旅游综合服务网站。其提供的酒店服务用户群众多,订房服务的业务总量极大。
上房揭瓦者
·
2020-08-24 07:58
文本挖掘
第三周
一概率主题模型1.1混合语言模型如何摆脱背景词(数据中频率高)——常见词不应用分布解释背景主题模型:生成常用词汇使用另个分布:需决定产生词时用哪一个分布计算一个词概率:两种情况的总和问题:是如何区分词在哪一个分布的?词在每个分布的概率是如何计算的?1.2d中词的概率假设背景词已知,如何调整θd来让已观测到的高频词概率达到最大当已知背景词模型时,B中词的概率高,d中词的概率就小了。、1.3在文档中添
巴比妥_0052
·
2020-08-24 04:31
文本特征选择
在做
文本挖掘
,特别是有监督的学习时,常常需要从文本中提取特征,提取出对学习有价值的分类,而不是把所有的词都用上,因此一些词对分类的作用不大,比如“的、是、在、了”等停用词。
梦幻之窗
·
2020-08-24 04:08
机器学习
机器学习
scikit-learn
文本挖掘
概念
文本挖掘
textmining知识密集的处理过程,使用分析工具与文档集合动态交互。类似于数据挖掘的方式,
文本挖掘
旨在通过识别令人感兴趣的模式来提取和搜索数据源中有用信息。
喂鱼W_y
·
2020-08-24 04:13
机器学习
自然语言处理实践(新闻文本分类)——task03
基于机器学习的文本分类TF-IDFTF-IDF算法是一种在
文本挖掘
中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度。
M.〽
·
2020-08-24 04:18
NLP文本分类
用R语言实现
文本挖掘
(tm)、聚类
最近因为写毕业论文,想要找找怎样能够识别不相干方法评论,结果看到了R语言中使用K-mean聚类,可以查看不在聚类范围类的,输出异常的评论。由于K-mean聚类是针对数值型数据的,所以在运用K-mean聚类算法对文本进行主题聚类时,需要经历分词、词向量、文档-词矩阵等,用到了几个包。我原先针对这部分的文本分析主要时用Python中的结巴工具分词、提出关键词、LDA主题分类等方法。今天想要试试用R语言
紫夜馨空
·
2020-08-24 04:36
应用scikit-learn做文本分类
文本挖掘
的paper没找到统一的benchmark,只好自己跑程序,走过路过的前辈如果知道20newsgroups或者其它好用的公共数据集的分类(最好要所有类分类结果,全部或取部分特征无所谓)麻烦留言告知下现在的
小飞侠-2
·
2020-08-24 01:53
R语言-
文本挖掘
例子
以总理2015报告原文进行挖掘处理,先将报告内容保存为TXT格式文本。需要的包:rJava,Rwordseg,wordcloud。library(rJava)library(Rwordseg)library(wordcloud)1、读入文本数据mydata<-read.csv("D:/test/R/report2015.txt",stringsAsFactors=FALSE,header=FALS
hongweigg
·
2020-08-24 00:09
R
Language
文本挖掘
----基于OCR的文档关键字提取
前言紧急添加:有人反馈看不懂。那是因为没有看姐妹篇,《你有没有想到,这样的观点挖掘引擎?》。请先阅读本文,再继续看下去!做了一段时间的OCR,把大量的图片、PDF处理成了文本。请注意:这些文本在互联网上属于稀有资源。这些文本以前都放在一个盒子里,如今,用OCR做钥匙打开盒子。取出东西,是好是坏也没人知道。但是,总得取出来看看。所以,TextMining就有了用处。我们把这些稀缺数据拿来挖一挖。万一
谷震平
·
2020-08-24 00:07
项目经验
Python
文本挖掘
R语言做
文本挖掘
Part4文本分类
Part4文本分类【发现有人转载,决定把格式什么重新整理一遍,有时间做个进阶版
文本挖掘
,恩!原文地址:CSDN-R语言做
文本挖掘
Part4文本分类】Part3文本聚类里讲到过,分类跟聚类的简单差异。
EchoCaiCai
·
2020-08-24 00:51
R语言相关
重磅︱
文本挖掘
深度学习之word2vec的R语言实现
笔者寄语:2013年末,Google发布的word2vec工具引起了一帮人的热捧,大家几乎都认为它是深度学习在自然语言领域的一项了不起的应用,各种欢呼“深度学习在自然语言领域开始发力了”。基于word2vec现在还出现了doc2vec,word2vec相比传统,考虑单词上下文的语义;但是doc2vec不仅考虑了单词上下文的语义,还考虑了单词在段落中的顺序。如果想要了解word2vec的实现原理,应
悟乙己
·
2020-08-23 11:55
NLP︱R+python
R语言与自然语言处理
tidytext | 耳目一新的R-style文本分析库
有一本R语言的
文本挖掘
书《TextminingwithR》,知识体系挺完整的,该书主力分析工具是R语言的tidytext包。
邓旭东HIT
·
2020-08-23 08:50
可视化
网络
数据可视化
数据分析
编程语言
探索说明文的课堂深度
一一读王君老师《苏州园林》教学实录有感关于说明文教学,似乎并无太多的
文本挖掘
点。今天读了王君老师的《苏州园林》教学实录,让我对说明文教学有了新的认识。
玫兰妮
·
2020-08-23 01:14
文本特征选择之互信息和卡方
参考:http://www.cnblogs.com/fengfenggirl/p/text_feature_selection.html在做
文本挖掘
,特别是有监督的学习时,常常需要从文本中提取特征,提取出对学习有价值的分类
一个人的场域
·
2020-08-22 22:23
机器学习
文本特征
互信息
卡方
文本挖掘
:twitter推特LDA主题情感分析
原文链接:http://tecdat.cn/?p=1506“高度信息化的今天,社交媒体向我们提供直接认识外界的一个窗口,决定着大家对一个地区的认知,像是一双对地区形象“塑型”的“看不见”的手。▼根据这个背景,tecdat对素有“塞上江南”之称的宁夏热门推文(hottweet,推特中的热门推文是指被转推或被收藏过的推文,相比普通推文影响力更大)进行了分析。研究人员发现网友们关注的主题,同时倾听大家呈
LT_Ge
·
2020-08-22 16:30
情感
主题模型
R语言中对文本数据进行主题模型topic modeling分析
p=4333主题建模在
文本挖掘
中,我们经常收集一些文档集合,例如博客文章或新闻文章,我们希望将其分成自然组,以便我们可以分别理解它们。
LT_Ge
·
2020-08-22 15:56
r语言
主题模型
R语言中对文本数据进行主题模型topic modeling分析
p=4333主题建模在
文本挖掘
中,我们经常收集一些文档集合,例如博客文章或新闻文章,我们希望将其分成自然组,以便我们可以分别理解它们。
LT_Ge
·
2020-08-22 15:30
r语言
主题模型
R语言
文本挖掘
NASA数据网络分析,tf-idf和主题建模
原文链接:http://tecdat.cn/?p=6763NASA托管和/或维护了超过32,000个数据集;这些数据集涵盖了从地球科学到航空航天工程到NASA本身管理的主题。我们可以使用这些数据集的元数据来理解它们之间的联系。1NASA如何组织数据首先,让我们下载JSON文件,并查看元数据中存储的名称。metadata%count(word,sort=TRUE)最常见的关键字是什么?nasa_ke
LT_Ge
·
2020-08-22 14:46
r语言
文本处理
主题模型
R语言
文本挖掘
tf-idf,主题建模,情感分析,n-gram建模研究
原文链接:[](https://www.cnblogs.com/tecda...http://tecdat.cn/?p=6864[](https://www.cnblogs.com/tecda...我们将对1993年发送到20个Usenet公告板的20,000条消息进行分析。此数据集中的Usenet公告板包括新闻组用于政治,宗教,汽车,体育和密码学等主题。预处理我们首先阅读20news-bydat
LT_Ge
·
2020-08-22 14:45
r语言
文本处理
上一页
5
6
7
8
9
10
11
12
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他