E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
词频统计
文本分类的数据预处理[转]
/article/details/6305651 在进行文本分类时,毫无疑问会涉及到对文本数据进行预处理,包括文档切分、文本分词、去停用词(包括标点、数字、单字和其它一些无意义的词)、文本特征提取、
词频统计
forever1220
·
2014-07-29 10:00
数据
且看看唐诗宋词都在写什么
初学R与统计分析,恰巧在统计之都看到一篇运用R分析宋词的文章(统计词话),源于此,借鉴该方法分析了一下全唐诗与全宋词:分析步骤主要由三部分构成:资料收集、
词频统计
、对比分析 从网上共搜集唐诗
zbc1090549839
·
2014-07-18 21:00
数据分析
大数据
r
统计
中文分词实践(基于R语言)
思路:把用户关于世界杯的帖子拉下来,然后做中文分词+
词频统计
,最后将统计结果简单做个标签云,效果如下: 后续:中文分词是中文信息处理的基础,分词之后,其实还有特别多有趣的文本挖掘工作可以做,也是个知识发现的过程
a339811061
·
2014-07-13 13:00
R语言
中文分词
ictclas
Hadoop基础学习(一)分析、编写并运行WordCount
词频统计
程序
前面已经在我的Ubuntu单机上面搭建好了伪分布模式的HBase环境,其中包括了Hadoop的运行环境。详见我的这篇博文:http://blog.csdn.net/jiyiqinlovexx/article/details/29208703我的目的主要是学习HBase,下一步打算学习的是将HBase作为Hadoop作业的输入和输出。但是好像以前在南大上学时学习的Hadoop都忘记得差不多了,所以找
jiq408694711
·
2014-06-24 23:00
Hadoop实例练习(一)
实现目标:在对文档进行单词词频计算的同时,对输出结果按单词的词频进行排序设计思路:用一个并行计算任务显然是无法同时完成单词
词频统计
和排序的。为什么无法同时完成呢?
794068648
·
2014-06-06 09:23
hadoop
实例
练习
Hadoop实例练习(一)
实现目标:在对文档进行单词词频计算的同时,对输出结果按单词的词频进行排序设计思路:用一个并行计算任务显然是无法同时完成单词
词频统计
和排序的。为什么无法同时完成呢?
794068648
·
2014-06-06 09:23
Hadoop
实例
练习
Hadoop
Trie树:应用于统计和排序
典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本
词频统计
。它的优点是:最大限
JXH_123
·
2014-06-05 16:00
Hadoop的改进实验(中文分词
词频统计
及英文
词频统计
)(4/4)
如不清楚配置可看《Hadoop之
词频统计
小实验初步配置》 3)本文由于过长,无法一次性上传。其相邻相关的博文,可参见《Hadoop的改进实验(中文分词
词频统计
及英文
词频统计
)博文目录结构
·
2014-05-27 23:00
hadoop
Hadoop的改进实验(中文分词
词频统计
及英文
词频统计
)(3/4)
如不清楚配置可看《Hadoop之
词频统计
小实验初步配置》 3)本文由于过长,无法一次性上传。其相邻相关的博文,可参见《Hadoop的改进实验(中文分词
词频统计
及英文
词频统计
)博文目录结构
·
2014-05-27 23:00
hadoop
Hadoop的改进实验(中文分词
词频统计
及英文
词频统计
)(2/4)
如不清楚配置可看《Hadoop之
词频统计
小实验初步配置》 3)本文由于过长,无法一次性上传。其相邻相关的博文,可参见《Hadoop的改进实验(中文分词
词频统计
及英文
词频统计
)博文目录结构
·
2014-05-27 23:00
hadoop
Hadoop的改进实验(中文分词
词频统计
及英文
词频统计
)(1/4)
如不清楚配置可看《Hadoop之
词频统计
小实验初步配置》 3)本文由于过长,无法一次性上传。其相邻相关的博文,可参见《Hadoop的改进实验(中文分词
词频统计
及英文
词频统计
)博文目录结构
·
2014-05-27 23:00
hadoop
Hadoop的改进实验(中文分词
词频统计
及英文
词频统计
) 博文目录结构
如不清楚配置可看《Hadoop之
词频统计
小实验初步配置》 3)本文由于过长,无法一次性上传。下面是五个部分的简介:一是简要介绍百度云;二是作基本的英文
词频统计
(在百度云下)。至于Ubuntu下的
·
2014-05-27 23:00
hadoop
HBase的java编程实例-写入
词频统计
//下面代码需要新建一个文本文件作为读取内容 importjava.io.BufferedReader; importjava.io.FileReader; importjava.util.List; importjava.util.ArrayList; importorg.apache.hadoop.conf.Configuration; importorg.apache.hadoop.hba
u011321908
·
2014-05-27 23:00
java
hbase
词频统计
词频统计
就是指统计出某个文本中各个词出现的次数,这里使用python中的词典数据结构易得。我用的是matplotlib画柱状图,画出top-K个高频词。
fennvde007
·
2014-05-16 20:00
【python 编程】文本分类KNN算法实现及结果输出
文本分类流程:1、特征选取:网页爬取-》网页预处理获取汉字-》中文分词及词性标注-》保留名词-》
词频统计
-》输出词-文档矩阵-》计算词的信息增益值-》选取增益大的前N个词作为特征词-》计算每个词在文档中的权重
jiayanhui2877
·
2014-05-14 16:00
【python 编程】网页中文过滤分词及
词频统计
从下面实例中可以学习到网页爬取,正则匹配,字符串过滤存储,文件读写等知识点,详细如下:1、全局变量在函数中使用时需要加入global声明2、获取网页内容存入文件时的编码为ascii进行正则匹配时需要decode为GB2312,当匹配到的中文写入文件时需要encode成GB2312写入文件。3、中文字符匹配过滤正则表达式为ur'[\u4e00-\u9fa5]+',使用findall找到所有的中文字符
jiayanhui2877
·
2014-05-12 17:00
如何使用Hadoop的JobControl
MapReduce来处理海量数据是非常简单方便的,但有时候我们的应用程序,往往需要多个MR作业,来计算结果,比如说一个最简单的使用MR提取海量搜索日志的TopN的问题,注意,这里面,其实涉及了两个MR作业,第一个是
词频统计
qindongliang1922
·
2014-05-09 13:00
mapreduce
hadoop
组合式作业
如何使用Hadoop的JobControl
MapReduce来处理海量数据是非常简单方便的,但有时候我们的应用程序,往往需要多个MR作业,来计算结果,比如说一个最简单的使用MR提取海量搜索日志的TopN的问题,注意,这里面,其实涉及了两个MR作业,第一个是
词频统计
qindongliang1922
·
2014-05-09 13:00
mapreduce
hadoop
组合式作业
如何使用Hadoop的JobControl
MapReduce来处理海量数据是非常简单方便的,但有时候我们的应用程序,往往需要多个MR作业,来计算结果,比如说一个最简单的使用MR提取海量搜索日志的TopN的问题,注意,这里面,其实涉及了两个MR作业,第一个是
词频统计
qindongliang1922
·
2014-05-09 13:00
mapreduce
hadoop
组合式作业
如何使用Hadoop的JobControl
MapReduce来处理海量数据是非常简单方便的,但有时候我们的应用程序,往往需要多个MR作业,来计算结果,比如说一个最简单的使用MR提取海量搜索日志的TopN的问题,注意,这里面,其实涉及了两个MR作业,第一个是
词频统计
qindongliang1922
·
2014-05-09 13:00
mapreduce
hadoop
组合式作业
如何使用Hadoop的JobControl
MapReduce来处理海量数据是非常简单方便的,但有时候我们的应用程序,往往需要多个MR作业,来计算结果,比如说一个最简单的使用MR提取海量搜索日志的TopN的问题,注意,这里面,其实涉及了两个MR作业,第一个是
词频统计
qindongliang1922
·
2014-05-09 13:00
mapreduce
hadoop
组合式作业
如何使用Hadoop的JobControl
MapReduce来处理海量数据是非常简单方便的,但有时候我们的应用程序,往往需要多个MR作业,来计算结果,比如说一个最简单的使用MR提取海量搜索日志的TopN的问题,注意,这里面,其实涉及了两个MR作业,第一个是
词频统计
qindongliang1922
·
2014-05-09 13:00
mapreduce
hadoop
组合式作业
Hadoop之
词频统计
小实验
声明: 1)本文由我原创撰写,转载时请注明出处,侵权必究。 2)本小实验工作环境为Ubuntu操作系统,hadoop1-2-1,jdk1.8.0。 3)统计词频工作在单节点的伪分布上,至于真正实际集群的配置操作还没有达到,希望能够由本文抛砖引玉。(一)Hadoop的配置修正网上有很多Hadoop的配置教程,可自行寻找,这一部分主要是根据自身实际情况,结合自身特点,设置Hadoop
·
2014-05-03 18:00
hadoop
数据结构《16》----自动补齐实现《一》----Trie 树
可用于搜索引擎中
词频统计
,自动补齐等。在一个Trie树中插入、查找某个单词的时间复杂度是O(len),len是单词的长度。如果采用平衡二叉树来存储的话,时间复杂度是O(lgN),N为树中单词的总数。
u012653791
·
2014-04-25 22:00
树
trie
python用字典统计单词或汉字词个数示例
/青衣/剑士/连/劈/三/剑/将这段话进行
词频统计
,结果
·
2014-04-22 10:49
字典树及其应用
典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本
词频统计
。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。
u010367506
·
2014-04-18 11:00
算法
海量数据
字典树
语言模型训练工具:SRILM的使用
一、小数据假设有去除特殊符号的训练文本trainfile.txt,以及测试文本testfile.txt,那么训练一个语言模型以及对其进行评测的步骤如下:1:
词频统计
ngram-count-texttrainfile.txt-order3
cdj0311
·
2014-04-17 16:00
linux
大数据
语言模型
字典树Trie
典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本
词频统计
。它的优点是:利用字符串的公共前缀来节约存储空间,最大限度地减少无
u013480600
·
2014-04-07 14:00
ACM
Trie树的构建
典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本
词频统计
,还可以用来求单词的前缀。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。
pi9nc
·
2014-04-04 15:00
Algorithm
Trie树_字典树(字符串排序)简介及实现
典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本
词频统计
。
·
2014-03-28 22:24
trie-字典树及实现
典型应用是用于统计、排序和保存大量的字符串(不仅仅限于字符串),经常被搜索引擎系统用于文本
词频统计
。trie树是用空间换取时间的典型数据结构。
IT_PCode
·
2014-03-22 14:00
实现
trie
字典树
C语言实现英文文本
词频统计
这几天写了一个基于C语言对文本词频进行统计的程序,开发及调试环境:mac集成开发环境Xcode;测试文本,马丁.路德金的《Ihaveadream》原文演讲稿。主要运行步骤:1.打开文本把文本内容读入流中并且开辟相应空间放入内存2.对文本内容进行处理,去除大写字母(转化为小写),去除特殊字符3.基于单链表对词频进行统计4.把统计结果进行归并排序5.打印输出全部词频或者频率最高的10个单词和其出现次数
-天凌-
·
2014-03-20 01:28
数据结构和算法
链表 之 字典树(讲解+模板)的构建
典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本
词频统计
。
u012349696
·
2014-03-19 14:00
数据结构
链表
搜索
【数据结构与算法】字典树(附完整源码)
/details/21183495字典树简介 字典书(TrieTree),又称单词查找树,是键树的一种,典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本
词频统计
mmc_maodun
·
2014-03-14 00:00
字符串
tree
trie
字典树
公共前缀
字典树入门及实现(JAVA)<转>
典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本
词频统计
。
yongjian_luo
·
2014-03-04 17:00
Trie数据结构
是一种哈希树的变种;基本原理:Trie树的核心思想是空间换时间,利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的;应用:用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本
词频统计
ddlgyqddlgyq
·
2014-02-25 15:22
搜索引擎
Trie数据结构
是一种哈希树的变种;基本原理:Trie树的核心思想是空间换时间,利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的;应用:用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本
词频统计
ddlgyq
·
2014-02-25 15:00
数据结构
Trie树结构
典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本
词频统计
。
zhuhichn
·
2014-02-24 21:00
trie
字典树详解----串查找、排序、公共前缀之杀手锏
典型应用是用于统计,排序和保存大量的字符串,所以经常被搜索引擎系统用于文本
词频统计
。它的优点是利用最大公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希表高。
cyxHehui
·
2014-02-21 11:57
数据结构与算法
Pig用户自定义函数(UDF)
我们以气温统计和
词频统计
为例,讲解以下三种用户自定义函数。用户自定义函数什么时候需要用户自定义函数呢?和其它语言一样,当你希望简化程序结构或者需要重用程序代码时,函数就是你不二选择。
zythy
·
2014-01-15 22:00
pig
大数据
Hadoop
词频统计
(续)
上一篇文章(http://blog.csdn.net/zythy/article/details/17852579)提到,
词频统计
的结果不是我们理想的结构,不够直观。
zythy
·
2014-01-05 19:00
mapreduce
hadoop
Hadoop 2.2.0
词频统计
(实现自定义的Partitioner和Combiner)
我们以简单的
词频统计
为例,逐个讲解Map,Reduce,Partition,Combiner的概念和用法。本例基于Hadoop2.2.0实测通过。
zythy
·
2014-01-04 22:00
mapreduce
hadoop
字典树(讲解+模版)
典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本
词频统计
。
u012861385
·
2013-11-20 19:00
Trie树
典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本
词频统计
。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。Trie的核心思想是空间换时间。
hxz_qlh
·
2013-10-25 19:00
数据结构
Trie数
字典树(Trie tree)
典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本
词频统计
。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。
duoku
·
2013-10-25 15:59
数据结构
c
字典树
数据结构
字典树(Trie tree)
典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本
词频统计
。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。
duoku
·
2013-10-25 15:59
数据结构
c
字典树
字典树
典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本
词频统计
。
zinss26914
·
2013-10-14 21:00
trie树【简化的】1
典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本
词频统计
。它的优点是:利用字符串的公共前缀来节约存储空间,最大限度地减少无谓的字符串比较。
骚宁
·
2013-10-10 17:00
Trie树
字典树
词频统计
(文本格式)
1、原始文本示例:2、原始文本读入arraylist[10,月,6,日电,据,英国,《,华商报,》,报道,,,记者,从,伦敦,警察局,获悉,一名,中国,大陆,留学生,近日,因在,电影院,偷拍,电影,首映,被,警察,逮捕,后经,确认,他,的,留学签证,已过期,属,滞留不归,。,边境,署,已,将,驱逐出境,可能,是,第一位,因,违反,知识产权,法规,而,被捕,,8,中旬,上映,一部,美国,新片,舒某,
zhang__tianxu
·
2013-10-09 09:00
词频统计
词频
SSIS_数据流转换(字词查找)
此转换对于创建基于输入文本并带有
词频统计
信息的自定义词列表很有用。本章功能:取出一个表中某字段的数据,并取出另一个表中的关键词,判断关键词在源记录中出现的次数。
kk185800961
·
2013-10-07 18:00
上一页
32
33
34
35
36
37
38
39
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他