E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
词频统计
第一次作业
词频统计
原计划用时2天,其实用了大概4天,去掉因为需求改变所做的修改,大概多用了一天半,主要是C#以前没有怎么接触,用起来不熟,就如老师讲的,一个医生一边看医术一边做手术,结果手忙脚乱的。 其中有大概1天半的时间在修改bug和优化 这是所有的测试数据 图一时统计一个接近40M的文件夹,里面是一些英语小说,用了大概三分钟左右,第二个是随
·
2015-11-01 11:30
统计
使用Actor模型对
词频统计
程序进行多线程优化-Anran
词频统计
程序是一个相当简单的程序:它读一个文件夹里的所有指定类型的文件,统计其中出现的英文单词的次数,并排序输出。 但是它却有很大的优化余地,甚至可以分布式到多台机器中(Map-Reduce模型)。
·
2015-11-01 11:31
多线程
SkYjoKEr -
词频统计
工程总结T博特别版
听说按照T博流量算分,怒转至T博。 一、首先是对于需求和基本方案: 重新列一下需求,国行中文版。 Word 单词定义: i.至少含有三个字符、且开头三个字符必须是字母; eg.hao123 == word;123hao!=word ii.不包含任何非字母或者数字的字符; 助教后来说这个本质就是认为除了
·
2015-11-01 11:30
总结
<转Tanky Woo> 字典树
典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本
词频统计
。
·
2015-11-01 09:30
字典树
阅读作业第二弹——博客阅读
刚开始就读到关于
词频统计
的那个玩意。。。后悔没有早读,更后悔自己原先不解的效能分析。当时作业要求进行效能分析,我一直没搞明白,发发牢骚随意了事,回过头看,很有意义。
·
2015-10-31 14:56
博客
词频统计
(心得)
对于,这次的
词频统计
作业,有一部分小组成员感觉到有一定困难。
·
2015-10-31 11:20
心得
Trie树及其应用
典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本
词频统计
。 Trie树的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。
·
2015-10-31 11:18
trie
trie树和后缀树的应用
典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本
词频统计
。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。Trie的核心思想是空间换时间。
·
2015-10-31 11:21
trie
终于完成
词频统计
小程序~
晚上又写了两小时代码,有了之前的思路编写拓展版也就容易实现了。 但是在拓展的过程中,我发现之前字符串的处理全部写在一个方法里太密集了,导致如果我添加拓展功能就要在方法中再调用方法,在很不合理。 于是我将原来集转换,排序,合并为一体的字符串处理方法进行了拆分,使得程序的模块化更好,添加拓展功能也就很容易了。 此外,软件的用例也挺麻烦的,深深地体会到了传说中的软件测试的难度和重要性。 希望通过
·
2015-10-31 11:15
程序
Scrutiny of Partner's individual project Code
已实现功能: 1.对单个单词进行
词频统计
2.能够按照老师的要求的格式对制定的有效字符串进行匹配,并且输出至指定文件。
·
2015-10-31 11:21
project
代码复审
对于结队编程抱到黎柱金同学的大腿让我轻松许多,结对伙伴的
词频统计
程序写的很好,现在我对大神代码做些个人意见的评价。
·
2015-10-31 10:46
代码
个人项目总结 (By Jun Guo)
项目挺简单的,就是做一个
词频统计
程序,用来统计文章里各个单词出现的次数。可以说,这已经简单到不能称为“项目”了。
·
2015-10-31 10:10
总结
个人项目总结 by Zishun Liu
项目要求 写一个命令行程序,实现对某个目录下的所有指定ASCII文件进行
词频统计
。程序的命令行参数为目录地址和文件名格式,输出为频率最高的前100个单词。
·
2015-10-31 09:19
总结
Java实现Tire
典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本
词频统计
。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。
·
2015-10-31 09:52
java实现
字符串处理之Trie树, 后缀树和后缀数组
典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本
词频统计
。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。
·
2015-10-31 08:36
字符串处理
代码互审
当初自己写第一个个人项目——
词频统计
的时候,就由于自己能力和时间等原因,连老师的要求都没能全部完成。这次要复审同伴的这个作业,有些惭愧啊。 看完同伴的这个作业,感觉有很多值得我学习的地方。
·
2015-10-30 11:07
代码
字典树
典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本
词频统计
。
·
2015-10-30 11:12
字典树
Hadoop WordCount改进实现正确识别单词以及词频降序排序
一般需要进行
词频统计
的都是单词或者是数字,所以
·
2015-10-30 11:26
wordcount
trie树
典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索系统用于文本
词频统计
,与比哈希表比查询效率要高。
·
2015-10-27 12:19
trie
搜索引擎网页排序算法
2.1基于
词频统计
——词位置加权的搜索引擎 利用关键词在文档中出现的频率和位置排序是搜索引擎最早期排序的主要思想
·
2015-10-27 11:21
搜索引擎
文本挖掘
界面跟Matlab有几分相似呢……o(≧v≦)o~~ -------2013.9.13----python分词、
词频统计
、寻找公共词-- R还是有点偏向学术计算的语言了,最后还是换上半生不
·
2015-10-26 15:18
Hadoop平台实验报告
前言 通过基于MapReduce云计算平台的海量数据处理实验,我们了解了Hadoop的基本架构,已经如何编写MapReduce程序,本实验中我主要使用到的两个程序分别是WordCount(
词频统计
)和
·
2015-10-22 21:31
hadoop
一本英文小说的
词频统计
对《达芬奇密码(The Da Vinci Code)》统计了各单词的出现次数(人名地名不参与统计)。 全书约12.5万字(words),出现了10240个单词,其中只有1559个单词出现了10次以上。 出现2000次以上的单词,4个:the, of, to, and 出现1000次以上的单词,12个。 出现500次以上的单词,22个。 出现100次以上的单词,148个。
·
2015-10-21 12:37
统计
代码复审1234跟我一起来
这次,我的工作是复审我的队友刘宇帆的
词频统计
代码; 复审前的准备: 重新明确此次代码的需求,并和开发人员讨论代码的基本实现流程,运行代码用基本数据测试通过; 复审流程: 阅
·
2015-10-21 11:13
代码
字典树
典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本
词频统计
。
zxc123e
·
2015-10-19 17:00
树
字典树
Hadoop/spark安装实战(系列篇4) Hadoop MapReduce
词频统计
之小试牛刀
Hadoop/spark安装实战(系列篇4)HadoopMapReduce
词频统计
之小试牛刀运行hadoop自带的例子的MapReduce计算1上传文件到hadoop的hdfs的根目录[root@localhosthadoop
段智华
·
2015-09-12 21:51
Hadoop/spark
安装实战
Hadoop/spark安装实战(系列篇4) Hadoop MapReduce
词频统计
之小试牛刀
Hadoop/spark安装实战(系列篇4)HadoopMapReduce
词频统计
之小试牛刀运行hadoop自带的例子的MapReduce计算1上传文件到hadoop的hdfs的根目录[root@localhosthadoop
duan_zhihua
·
2015-09-12 21:00
利用word分词来对文本进行
词频统计
word分词中的 org.apdplat.word.WordFrequencyStatistics 类提供了
词频统计
的功能命令行脚本的调用方法如下:?
m635674608
·
2015-09-12 00:00
CSDN博客分类系统的分析与实现
一:爬虫爬取csdn博客各个系列的博文和标签 在这里只给出主要代码: 二:对其进行
词频统计
,找出频率最高的N个词,写入文件(主要是为第三步分类提供训练的数据集PS:小编的训练集不是太准确
Gamer_gyt
·
2015-09-08 16:00
爬虫
贝叶斯算法
博客分类
字典树
典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本
词频统计
。
qq_25605637
·
2015-09-06 21:00
【Linux】【C/C++】多进程协同
词频统计
由于可能会涉及到很多文件,因此为了提高统计效率,采用多进程协同合作的方式实现
词频统计
。
Sugar_Z_
·
2015-09-04 11:00
linux
设计
Trie
典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本
词频统计
。
u013819100
·
2015-09-03 18:00
LeetCode
C++
Trie-树
word v1.3 发布,Java 分布式中文分词组件
能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定多种分词算法,能使用refine功能灵活控制分词结果,还能使用
词频统计
、词性标注、同义标注、反
杨尚川
·
2015-08-29 09:00
word
分词
中文分词
分词算法
NLP
word v1.3 发布,Java 分布式中文分词组件
能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定多种分词算法,能使用refine功能灵活控制分词结果,还能使用
词频统计
、词性标注、同义标注、反
yangshangchuan
·
2015-08-29 09:00
word
分词
中文分词
分词算法
NLP
word v1.3 发布,Java 分布式中文分词组件
能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定多种分词算法,能使用refine功能灵活控制分词结果,还能使用
词频统计
、词性标注、同义
yangshangchuan
·
2015-08-29 09:00
中文分词
分词
分词算法
word
NLP
word v1.3 发布,Java 分布式中文分词组件
能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定多种分词算法,能使用refine功能灵活控制分词结果,还能使用
词频统计
、词性标注、同义
yangshangchuan
·
2015-08-29 09:00
中文分词
分词
分词算法
word
NLP
网页
词频统计
工具
阅读英文文章时有时会出现不少这篇文章专有的一些单词,这些单词在其他地方不太可能会使用到,但是在阅读这篇文章时使用的频率可能会比较大,于是想能不能做一个工具,当你给定文章的url时,它将这篇文章中出现次数较多的那些单词统计出来。这样当你把这些单词的意义搞明白,再读这篇文章会不会压力小很多?那么做这个工具的思路如下:首先必须能够根据给定的url获取网页的正文信息或者网页的html文件;如果第一步获取的
u012501459
·
2015-08-18 17:00
java
JSoup
最小堆
Trie树
字典树(转)
典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本
词频统计
。
qq_21120027
·
2015-08-16 20:00
字典树
字典树
典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本
词频统计
。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比
u014665013
·
2015-08-14 14:00
关于Trie树的模板
典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本
词频统计
。
qingshui23
·
2015-08-11 17:00
Trie树
MapReduce
PartI:Wordcount第一个任务是单机版
词频统计
。入口为wc.go的main()。统计的过程分为4个部分:SplitMapReduceMergeSplit将一个大文件切分成若干个小文件。
qc1iu
·
2015-07-30 00:00
分布式
mapreduce
字典树 一种快速插入查询数据结构
定义字典树,又称单词查找树,Trie树,是一种树形结构,典型应用是用于统计,排序和保存大量的字符串,所以经常被搜索引擎系统用于文本
词频统计
。
u013076044
·
2015-07-29 19:00
数据结构
搜索引擎
第一个MapReduce程序——WordCount
而在学习Hadoop时,我们要写的第一个程序就是
词频统计
WordCount程序。
lisong694767315
·
2015-07-29 17:00
mapreduce
hadoop
wordcount
分布式计算
Trie树
词频统计
实例
常用于
词频统计
,字符串的快速查找,最长前缀匹配等问题以及相关变种问题。数据结构表现形式如下图所示:Trie树的根为空节点,不存放数据。
lhj884
·
2015-07-26 00:07
c++
数据结构-算法
趣味编程
字典树
典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本
词频统计
。
u014568921
·
2015-07-24 23:00
字典树
搜索引擎三个定律
那时的相关性都是基于
词频统计
的,也就是说,当用户输入检索词时,搜索引擎去找那些
·
2015-06-19 05:00
搜索引擎
用Trie树统计词频。
最终结果:TrieTrie树是一种数据结构,对于
词频统计
,文本检索非常有效。Trie树的大小取决与要统计的文本的字母个数。
qc1iu
·
2015-06-10 00:00
搜索
算法
数据结构
海量数据处理---Trie树(字典树)
典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本
词频统计
。它的优点是最大限度地减少无谓的字符串比较,查询效率比较高。
qisefengzheng
·
2015-05-26 16:00
利用word分词来对文本进行
词频统计
word分词中的 org.apdplat.word.WordFrequencyStatistics 类提供了
词频统计
的功能 命令行脚本的调用方法如下: 将需要统计词频的文本写入文件
yangshangchuan
·
2015-05-21 13:00
word
word分词
词频统计
利用word分词来对文本进行
词频统计
word分词中的 org.apdplat.word.WordFrequencyStatistics 类提供了
词频统计
的功能 命令行脚本的调用方法如下: 将需要统计词频的文本写入文件
yangshangchuan
·
2015-05-21 13:00
word
word分词
词频统计
上一页
30
31
32
33
34
35
36
37
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他