词频统计第34页

第一次作业词频统计

原计划用时2天，其实用了大概4天，去掉因为需求改变所做的修改，大概多用了一天半，主要是C#以前没有怎么接触，用起来不熟，就如老师讲的，一个医生一边看医术一边做手术，结果手忙脚乱的。其中有大概1天半的时间在修改bug和优化这是所有的测试数据图一时统计一个接近40M的文件夹，里面是一些英语小说，用了大概三分钟左右，第二个是随

·2015-11-01 11:30

使用Actor模型对词频统计程序进行多线程优化-Anran

词频统计程序是一个相当简单的程序：它读一个文件夹里的所有指定类型的文件，统计其中出现的英文单词的次数，并排序输出。但是它却有很大的优化余地，甚至可以分布式到多台机器中（Map-Reduce模型）。

·2015-11-01 11:31

SkYjoKEr - 词频统计工程总结T博特别版

听说按照T博流量算分，怒转至T博。一、首先是对于需求和基本方案：重新列一下需求，国行中文版。　　Word 单词定义：　　　　i.至少含有三个字符、且开头三个字符必须是字母；　　　　　　　　eg.hao123 == word；123hao！=word 　　　　ii.不包含任何非字母或者数字的字符；　　　　　　　　助教后来说这个本质就是认为除了

·2015-11-01 11:30

<转Tanky Woo> 字典树

典型应用是用于统计，排序和保存大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。

·2015-11-01 09:30

阅读作业第二弹——博客阅读

刚开始就读到关于词频统计的那个玩意。。。后悔没有早读，更后悔自己原先不解的效能分析。当时作业要求进行效能分析，我一直没搞明白，发发牢骚随意了事，回过头看，很有意义。

·2015-10-31 14:56

词频统计（心得）

对于，这次的词频统计作业，有一部分小组成员感觉到有一定困难。

·2015-10-31 11:20

Trie树及其应用

典型应用是用于统计和排序大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。 Trie树的优点是：最大限度地减少无谓的字符串比较，查询效率比哈希表高。

·2015-10-31 11:18

trie树和后缀树的应用

典型应用是用于统计和排序大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：最大限度地减少无谓的字符串比较，查询效率比哈希表高。Trie的核心思想是空间换时间。

·2015-10-31 11:21

终于完成词频统计小程序~

晚上又写了两小时代码，有了之前的思路编写拓展版也就容易实现了。但是在拓展的过程中，我发现之前字符串的处理全部写在一个方法里太密集了，导致如果我添加拓展功能就要在方法中再调用方法，在很不合理。于是我将原来集转换，排序，合并为一体的字符串处理方法进行了拆分，使得程序的模块化更好，添加拓展功能也就很容易了。此外，软件的用例也挺麻烦的，深深地体会到了传说中的软件测试的难度和重要性。希望通过

·2015-10-31 11:15

Scrutiny of Partner's individual project Code

已实现功能： 1.对单个单词进行词频统计 2.能够按照老师的要求的格式对制定的有效字符串进行匹配，并且输出至指定文件。

·2015-10-31 11:21

代码复审

　　对于结队编程抱到黎柱金同学的大腿让我轻松许多，结对伙伴的词频统计程序写的很好，现在我对大神代码做些个人意见的评价。　　

·2015-10-31 10:46

个人项目总结 (By Jun Guo)

项目挺简单的，就是做一个词频统计程序，用来统计文章里各个单词出现的次数。可以说，这已经简单到不能称为“项目”了。

·2015-10-31 10:10

个人项目总结 by Zishun Liu

项目要求写一个命令行程序，实现对某个目录下的所有指定ASCII文件进行词频统计。程序的命令行参数为目录地址和文件名格式，输出为频率最高的前100个单词。

·2015-10-31 09:19

Java实现Tire

典型应用是用于统计和排序大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：最大限度地减少无谓的字符串比较，查询效率比哈希表高。

·2015-10-31 09:52

字符串处理之Trie树, 后缀树和后缀数组

典型应用是用于统计和排序大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：最大限度地减少无谓的字符串比较，查询效率比哈希表高。

·2015-10-31 08:36

代码互审

当初自己写第一个个人项目——词频统计的时候，就由于自己能力和时间等原因，连老师的要求都没能全部完成。这次要复审同伴的这个作业，有些惭愧啊。看完同伴的这个作业，感觉有很多值得我学习的地方。

·2015-10-30 11:07

字典树

典型应用是用于统计，排序和保存大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。

·2015-10-30 11:12

Hadoop WordCount改进实现正确识别单词以及词频降序排序

一般需要进行词频统计的都是单词或者是数字，所以

·2015-10-30 11:26

trie树

典型应用是用于统计和排序大量的字符串（但不仅限于字符串），所以经常被搜索系统用于文本词频统计，与比哈希表比查询效率要高。

·2015-10-27 12:19

搜索引擎网页排序算法

2.1基于词频统计——词位置加权的搜索引擎利用关键词在文档中出现的频率和位置排序是搜索引擎最早期排序的主要思想

·2015-10-27 11:21

文本挖掘

界面跟Matlab有几分相似呢……o(≧v≦)o~~ -------2013.9.13----python分词、词频统计、寻找公共词-- R还是有点偏向学术计算的语言了，最后还是换上半生不

·2015-10-26 15:18

Hadoop平台实验报告

前言通过基于MapReduce云计算平台的海量数据处理实验，我们了解了Hadoop的基本架构，已经如何编写MapReduce程序，本实验中我主要使用到的两个程序分别是WordCount（词频统计）和

·2015-10-22 21:31

一本英文小说的词频统计

对《达芬奇密码（The Da Vinci Code）》统计了各单词的出现次数（人名地名不参与统计）。全书约12.5万字（words），出现了10240个单词，其中只有1559个单词出现了10次以上。出现2000次以上的单词，4个：the, of, to, and 出现1000次以上的单词，12个。出现500次以上的单词，22个。出现100次以上的单词，148个。

·2015-10-21 12:37

代码复审1234跟我一起来

这次，我的工作是复审我的队友刘宇帆的词频统计代码；复审前的准备：重新明确此次代码的需求，并和开发人员讨论代码的基本实现流程，运行代码用基本数据测试通过；复审流程：阅

·2015-10-21 11:13

字典树

典型应用是用于统计，排序和保存大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。

zxc123e·2015-10-19 17:00

Hadoop/spark安装实战（系列篇4） Hadoop MapReduce词频统计之小试牛刀

Hadoop/spark安装实战（系列篇4）HadoopMapReduce词频统计之小试牛刀运行hadoop自带的例子的MapReduce计算1上传文件到hadoop的hdfs的根目录[root@localhosthadoop

段智华·2015-09-12 21:51

Hadoop/spark安装实战（系列篇4） Hadoop MapReduce词频统计之小试牛刀

Hadoop/spark安装实战（系列篇4）HadoopMapReduce词频统计之小试牛刀运行hadoop自带的例子的MapReduce计算1上传文件到hadoop的hdfs的根目录[root@localhosthadoop

duan_zhihua·2015-09-12 21:00

利用word分词来对文本进行词频统计

word分词中的 org.apdplat.word.WordFrequencyStatistics 类提供了词频统计的功能命令行脚本的调用方法如下：?

m635674608·2015-09-12 00:00

CSDN博客分类系统的分析与实现

一：爬虫爬取csdn博客各个系列的博文和标签在这里只给出主要代码：二：对其进行词频统计，找出频率最高的N个词，写入文件（主要是为第三步分类提供训练的数据集PS：小编的训练集不是太准确

Gamer_gyt·2015-09-08 16:00

字典树

典型应用是用于统计，排序和保存大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。

qq_25605637·2015-09-06 21:00

【Linux】【C/C++】多进程协同词频统计

由于可能会涉及到很多文件，因此为了提高统计效率，采用多进程协同合作的方式实现词频统计。

Sugar_Z_·2015-09-04 11:00

Trie

典型应用是用于统计，排序和保存大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。

u013819100·2015-09-03 18:00

word v1.3 发布，Java 分布式中文分词组件

能通过自定义配置文件来改变组件行为，能自定义用户词库、自动检测词库变化、支持大规模分布式环境，能灵活指定多种分词算法，能使用refine功能灵活控制分词结果，还能使用词频统计、词性标注、同义标注、反

杨尚川·2015-08-29 09:00

word v1.3 发布，Java 分布式中文分词组件

能通过自定义配置文件来改变组件行为，能自定义用户词库、自动检测词库变化、支持大规模分布式环境，能灵活指定多种分词算法，能使用refine功能灵活控制分词结果，还能使用词频统计、词性标注、同义标注、反

yangshangchuan·2015-08-29 09:00

word v1.3 发布，Java 分布式中文分词组件

能通过自定义配置文件来改变组件行为，能自定义用户词库、自动检测词库变化、支持大规模分布式环境，能灵活指定多种分词算法，能使用refine功能灵活控制分词结果，还能使用词频统计、词性标注、同义

yangshangchuan·2015-08-29 09:00

word v1.3 发布，Java 分布式中文分词组件

能通过自定义配置文件来改变组件行为，能自定义用户词库、自动检测词库变化、支持大规模分布式环境，能灵活指定多种分词算法，能使用refine功能灵活控制分词结果，还能使用词频统计、词性标注、同义

yangshangchuan·2015-08-29 09:00

网页词频统计工具

阅读英文文章时有时会出现不少这篇文章专有的一些单词，这些单词在其他地方不太可能会使用到，但是在阅读这篇文章时使用的频率可能会比较大，于是想能不能做一个工具，当你给定文章的url时，它将这篇文章中出现次数较多的那些单词统计出来。这样当你把这些单词的意义搞明白，再读这篇文章会不会压力小很多？那么做这个工具的思路如下：首先必须能够根据给定的url获取网页的正文信息或者网页的html文件；如果第一步获取的

u012501459·2015-08-18 17:00

字典树（转）

典型应用是用于统计，排序和保存大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。

qq_21120027·2015-08-16 20:00

字典树

典型应用是用于统计，排序和保存大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较，查询效率比

u014665013·2015-08-14 14:00

关于Trie树的模板

典型应用是用于统计，排序和保存大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。

qingshui23·2015-08-11 17:00

MapReduce

PartI:Wordcount第一个任务是单机版词频统计。入口为wc.go的main()。统计的过程分为4个部分：SplitMapReduceMergeSplit将一个大文件切分成若干个小文件。

qc1iu·2015-07-30 00:00

字典树一种快速插入查询数据结构

定义字典树，又称单词查找树，Trie树，是一种树形结构，典型应用是用于统计，排序和保存大量的字符串，所以经常被搜索引擎系统用于文本词频统计。

u013076044·2015-07-29 19:00

第一个MapReduce程序——WordCount

而在学习Hadoop时，我们要写的第一个程序就是词频统计WordCount程序。

lisong694767315·2015-07-29 17:00

Trie树词频统计实例

常用于词频统计，字符串的快速查找，最长前缀匹配等问题以及相关变种问题。数据结构表现形式如下图所示：Trie树的根为空节点，不存放数据。

lhj884·2015-07-26 00:07

字典树

典型应用是用于统计，排序和保存大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。

u014568921·2015-07-24 23:00

搜索引擎三个定律

·2015-06-19 05:00

用Trie树统计词频。

最终结果：TrieTrie树是一种数据结构，对于词频统计，文本检索非常有效。Trie树的大小取决与要统计的文本的字母个数。

qc1iu·2015-06-10 00:00

海量数据处理---Trie树（字典树）

典型应用是用于统计和排序大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是最大限度地减少无谓的字符串比较，查询效率比较高。

qisefengzheng·2015-05-26 16:00

利用word分词来对文本进行词频统计

word分词中的 org.apdplat.word.WordFrequencyStatistics 类提供了词频统计的功能命令行脚本的调用方法如下：将需要统计词频的文本写入文件

yangshangchuan·2015-05-21 13:00

利用word分词来对文本进行词频统计

word分词中的 org.apdplat.word.WordFrequencyStatistics 类提供了词频统计的功能命令行脚本的调用方法如下：将需要统计词频的文本写入文件

yangshangchuan·2015-05-21 13:00

推荐频道

词频统计

第一次作业词频统计

使用Actor模型对词频统计程序进行多线程优化-Anran

SkYjoKEr - 词频统计工程总结T博特别版

<转Tanky Woo> 字典树

阅读作业第二弹——博客阅读

词频统计（心得）

Trie树及其应用

trie树和后缀树的应用

终于完成词频统计小程序~

Scrutiny of Partner's individual project Code

代码复审

个人项目总结 (By Jun Guo)

个人项目总结 by Zishun Liu

Java实现Tire

字符串处理之Trie树, 后缀树和后缀数组

代码互审

字典树

Hadoop WordCount改进实现正确识别单词以及词频降序排序

trie树

搜索引擎网页排序算法

文本挖掘

Hadoop平台实验报告

一本英文小说的词频统计

代码复审1234跟我一起来

字典树

Hadoop/spark安装实战（系列篇4） Hadoop MapReduce词频统计之小试牛刀

Hadoop/spark安装实战（系列篇4） Hadoop MapReduce词频统计之小试牛刀

利用word分词来对文本进行词频统计

CSDN博客分类系统的分析与实现

字典树

【Linux】【C/C++】多进程协同词频统计

Trie

word v1.3 发布，Java 分布式中文分词组件

word v1.3 发布，Java 分布式中文分词组件

word v1.3 发布，Java 分布式中文分词组件

word v1.3 发布，Java 分布式中文分词组件

网页词频统计工具

字典树（转）

字典树

关于Trie树的模板

MapReduce

字典树 一种快速插入查询数据结构

第一个MapReduce程序——WordCount

Trie树词频统计实例

字典树

搜索引擎三个定律

用Trie树统计词频。

海量数据处理---Trie树（字典树）

利用word分词来对文本进行词频统计

利用word分词来对文本进行词频统计

字典树一种快速插入查询数据结构