TopN 第19页

推荐频道

TopN

HIVE 窗口及分析函数应用场景

窗口函数应用场景：（1）用于分区排序（2）动态GroupBy（3）TopN（4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。

libing13810124573·2014-08-02 15:00

nutch+hadoop

分布式抓取命令：hadoopjarapache-nutch-1.6.job org.apache.nutch.crawl.Crawlurl.txt-dirgonghui002-threads10-depth3-topN10apache-nutch

earbao·2014-07-30 17:00

Nutch2.2.1 笔记三 : 从Nutch脚本执行来看Nutch的内部执行过程

网上大部分的Nutch资料都是以前相对老的版本的一些介绍，其中介绍启动Nutch大多数是用如下命令： bin/nutch crawl urls -topN 10 -depth 1000bin/nutch

DLow·2014-07-28 16:00

Mapreduce执行过程分析(基于Hadoop2.4)——(一)

2为什么要使用MapReduceMap/Reduce，是一种模式，适合解决并行计算的问题，比如TopN、贝叶斯分类等。注意，是并行计算，而非迭代计算，像涉及到层次聚类的问题就不太适合了。从名字可以看出

can007·2014-07-10 23:00

纯手工整理Redis详细教程，学不会都难！

缓存服务器一、Redis基础部分:1、redis介绍与安装比mysql快10倍以上*****************redis适用场合****************1.取最新N个数据的操作2.排行榜应用,取TOPN

gxjluck·2014-06-19 14:22

[Oracle] ROWNUM和分页

rownum是oracle的一个伪劣，它的顺序根据从表中获取记录的顺序递增，这里要注意的是：由于记录在表中是无序存放的，因此你无法通过简单的rownum和orderby的组合获得类似TOPN的结果。

u010415792·2014-06-17 12:00

Nutch抓取源码分析之Crawl类

1、初始化一个Configuration实例设置抓取工作配置； 2、设置一些默认抓取工作参数，比如进程数threads、抓取深度depth、抓取网页数量topN； 3、创建抓取工作抓取到的网页文件的存放目录

wbj0110·2014-06-04 13:00

Nutch抓取源码分析之Crawl类

阅读更多1、初始化一个Configuration实例设置抓取工作配置；2、设置一些默认抓取工作参数，比如进程数threads、抓取深度depth、抓取网页数量topN；3、创建抓取工作抓取到的网页文件的存放目录

wbj0110·2014-06-04 13:00

Nutch抓取源码分析之Crawl类

1、初始化一个Configuration实例设置抓取工作配置； 2、设置一些默认抓取工作参数，比如进程数threads、抓取深度depth、抓取网页数量topN； 3、创建抓取工作抓取到的网页文件的存放目录

wbj0110·2014-06-04 13:00

Nutch抓取源码分析之Crawl类

阅读更多1、初始化一个Configuration实例设置抓取工作配置；2、设置一些默认抓取工作参数，比如进程数threads、抓取深度depth、抓取网页数量topN；3、创建抓取工作抓取到的网页文件的存放目录

wbj0110·2014-06-04 13:00

Nutch抓取源码分析之Crawl类

1、初始化一个Configuration实例设置抓取工作配置； 2、设置一些默认抓取工作参数，比如进程数threads、抓取深度depth、抓取网页数量topN； 3、创建抓取工作抓取到的网页文件的存放目录

wbj0110·2014-06-04 13:00

Stormstarter-RollingTopWords

实现了滑动窗口计数和TopN排序, 比较有意思, 具体分析一下代码Topology这是一个稍微复杂些的topology, 主要体现在使用不同的grouping方式, fieldsGrouping

liyonghui160com·2014-05-23 13:00

Spark实例TopN---Spark学习笔记11

Spark是基于内存的分布式计算框架，性能是十分彪悍的。话接上回，部署完Spark集群之后，想要测试一下，Spark的性能。1、环境集群概况可以参见SparkHadoop集群部署与Spark操作HDFS运行详解。现在集群里有一大约7G的文件，是手机号和IP地址的组合。hadoopdfs-dus/dw/spark/mobile.txthdfs://web02.dw:9000/dw/spark/mob

u014388509·2014-05-14 18:00

如何使用Hadoop的JobControl

使用Hadoop里面的MapReduce来处理海量数据是非常简单方便的，但有时候我们的应用程序，往往需要多个MR作业，来计算结果，比如说一个最简单的使用MR提取海量搜索日志的TopN的问题，注意，这里面

qindongliang1922·2014-05-09 13:00

如何使用Hadoop的JobControl

使用Hadoop里面的MapReduce来处理海量数据是非常简单方便的，但有时候我们的应用程序，往往需要多个MR作业，来计算结果，比如说一个最简单的使用MR提取海量搜索日志的TopN的问题，注意，这里面

qindongliang1922·2014-05-09 13:00

如何使用Hadoop的JobControl

使用Hadoop里面的MapReduce来处理海量数据是非常简单方便的，但有时候我们的应用程序，往往需要多个MR作业，来计算结果，比如说一个最简单的使用MR提取海量搜索日志的TopN的问题，注意，这里面

qindongliang1922·2014-05-09 13:00

如何使用Hadoop的JobControl

使用Hadoop里面的MapReduce来处理海量数据是非常简单方便的，但有时候我们的应用程序，往往需要多个MR作业，来计算结果，比如说一个最简单的使用MR提取海量搜索日志的TopN的问题，注意，这里面

qindongliang1922·2014-05-09 13:00

如何使用Hadoop的JobControl

使用Hadoop里面的MapReduce来处理海量数据是非常简单方便的，但有时候我们的应用程序，往往需要多个MR作业，来计算结果，比如说一个最简单的使用MR提取海量搜索日志的TopN的问题，注意，这里面

qindongliang1922·2014-05-09 13:00

如何使用Hadoop的JobControl

使用Hadoop里面的MapReduce来处理海量数据是非常简单方便的，但有时候我们的应用程序，往往需要多个MR作业，来计算结果，比如说一个最简单的使用MR提取海量搜索日志的TopN的问题，注意，这里面

qindongliang1922·2014-05-09 13:00

Java堆排序，取得前TopN个数

importjava.util.Random; /** *CreatedwithIntelliJIDEA. *User:pengfei.hpf *Date:14-4-29 *Time:上午11:45 *TochangethistemplateuseFile|Settings|FileTemplates. */ publicclassHeapSortUtil{ /** *用堆排序方法找出前N个最

hpf911·2014-04-29 12:00

redis学习笔记

排行榜，TopN.精确设置过期时间的应用。计数器应用，新浪微博主要应用。Uniq操作，获取某段时间数据排重值。实时操作，反垃圾系统。Pub/Sub消息系统。

刘德生·2014-04-20 21:00

递归算法的汉诺塔问题JAVA实现

每次只能移动一个盘子，任何盘子不能放在比自己小的盘子上 * @author lenovo * */ public class HanoiTower { /** * 移动盘子 * TopN

韩悠悠·2014-04-16 22:00

Sql学习第三天——SQL关于with ties

database/201303/197233.html 关于withties对于withties一般是和Top,orderby相结合使用的,会查询出最后一条数据额外的返回值（解释：如果按照orderby参数排序TOPn

zzc1684·2014-04-11 09:00

删除表中某属性相同的值

如果表中想按某属性，只保留一个（或n个，只要topn）SqlServer语句delete表whereIdnotin( selectIdfrom表a whereIdin(selecttop1Idfrom

独孤行者·2014-03-28 21:30

推荐系统

推荐系统评测指标1、用户满意度2、预测准确度评分指标TopN推荐覆盖率（准确率、召回率曲线）覆盖率衡量函数（信息熵，基尼系数）多样性新颖性(用户是否听说过这个结果)惊喜度（如果推荐结果和用户的历史兴趣不相似

bob007·2014-03-23 17:00

Word2vec在事件挖掘中的调研

lzj290438714end·2014-03-08 11:00

MapReduce TotalOrderPartitioner 全局排序<转>

默认的partitioner是HashPartitioner，它依赖于outputkey的hashcode，使得相同key会去相同reducer，但是不保证全局有序，如果想要获得全局排序结果（比如获取topN

yongjian_luo·2014-03-04 14:00

算法----序列和的 top N

Description:两个长度为n的数组A和B，各从中选出一个元素相加A[i]+B[j],求topn小的那些和。思路1：这样的和总共有n^2个，排序，然后取前n个。

u012653791·2014-02-14 13:00

拆分文件统计topN的问题

如果对一个只包含ip地址文件进行统计，需要求出频率最高的前10个IP地址应该如何处理？文件2G，内存128MB。解决办法：先拆分文件统计，然后再合并？但如何处理如下的问题呢？对于A，B两组机器，如果取top3，貌似A1，A2，A3就是。但如何避免A6和B6是同一个IP，如果相加会超过A1。其实答案应该是A6，A1，A2。 1 2 3 4 5 6

san_yun·2014-01-20 18:00

Storm常见模式——求TOP N<转>

storm-common-patterns-of-streaming-top-n.htmlStorm的另一种常见模式是对流式数据进行所谓“streamingtopN”的计算，它的特点是持续的在内存中按照某个统计指标（如出现次数）计算TOPN

yongjian_luo·2014-01-09 17:00

mysql的top n查询

LIMIT可以实现topN查询，也可以实现M至N（某一段）的记录查询，具体语法如下：SELECT*FROMMYTABLEORDERBYAFIELDLIMIToffset

一代天骄·2013-11-20 16:47

10000亿数据寻找最大或者最小 n个数各种算法比较

寻找最优的TopN算法1概要在大量的数据记录中，依据某可排序的记录属性（一般为数字类型），找出最大的前N个记录，称为TopN问题。

myjack·2013-10-23 16:00

nutch研究—遇到的错误和解决办法

1、cygwin 运行 bin/nutch crawl urls -dir crawled -depth 3 -topN 50 >&crawl.log 　　　　出现下面问题:bin/

anyhuayong·2013-09-27 21:00

nutch命令详解

使用方法：Shell代码bin/nutchcrawl[-dird][-threadsn][-depthi][-topN] bi

jinyeweiyang·2013-08-31 21:00

nutch常用命令

一步完成从捉取到健索引:bin/nutchcrawlurls-dircrawl_datadepth3-topN5 注入:bin/nutchinjectcrawl/crawldburls生成捉取列表:bin

jinyeweiyang·2013-08-31 20:00

Storm 常见使用模式-场景

storm-common-usage-pattern-scene/Strom常见使用模式如下：流聚合(streamjoin)批处理(Batching)BasicBolt内存内缓存+fieldsgrouping组合计算topN

youxinrencwx·2013-08-04 21:00

跟初学者学习IbatisNet第三篇

或者要实现topn,orderby,分页等功能的时候，我们就不得不用动态拼接sql语句。好了，下面我们就用一个小例子来说明一下如何使用IbatisNet的动态sql。

dyllove98·2013-07-30 20:00

基于堆结构的TopN问题实现

在实际工作中我们经常会遇到将一个list中最大[最小]的前TopK个元素输出的问题。比如说在电商领域，求上个月卖的最好的前10个商品，或者是每个品类下卖的最好的前10个商品。最常用的方式就是对列表排序，然后从前到后数K个元素。例如Python中可以这样：a=[2,1,3,4,2,4,65,7,22,3,6] a.sort() top10=a[0:10]其中的排序过程使得最后取出的前TopK个元素不

u011531384·2013-07-28 11:00

redis服务安装、配置、使用

Redis适用场合1、取最新的N个数据的操作2、排行榜应用，取TOPN操作3、需要精确设定过期的时间的应用4、计数器应用5、Uniq操作，获取某段时间内所有数据的排重值6、实时系统，反垃圾系统Redis

yellow1people·2013-07-25 14:14

redis服务安装、配置、使用

Redis适用场合1、取最新的N个数据的操作2、排行榜应用，取TOPN操作3、需要精确设定过期的时间的应用4、计数器应用5、Uniq操作，获取某段时间内所有数据的排重值6、实时系统，反垃圾系统Redis

yellow1people·2013-07-25 14:14

HIVE 窗口及分析函数应用场景

窗口函数应用场景：（1）用于分区排序（2）动态GroupBy（3）TopN（4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。

iteye_1344·2013-07-16 23:34

Nutch的命令详解

使用方法：Shell代码bin/nutchcrawl[-dird][-threadsn][-depthi][-topN] bin/nutchc

lskyne·2013-07-14 17:00

TopN动态排行榜实现

TopN动态排行榜实现目前只是简单的封装了stl的heap相关算法： https://github.com/yangsf5/claw-gse/blob/master/src/claw/gse

Sheppard Y·2013-07-12 13:00

MapReduce TotalOrderPartitioner 全局排序

默认的partitioner是HashPartitioner，它依赖于outputkey的hashcode，使得相同key会去相同reducer，但是不保证全局有序，如果想要获得全局排序结果（比如获取topN

lalaguozhe·2013-07-01 11:00

热词统计发现算法3则

WZ为昨日搜索词TopN集合，WQ为前日搜索词TopN集合。

insistGoGo·2013-06-27 16:00

join多表连接和group by分组

join多表连接和groupby分组上一篇里面我们实现了单表查询和topN查询，这一篇我们来讲述如何实现多表连接和groupby分组。

·2013-06-26 15:00

nutch源码阅读(6)-Generator

//根据传入参数depth来决定循环次数，生成segment Path[] segs = generator.generate(crawlDb, segments, -1, topN

defungo·2013-06-25 06:00

文本摘要与关键词提取

文章关键词提取组件的主要特色在于：1、速度快：可以处理海量规模的网络文本数据，平均每小时处理至少50万篇文档；2、处理精准：TopN的分析结

灵玖lingjoin·2013-06-18 14:00

Stormstarter-RollingTopWords

实现了滑动窗口计数和TopN排序, 比较有意思, 具体分析一下代码 Topology 这是一个稍微复杂些的topology, 主要体现在使用不同的grouping方式, fieldsGrouping

caodaoxi·2013-06-10 20:00

Stormstarter-RollingTopWords

实现了滑动窗口计数和TopN排序, 比较有意思, 具体分析一下代码 Topology 这是一个稍微复杂些的topology, 主要体现在使用不同的grouping方式, fieldsGrouping

caodaoxi·2013-06-10 20:00

上一页 15 16 17 18 19 20 21 22 下一页

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他