top-k 第7页

从分类,排序,top-k多个方面对推荐算法稳定性的评价

介绍论文名:“classification,ranking,andtop-kstabilityofrecommendationalgorithms”.本文讲述比较推荐系统在三种情况下,推荐稳定性情况.与常规准确率比较的方式不同,本文从另一个角度,即推荐算法稳定性方面进行比较.详细参与比较的推荐算法包括:baseline传统基于用户传统基于物品oneSlopesvd比较方式比较的过程分为两个阶段:阶

ghostlv·2016-04-23 13:00

PathSim--异构信息网络中基于元路径的TOP-K相似度搜索学习笔记

详见：YizhouSun和 JiaweiHan 的论文PathSim:MetaPath-Based Top-K SimilaritySearchin HeterogeneousInformationNetworks

u013527419·2016-03-24 09:00

【Python】求数组（list）中最大的X个数，不递归，尽可能减少代码量

然而，求数组（list）中最大的X个数，这就麻烦大了，这涉及了所谓的TOP-K算法。网上对于TOP-K算法的解决主要有快速排序与堆的处理，个人认为这都不是好方法。

yongh701·2015-11-21 16:00

读论文系列：Nearest Keyword Search in XML Documents中使用的数据结构（CT、ECT）

Top-K Nearest Keyword Search on Large

·2015-11-13 07:31

RMSE for Top-k Recommendation: 高手的盲点？

今天查文献的时候看到ACM RecSys 2010的一篇关于top-n推荐的文章，注意到文章的第二作者是Netflix Prize赛程中贡献最大的Yehuda Koren，所以仔细读了一下。看完之后相当困惑：高手也有盲点？Yehuda Koren是Netflix Prize获奖团队的主要成员，在整个赛事中展现出了非常优秀的问题分析和数据分析能力。但这篇文章的话题却实在让人意外。

·2015-11-12 20:20

如何理解 Learning to rank

IR中需要排序的问题很多，最常见的的就是给一个query，对候选的documents排序，返回top-k给用户。

·2015-11-12 16:28

Top-k

随机数组中最大K个数： 3, 2 ,1, 6, 4, 5 最大的3个为：6,4,5 1、选择排序法。每次将待查询数组的最大一个找出，放入已查询数组中，一直找到K个为止。时间复杂度O(N*K) 2、堆排序法。使用小顶堆，存放最大K个元素。查询数组元素，如果堆中未满K个元素，则添加到堆中。如果堆里的元素满K个，且需查询的元素比堆的最小元素还大，则将最小的元素替换，更新小顶堆。如果堆

·2015-11-12 08:50

：基于快速排序的TOPK算法

blog.csdn.net/fanzitao/article/details/7617223 思想：类似于快速排序，首先选择一个划分元，如果这个划分元的序号index刚好等于k，那么这个划分元以及左边的数，刚好组成了top-k

·2015-11-03 21:14

Daily Scrum 2012/11/28

今天的阅读情况如下：李斌：基于概率模型的Web信息抽取基于概率信息抽取模型的Top-k查询彭笑东：基于二阶隐马尔可夫模型的文本信息抽取基于遗传算法的Web信

·2015-11-02 14:48

文本相似性问题个人见解

对于需要计算的两篇文章A,B,通过对全文提取关键词，根据权重，选择top-K个关键词，这里的K可以自己调整，我采用的是10，通过计算A与B的关键字集合的Jaccard系数作为相似性度量，从而判断文章A,

dydm_13128·2015-10-27 23:15

TOP-K排序算法，从海量不重复数据中找出最大/小的K个数

如题，TOP-K排序的主要功能是找出一堆不重复数据中的最小或最大的几个数，此处我们介绍这种类型题目的某种解法：最大最小堆，最大堆结构里面的每一个数不都是小于root的值么？和我们要解决的问题很像。

u014403897·2015-04-23 12:00

BFPRT 算法

比如在搜索引擎中求当天用户点击次数排名前10000的热词；在文本特征选择中求IF-IDF值按从大到小排名前K个的等等问题，都涉及到一个核心问题，即TOP-K问题。

ACdreamers·2015-03-26 21:00

Python heapq模块

这个模块(build-in)实现了一个堆的数据结构，完美的解决了Top-K问题，以后解决Top-K问题的时候，直接把这个模块拿来用就可以了注意，默认的heap是一个小顶堆！

Calling_Wisdom·2014-12-02 11:23

Python heapq模块

这个模块(build-in)实现了一个堆的数据结构，完美的解决了Top-K问题，以后解决Top-K问题的时候，直接把这个模块拿来用就可以了注意，默认的heap是一个小顶堆！

Calling_Wisdom·2014-12-02 11:00

算法题：求数组中最小的k个数

算法2：采用top-k算法。如果要找最小的K个数，我们才

JXH_123·2014-08-06 21:00

词频统计

我用的是matplotlib画柱状图，画出top-K个高频词。这里需要注意的是图中的中文显示问题，在使用之前，需要修改相应的设置，具体方法不妨去google一下，我就不详细介绍了。

fennvde007·2014-05-16 20:00

hadoop 中文词频排序 top-k 问题

本人最近一直在hadoop领域，摸爬滚打，由于最近老是布置了一项作业：让统计一个文件中出现次数最高的单词。一看到题目我就想用hadoop来实现这个问题，由于有现成的wordcount框架，所以就在这之上进行程序的修改添加即可。准备过程：1、我去下载了金庸的小说全集，顺便分析分析，看他老人家笔下，谁的戏份更重。2、由于是中文分词，所以必须要有一个中文分词器，找到了一个java版的apache开源分词

dengjiexian·2014-03-22 11:42

hadoop 中文词频排序 top-k 问题

本人最近一直在hadoop领域，摸爬滚打，由于最近老是布置了一项作业：让统计一个文件中出现次数最高的单词。一看到题目我就想用hadoop来实现这个问题，由于有现成的wordcount框架，所以就在这之上进行程序的修改添加即可。准备过程： 1、我去下载了金庸的小说全集，顺便分析分析，看他老人家笔下，谁的戏份更重。 2、由于是中文分词，所以必须要有一个中文分词器，找到了一个java版的ap

dengjiexian123·2014-03-22 11:00

hadoop 单词筛选 top-k问题

最近开始学习hadoop，(hadoop以下简称hd)，在完成了hd的环境搭建之后，就开始试着跑那些原始例子，比如其中的wordcount，统计文章中各单词的出现频率。由于本人还在念书，在我们这学期开设的软件工程课上，老师布置了一道题。如下：请实现程序：筛选出文章中出现频率最高的10个词语。文件大小30k--300k.一看这题，我立马想到了hd去实现，这300k的数据简直不够塞牙缝，由于本人是新手

dengjiexian·2014-03-16 19:19

hadoop 单词筛选 top-k问题

最近开始学习hadoop，(hadoop 以下简称hd)，在完成了hd的环境搭建之后，就开始试着跑那些原始例子，比如其中的wordcount，统计文章中各单词的出现频率。由于本人还在念书，在我们这学期开设的软件工程课上，老师布置了一道题。如下：请实现程序：筛选出文章中出现频率最高的10个词语。文件大小30k--300k. 一看这题，我立马想到了hd去实现，这300k的数据简直不

dengjiexian123·2014-03-16 19:00

Lucene之MaxScorer算法简介

MaxScorer代码尚未提交到Lucene，至今还在讨论中，具体见：https://issues.apache.org/jira/browse/LUCENE-4571，他索所要解决的问题就是Lucene在计算Top-k

wzhg0508·2013-10-22 21:00

精确Top-K检索及其加速方法探讨

对每个文档评分（余弦相似度），按照评分高低排序，选出前K个文档但是对于搜索引擎来说，文档集很大，所以计算量会很大，效率就很低如何加速：思路一：加速每个余弦相似度的计算思路二：不对所有的文档的评分结果排序而直接选出Top-K

wzhg0508·2013-10-14 19:00

第八次作业Kendall's tau相似程度指标NO.3

两个序列，例如S1={a,b,c,d}、S2={a,c,b,d}，如何度量它们的相似程度，有很重要的应用背景，在投票决策、表达式搜索、top-k比较、乃至搜索引擎优化等问题上有广泛的应用ref1,ref2

云轻风飞扬·2013-08-26 17:44

哈希排序——Top-K算法

百度面试题：搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。假设目前有一千万个记录（这些查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就是越热门。），请你统计最热门的10个查询串，要求使用的内存不能超过1G什么是哈希表？哈希表（Hashtable，也叫散列

SibylY·2013-08-03 15:00

hadoop中top-k问题解决

1.问题描述：在MapReduce中，想要输出最频繁出现的前k个单词。问题输入：<单词，它出现的频率> 想要的输出：出现最多的前1

hanxuedog·2013-03-07 14:00

为什么不能通过优化RMSE得到Top-K Recommendations？

前几天写《RMSEforTop-KRecommendations：高手的盲点？》查文献时，注意到GoogleRecsys兴趣小组在去年就有这方面的讨论。因为已经快写完了，所以没有对Recsys兴趣小组提到的一些点深入讨论。今天针对Recsys兴趣小组的讨论，谈一些我的看法。1）为什么不能通过优化RMSE得到Top-KRecommendations？优化RMSE，实际上就是要预测用户对每个商品的评分

overstack·2012-11-22 16:00

RMSE for Top-k Recommendation: 高手的盲点？

今天查文献的时候看到ACMRecSys2010的一篇关于top-n推荐的文章，注意到文章的第二作者是NetflixPrize赛程中贡献最大的YehudaKoren，所以仔细读了一下。看完之后相当困惑：高手也有盲点？YehudaKoren是NetflixPrize获奖团队的主要成员，在整个赛事中展现出了非常优秀的问题分析和数据分析能力。但这篇文章的话题却实在让人意外。文章的作者通过实验发现，在Ne

overstack·2012-11-22 16:00

面试集锦之---Top-K问题（百度面试题）

百度面试题：搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。假设目前有一千万个记录（这些查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就是越热门。），请你统计最热门的10个查询串，要求使用的内存不能超过1G。解题思路：step1：查询统计第一种就是进行排序了，可

liuzhanchen1987·2012-08-18 21:00

wzyoung·2012-03-24 00:00

关于最小的k个数的讨论(top-k问题）

给定一个长度为 n 的序列，不妨设为 L1,L2,L3,….,Ln 。这个序列可以是任意一种排列，可能的排列有 n ！种，我们要找到最小的 k 个数，即找到这样的 k 个数 { Li(1) ， Li(2) ， Li(3)… ， Li(k)} ，并满足 Li(1)<=Li(2)<=Li(3)…<=Li(k) ；且对任意的 j ： k+1<=j<=n ，有 Li(k)&l

fionajw·2011-05-18 14:00

关于最小的k个数的讨论(top-k问题）

给定一个长度为n的序列，不妨设为L1,L2,L3,….,Ln。这个序列可以是任意一种排列，可能的排列有n！种，我们要找到最小的k个数，即找到这样的k个数{Li(1)，Li(2)，Li(3)…，Li(k)}，并满足Li(1)1时，可以考虑第一趟用冒泡的方法，既能判断出初始序列是否有序，也能够在O（n）的时间内找到最小值，一举两得。如果11时，选择堆排序时很理想的，因为锦标赛排序的辅组空间不能接受。可

fatshaw·2011-04-11 14:00

Kendall's tau相似程度指标

Kendall's tau相似程度指标两个序列，例如S1 = {a, b, c, d}、 S2 = {a, c, b, d}，如何度量它们的相似程度，有很重要的应用背景，在投票决策、表达式搜索、top-k

avanry·2010-05-20 15:00

推荐频道

top-k

从分类,排序,top-k多个方面对推荐算法稳定性的评价

PathSim--异构信息网络中基于元路径的TOP-K相似度搜索学习笔记

【Python】求数组（list）中最大的X个数，不递归，尽可能减少代码量

读论文系列：Nearest Keyword Search in XML Documents中使用的数据结构（CT、ECT）

RMSE for Top-k Recommendation: 高手的盲点？

如何理解 Learning to rank

Top-k

：基于快速排序的TOPK算法

Daily Scrum 2012/11/28

文本相似性问题个人见解

TOP-K排序算法，从海量不重复数据中找出最大/小的K个数

BFPRT 算法

Python heapq模块

Python heapq模块

算法题：求数组中最小的k个数

词频统计

hadoop 中文词频排序 top-k 问题

hadoop 中文词频排序 top-k 问题

hadoop 单词筛选 top-k问题

hadoop 单词筛选 top-k问题

Lucene之MaxScorer算法简介

热门搜索引擎的TOP-K算法的python实现(回溯算法遍历trie树)

精确Top-K检索及其加速方法探讨

第八次作业Kendall's tau相似程度指标NO.3

哈希排序——Top-K算法

hadoop中top-k问题解决

为什么不能通过优化RMSE得到Top-K Recommendations？

RMSE for Top-k Recommendation: 高手的盲点？

面试集锦之---Top-K问题（百度面试题）

TOP-N 算法论文相关

关于最小的k个数的讨论(top-k问题）

关于最小的k个数的讨论(top-k问题）

Kendall's tau相似程度指标

推荐频道

top-k

从分类,排序,top-k多个方面对推荐算法稳定性的评价

PathSim--异构信息网络中基于元路径的TOP-K相似度搜索学习笔记

【Python】求数组（list）中最大的X个数，不递归，尽可能减少代码量

读论文系列：Nearest Keyword Search in XML Documents中使用的数据结构（CT、ECT）

RMSE for Top-k Recommendation: 高手的盲点？

如何理解 Learning to rank

Top-k

：基于快速排序的TOPK算法

Daily Scrum 2012/11/28

文本相似性问题个人见解

TOP-K排序算法，从海量不重复数据中找出最大/小的K个数

BFPRT 算法

Python heapq模块

Python heapq模块

算法题：求数组中最小的k个数

词频统计

hadoop 中文词频排序 top-k 问题

hadoop 中文词频排序 top-k 问题

hadoop 单词筛选 top-k问题

hadoop 单词筛选 top-k问题

Lucene之MaxScorer算法简介

热门搜索引擎的TOP-K算法的python实现(回溯算法遍历trie树)

精确Top-K检索及其加速方法探讨

第八次作业Kendall's tau相似程度指标NO.3

哈希排序——Top-K算法

hadoop中top-k问题解决

为什么不能通过优化RMSE得到Top-K Recommendations？

RMSE for Top-k Recommendation: 高手的盲点？

面试集锦之---Top-K问题（百度面试题）

TOP-N 算法 论文相关

关于最小的k个数的讨论(top-k问题）

关于最小的k个数的讨论(top-k问题）

Kendall's tau相似程度指标

TOP-N 算法论文相关