ground_true 为1 的情况:
recall=hit_rate
这时值的计算与你推荐个数多少无关,recall 又叫查全率,只要押中了,那就认为单用户命中率为100%。
precision 和 topk 有关,单个用户为 命中个数/topk,与recall 成正比。
计算平均值时用,命中的用户个数 / 总的用户个数。
ground_truth 为 多个 的情况:
recall:每个用户的命中率为,在你的候选推荐中,命中了多少个。单个用户计算为,命中个数(hitrate)/ 该用户ground_truth个数
precision:为查准率。单个用户计算为 命中个数 / topk .
计算平均值则将所有单个用户相加 / user总个数
实现:
def precision_at_k_per_sample(actual, predicted, topk):
num_hits = 0
for place in predicted:
if place in actual:
num_hits += 1
return num_hits / (topk + 0.0)
# 一个准确率是,推荐的命中个数/topk
def precision_at_k(actual, predicted, topk):
sum_precision = 0.0
num_users = len(predicted) #用户总个数
for i in range(num_users):
act_set = set(actual[i]) # ground truth 为1,或者多个
pred_set = set(predicted[i][:topk])
sum_precision += len(act_set & pred_set) / float(topk) # ground——truth 为1或者多个 状态下的准确率,求两个set的交集即命中个数,除topk
return sum_precision / num_users
def recall_at_k(actual, predicted, topk):
sum_recall = 0.0
num_users = len(predicted)
true_users = 0
for i in range(num_users):
act_set = set(actual[i])
pred_set = set(predicted[i][:topk])
if len(act_set) != 0:
sum_recall += len(act_set & pred_set) / float(len(act_set)) #也是命中个数 除以 ground-truth 的个数 求和后再除以用户个数。
true_users += 1
return sum_recall / true_users
# 平均倒数排名, 即在第一个命中,得分为1,第二个为1/2, 第三个命中为1/3,最后/topk,即推荐的个数
def mrr_at_k(actual, predicted, topk): # 这个只是考虑了一个用户的状况
if len(predicted) > topk:
predicted = predicted[:topk]
score = 0.0
for i, p in enumerate(predicted): # i 是 p 的下标, p是 预测的值
if p in actual and p not in predicted[:i]: # p在 ground truth 中,但在预测集中之前没出现过,即去重。
score += 1 / (i+1.0) # 因为下标所以要+1.0
if not actual:
return 0.0
return score / min(len(actual), topk)
# 也只考虑了一个用户的情况, 和mrr的区别仅在排序增益上, 分母取 ground truth 和topk 的较小值
def ndcg_at_k(actual, predicted, topk):
if len(predicted) > topk:
predicted = predicted[:topk]
score = 0.0
for i, p in enumerate(predicted):
if p in actual and p not in predicted[:i]:
score += 1.0 / np.log2(i + 2.0)
if not actual:
return 0.0
return score / min(len(actual), topk)