威尔逊得分 Wilson Score 排序算法

欢迎Follow我的GitHub, 关注我的.

威尔逊得分排序算法，Wilson Score，用于质量排序，数据含有好评和差评，综合考虑评论数与好评率，得分越高，质量越高。

源码参考：
https://github.com/SpikeKing/MachineLearningTutorial/blob/master/wilson_score/wilson_score_model.py

Wilson Score

u表示正例数（好评），v表示负例数（差评），n表示实例总数（评论总数），p表示好评率，z是正态分布的分位数（参数），S表示最终的威尔逊得分。z一般取值2即可，即95%的置信度。

正太分布的分位数表：

分位数表

算法性质：

性质：得分S的范围是[0,1)，效果：已经归一化，适合排序
性质：当正例数u为0时，p为0，得分S为0；效果：没有好评，分数最低；
性质：当负例数v为0时，p为1，退化为1/(1 + z^2 / n)，得分S永远小于1；效果：分数具有永久可比性；
性质：当p不变时，n越大，分子减少速度小于分母减少速度，得分S越多，反之亦然；效果：好评率p相同，实例总数n越多，得分S越多；
性质：当n趋于无穷大时，退化为p，得分S由p决定；效果：当评论总数n越多时，好评率p带给得分S的提升越明显；
性质：当分位数z越大时，总数n越重要，好评率p越不重要，反之亦然；效果：z越大，评论总数n越重要，区分度低；z越小，好评率p越重要；

本文的源码

Python实现

def wilson_score(pos, total, p_z=2.):
    """
    威尔逊得分计算函数
    参考：https://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval
    :param pos: 正例数
    :param total: 总数
    :param p_z: 正太分布的分位数
    :return: 威尔逊得分
    """
    pos_rat = pos * 1. / total * 1.  # 正例比率
    score = (pos_rat + (np.square(p_z) / (2. * total))
             - ((p_z / (2. * total)) * np.sqrt(4. * total * (1. - pos_rat) * pos_rat + np.square(p_z)))) / \
            (1. + np.square(p_z) / total)
    return score

威尔逊得分算法的分布图

分布

实例：假设医生A有100个评价，1个差评99个好评。医生B有2个评价，都是好评，那哪个应该排前面？
在z=2时，即95%的置信度，医生A的得分是0.9440，医生B的得分是0.3333，医生A排在前面。

PS：评分等级问题：如五星评价体系，或者百分评价体系，该怎么办呢？

将威尔逊得分的公式由 伯努利分布 修改为 正态分布 即可。

wilson_norm

注意：均值和方差均是归一化之后的数值。

Python实现：

def wilson_score_norm(mean, var, total, p_z=2.):
    """
    威尔逊得分计算函数 正态分布版 支持如5星评价，或百分制评价
    :param mean: 均值
    :param var: 方差
    :param total: 总数
    :param p_z: 正太分布的分位数
    :return: 
    """
    # 均值方差需要归一化，以符合正太分布的分位数
    score = (mean + (np.square(p_z) / (2. * total))
             - ((p_z / (2. * total)) * np.sqrt(4. * total * var + np.square(p_z)))) / \
            (1 + np.square(p_z) / total)
    return score

归一化的示例：

def test_of_values():
    """
    五星评价的归一化实例，百分制类似
    :return: 总数，均值，方差
    """
    max = 5.  # 五星评价的最大值
    min = 1.  # 五星评价的最小值
    values = np.array([1., 2., 3., 4., 5.])  # 示例

    norm_values = (values - min) / (max - min)  # 归一化
    total = norm_values.size  # 总数
    mean = np.mean(norm_values)  # 归一化后的均值
    var = np.var(norm_values)  # 归一化后的方差
    return total, mean, var

PS：关于z参数，即正太分位数。正太分位数影响wilson得分的分布，z参数取值依据就是样本数的量级。举个例子：同样是100个样本，90个好评，z取值2或6，分数差别很大，体系所容纳（或区分）的样本数也相差较大（同样是0.82分和90%好评率，z=2需要100个样本，z=6需要1000个样本），一般而言，样本数的量级越大，z的取值大。

print 'score: %s' % wilson_score(90, 90 + 10, p_z=2.)
print 'score: %s' % wilson_score(90, 90 + 10, p_z=6.)
print 'score: %s' % wilson_score(900, 900 + 100, p_z=6.)

# 取值2-100：score: 0.823802352689
# 取值6-100：score: 0.606942322627
# 取值6-1000：score: 0.828475631056

参考：Binomial proportion confidence interval、Normal distribution、How Not To Sort By Average Rating、Relationship between Binomial and Normal Distributions

Thanks @boyi老师

威尔逊得分 Wilson Score 排序算法

你可能感兴趣的:(威尔逊得分 Wilson Score 排序算法)