Benford定律+本福特定律+数据造假

本福特定律,也称为本福德法则,说明一堆从实际生活得出的数据中,以1为首位数字的数的出现机率约为总数的三成,接近期望值1/9的3倍。推广来说,越大的数,以它为首几位的数出现的机率就越低。它可用于检查各种数据是否有造假。

要准确的判断数据是否为自然生成还需要计算两个指标,分别为KS值和截止值。然后对两个指标进行对比。如果KS值低于截止值,那么可以判定数据为自然生成,没有经过人工修饰。否则就可能有造假的风险。

KS值是数据的实际概率值与期望概率值差异的最大值,截止值是1.36除以数据条目数的平方根。我们对前面的数据表计算KS值和截止值。

你可能感兴趣的:(数据科学,数据分析,统计学,机器学习)