使用信息熵来确定文本相似度

使用场景 web请求日志

对于标称型数据我们通常用信息熵或者基尼不纯度来判定混乱程度,对于数值型问题则用方差作为判断标准。

方法:
针对请求源ip进行聚合, 对聚合结果进行相似度度量
可以使用udaf 也可以使用udf 然后统计样本标准差

首先 计算聚合文本中每条的字符信息熵
使用udf函数计算信息熵的标准差\ 样本标准

计算方差和样本无偏方差区别
一个除以n 一个除以n-1

你可能感兴趣的:(使用信息熵来确定文本相似度)