竞赛中不懂的概念

冷启动

  • 定义:就是,使用特别小(甚至没有)的数据,来为用户进行物品推荐
  • 例子:
    1)用户冷启动:用户冷启动主要解决如何给新用户做个性化推荐的问题。
    2)系统冷启动:系统冷启动主要解决如何在一个新开发的网站上(还没有用户,也没有用户行为,只有一些物品的信息)设计个性化推荐系统。
    3)物品冷启动:物品冷启动主要解决如何将新的物品推荐给可能对它感兴趣的用户这一问题。

具体实例见https://www.jianshu.com/p/aabfcacc4d11
贝叶斯平滑其实也是一种ctr冷启动的手段
例如一个广告被用户看到只有1次,点击进去也只有1次,那么他转化率就成100%了,但是“1次”是完全不具有代表意义的。由于广告投放初期,点击次数很少,所以我们必须处理好初期这种点击数据不具有代表性的情况。

贝叶斯平滑

见https://blog.csdn.net/mytestmy/article/details/19088519

数据泄露:

拿一个比赛举例
在男性前列腺癌数据中,有个feature叫PROSSUG,代表着这个患者是否接受过前列腺的手术,这个feature很难说是病人患前列腺癌的‘原因’(患心脏病的原因是接受过心脏手术?),而更像是一个标记,当然与病人是否患有前列腺癌极度相关。依靠着这样的feature训练出来的模型,肯定能够得到很好的预测结果,但对实际了解男性前列腺癌的成因,没有一点帮助。

解释一下:就是有个特征是“这个患者是否接受过前列腺的手术”,很容易想到“患者患前列腺癌不是由患者接受过前列腺手术而导致的”,即“接受前列腺手术的患者不一定就非得患前列腺癌”,但是患前列腺癌的患者大多数都接受过前列腺手术!!!!,相当于:如果训练集里有“这个患者是否接受过前列腺的手术”,那么我就可以在一定程度上判定“这个患者是否患有前列腺癌”。
那个比赛方提供的数据集,是“已知患者是否得了前列腺癌后,患者是否做过手术”,从这个数据集里划分出训练集和测试集,这样就导致了“患者是否做过手术”成了“患者是否得前列腺癌”的标签了!!正常工作中,应该提供的训练数据,应该是“未得知患者是否患前列腺癌前,患者是否做过前列腺手术”。!!!
具体的可以看https://blog.csdn.net/u013398398/article/details/78254661

你可能感兴趣的:(nlp竞赛,机器学习,大数据竞赛,大数据,数据挖掘,机器学习)