数据分箱(分层)的几种方法

分箱的几种方法
目标:不同分箱,目标属性相距应尽可能远,比如婴儿和老年在生理和心理上的特征区别明显。

  1. 等深分箱
    排序后,每一个分箱样本的个数是一样的,比如(1,2,3),(5,8,11)分箱个数都是3个。
  2. 等宽分箱
    排序后,每一个分箱所给定的区间划分长度是一样的。
  3. 最优分享
    分箱后标注差异大,比如聚类算法,同一个类别(分箱)之间差异尽可能小,不同类别之间差异尽可能大。
  4. 业务分享
    按照业务上已经成熟的观点、知识、习惯分层。比如考试分数分箱60以内不及格,60-80良好,80以上优秀

在python中,可以使用pandas包实现等深和等宽分层,sklearn的聚类算法(比如kmeans)实现最优分箱


个性与共性(算法:监督学习)
监督学习算法相对非监督学习存在一个因变量,即相对原因的“结果”推断。
比如推断身高xx,xx学历,xx专业,xx人格,xx职业,xx长相,xx喜好,xx经历,xx环境……的人可能会喜欢什么类型的人。
非监督学习本质上跟人的行为是一样的:经验学习指导推断。
抽象归纳出共性,使得事物认识变得简单。
比如很多人都会说人是一个复杂的动物,行为不可捉摸。但不论怎样,他都是一个人,拥有一个人作为人所共有的一些特征(尽管这种共性是人为界定的)。
一个人的行为按动机功利利己可划分为:损人利己,双赢,损人不利己,损己利他(比如涂尔干讲的利他自杀),如此认识便变得简单:无非是利己和利他两面交叉。
共性普遍适用,至于算法层面体现为经验(模型)具备更好的泛化能力。(推荐高命中)样本少,特征维度多训练的模型可能会过拟合(个性)
比如有10个人,都喜欢听好话,其中有3个人同时喜欢接受实在的意见及批评。你可以向这10个人说好话(共性)以博取好感建立信任。但你不能向这10个人都给出中肯的批评,这是个性化需求。
假设就以上特征,总体特征是10个人有3个人愿意倾听中肯批评意见。但就当前,自己遇到的3个人,3个人都愿意接受批评,我们给出经验所有人都是愿意接受中肯批评的,结果遇到新人就不管情况给人一顿批评,其结果可想而知了。这就是样本不足带来的经验局限。


经验的有效之三大要素:

  1. 信息准确性
    比如有人指着氢气跟你说氮气和氧气可以通过化学反应生成水,并实验给你看。当你自己取氮气和氧气重复当时实验并未生成水,信息失真。
  2. 必要信息的完善度
    比如你天天看到小明去电影院看电影,你以为小明喜欢看电影。殊不知小明一进电影院没多久就打瞌睡,小丽喜欢看电影,小明每次是陪小丽去看电影。
    小红喜欢小明,看小明喜欢看电影,就邀请小明看电影被拒。没捕获到小丽这个因子,必要信息不完善。(这个案例有点牵强)
  3. 经验的时效性及具体场景
    让我们回到对真理的界定:真理是相对的,是特定空间和时间下事物间的联系。
    不同空间及时间对于事物之间的联系体现为:充分条件呈现可能会有一定的差异。
    说做产品要强调具体场景,经验不可复用也就是这样,当时情景的条件可能不一样的。
    比如小时候给我10块,让我去搬砖一天我是乐意的,那时我喜欢游戏厅打游戏,基本没零花钱。打游戏这个快乐远胜过我搬砖一天所承受。现在再给我10块钱让我去搬砖一天,除非把我强行抬走。也就是说现在情况不一样了。

共性与个性的相辅相成
就个体而言,任何一个人的特征亦或需求都是个性化的。
就不同人,至于细节,世界没有完全相同的叶子。纵然两个人都喜欢吃苹果,两者对吃苹果的感知也是有差异的。
小明手机坏了,我们知道小明需要买一个手机(共性),我们向小明推荐一个华为p40,小明又是否会喜欢呢?任何一个人他的需求都是个性化的,只知道共性没法实现个性化推荐。(共性可以无限向上抽离,是一个相对的概念)
之所以强调共性,本质,是不论做什么,我们不要偏离共性根本特征所拥有的联系。
比如人家要报考一个数学培训班,你给人家推荐语文培训班很可能不会生效(这里就具体需求实现来讲,不考虑需求关联,比如报考数学的人也会报考语文培训班)。
给人家推荐语文培训班,人家不一定会接受,人家是要培训数学。从销售角度来说,我们要做需求澄清具体化,比如客户对上课时间,费用,培训老师,培训地理位置等的要求,如此才能精准把控客户需求。
有些情况,用户可能自己也不知道自己需要什么,可能需要探索引导。

你可能感兴趣的:(算法,数据分析)