20180204生成学习算法【利用逻辑后验分布进行社群优秀成员检验】

如何用逻辑后验分布进行社群优秀成员的挑选。

首先我们把所有班委、管理员、智囊团成员的信息搜集起来,给定人数匿名贴标签,比如有利他、主动等标签词汇,建立一个含有所有评语的训练集,样本数大概在100人左右,词汇数可能不超过30个,我们的变量x就是这些便签,是N个维度的变量,输出y只有两种结果0或1,是否是管理员。

如果使用多项式分布计算,则维度过多,我们使用朴素贝叶斯分布。


图片发自App


我们选取训练集中出现三次以上的词汇。比如同一个人,有三个人给了相同的评语,主动。我们则可以把该词汇计入我们的词库中。比如成为班委的条件是:至少有符合三个以上的词汇。而连长或高级管理员则有符合五个以上的词汇。

因为y只有是或不是,两种可能性,所以该情况适用于二元分布的伯努利分布。

图片发自App

我们建立训练集之后,建立管理员特征模型,即含有以上特征的样本,就符合我们作为管理员的要求。拿到一个申请人样本,同样上面有由各班委给出的评价标签,如果有符合模型的词汇,并达到个数条件,则可以判断为符合y=1。


我们进行概率计算,如果有一个新词汇出现,比如践行,之前的训练集中没有出现过。我们的模型很容易会判断为不符合,为了不漏掉特殊人才,我们进行laplace平滑,在分子上+1,分母上+2,最后可变成有百分之几的几率为0。

同理该算法可用在审批不通过的申请人身上。如利用已入群人员的自我介绍作为训练集,提去高频词汇,再从中整理出标签词汇清单,已有数据判断他入群申请是否合格。(我们有y=【0,1】的数据,把前700人作为训练集,300人作为测试集,测试准确率。建立模型后,申请入群人员达到上千人时可以利用该模型进行鉴别筛选。

你可能感兴趣的:(20180204生成学习算法【利用逻辑后验分布进行社群优秀成员检验】)