【阅读笔记】美团机器学习实践_5.2用户画像

用户画像:从海量的用户数据中,建模抽象出每个用户的属性标签体系,这些属性通常需要有一定的商业价值。
用户图像数据挖掘:
1.数据收集
公司自有数据、互联网抓取的公开数据、第三方数据等
2.特征计算
特征爬虫:给出数据样本后,自动扫描结构化的数据表,根据相关性指标找到和样本标签强相关的数据列,处理后加入特征库作为后续建模使用。
3.特征库维护
统一管理特征,方便新特征的生成和老特征的下线,保证特征质量,检测特征波动情况,有质量风险的时候提出预警。
4.机器学习模型
使用算法建模。
注意为了方便统一预测,会采用预测模型标记语言做模型表达,减少模型预测时大量的适配工作。
预测模型标记语言(Predictive Model Markup Language,PMML):是一种可以呈现预测分析模型的事实标准语言。标准东西的好处就是,各种开发语言都可以使用相应的包,把模型文件转成这种中间格式,而另外一种开发语言,可以使用相应的包导入该文件做线上预测。不过,当训练和预测使用同一种开发语言的时候,PMML 就没有必要使用了,因为任何中间格式都会牺牲掉独有的优化。
5.应用接口
标签的收录管理。
数据使用的两种模式:给定用户ID查询用户属性标签,给定用户属性组合(交并等)后圈定符合条件的一批用户。
6.画像应用
将用户画像标签应用到业务线

用户标识:userID、deviceID
自然人(NPI):一个用户会有多个ID(如userID,deviceID,qq,wechat等),但是ID之间相互关联,有关联的ID一起构成一个实际的用户,也就是自然人。来自同一用户的所有ID统一对应到一个唯一编号NPI。
通常的识别方法为:将数据表示为分布式的图,求解最大连通子图,每个连通子图表示一个自然人,给每一个自然人一个唯一的编号自然人ID。

如果一个参数化模型可以分解为 P ( x , y ∣ θ ) = P ( y ∣ x , θ ) P ( x ∣ θ ) P(x,y|\theta )=P(y|x,\theta)P(x|\theta) P(x,yθ)=P(yx,θ)P(xθ)的形式,则未标记样本实例的价值就体现在,它们能够更好的地估计模型参数从而提高模型性能。

推导过程:
假设所有数据服从于某个由 L L L个高斯分布混合而成的分布,即 f ( x ∣ θ ) = ∑ i = 1 L a i f ( x ∣ θ i ) f(x|\theta)=\sum_{i=1}^La_if(x|\theta_i) f(xθ)=i=1Laif(xθi)
其中, ∑ i = 1 L a i = 1 \sum_{i=1}^La_i = 1 i=1Lai=1为混合系数, θ = θ i \theta={\theta_i} θ=θi为参数。这样标记就可以视为一个由选定的混合成分 m i m_i mi和特征向量 x i x_i xi以概率 P ( c i ∣ x i , m i ) P(c_i|x_i,m_i) P(cixi,mi)决定的随机变量。
根据最大后验概率假设,最优分类公式如下: h ( x ) = arg max ⁡ k ∑ j P ( c i = k ∣ m i = j , x i ) P ( m i = j ∣ x i ) h(x)={\underset{k}{\operatorname {arg\,max}}}\sum_{j}P(c_i=k|m_i=j,x_i)P(m_i=j|x_i) h(x)=kargmaxjP(ci=kmi=j,xi)P(mi=jxi)其中 h ( x ) h(x) h(x)表示最终分类结果, c i c_i ci表示类别, P ( m i = j ∣ x i ) = a j f ( x i ∣ θ j ) ∑ i = 1 L a l f ( x i ∣ θ j ) P(m_i=j|x_i)=\frac{a_jf(x_i|\theta_j)}{\sum_{i=1}^La_lf(x_i|\theta_j)} P(mi=jxi)=i=1Lalf(xiθj)ajf(xiθj)
这两项的第一项与类别标记有关,第二项并不依赖示例的标记,因此如果有大量未标记实例可用,则意味着能够用于估计第二项的示例显著增多,让第二项的估计更加准确从而让整体更加准确。

【待解决】(之前在实习中用到全自动automl算子时,readme的要求也是希望能够将无label的测试集和有label的训练集同时输入模型去训练,保证不会因为测试集数据的分布影响模型效果,是否是同一个道理之后去查一下)

你可能感兴趣的:(机器学习实践,机器学习)