数据挖掘面试题-1

根据任务的目的，选择数据集。或者从实际中构造自己需要的数据。

(1)数据清理

忽略元祖、人工填写缺失值、使用属性的中心度量填充、给定同一类所有样本的属性均值或中位数填充、最可能的值填充

(2)数据集成

实体识别、冗余和相关分析(卡方检验，相关系数，协方差等，用spss比较方便)

(3)数据归约

维规约(小波变换和主成分分析，最常用)、数量规约(较小的数据替代原始数据)、数据压缩(有损无损两种，尤其对于图像视频等多媒体常用)

(4)数据变换和数据离散化

数据变换:光滑，属性构造，聚集，规范化，离散化和概念分层。

将上面处理后的数据转换为特征，这些特征要尽可能的准确的描述数据，并且使得机器学习算法达到最优。

根据机器学习模型优缺点，选择适宜本任务的最佳模型。其中一种方式是对每个模型都进行训练，再统计测试数据的误差，选择误差最小的模型即可。另外，还需要调整模型的参数，使得模型表现尽可能最优。

线性加权融合方法
从算法的角度来看，则最常用的是采用加权型的混合推荐技术，即将来自不同推荐算法生成的候选结果及结果的分数，进一步进行组合（Ensemble）加权，生成最终的推荐排序结果。
交叉融合法
交叉融合常被称为Blending方法，其思路是在推荐结果中，穿插不同推荐模型的结果，以确保结果的多样性。
多数表决融合
假如现在有10条记录，每条记录能被正确分类的概率为70%，或者某个模型对这10条记录进行分类能获得70%的准确率。现在拟合三个相当的模型，采用多数表决的情况下，对每条记录，三个模型都判断正确的概率为0.7*0.7*0.7~=0.34，两个模型判断正确的概率为0.7*0.7*0.3*3~=0.44，那么通过三个准确率0.7的模型来融合的话，理论上最终每条记录能被正确分类的概率提升到0.78！
加权表决融合
多数表决的融合方式默认了所有模型的重要度是一样的，但通常情况下我们会更重视表现较好的模型而需要赋予更大的权值。在加权表决的情况下，表现较差的模型只能通过与其他模型获得一样的结果来增强自己的说服力。
对结果取平均
对结果取平均在很多机器学习问题上以及不同的评估准则上都获得很不错的结果。

逻辑回归属于广义线性模型，表达能力受限；单变量离散化为N个后，每个变量有单独的权重，相当于为模型引入了非线性，能够提升模型表达能力，加大拟合；

离散化后的特征对异常数据有很强的鲁棒性：比如一个特征是年龄>30是1，否则0。如果特征没有离散化，一个异常数据“年龄300岁”会给模型造成很大的干扰。

特征离散化以后，起到了简化了逻辑回归模型的作用，降低了模型过拟合的风险。

特征离散化后，模型会更稳定，比如如果对用户年龄离散化，20-30作为一个区间，不会因为一个用户年龄长了一岁就变成一个完全不同的人。当然处于区间相邻处的样本会刚好相反，所以怎么划分区间是门学问。