聚类中噪音的处理

聚类本身就是最常用的异常值检测方法,大部分非监督的异常值检测都依靠聚类,K-MEANs&层次聚类对离群值非常敏感。改用密度聚类和高斯混合模型。

基因数据去噪: 对数转换可以使小于 1 的值变大,大于 1 的值变小,从而使它们关于 0 对称化,这种变换是否反映了一定的生物学意义。这样方便计算,但是在标准差接近0的时候,会产生比较大的噪声,log后,先标准化,靠近0的都删除,表达值大于1的是高表达,小于是低表达,

 皮尔森相关系数:依赖于协方差,用协方差除以两个变量的标准差得到的。

斯皮尔曼相关系数:以均值和方差为根本



常用于基因数据分析的方法还有主成分分析(PCA),实现数据降维的基本方法,PCA的思想是将n维特征映射到k维上(k

 在信号处理中,信噪比是信号和噪声的方差比,当降维到K维的时候,做到每一维上方差都很大就是最好的降维。

ICA(independent component analysis):找到的是一个矩阵分解,独立成分分析---使用最大似然估计解释算法。
ICA和PCA的区别在于:ICA认为样本数据由独立非高斯分布的隐含因子产生,隐含因子个数就是特征数,所以要求的就是隐含因子。 适合用来还原信号(非常适合不是高斯分布的),另一个适合用来降维。

K最近邻分类法(KNN):n维计量变量描述,每个观察个体都由n维空间中的一个个体来描述,给定一个个体,会在n维空间中找到最邻近的K个观察个体,这K个点大多数属于哪个类,该个体就属于哪个类。

决策树:通过一定的评判策略判定哪一个属性对分类最为重要,就将其作为根节点,然后再判断余下的节点中最重要的节点,直到叶子结点。

    叶子结点是指:节点的样本集合中所有样本都属于同一类;节点的样本集合中所有的属性都已经处理完毕,没有剩余属性可以用来进一步划分样本,这时候采用子集中多数样本所属于的类来标记该节点;节点的样本集合中所有样本的剩余属性取值完全相同,但所属类型别不同,此时用样本中多数类来标示该节点。

ID3:采用信息增益的特征选择策略,选取最高信息增益的属性作为当前节点的分裂属性,保证决策树具有最下的分支数量和最下的冗余度。

信息增益 --- 已知该消息时,与未知该消息时,期望值减少越多,信息增益越大。

 缺点:只能收敛到局部最优解而不是全局最优解;只能处理离散值的属性。当训练样本过小的时候,容易产生过拟合(训练集中有噪声,产生了噪声的分支)。

C4.5用信息增益比作为选择属性的标准,加上剪枝技术。信息增益比(如果某一列属性的值都是独一无二的)


树的剪枝算法描述:
输入:生成整个树T,参数α
输出:修剪后的子树Tα
1. 计算每个节点的经验熵
2. 递归的从树的叶节点向上回缩。
设一组叶节点回缩到其父结点之前之后的整体树分别为TB,TA。与之相对应的损失函数是Cα(TB)和Cα(TA).
在修剪后损失函数小于修剪之前则进行剪枝,将它的父结点变为新结点。
3.   重复2直到不能继续为止,损失函数最小的子树产生。



你可能感兴趣的:(机器学习)