分类模型与聚类模型

一、分类模型-逻辑回归
特点:(又称0-1回归)离散的情景,判断是/否这个关系
这个计量经济学应该也讲过,是我忘了。。。
关键就是yi取离散的值,误差项可以写成yi-Bxi
(原谅我节约时间公式乱打)
xi与yi的协方差不为0
连接函数F(x,B),可以用概率(?)分布函数来替代(大雾,因为那个样子确实让人想把F当作分布函数,然而事实上并不是)
当我们取Sigmoid函数的时候,便是逻辑回归
S(x)=e^x*(1+e ^x)
事实上我们用极大似然估计法估计B
容易出现过拟合现象——用测试集-训练集的办法解决
二、聚类模型
与上文区别:聚类对类别未知
那么怎么化归问题呢?分类!
K-means:
怎么分类——随机取数据对象(不一定是我们的样本点)作为初始的聚类中心,按照距离将各个点划分到各个簇中
调整新的类并计算出新类的中心
循环操作到中心不变(收敛)
有点抽象23333
K-means++:用于克服原算法对初值敏感的问题
同样化归,我们可以选更好的初值
怎样算好呢?
自然是划分为孤立的一坨一坨的情况是我们希望看到的
哦天啊,那我们可以计算点到已有聚类中心的距离,从而由这个值选取新的聚类中心(越大越要选)
*来个高级的——系统(层次)聚类
将每个对象看作一个类(对象距离替代类的距离)计算两两之间最小距离,将距离最小的两个类合并为一个新类
一直重复到合并为一个类
有什么意思呢?啊,关键是合并的时候我们是由各个初始类之间的关系的——系谱图!

*肘部法则——聚合系数:J(衡量总的畸变程度)等于各个类的各个点到该类重心距离的平方和的和
用这个值来考虑是否拟合有效
DBSCAN算法:基于密度的聚类方法——要求一定区域内所包含对象的数目不小于一定的阈值(可以减少白噪声、处理异常数据)
核心点——数目多
边界点——数目少,但在核心点领域内
噪音点——两者以外

你可能感兴趣的:(美赛2021)