day2-机器学习-聚类

​1、聚类的任务是在无标记样本的条件下将数据分组,从而发现数据的天然结构。 ** 聚类是把一个数据对象的集合划分为簇(子集),使得簇内对象彼此相似,簇间对象不相似的过程。**

2、聚类常用方面:

  • 发现数据的潜在结构
  • 对数据进行自然分组
  • 对数据进行压缩

3、聚类方法大体可以分为3个阶段:

  • 经典算法:比如基于模型的算法,基于划分的算法,基于密度的算法,基于网格的算法,层次聚类算法;
  • 高级算法,在经典算法的基础上,针对更为复杂的数据和任务开发的算法。比如:谱聚类,高维数据聚类,基于非负数矩阵分解的聚类,不确定数据聚类;
  • 多源数据算法:它是针对多源相关数据开发的算法。比如:多角度聚类,多任务聚类,多任务多视角聚类,迁移聚类,多模聚类。

4、k均值算法是最大分离和最大内聚的最简单实现。

  • 假设我们有一组数据集X,要分成K类,那相应的就会有K个质心;
  • a 首先选择K个质心,计算每个样本与分别与这K个质心的距离,将样本进行归类;
  • b 求出每个质心中所有样本的均值,得到K个均值;
  • c 计算属于第i个质心的样本与均值的距离平方,累加K个质心的距离和作为损失函数
  • d 新的质心是用属于该类的样本求和除以样本数得到新的质心,重复a,直到质心不再变化。
  • 总结:从k均值算法的步骤看,可以发现,该算法第一次选择的质心至关重要,另外每次都算所有样本与质心的距离,来进行归类计算量太大,基本不适合稍微大点的数据集。

3、通俗来说,机器学习是一门讨论各式各样的适用于不同问题的函数形式,以及如何使用数据来有效的获取函数参数具体值的学科。

4、人工神经网络,我们将模拟生物神经网络的数学模型统称为人工神经网络。

5、模式识别,研究的是如何通过输入的特征对样本进行分类,而机器学习更加关注的是如何通过输入的样本来提取出合适的特征,进而实现分类的目标。

活动地址:CSDN21天学习挑战赛

你可能感兴趣的:(机器学习,深度学习,机器学习,聚类,算法)