集体智慧编程_3发现群组

监督式学习与非监督式学习

监督式学习指的是你拥有一个输入变量(x)和一个输出变量(Y),使用某种算法去学习从输入到输出的映射函数。例如,神经网络,决策树,支持向量机以及贝叶斯过滤等

非监督式学习指的是我们只拥有(X)但是没有相关的输出变量。例如,聚类,非负矩阵因式分解,自组织映射等

大概结构:

有监督学习(分类,回归)

半监督学习(分类,回归),transductive learning (分类,回归)

半监督聚类(有标签数据的标签不是确定的,类似于:肯定不是xxx,很可能是yyy)

无监督学习(聚类)

单词向量

根据单词出现的频度进行聚类

1)数据集构造:在一系列数据源中,提取文本,建立一个单词频度表

2)对数据源中的单词进行计数,建立单词列表,选择介于某个百分比之内的单词数进行聚类

分级聚类

分级聚类通过连续不断地将最为相似(具体问题具体分析,本文是通过相对位置来作为相似度)的群组两两合并,来构造出一个群组的层次结构,其中每个群组都是从单一元素开始的。通常,分级后采用树状图来展现。

缺点:1.计算量惊人;2.运行速度非常缓慢。

绘制树状图

列聚类

K-均值聚类

算法步骤:

1.随机确定k个中心位置(代表聚类中心的点);

2.将各个数据分配给临近的中心点;

3.聚类中心移到分配给该聚类所有节点的平均位置处;

4.重复2,3步骤,直到分配过程不在产生变化为止。

针对偏好的聚类

你可能感兴趣的:(基础知识,打砖,笔记,笔记)