【Python机器学习】无监督学习(理论知识)

        无监督学习包括没有已知输出、没有“老师指导”学习算法的各种机器学习。在无监督学习中,学习算法只有输入数据,并需要从这些数据中提取知识。

        数据集的无监督变换是创建数据新的表示的算法,与数据的原始表示相比,新的表示可能更容易被人或其他机器学习算法所理解。无监督变换的一个常见应用是降维,它接受包括许多特征的数据的高维表示,并找到表示该数据的一种新方法,用较少的特征就可以概括其重要特征。降维的一个常见应用是为了可视化,将数据降为二维。

        无监督变换的另一个应用是找到“构成”数据的各个组成部分。这方面的一个例子就是对文本文档集合进行主题提取。这里的任务是找到每个文档中讨论的未知主题,并学习每个文档中都出现了哪些主题。这可以用于追踪社交媒体上的话题讨论、比如选举、歌手等话题。

        聚类算法将数据划分成不同的组,每组包含相似的物项。

        无监督学习的一个主要挑战就是评估算法是否学到了有用的东西。无监督学习算法一般用于不包含任何标签信息的数据,所以我们不知道正确的输出是什么,因此很难判断模型是否表现良好。

你可能感兴趣的:(Python机器学习,机器学习,python,学习,人工智能)