以人为核心的交互式聚类数据分析

摘要

        聚类是许多数据分析任务的关键部分,但是却很难完全自动化。为了更好的整合领域知识,机器学习,人机交互,视觉领域,统计学的专家们已经独立引入众多的计算工具以通过交互式聚类来吸引用户。我们还发现,现如今的聚类技术不能满足真实数据上进行分析的要求。半监督机器学习算法会产生让人望而却步的人机交互开销或者在统计外部分析需求时失败。以人为中心的方法和用户界面的设计总是因为统计模型能力的不足而不符合要求。通过借鉴界面每个领域的有效方法,我们确定了必要的五个特征来支持人机操作环聚类算法的有效性。人机交互环聚类具有迭代的,多目标的,本地更新的特性,并且它可以对任意初始聚类和动态特征集合进行操作。我们概述了目前技术的关键方面。并且提出如上总结的五个特征可以被整合到一个算法中实现。我们会在三个数据分析任务中展示我们的技术:关于分类的特征工程,生物医学数据的探究性实验,多文档概要总结。

1.绪论

        聚类在许多数据分析任务中都是是很重要的组成成分,这些任务主要包括--信息检索系统中的文件探索比如Scatter.Gather,网络分析中的社区检测,情感分析中的数据准备,基因研究中的科学调查,JIGSAW中的调查分析。在这些应用程序中,聚类是数据分析工作流程的一部分。如果要生产效果好的聚类结果就需要有分析领域的相关知识和解决特定的问题的考量,这就使得聚类过程是很难完全自动化的。

        我们首先研究如下四个领域的交互式聚类方法--机器学习,人机交互,视觉,统计学--研究者统计模型,用户界面设计,人体识别和数学性质来处理用户的反馈。在现有的技术并不能让人满意的情况下,结合这些学科的最佳实践并借鉴我们自己的经验,我们提出五个算法特征来作为有效人机操作环聚类算法的支撑。我们概述了目前正在开发的技术的关键方面,并讨论了在三项分析任务中演示该技术的计划。

2.背景

        聚类被我们看作是将输入数据分区分组的计算过程,分割之后的每个组都要将其相似度最大化。用户可以通过聚类结果作为数据分析下的支撑。交互式聚类是用户驱动的用来分析细化和优化的聚类过程。这与信号处理不同,信号处理是设计一个简单的表示来将机器之间的信号传输最大化,这里我们专注地用人类地解释和理解来专注聚类。

        k-means算式是我们熟知且广泛应用地技术。尽管它应用广泛,但他却是 不折不扣地自动化聚类和无监督聚类(它不需要拥有相关领域地知识,且容易偏离用户地预期),当出现偏差时,用户通常很难将其分析细化聚类结果,这限制了这些完全自动化技术的实用性。

2.1 受约束聚类方法

        Wagstaff及其团队发明了受约束地kmeans算法:用户可以通过相关领域的信息来实现实例级别的约束(简单来说,比如通过 must-links and cannot-links来将两个点聚合或不聚合)。Klein及其团队描述了应用于数据点周围的局部邻域的空间级约束,而不是像之前一样只是关注两个数据点本身。对受约束的方法的介绍全面综述就超出了本文的范围,可以自己下去查阅。

        然而,最近的研究表明受约束的聚类方法在建模和可用性上有缺陷。Wagstaff团队发现当出现大量的约束时,聚类的结果会变化很大。Davidson发现一些约束集合甚至会导致其降低准确率。然而,这些研究通常只涉及交互式聚类的分段和不相关的组成部分。

        从开发面向用户的分析工具的角度来看,更具问题的是可用性问题。我们观察到,在指定单个数据实例之间的大量成对链接后,用户会变得筋疲力尽。Davidson等人批评这些技术缺乏维护现有关系的保证。由于该算法全局地扩展了约束的影响,添加新的约束可能会对每个单个数据实例造成显著的改变,包括用户认为仅与新指定的约束略微相关的约束。因此,当添加新约束后,算法修改或删除不相关的簇时,用户会感到沮丧。我们发现,这样的全局更新严重阻碍了分析,因为在每次计算机辅助更新后,用户必须重新检查每个集群的潜在变化。

        实例级约束聚类的设计可能具有在算法上从用户获取领域知识的良好意图。在实践中,将这些算法结合到用户界面中会产生巨大的执行鸿沟(大量约束的规范)以及巨大的评价差距(根据约束条件评估聚类细化的范围)并且违反 了公认的用户界面设计原则。

 2.2 以人为核心的设计 

        人机交互的研究倾向于通过现有的算法支持聚类操作,而不是开发新的算法。调用分类器作为子程序虽然加速了聚类任务速度,但是此类技术不适用于聚类拆分等操作。层次聚类虽然提供给UI设计者看到聚类分类和聚类合并的能力,但是这个技术是无监督的且不能允许用户重写当及其做出了错误的聚类分裂决定。

        尽管这些研究的见解很有价值,但我们认为,实现真正有效的交互式聚类需要的不仅仅是用户界面设计指南。我们需要一种以学习能力和可用性为核心的全新聚类算法。

 2.3 可解释性和统计表达力

        信息可视化研究通常通过使用重新缩放数据空间的技术来实现交互式聚类。重缩放技术与二维视觉显示具有自然的对应关系。虽然用户通常对这些直观的工具做出良好的响应,但此类系统通常没有足够的统计能力来捕获细粒度的特定领域信息或在长期分析过程中保留这些信息。尽管Endert等人研究了视觉聚类的语义,但这种空间表示并没有为高级聚类操作提供直接支持。这些视觉聚类不会产生通常更适合后续分析的定量输出。

        在频谱的另一端,为了最大化统计表现力,提出了一种通过探索大量聚类的计算机辅助聚类框架,此框架展示了所有的输入数据分区,用来帮助用户识别有用或者有深刻简介的概念化。Pimentel 介绍了一种所有潜在聚类的巨大空间的元可视化。

        我们认为,好的交互式聚类算法必须具有足够的学习能力,且它的统计建模能力能够映射到有效的用户交互和可解释的视觉呈现

2.4 交互式聚类的本地更新

          我们引入Awasthi等人最近的一项新工作,该工作在实现本地更新方面具有新颖性。里面描述了一种新的交互式聚类的本地算法。当用户请求聚类拆分或合并操作时,算法识别属于新形成的集群的潜在数据实例。通过将推理步骤的影响限制在分层聚类结构中的子树,作者证明了他们可以定位推理算法,从而进行聚类重新分配。由于所有的聚类重新分配都是基于层次聚类算法的输出,因此该技术不支持多目标聚类。这种技术可以被视为一种允许用户部分接受而不是完全遵守层次聚类输出的方法。

2.5 数据分析工作流

        由于聚类操作通常只是代行数据分析工作流中的中间步骤,我们指出了许多现有技术和工具没有考虑到的另外两个因素。

        首先,根据我们自己的经验,许多特定领域的数据集具有足够的元数据,用户通常可以生成比随机聚类分配更好的初始集群,这是现有技术的共同初始条件。我们认为,适当设计的交互式聚类算法必须能够接受任何用户提供的聚类作为其输入。

        第二点,同样是基于我们自己的经验并在很多的会议交流中上都得到了回应。为每个数据实例分配聚类标签的集群生成通常只是支持分析的一种手段,而其本身很少是一个目标。一个聚类输出的常用用途是实现预测分析--关于预测分析,它是检查一组输入因素如何影响可观察输出状态和测量当我们将输入数据划分为各种聚类时产生的总体效应的操作。在这一点上,我们提出一个有效的交互式聚类算法必须提供解释力的观点,这种解释力包括输入特征对最终聚类的作用。上一句话的聚类特征可用来计算相似度和构建聚类。算法需要有使得用户可以动态优化输入特征的能力,这样他们可以直接检查聚类和下游可观察状态的任何影响。

3.  数据分析中的交互式聚类

        从我们对机器学习,人机交互,视觉,统计学,数据分析的评估来看。我们提取了交互式聚类的五个注意事项。我们概述了我们算法,虽然此算法现在仍  在积极开发之中,并讨论它如何为特征工程和生物医学研究中的两个正在进行的可视化项目以及一个潜在的文本分析应用做出贡献。并讨论它如何将特征工程和生物医学研究中的两个正在进行的可视化项目以及一个潜在文本分析应用做出贡献。

3.1 设计依据

        我们提出有效的交互式聚类必须拥有迭代性,多目标性,可以支持本地更新,并且可以对任何初始聚类和动态特征集进行操作。

        迭代性:该算法必须允许用户通过语义上有意义的操作以直接的方式迭代细化输入数据的分区。反之亦然。算法不应在没有用户直接干预的情况下修改聚类成员资格。

        多目标性:算法必须有足够的统计建模能力来学习数据的不同潜在用户定义分区,并加速聚类过程.(足够的统计表达能力)

        本地更新:这个算法必须允许用户本地化推理操作。使得任何计算机辅助聚类操作仅适用于相关数据。(减少评价差距)

        初始聚类操作:该算法必须能够接收任何用户提供的聚类作为输入

        动态特征集合:该算法允许用户评估输入特征对输出集群的作用和在保持当前聚类成员资格的情况下,动态修改输入特征集合

3.2 此算法

        我们概述了我们技术的关键方面,并分享了我们的初步证据,表明上述所有设计考虑事项都可以在一个算法中实现。

        在初始化和聚类优化过程中,我们基于自举采样特征在内部维护输入数据的多个分层聚类。与Awasthi等人的工作类似,这样的聚类允许我们的算法执行本地更新。由于我们的算法仅响应于用户操作执行聚类重新分配,因此它可以接受任意集群作为输入,并满足我们的迭代设计标准。通过维护多个树并不断更新它们以反映最可能的用户定义分区,我们的算法是多目标的,可以适应任何动态特征集。我们目前正在探索适当的算法、视觉和交互设计,以实现有效的主动学习。

 4.应用

        我们会讨论两个正在进行的视觉项目和一个潜在的文本分析应用,它们可以立即从我们的交互式聚类算法的开发中受益。我们欢迎对其他应用程序或用户界面设计的反馈,这些反馈可能有助于我们的设计,算法开发和评估.

The Transcriptome of Xenopus Tropicalis

4.1 特征工程

        我们之前使用过视觉分析来帮助机器学习研究者设计最先进的情感分析器.交互式可视化对项目的许多部分都有帮助,从最初的数据探索到模型设计与开发。然而,我们发现普遍缺少支持特征工程的可视化设计的交互式算法。当调整分类器时,将错误分类的实例聚类到组中有助于模型构建者识别系统错误。模型构建这可以。然后,模型构建者可以检查观察到的错误分类的共同特征,并用补充特征作出响应。我们计划应用我们的交互式聚类算法来支持以人为中心的特征工程增强。

 4.2 生物医学中的探索性分析

          我们之前创造了一个交互的视觉系统来帮助基因研究者探索青蛙数据集的聚类,目前正在与生物信息学研究人员合作,将临床患者数据可视化。我们计划将我们的交互式聚类算法纳入这些可视化中,以支持探索性分析。

4.3 多尺度文本摘要

        自然语言处理中的一个开放性研究问题是确定一种有效的方法来帮助用户探索大量文档. Christensen等人介绍了一种生成多尺度文本摘要的技术,该技术可以为用户提供在多个细节级别聚类的多个文档的摘要。它们的算法是通过AHC聚类算法将文档划分为几簇来预处理语料库。虽然它们的方法可以生成很好的质量的簇,但是生成的概要的质量始终取决于聚类的额质量。用户只能沿着预定义的簇浏览语料库。我们相信我们的交互式聚类算法可以实现新颖的文本概要和探索性文本分析工具。

本文原文:可以在谷歌学术上搜索文章:Human-Centered Interactive Clustering for Data Analysis

你可能感兴趣的:(交互式聚类,数据挖掘,人工智能)