(自适应PSO)外文文献翻译

自适应PSO
抽象:
在当今世界,各种分析需要大量的在线数据。很难有效地存储,管理和检索如此大量的数据,尤其是在运行时连续获取数据时。这产生了以更动态的方式在类似组中组织这样的数据的需要。本质上不具有自适应性,传统算法(如K-means)无法在运行时容纳新到达的数据,无需重新初始化。在这种方法中,我们使用自适应粒子群优化(APSO)算法对流媒体推文进行聚类。该算法是自适应的,因为它可以有效且高效地容纳流数据,而不必重新初始化。与以前的方法不同,我们初始化了粒子,只有在算法开始时,才能使它们分布均匀,从而覆盖整个问题空间,导致算法不会陷入局部最优。我们还设计了类似突变的操作,在新推文到来时; 仅重新初始化会聚粒子的一部分远离会聚点。这有效地容纳了最新数据,再次覆盖了整个问题空间。通过这种方法,我们在集群质量和执行时间之间取得了平衡。仅重新初始化会聚粒子的一部分远离会聚点。这有效地容纳了最新数据,再次覆盖了整个问题空间。通过这种方法,我们在集群质量和执行时间之间取得了平衡。仅重新初始化会聚粒子的一部分远离会聚点。这有效地容纳了最新数据,再次覆盖了整个问题空间。通过这种方法,我们在集群质量和执行时间之间取得了平衡。
第一节
介绍
在今天的时代,随着互联网的快速发展,通过网络收集了大量数据。收到的数据来自Facebook,LinkedIn,Twitter等社交网站。组织,维护和存储如此大量的数据以及检索与查询相关的数据是具有挑战性的任务。来自这些社交网站的数据不仅是巨大的,而且是流媒体,它可以随时或根据互联网的速度快速生成新数据。管理这些快速发展的数据更为重要,耗时且成本高昂。为了能够有效地检索与特定查询相关的这种流数据,基于其相似性来索引这样的数据是非常重要的。这可以通过聚类来实现,这只不过是将未标记的类似数据分类为预定义数量的聚类或箱。此外,对于流数据,当新数据进入或现有数据更新时,群集应自动更新,从而使索引更具动态性。在本文中,自适应聚类技术用于组织运行时流数据的爆炸。
最着名的分区算法是K-means算法。该算法将一组未标记的数据向量聚类成预定义的k组聚类。该算法适用于随机初始种子簇质心,并尝试根据簇中心与数据对象[I]之间的相似性对所有数据对象进行聚类。重新分配程序继续,直到达到收敛标准。K-means算法的一些缺点是簇对初始质心选择的依赖性,陷入局部最优和低收敛速度。此外,k-means算法无法在运行时适应底层数据的任何变化。因此,它不是自适应的并且不能处理流数据的聚类。
粒子群优化算法(PSO)是一种基于群体智能的算法,由称为粒子的代理组成,彼此交互及其环境,为复杂的优化问题提供有效的解决方案。本文探讨了PSO对有效聚类流数据的适用性。在本文中,我们将在线推文收集为流数据,对其进行了预处理,然后将PSO算法应用于聚类。PSO的种子种群初始化,以覆盖完整的问题空间; 确保PSO不会陷入局部最优状态。此外,PSO是自适应的,可以容纳新到的推文,而不必从头开始,从而无缝地接受改变。
本文的其余部分安排如下:第二部分简要介绍了现有的动态数据聚类方法,PSO用于聚类和推文聚类。使用自适应PSO算法的详细推文聚类在第III节中解释。实验和结果总结在第IV节中。基于执行的实验的讨论在第V节中给出。最后的结论见第六节。
第二节
文献调查
A.动态数据聚类方法
本节概述了动态数据聚类的方法2。这种方法使用基于模糊的方法,该方法将静态对象分配给动态类,这些类随时间改变其结构。创建集群及其更新之间的时间段称为循环。这种循环的长度取决于特定的应用,并且必须是用户输入,例如每年更新一次客户的购买行为或每5分钟更新一次动态机器监控系统。通过识别一组新对象的到达或现有对象的改变,可以扩展该方法以通过识别当前聚类中的更新的需要来自动确定周期时间。
有一些方法4,[7]将动态定义为适应群集形状或大小的变化,以决定群集的数量。不必将簇的数量指定为初始种子。提出了一种基于K-means和组合粒子群优化的动态数据聚类算法,称为KCPSO [7]。与传统的K-means方法不同,KCPSO在执行聚类过程之前不需要给定特定数量的聚类,并且能够在聚类过程中找到最佳聚类数。在这些方法中,动态不是参考动态变化的数据,而是参考在运行时期间确定簇的数量(K)。
在4中,作者声称PSO适用于使用智能代理的动态自适应数据聚类。引导代理根据特定的提议导航规则移动,该规则帮助每个代理在其导航过程中找到其新位置。但是,该方法中考虑的实际数据集不会动态变化。
提出了一种基于密度的动态聚类算法[12],其中如果epsilon邻域中的所有点都属于同一个簇,则新插入的点包含在同一个簇中,否则它连接相邻的簇。如果不满足邻域密度标准,则该点被视为噪声。该算法具有高时间复杂度,因为它一次处理一个数据点。像tweet数据流这样的连续数据需要同时修改一组数据点的完整问题空间,其中本地修正可能会失败。
标准的K-means算法用于通过移位操作来聚类数据流[13]。使用C2 ICM算法[14]使用增量聚类方法。当插入新文档或删除现有文档时,该方法根据群集数量和平均群集大小的变化来定义动态性。在这两种方法中,在新数据到来时,聚类过程从头开始,算法被重新初始化,使其不具有自适应性。
这表明几乎没有任何方法可用于实时动态数据的聚类。
B.聚类的PSO
本节概述了PSO及其变体,用于聚类静态数据。
模糊C均值(FCM)聚类用于超光谱图像的分割3。高光谱图像使问题具有高维度,导致FCM对初始值变得非常敏感并且容易陷入局部最优。为了克服这个问题,FCo方法由PSo优化。
介绍了一种基于PSO和局部搜索的数据聚类新方法[5]。在标准PSO中,非振荡路径可以快速地导致粒子停滞,并且还可能过早地收敛于甚至不能保证局部最优解的子可选解。修改策略提供了一种粒子避免局部停滞的方法,并应用局部搜索来提高拟合的优度。
提出了一种基于遗传算法(GA)和粒子群优化算法(PSOA)混合的基于进化算法的聚类算法[6]。具有类似材料的订单组合在一起。生产工程师可以根据聚类结果一起安排类似的订单,以减少行业中SMT(表面贴装技术)生产线更换操作的设置时间。
C.推文聚类
考虑到推文的新颖性,twitter是当前研究的一个有趣应用。推文的性质是嘈杂,短而且没有标签。由于非正式语言,它们很吵。简短,因为每条推文只包含140个字符。每条推文都是无标签的,因为它是随机发布的。推文通常太短且非正式以提供足够的信息这一事实具有重大挑战。为了克服这一挑战,提出了一种标记类似推文的新方法[8]。这种方法背后的核心思想是利用类似的推文来弥补推文中缺少的信息。通过聚类,首先对类似的推文进行分组,然后对每个聚类进行两阶段标记。
当用户每天发布数百万条短消息时,会对推文进行主题聚类[9]。在这里,作者利用哈希标签作为主题的指标来产生良好的结果。他们进一步执行粗粒度和细粒度聚类的分析并处理主题漂移。
在[10]中讨论了模因聚类问题的概念。Meme是传播在定向社交网络上的消息,微博客系统如Twitter,Facebook,Google Plus和Yahoo! 可以容易地提取诸如散列标记,提及,URL,短语等的一组特征并用于部分地识别推特主题。预聚类和异构特征的组合产生了聚类数量和质量之间的最佳权衡。该方法是无监督的,自动的和可缩放的,用于实时检测流数据中的模因。
提出了一种名为TwitterStand的新闻处理系统[11]。它捕获了与最新新闻相对应的推文。解决的问题包括消除噪音,在线确定推文群集以及确定与推文相关的相关位置。所有上述方法都是在静态推文数据集上进行的,或者在一个特定的时间跨度内收集推文。本文探讨了利用自适应PSO算法对流媒体推文进行聚类。
第三节
自适应PSO
我们已经使用粒子群优化(PSO)算法以推文的形式聚类流数据。该算法是自适应的,因为它以连续的方式处理流数据。对于每个下一批流数据的含义,算法不必重新初始化。它从先前状态进一步运行以适应新到达的数据,从而减少了过程的时间复杂度。以下各节将讨论文档聚类的算法和不同阶段。

图 1:
基于自适应PSO算法的推文聚类流程
完整的推文聚类过程分为四个阶段:1。文档收集2.文档预处理3.使用自适应PSO进行文档聚类4.后处理。对于每批流数据迭代这四个步骤。自适应PSO在图1中简要说明。
A.文件收集
在文档收集阶段,在Twitter API的帮助下,我们会在每1000毫秒后收集流媒体推文。Twitter API起着非常重要的作用,使我们能够根据需要提取明确的类别推文。我们将单个推文存储在其类别的相应文件夹中,在单独的文本文件中,我们称之为文档。文档类别仅用于验证聚类算法。
B.文件预处理
第二阶段即文档的预处理包括以下步骤:(a)标记化将推文分成称为标记的单词,短语和符号。(b)词干将实际的词减少到它们的基础或根形式。例如(帮助’,(帮助’,(帮助’是同一个词’帮助’的所有不同形式。在测量文档的相似性时,根词的不同形式应该被认为是相同的。(c)术语过滤停止单词。停止单词(the,is,a,there等)是最常用的单词,在搜索中没用。在我们的算法中,我们保留了单词列表,其中包括常用单词和可以在短信中观察到的非正式单词。
在删除了停用词之后,我们应用了移植器词干分析器算法将所有单词带到其基本形式。根据向量空间模型(VSM),使用的数据集(推文)表示为一组向量X={x1,x2, x3,x4,x5…xn},哪里 xi表示单个对象或单个推文的特征向量。流式推文在多维空间中形式化为点,并由向量d表示,定义为d={w1,w2,w3,w4,……,wn} 哪里 wi(i=1,2,3,…n) 是一个术语的重量 ti。每个术语的重要性可以通过术语权重值来考虑。术语权重的计算取决于文档内术语的出现频率以及整个文档集。具有逆文档频率的术语频率(TF-IDF)是最广泛使用的加权方案。文件j中术语i的权重由下面的等式1给出:
wji=tfji∗idfji=tfji∗log(n|dfji)…(1)

哪里 tfji 对应于文档中术语i的出现次数 j;dfji对应于整个文档集中的术语频率。因此,作为文档预处理步骤的结果,每个推文(文档)被转换为文档向量,该文档向量用作文档空间中的点。

C.使用自适应PSO的文档聚类
在预处理推文之后,我们已经应用PSO算法进行聚类。PSO的第一步是初始化粒子数量。粒子只不过是聚类流媒体推文的可能解决方案之一。因此,群组由流式推文的候选群集解决方案的集合组成。每个粒子表示为X=(C1,C2,C3…Ci,…Ck),哪里 Ci 代表着 ith簇中心向量,k是簇的数量。
我们的一个重要观察是,如果粒子被随机初始化为一组流式推文,则获得的结果不是很好。这是因为颗粒可能无法覆盖整个问题空间并可能陷入局部最佳状态。为了解决这个问题,我们通过使用特征的最大值,最小值,三分之一和三分之二值来初始化粒子,使得它们遍布整个问题空间,从而达到全局最优值。
在初始化粒子之后,对于每个粒子,将每个推特分配给其最接近的质心向量。通过考虑属于该聚类的聚类质心和文档向量空间中的推文之间的平均相似性来计算每个粒子的适合度。该算法中使用的相似性度量是余弦相关度量,其给出如下:
cos(dij,ci)=dij.ci|dij||ci|…(2)

哪里 dij.ci 代表的点积 jth 推文属于群集i的向量d和群集的质心向量 i;|.| 表示向量的长度。
在每次迭代中,粒子根据其自身和邻居的经验调整其质心向量位置。该算法使用下面的等式3a和3b来更新粒子的位置和速度:
Vij(n+1)=w∗Vij(n)+c1r1(n)[Yij(n)−Xij(n)]+c2r2(n)[yi−Xij(n)]…(3a)

哪里 Vij(n) 是尺寸为j的粒子i的速度 =1,2,3,…,nx 在时间步 n,Xij(n) 是时间步长中维数j的粒子i的位置 n,c1 和 c2 表示两个正加速常数,分别用于扩展认知和社会成分的贡献 r1(n),r2(n) 是该范围内的随机值 [0,1],从均匀分布中采样。算法的随机元素由随机值表示r1 和 r2。个人最佳位置Yi与粒子相关联的i是它曾经访问过的粒子的最佳位置。术语y(n) 是一个粒子在所有其他粒子中的全局最佳位置,其适应值最佳。
使用以下等式更新粒子的位置:
Xi(n+1)=Xi(n)+Vi(n+1)…(3b)

对于每次迭代,将粒子的适应度值与其最新个人最佳值的适合度值进行比较。如果当前适合度值大于先前的局部最佳适合度值,则用当前适合度值更新该粒子的个人最佳(Pbest),或者不更改粒子的Pbest。
该算法是自适应的,因为每当有新的推文到来时,而不是从头开始算法; 当前正在执行的PSo中有新的推文。我们不会重新初始化粒子。在每次迭代之后,算法检查是否有新推文的到来。如果是,则算法开始预处理新的流式推文。然后将这些预处理的推文的文档向量容纳在文档空间中。对于每个粒子,通过将新的文档集分配给现有的集群来重新计算适合度值。如果粒子的适合度值发生变化,粒子的速度和位置将自动通过公式3a和3b更新。
我们在这里做的另一个重要观察是,如果粒子即将收敛到全局最优并且一组新的推文到达,再次针对进一步的迭代集,有可能粒子可能陷入局部最优状态。全球最优可能已经发生了巨大变化。为了解决这个问题,我们应用了突变类型操作,我们强制几个粒子将其位置急剧地改变到一个随机位置,远离会聚点。这稍微增加了算法的时间复杂度,但是改善了全局最优值的适应值以及算法的准确性。迭代继续进行,直到没有新的推文到达。当没有更多传入的推文时,当所有粒子的适合度值相同时,算法终止,
与分层和分区聚类技术相比,我们使用PSO有很多好处。如前所述,PSO并未陷入局部最优。与k-means相比,它独立于初始种子簇质心。PSO没有突变和重叠计算。PSO中的计算在全局搜索中更简单有效。PSO的一些缺点是精细搜索阶段的收敛速度慢,局部搜索能力弱。细节结果分析和性能将在下一节中讨论。
第四节
实验和结果
在转向动态高音扬声器数据之前,我们已经在静态文档上进行了实验。用于聚类的数据集取自20个新闻组的四个类别。下表(I)描述了该数据集的结果。

表I.静态文档聚类的结果
算法的性能是在适应值的基础上测量的。如上所述,粒子的适应度值是群集质心向量与属于各个群集的已处理文档向量之间的平均余弦相似度。它是通过使用等式2计算的。适应值越高,越紧凑,因此质量越好。PSO的目标是将适应值最大化为1。
F-measure或F-score是测试准确度的度量。它考虑了测试的精确度和召回率。新闻组被认为是该组中文档的实际类。Precision和Recall使用以下公式计算:
P=(A(A+C))∗100%…R=(A(A+B))∗100%…(4)(5)

其中,A是预测在特定集群中的文档的计数,其中其他文档的主要部分与给定文档的实际类别相同。C是预测在特定群集中的文档数量,其中大多数其他文档具有不同的实际类别。(A+C)结果为特定群集中的文档总数。因此,精度是群集中正确聚簇的文档与该群集中文档总数的比率。B是属于特定实际类的文档数,但是在不同的集群中预测。(A+B)结果为特定类中的文档总数。因此,召回是属于特定类的正确聚类文档与该类中文档总数的比率。根据给定的精度(P)和召回(R)值,我们使用以下谐波平均公式计算F-测量值:
F=(2∗P∗R)(P+R)…(6)

从上表(I)可以清楚地看出,随着粒子数量和迭代次数的增加,粒子的适应度和F-Measure值也会增加。这表明更多的粒子数更好地是收敛,更少的机会陷入局部最优并因此接近全局最优解,这提供了更紧凑的簇。
在确保实现的PSO与静态数据(20-News Group)一起工作之后,通过上述实验,我们将算法应用于动态高音扬声器数据。使用tweeter API,我们检索四个类别的推文:Sharad Pawar,Shivsena,Sonia Gandhi和Modi。这些类别再次用于验证目的。从每个类别我们提取了40条推文。我们尝试将这些推文聚为四个群集(k=4)。对于Twitter流聚类,每当一组新推文到达时,我们就会尝试以下四种情况:

  1. 每当新推文到达时,粒子就会重新初始化为随机推文向量作为质心向量。
  2. 每当新推文到达时,所有粒子都会重新初始化为在问题空间中均匀分布的特定值。
  3. 对于第一次迭代,粒子被初始化为在问题空间中良好分布的特定值,而不是每次新推文到达时。
  4. 每当新推文到达时,只有粒子的子集被重新初始化为在问题空间中良好分布的特定值,远离会聚点。
    第五节
    讨论
    在表II示出了用于上面所讨论的这些四种情形进行的实验的结果。从表中可以看出,场景3和4比场景2(856.0s)需要更少的时间(250.0s和689.0s)。这是因为在场景2中,当新的推文到达时,完整的粒子集被重新定义。然而,在场景3中,没有任何粒子的重新初始化,并且在场景4中,仅重新初始化粒子的子集。因此,场景3和4是真正自适应的,在PSO的执行期间将新到达的推文容纳到现有的问题空间中。
    在方案2中,全局最佳粒子的适合度值(0.819763)优于方案1(0.712543)。因此,我们在场景2中得到比1中更准确的结果。在场景1中,我们随机地重新初始化粒子以在新推文到达时推文文档向量。另一方面,在场景2中,每当新推文到达时,粒子被重新初始化为在问题空间中均匀分布的特定值。在后一种情况下,覆盖了完整的问题空间,从而有更好的机会达到全局最优并且不会陷入局部最优。这进一步实现了更好的质量集群。

表二.推文聚类的结果

观察到,针对第三场景计算的适合度值(其中粒子仅初始化一次)小于第二场景的适应度值,其中针对每次迭代重新初始化粒子。在3 次在第一次迭代中,粒子很好地分布在问题空间中。随着执行的进行,粒子倾向于收敛到全局最优。当新推文到达时,先前收敛的粒子不会覆盖整个问题空间,容纳新到达的推文,从而陷入局部最优。因此,就执行时间而言,情景3优于前两个情景,而在质量更好的集群方面则不足。从这些观察中可以清楚地看出,在质量和时间复杂性之间存在权衡。为了解决上述讨论的问题,我们已经在工作4 次在我们重新初始化的场景中,每当新推文到达时,只有粒子的子集在特定值上分布得很好,远离会聚点。该动作模拟遗传算法中的变异操作,避免算法陷入局部最优,从而提供更好质量的簇。此外,由于某些粒子已经在会聚点附近,因此无需从头开始搜索问题空间,从而节省了执行时间。因此,在情景4(0.964578)中根据适合度值测量的PSO的性能优于情景3(0.301457)。在时间复杂度方面,场景4(3869.0s)比场景2(4100.0s)需要更少的时间。
比较表I和表II中的适应度值和F-度量值的结果,显然通过使用静态20-新闻组数据集而不是推文数据流,我们获得了更好的质量和准确的聚类。我们推断这是因为数据的质量。推文非常短,只有140个字符,包含非常嘈杂的数据,如哈希标签,链接,非正式单词等。几乎每条推文本身都是独一无二的。因此每个术语的tf-idf非常低,因为每个推文之间的相似性非常低。另一方面,20-newsgroup是一个发布的数据集,噪声较小。
第六节
结论
在本文中,我们使用动态高音扬声器数据使用自适应PSO算法对其进行聚类。该算法是自适应的,因为它不会在新数据到达时重新初始化粒子,从而缩短了执行时间。然而,这些粒子最终会聚,因此可能无法覆盖新到达的数据的完整问题空间,因此可能陷入局部最优。为了解决这个问题,我们设计了一个类似突变的操作,我们只重新初始化会聚粒子的一个子集,远离会聚点,覆盖整个问题空间。通过这种方法,我们在集群质量和执行时间之间取得了平衡。已经聚合的粒子没有重新初始化,往往会进行局部搜索,从而更好地节省执行时间,
我们还观察到,增加粒子数和迭代次数可以提高准确性,因为它可以更好地覆盖问题空间。此外,20个新闻组数据集的适应度和F度量值比高音扬声器数据更好。这是因为推特数据很吵。作为未来的工作,我们计划在高频扬声器数据上应用降噪技术作为聚类之前的预处理步骤,以提高结果的准确性和适应性。

强调文本 强调文本

加粗文本 加粗文本

标记文本

删除文本

引用文本

H2O is是液体。

210 运算结果是 1024.

插入链接与图片

链接: link.

图片: Alt

带尺寸的图片: Alt

居中的图片: Alt

居中并且带尺寸的图片: Alt

当然,我们为了让用户更加便捷,我们增加了图片拖拽功能。

如何插入一段漂亮的代码片

去博客设置页面,选择一款你喜欢的代码片高亮样式,下面展示同样高亮的 代码片.

// An highlighted block
var foo = 'bar';

生成一个适合你的列表

  • 项目
    • 项目
      • 项目
  1. 项目1
  2. 项目2
  3. 项目3
  • 计划任务
  • 完成任务

创建一个表格

一个简单的表格是这么创建的:

项目 Value
电脑 $1600
手机 $12
导管 $1

设定内容居中、居左、居右

使用:---------:居中
使用:----------居左
使用----------:居右

第一列 第二列 第三列
第一列文本居中 第二列文本居右 第三列文本居左

SmartyPants

SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如:

TYPE ASCII HTML
Single backticks 'Isn't this fun?' ‘Isn’t this fun?’
Quotes "Isn't this fun?" “Isn’t this fun?”
Dashes -- is en-dash, --- is em-dash – is en-dash, — is em-dash

创建一个自定义列表

Markdown
Text-to- HTML conversion tool
Authors
John
Luke

如何创建一个注脚

一个具有注脚的文本。1

注释也是必不可少的

Markdown将文本转换为 HTML

KaTeX数学公式

您可以使用渲染LaTeX数学表达式 KaTeX:

Gamma公式展示 Γ ( n ) = ( n − 1 ) ! ∀ n ∈ N \Gamma(n) = (n-1)!\quad\forall n\in\mathbb N Γ(n)=(n1)!nN 是通过欧拉积分

Γ ( z ) = ∫ 0 ∞ t z − 1 e − t d t   . \Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,. Γ(z)=0tz1etdt.

你可以找到更多关于的信息 LaTeX 数学表达式here.

新的甘特图功能,丰富你的文章

Mon 06 Mon 13 Mon 20 已完成 进行中 计划一 计划二 现有任务 Adding GANTT diagram functionality to mermaid
  • 关于 甘特图 语法,参考 这儿,

UML 图表

可以使用UML图表进行渲染。 Mermaid. 例如下面产生的一个序列图::

张三 李四 王五 你好!李四, 最近怎么样? 你最近怎么样,王五? 我很好,谢谢! 我很好,谢谢! 李四想了很长时间, 文字太长了 不适合放在一行. 打量着王五... 很好... 王五, 你怎么样? 张三 李四 王五

这将产生一个流程图。:

链接
长方形
圆角长方形
菱形
  • 关于 Mermaid 语法,参考 这儿,

FLowchart流程图

我们依旧会支持flowchart的流程图:

Created with Raphaël 2.2.0 开始 我的操作 确认? 结束 yes no
  • 关于 Flowchart流程图 语法,参考 这儿.

导出与导入

导出

如果你想尝试使用此编辑器, 你可以在此篇文章任意编辑。当你完成了一篇文章的写作, 在上方工具栏找到 文章导出 ,生成一个.md文件或者.html文件进行本地保存。

导入

如果你想加载一篇你写过的.md文件或者.html文件,在上方工具栏可以选择导入功能进行对应扩展名的文件导入,
继续你的创作。


  1. 注脚的解释 ↩︎

你可能感兴趣的:((自适应PSO)外文文献翻译)