ALIVEVILAM

SMOTE及发展

（文章来自论文）

摘要

合成少数过采样技术预处理算法被认为是从不平衡数据中学习的“事实上”的标准。这是由于它在程序设计中的简单性，以及它在应用于不同类型的问题时的健壮性。自2002年出版以来，SMOTE在多个不同领域的各种应用中取得了成功。SMOTE还启发了几种解决班级不平衡问题的方法，并为新的监督学习范式做出了重大贡献，包括多标签分类、增量学习、半监督学习、多实例学习等。它是从不平衡数据中学习的标准基准。它还包含在许多不同的软件包中——从开源软件到商业软件。在纪念SMOTE成立15周年的这篇文章中，我们回顾了SMOTE的历程，讨论了SMOTE的现状及其应用，并确定了扩展SMOTE解决大数据问题的下一组挑战。

本文内容

在本文中，我们总结了SMOTE及其在过去15年中的影响，庆祝了它对机器学习和数据挖掘的贡献，并提出了下一个挑战状态，以不断推进从不平衡数据中学习的前沿。虽然我们不包括对SMOTE超过5，370次引用的讨论(截至2018年2月1日)，但我们特别关注这篇文章，列举了SMOTE的各种扩展，并讨论了未来的道路。例如，我们讨论了SMOTE对其他学习范式的扩展，例如流数据，概念漂移，或多标签/多实例分类任务，等等。我们还对不平衡数据中的潜在情况进行了分析，这些情况需要更深入地研究SMOTE的应用，例如数据的内在特征，包括小分离、重叠类等。最后，我们提出了大数据问题中不平衡分类的挑战。我们希望这篇文章能够提供一个总结性的概述，包括SMOTE、它的扩展以及社区中有待解决的挑战。

smote描述

SMOTE算法执行过采样方法来重新平衡原始训练集。SMOTE的关键思想不是简单地复制少数类实例，而是引入合成的例子。这个新数据是通过在定义的邻域内的几个少数类实例之间进行插值而创建的。因此，该过程被认为是集中在“特征空间”而不是“数据空间”，换句话说，该算法是基于特征的值及其关系，而不是将数据点作为一个整体来考虑。这也导致研究原始和合成实例之间的理论关系必须深入分析，包括数据维度。必须考虑数据和特征空间中的方差和相关性等属性，以及训练和测试示例分布之间的关系(布劳格斯和苏露莎，2013)。我们将在下文第5节讨论这些问题。SMOTE的一个简单例子如图1所示。选择一个 $x_i$ 少数类实例作为创建新合成数据点的基础。基于距离度量，从训练集中选择同一类的几个最近邻居(点 $x_i1$ 到 $x_i4$ )。最后，为了获得新的实例 $r_1$ 至 $r_4$ ，执行随机插值。
正式程序如下。首先，设置过采样的总量N(整数值)，其可以被设置为获得近似1:1的类分布，或者通过包装过程被发现。然后，执行由几个步骤组成的迭代过程。首先，从训练集中随机选择一个少数类实例。接下来，获得它的K个最近邻居(默认为5个)。最后，通过插值随机选择这K个实例中的N个来计算新实例。为此，需要考虑特征向量(样本)和每个选定邻居之间的差异。这个差值乘以一个在0和1之间绘制的随机数，然后将其添加到先前的特征向量中。这导致沿着特征之间的“线段”选择随机点。在名义属性的情况下，随机选择两个值中的一个。整个过程总结在算法1中。

图1 演示如何在SMOTE算法中创建合成数据点

图2显示了SMOTE应用程序的一个简单例子，以便理解如何计算合成实例。

图2 SMOTE应用示例

为了总结这一部分，我们旨在介绍第一批成功使用SMOTE预处理算法的实际应用，这两个应用都基于生物信息学领域。具体地说，我们强调酵母蛋白质分子函数的多类问题(Hwang, Fotouhi, Finley Jr., & Grosky, 2003)原始问题被分成不平衡的二进制子集，因此在模块化神经网络的学习阶段之前需要新的合成实例，以避免偏向多数类。

基于SMOTE的扩展进行分类的属性

这里讨论的方面包括(1)要被过采样的实例的初始选择，(2)作为技术中的步骤的与欠采样的集成，(3)插值的类型，(4)具有维数变化的操作，(5)合成实例的自适应生成，(6)重新标记的可能性，以及(7)噪声生成实例的滤波。这些提到的方面涉及到分类的定义，因为它们决定了每种技术的操作方式。接下来，我们详细描述每个属性。

要过采样的实例的初始选择:通常在合成示例生成过程开始之前，确定数据中要过采样的最佳候选对象。该策略旨在减少最终数据集中的重叠和噪声。许多技术选择选择靠近边界类的实例(Han et al., 2005)，或者不生成合成的实例，这取决于属于邻域的少数类实例的数量(Bunkhumpornpat,Sinapiromsaran, & Lursinsap, 2009)。尽管文献中提出了许多初始选择的替代方案，但几乎所有的方案都遵循上述两种策略中的任何一种。两个例外是在LVQ优化过程之后合成例子的产生(Nakamura, Kajiwara, Otsuka, & Kimura, 2013)和从由SVM获得的支持向量中选择初始点(Cervantes, Garc´ ıa-Lamont,Rodr´ ıguez-Mazahua, Chau, Ruiz-Castilla, & Trueba, 2017)。

欠采样合成: 属于多数类的样本也通过使用随机或有根据的欠采样技术来去除。欠采样步骤可以在过采样开始时完成，也可以作为内部操作与合成示例的生成一起完成。通常，过采样跟随欠采样。

插值类型: 这一特性提供了关于人工或合成实例生成的各种机制，并且经常与新发展的主要原创性相关联。它定义了创建新的人工示例的方式，并且可以找到许多替代方法。插值机制可以是范围受限的(Han et al., 2005; Bunkhumpornpat et al., 2009; Maciejewski & Stefanowski, 2011)，例如，不仅从少数群体中寻找最近的邻居，而且从多数群体中寻找最近的邻居；创建比其邻居更接近所选实例的新实例，或通过使用特征加权(Hukerikar, Tumma, Nikam, & Attar, 2011)；多重插值(de la Calleja & Fuentes, 2007; Gazzah & Amara, 2008)涉及两个以上的例子或基于几何形状的以下拓扑，如椭圆(Abdi & Hashemi, 2016)和voronoi图(Young, Nykl, Weckman, &Chelberg, 2015)和图（Bunkhumpornpat et al., 2012）；基于聚类的插值(Barua, Islam, & Murase, 2011)，其中新的例子可以是聚类的质心，或者可以创建涉及属于同一聚类的例子；使用不同随机分布的内插，例如高斯(Sandhan & Choi, 2014)、数据的概率分布函数的估计(Gao, Hong, Chen, Harris, & Khalaf, 2014b)、概率平滑(Wang, Li,Chao, & Cao, 2012)、数据中协方差的保持(Cateni, Colla, & Vannucci, 2011)以及更复杂的内插，例如马尔可夫链(Das, Krishnan,& Cook, 2015)或Q-并集(Rong, Gong, & Ng, 2014)。甚至有可能没有插值，例如当新数据仅使用单点生成时，通过抖动(Mease, Wyner, & Buja, 2007)，高斯扰动(de la Calleja,Fuentes, & Gonz´ alez, 2008)，只有简单的副本与标签的变化(Stefanowski &Wilk, 2008)，或者甚至通过将过采样与将大多数样本推出球体相结合(Koziarski, Krawczyk, & Wozniak, 2017)。

维度改变的操作: 当该技术在生成人工或合成示例之前或期间包含降维或增维时，就会出现这种情况。最常见的方法是在开始时改变数据的维度，然后在新的维度空间中工作；要么通过主成分分析(PCA) (Abdi & Hashemi, 2016)或相关技术(Gu, Cai, & Zhu, 2009; Xie, Jiang,Ye, & Li, 2015)，特征选择(Koto, 2014)，装袋(Wang, Yun, li Huang, &ao Liu, 2013a)，流形方法(Bellinger, Drummond, & Japkowicz, 2016)和自动编码器(Bellinger, Japkowicz, & Drummond, 2015)，以及通过使用核函数(Mathew, Luo, Pang, & Chan, 2015; Tang & He, 2015; Pérez-Ortiz, Gutiérrez,Ti˜ no, & Hervás-Mart´ ınez, 2016)。此外，对数据主成分的估计可用于引导插值(Tang & Chen, 2008)。

合成样本的自适应生成: ADASYN(He, Bai, Garcia, & Li, 2008)提出的自适应生成假设是根据每个少数类的学习困难程度采用加权分布。这样，将为一些少数类实例生成更多的合成数据，这些实例与其他实例相比，学习起来更加复杂。受ADASYN的启发，许多技术结合了类似的机制来控制与每个少数示例或少数示例的子组相关联的新人工示例的生成数量(Alejo, Garc´ ıa, & Pacheco-Sánchez, 2015; Rivera, 2017)。

重标签: 该技术提供了在合成实例生成期间重新标记属于多数类的实例(Dang, Tran, Hirose,& Satou, 2015)或替换插值机制(Blaszczynski, Deckert, Ste-fanowski, & Wilk, 2012)的选择。

过滤由噪声产生的实例: SMOTE的第一次扩展是在SMOTE过程结束后添加一个噪声滤波步骤，这是由它产生重叠和噪声示例的众所周知的缺点所驱动的。两种典型的技术是SMOTE-TomekLinks和SMOTE+ENN(Batista et al., 2004)。人工例子的过滤是支持SMOTE在真实数据上成功的频繁操作。已经提出了许多种过滤器来增强SMOTE，例如贪婪过滤策略(Puntumapon & Waiyamai, 2012)，基于粗糙集的过滤(Ramentol,Caballero, Bello, & Herrera, 2012; Hu & Li, 2013; Ramentol, Gondres, Lajes, Bello,Caballero, Cornelis, & Herrera, 2016)，基于集合的过滤(Sáez, Luengo, Ste-fanowski, & Herrera, 2015)和生物灵感优化程序(López, Triguero,Carmona, Garc´ ıa, & Herrera, 2014; Zieba, Tomczak, & Gonczarek, 2015; Jiang, Lu,& Xia, 2016; Cervantes et al., 2017)。

基于SMOTE的过采样扩展

迄今为止，在专业文献中已经提出了超过85个SMOTE扩展。本节致力于根据之前研究的属性对它们进行列举和分类。表1列举了本文回顾的方法。在这一领域，作者通常为他们的建议提供一个名称，只有少数例外。
正如我们在表1中看到的，该技术最常用的特性是合成示例的初始选择和自适应生成。近年来，过滤以及内核函数的使用变得越来越普遍。关于插值过程，通常也用其他更复杂的方法来代替原来的方法，例如基于聚类或从概率函数导出的方法。值得一提的是，没有一种技术可以将四种机制应用于人工样本生成的校准、合成或属于多数类的有害样本的选择和去除；即初始选择、与欠采样的集成、自适应生成和全部过滤。由于篇幅限制，不可能描述所有审查的技术。然而，我们将从表1中为最著名的技术提供简要的解释:

Borderline-SMOTE (Han et al., 2005):该算法的前提是远离边界的例子对分类的成功贡献很小。因此，该技术通过使用要被过采样的每个实例的邻域内的多数和少数示例之间的比率来识别那些属于边界线的示例。噪声样本，那些所有邻居都来自多数类的例子，不被考虑。所谓的危险例子，以适当的比例，被过采样。

AHC(Cohen et al., 2006):这是首次尝试使用聚类生成新的合成示例来平衡数据。用K-means算法对多数样本进行欠采样，用凝聚层次聚类对少数样本进行过采样。这里，聚类是从生成的树状图的所有层次收集的，它们的质心是用原始的少数类例子插值的。

ADASYN (He et al., 2008):它的主要思想来自于这样一个假设，即根据少数样本的类型，根据其学习的复杂性，利用加权分布。每一个例子的合成数据的数量与每一个少数样本的难度有关。这个难度是基于邻域中属于多数类的示例的比率。然后使用少数实例的所有比率计算密度分布，这些将用于计算每个少数类样本需要生成的合成样本数。

Safe-Level-SMOTE (Bunkhumpornpat et al., 2009):在生成合成实例之前，它会为每个少数样本分配一个安全级别。每个合成样本的位置将更接近最大安全级别，因此只在安全区域生成所有合成样本。安全级别是邻域内少数实例数量的比率，安全级别比率取决于每个实例的安全级别及其邻域内实例的安全级别。插值由一个间隙控制，该间隙取决于每个少数实例的安全级别比率。

DBSMOTE(Bunkhumpornpat et al., 2012): 该算法依赖于一种称为DBSCAN的基于密度的聚类方法，并通过沿着从每个少数类实例到少数类聚类的伪中心的最短路径生成合成样本来执行过采样。DBSMOTE受到边界线-SMOTE的启发，因为它在重叠区域运行，但与边界线-SMOTE不同，它也试图保持少数和多数类的准确性。

ROSE (Menardi & Torelli, 2014): ROSE是一种在完整框架内提出的过采样技术，用于在不平衡数据中获取分类规则。它是根据平滑的自举形式从类中生成新的人工数据而建立的，其背后的思想得到了核方法的理论上众所周知的特性的支持。该算法使用以随机选择的示例为中心的概率分布，并根据比例参数的平滑矩阵，对新实例进行采样。

MWMOTE(Barua et al., 2014): 基于现有过采样方法可能产生错误的合成少数样本的假设，MWMOTE分析最困难的少数样本，并根据它们与最近多数样本的距离为它们分配权重。然后使用聚类方法从加权的信息少数类实例中生成合成示例，确保它们必须位于少数类簇内。

MDO(Abdi & Hashemi, 2016): 这是最近受马氏距离启发的多类方法之一。MDO建立了合成的例子，与其他少数类的例子相比，每个被检查的类的平均值具有相同的马氏距离。因此，通过在沿着概率轮廓生成合成实例期间保持协方差，可以更好地学习少数实例的区域。此外，降低了不同类别区域之间重叠的风险。

基于SMOTE的集成扩展

分类器集成已经成为解决不平衡分类问题的一种流行的学习框架。SMOTE还参与和/或扩展到许多基于集成的方法。表2显示了一系列基于集成的技术，这些技术结合了SMOTE本身或SMOTE的衍生物，作为实现学习来形成集成的分类器集合的多样性的主要步骤。请注意，该表仅包含与过采样和合成示例生成相关的方法；读者可以查阅专门的文献来回顾SMOTE没有参与的其他不平衡学习的集合(Galar, Fernandez, Barrenechea, Bustince, & Herrera, 2012; Fern´ andez,L´ opez, Galar, Del Jesus, & Herrera, 2013; Hoens & Chawla, 2010)。具体来说，重要的是要指出，我们可能会发现几项研究表明，基于欠采样的方法与集成学习有很好的协同作用(Khoshgoftaar, Hulse,& Napolitano, 2011; Galar et al., 2012; Blaszczynski & Stefanowski, 2015; Galar, Fernández,Barrenechea, Bustince, & Herrera, 2016)。表2的结构与前面的表1非常相似。维度变化和过滤是集成中不使用的两个属性。此外，我们添加了一个新的列来指定集成方法的类型，即如果该方法是一种增强、打包或一对全(OVA)方法。

涉及SMOTE的详尽实证研究

SMOTE被确立为从不平衡数据集学习的“事实”标准或基准。尽管不可能调查所有涉及SMOTE的分析研究，但在这个简短的部分，我们回顾了一些对SMOTE进行深入研究的最有影响力的实证研究。第一类实验研究是检查过采样是否比欠采样更有效，以及应该使用什么样的过采样速率或欠采样速率(Estabrooks, Jo, & Japkowicz, 2004)。几项研究从更普遍的角度解决了这一问题(López et al., 2013)，并特别关注SMOTE，询问如何发现适当的取样数量和类型(Chawla et al., 2008)。在巴蒂斯塔等人(2004)的工作中，比较了一些常见的重采样方法，SMOTE与欠采样的混合显示出优于其他重采样技术。后来，普拉蒂、巴蒂斯塔和席尔瓦(2015)设计了一个新的实验装置，以回答一些关于学习范式、不平衡程度和建议解决方案之间的关系和表现的开放式问题。可以找到更复杂的分析研究来分析数据的内在特征(López et al., 2013)、数据难度因素，如少数实例的罕见子概念、类别重叠(Luengo, Fernández, Garc´ ıa, & Herrera, 2011; Stefanowski,2016)和不同类型的少数民族阶层的例子(Napierala & Stefanowski, 2016)。
在SMOTE中特别研究的另一个问题是数据预处理和成本敏感学习之间的关系。在洛佩兹、费尔南德斯、莫雷诺-托雷斯和埃雷拉(2012)的评论中，为此目标进行了详尽的实证研究，得出结论认为预处理和成本敏感学习都是解决不平衡问题的好方法和等效方法。
关于算法的不同类型，SMOTE已经结合代价敏感神经网络(Zhou & Liu, 2006)，支持向量机(Tang, Zhang,Chawla, & Krasser, 2009)，基于语言模糊规则的分类系统(Fernandez,Garcia, del Jesus, & Herrera, 2008)和基于遗传学的规则归纳机器学习(Fernandez, Garcia, Luengo, Bernado-Mansilla, & Herrera, 2010)进行了深入分析。

SMOTE对其他学习范式的变异

在这一节中，我们将介绍基于SMOTE的方法来解决其他学习范式。特别是，这一节将分为五个小节，每个小节概述了每种范式和解决这一问题的技术。SMOTE的扩展已经应用于其他学习范式:(1)流式数据(见第4.1节)；(2)半监督和主动学习(在第4.2节)；(3)多实例多标签分类(4.3节)；(4)回归(4.4节)和(5)其他更复杂的预测问题，如文本分类、低质量数据分类等(见4.5节)。

表3按时间顺序总结了SMOTE扩展，指出了它们的引用、算法名称和它们处理的学习范例。在下文中，我们将简要描述每种学习范式和相关的开发技术。

流式数据

许多学习算法的应用程序需要处理数据以流方式到达的动态环境。数据的在线性质为分类器创造了一些额外的静态要求(Krawczyk et al., 2017)。此外，预测模型通常需要适应概念漂移，概念漂移是由数据流的非平稳特性导出的现象。在不平衡分类的离线版本中，分类器可以在学习开始之前估计少数类和多数类之间的关系。然而，在在线学习中，不可能做到这一点，因为课程可以随着时间的推移改变它们的分布，因此它们必须应对数据的动态性。
已经提出了两种基于SMOTE的预处理技术(Ram´ ırez-Gallego et al., 2017)来处理不平衡的数据流。首先是Learn++。NSE-SMOTE (Ditzler & Polikar, 2013)，是Learn++的扩展。SMOTE (Ditzler et al., 2010)。首先，作者将SMOTE合并到算法Learn++中。神经元特异性烯醇化酶，并在他们决定用一个战略性地利用少数类数据的子序列来代替SMOTE之后。第二种技术是GOS-伊尔(Barua et al., 2015)。它的工作原理是使用标准的过采样增量更新基础学习器。
当一个数据流随着时间的推移被接收，并且我们有时间信息的处理，我们参考时间序列分类。时间序列数据样本是来自连续信号的实值变量的有序集合，可以是时间域或空间域。相互接近的变量往往在时间序列上高度相关。SPO (Cao et al., 2011)和INOS (Cao et al., 2013)方法提出了SMOTE在时间序列分类中的集成。INOS可以看作是SPO的扩展，通过对信号空间中的少数类进行过采样来解决不平衡学习问题。通过估计和保持可靠特征子空间中的主协方差结构以及固定不可靠特征谱，使用混合技术来生成合成实例。
第三类技术被称为短时标、短时标和短时标(莫尼斯等人，2016)，也是为时间序列设计的，但用于回归。

半监督主动学习

监督学习的一个重要限制是很难获得足够的标记数据来训练预测模型。在一个完美的情况下，我们希望使用具有所有类的良好表示的不同标记数据来训练分类器。然而，在许多实际应用中，存在着大量的未标记数据，获取有代表性的子集是一个复杂的过程。主动学习通过识别要标记的信息量最大的数据，逐步产生训练数据。当涉及到外部监督(人或其他系统)时，我们指的是真正的主动学习，即选择新的例子，然后由专家进行标记。如果不是这种情况，我们参考半监督分类，它利用未标记的数据来提高预测性能，修改从标记的例子中获得的学习假设。不同的视角被用来处理半监督分类，如自我训练，基于图的方法，生成模型等(Zhu, Goldberg, Brachman, & Dietterich, 2009)。
基于SMOTE的几种方法已经被开发用于这种学习范例:
VIRTUAL (Ertekin, 2013)是为主动学习问题和支持向量机设计的，它自适应地从每个主动学习步骤中选择的真实的正支持向量创建实例。
INNO (Li et al., 2013a)是一种用于基于图的半监督学习的技术，并且执行迭代搜索以围绕已知的标记样本生成一些未标记样本。
GS4 (Moutafis & Kakadiaris, 2014) SEG-SSC (Triguero et al., 2015) and OCHS-SSC(Dong et al., 2016) 生成合成示例，以减少因缺少标记示例而产生的缺陷。检验了几种学习技术，并利用了标记样本和合成样本之间的公共隐藏空间等特性。
Park等人(2014)提出的技术是一种半监督主动学习方法，其中使用聚类算法增量获取和应用标签.

多类、多实例和多标签分类

虽然最初的SMOTE技术可以通过将少数类与其余类进行比较来应用于多类问题(一对一方法)，但也有一些专门用于处理多类不平衡分类问题的扩展(Wang & Yao, 2012):费尔南德斯-纳瓦罗等人(2011)、阿莱霍等人(2015)和阿卜迪和哈希米(2016)的工作。
在多实例学习中，数据的结构比单实例学习更复杂(Dietterich, Lathrop, & Lozano-Pérez, 1997; Herrera et al., 2016b)。在这里，学习样本被称为包。这个范例的主要特征是一个包与多个实例或描述相关联。每个实例都用一个特征向量来描述，就像单实例学习一样，但是相关的输出是未知的。一个实例，除了它的特征值，只知道它与一个包的成员关系。
已经提出了基于SMOTE的几个想法来解决多实例学习。第一类是Instance-SMOTE和Bag-SMOTE(王等，2013)。实例移动算法在每个包中创建合成的少数实例，而不创建新的包。此外，Bag-SMOTE用新实例创造了新的合成小众包。在梅拉、奥罗兹科-阿尔扎特和布兰奇(2014)的工作中，以及在梅拉、阿里埃塔、奥罗兹科-阿尔扎特和布兰奇(2015)的工作中，信息包-SMOTE技术得到了展示和改进。它使用负总体模型来寻找少数民族类中要过采样的最佳实例。创造的新合成袋支持少数民族阶层的目标概念。
在多标签分类中(Herrera et al., 2016a)，数据的每个实例都与一个输出向量相关联，而不是仅与一个值相关联。根据数据集中不同标签的数量，该向量具有固定的大小。该向量由基于二进制值的元素组成，这些元素指示相应的标签是否与实例兼容。当然，几个标签可以同时活动，显示不同的标签组合，这就是所谓的标签集。
MLSMOTE (Charte et al., 2015) 是专为多标签分类设计的SMOTE最受欢迎的扩展。其目标是产生与少数民族标签相关的合成实例。标签集中少数标签的子集由两个建议的度量来标识。合成示例的输入特征是使用SMOTE获得的，但是这些新实例的标签集也是从最近的邻居收集的，利用了邻居中的标签相关信息。

回归

回归任务将输出变量视为连续的，因此，这些值用实数表示。与标准分类不同，它们是有序的。回归任务的不平衡学习对应是对连续目标变量罕见极值的正确预测。在Torgo等人(2015年)的工作中，几种重采样技术被成功应用于回归。其中，SMOTER是基于SMOTE的过采样回归的贡献。SMOTER使用用户定义的阈值将罕见情况定义为极端高值和低值，将两种类型作为单独的情况处理。另一个主要区别是新案例目标值的生成方式，其中使用了两个种子案例之间的加权平均值。在莫尼斯等人(2016年)的研究中，SMOTER被扩展到处理时间序列预测。这里从SMOTER衍生出三种方法:SM B，SM T，SM TPhi。它们考虑了时间序列的箱的特征，并管理时间和相关性偏差。
序数回归(或分类)问题介于标准分类和回归之间。输出变量的类别之间存在预定义的顺序，但是两个连续类别之间的距离是未知的。因此，根据实际类别和预测类别之间的差异，误分类错误的惩罚可以更大或更小。在处理实际应用程序时，类的不平衡情况在这类域中可能很常见。在佩雷斯-奥尔蒂斯等人(2015年)进行的研究中，从基于图形的角度来看，过采样的方法被用来平衡序数信息。提出了三种发电方案，即OGO-北爱尔兰、OGO-ISP、OGO-SP；根据类内边的使用，构建图的最短路径和内部最短路径。

其他更复杂的预测问题

已应用SMOTE变体的其他问题如下:
不精确数据集的不平衡分类。这个问题指的是数据中模糊的存在，阻止了类的值被精确地知道。SMOTE-LQD (Palacios et al., 2012)是适用于这种环境的SMOTE的通用版本。它提供了少数实例的选择，假设不平衡率不是精确已知的，并且最近邻居的计算和合成实例的生成是用模糊算术运算符来执行的。

图像检索和图像的语义搜索是当今一个具有挑战性的问题。在Piras和Giacinto (2012)的工作中，作者提出了一种技术，通过根据最近邻信息生成合成模式来解决图像检索任务中的不平衡问题。

在生物信息学问题中，通常会出现高维分类问题。在布劳格斯和苏露莎(2013)的工作中，SMOTE在理论和经验两方面都得到了验证。在得出的结论中，最重要的是SMOTE对大多数基于高维数据训练的分类器几乎没有任何影响。其他技术，如欠采样，在高感光度设置下可能更好。

Iglesias等人(2013)提出了一种基于文档内容的SMOTE变体来管理文本分类中的类不平衡问题。这种被称为隐马尔可夫模型的方法结合了隐马尔可夫模型，该模型是用一个语料库训练的，以便根据当前的文档创建新的样本。

基于SMOTE算法的挑战

当在不平衡分类的情况下工作时，我们必须意识到偏斜的类分布不是性能下降的唯一缺点。相反，它与几个数据内在特征的结合是实现次优模型的原因(洛佩斯等人，2013年)。例如，如果这两个类尽管具有严重不平衡的数据分布，但在两个聚类或片段中很容易分离，那么任何分类器都很容易学会区分它们。当挑战变得深刻时，就像现实世界中的应用程序经常发生的那样，类被穿插在其中。
在本节中，我们将详细讨论其中的几个问题以及它们与SMOTE的关系。特别是，我们将首先研究与那些少数类表现为小分离的领域有关的问题(Orriols-Puig, Bernadó-Mansilla,Goldberg, Sastry, & Lanzi, 2009; Weiss & Provost, 2003)，以及它们与缺乏数据(Raudys & Jain, 1991)和嘈杂实例(Seiffert, Khoshgoftaar, Hulse, &Folleco, 2014)的关系(第5.1节)。接下来，我们将考虑一个阻碍不平衡分类性能的问题，即重叠或类可分性(Garc´ ıa et al., 2008)(第5.2节)。此外，由于SMOTE应用插值程序在特征空间上生成新的合成数据，我们将分析维数灾难(Blagus& Lusa, 2013)以及插值过程的不同方面(第5.4节)。我们还必须考虑到，训练分区和测试分区之间的不同数据分布，即数据集偏移(Moreno-Torres, Sáez, & Herrera, 2012b)，也会改变这些情况下结果的验证(第5.3节)。
最后，我们将考虑两个解决不平衡分类的重要新方案。一方面，我们关注实时处理，更具体地说是数据流不平衡分类(Nguyen, Cooper, & Kamei, 2011; Wang, Minku, & Yao,2013(5.5节)。接下来，我们分析了大数据的主题(Fernández, R´ ıo, López,Bawakid, del Jesus, Ben´ ıtez, & Herrera, 2014)和与倾斜的类分布相关的约束(R´ ıo, López, Ben´ ıtez, & Herrera, 2014）(第5.6节)。

小间断、噪音和数据缺乏

当一些概念(不考虑它们的类别)被表示在小簇中时，我们指的是包含小析取的数据集(Orriols-Puig等人，2009；韦斯&普罗沃斯特，2003)。在不平衡类的情况下，这个问题经常发生，因为代表性不足的概念通常位于数据集的小区域。这种情况如图3所示，我们展示了两种情况。首先，图3a描绘了一个有着少数类小间断的人工生成的数据集，然后，图3b显示了纳皮尔拉、斯特凡诺夫斯基和维尔克(2010)的工作中产生的“亚克隆”问题，其中我们可以找到两个类的小析取:多数类样本相对于少数类样本在少数类矩形区域的中心区域代表不足，而少数类样本仅覆盖整个数据集的一小部分，并被置于负类内。

这种情况增加了寻找高质量解决方案的复杂性。这是由于标准学习模型的通用工作程序，其目的是获得良好的泛化能力。因此，大多数分类算法可能认为这些例子属于类噪声的范畴(Kubat & Matwin, 1997; Jo & Japkowicz, 2004)，仅仅因为它们位于相反类的“安全区”。考虑到分类算法对噪声比不平衡更敏感(Seiffert et al., 2014)，不同的过拟合管理技术通常被用来处理这个问题，即决策树的修剪。然而，如前所述，这可能会导致忽略正确的少数族裔群体的例子。
小析取问题在更大程度上影响了那些基于分治策略的学习算法。由于原始问题被分成不同的子集，在几次迭代中，这可能导致数据碎片化(Friedman, 1996)。这种行为的一些明显的例子是决策树(Rokach, 2016)，以及众所周知的用于大数据应用程序的MapReduce编程模型(Dean & Ghemawat, 2008; Fernández et al., 2014)。
小样本量(缺乏数据)(Raudys & Jain, 1991)和小分离是两个密切相关的话题。这种协同是直接了当的，因为信息几乎不在那些小的间断中表现出来。因此，当没有足够的数据来表示问题的边界时，学习分类器不能进行良好的泛化(Jo & Japkowicz,2004; Wasikowski & Chen, 2010)。这样，小的间断、有噪声的数据和缺乏数据是三个相互关联的问题，它们构成了不平衡分类中对研究团体的挑战。
基于实例复制的简单过采样方法不能很好地处理这种数据内在问题。相反，基于SMOTE的算法隐含地考虑了一种抵消类不平衡和小析取的机制。通过在相近的示例之间创建新的实例，可以增强集群中的表示。SMOTE良好行为的前提与这样一个事实有关，即应该在该区域内选择最近的示例。当然，这取决于组成小析取的元素数量和为过采样选择的K值。此外，如果具有小间断的聚类也包含相反类的任何例子，即重叠，SMOTE将不能纠正类内不平衡的问题。这是使用SMOTE杂交和清洁技术的主要原因。
幸运的是，正如3.2节所介绍的，有几个SMOTE扩展试图分析这些数据集群。通过这种方式，基于局部密度和SMOTE的基于聚类的方法受到了高度关注，原因有二。一方面，他们关注那些真正需要实例生成的领域，即那些缺乏代表性的领域。另一方面，它们避免了过度泛化问题，增加了少数类核上的例子密度，使它们远离质心稀疏。最后，最近的研究表明，改变问题的表现形式，即考虑数据之间的成对差异(Pekalska & Duin, 2005)可能会以某种方式克服小分离问题(Garc´ ıa,Sánchez, de J. Ochoa Dom´ ınguez, & Cleofas-Sánchez, 2015)。然而，我们必须指出，找到这样的类区域的问题仍然远远没有得到适当的解决，因为前面描述的大多数聚类技术做出了几个简化的假设来解决实际的复杂分布问题。
另一种方法是应用预处理模型的协同作用，即过滤和/或实例生成，以去除那些在SMOTE应用之前实际上有噪声的实例(Sáez et al., 2015; Verbiest, Ramentol, Cornelis, & Herrera, 2014)。一些研究表明，简单的欠采样技术，如随机欠采样和清洁技术，对于不同水平的噪声和不平衡是稳健的(Seiffert et al.,2014)。这样，过滤技术和SMOTE之间的许多混合方法已经发展到目前为止，因为这允许改进数据的质量，或者先验地(从原始数据)、后验地(从预处理数据)或者迭代地同时创建新的合成实例。
Boosting算法和SMOTE之间的合作可以成功地解决小析取问题。这些学习算法是迭代的，随着过程的发展，它们动态地对数据实例应用不同的权重（Schapire,1999。）具体来说，错误分类的实例的权重会增加，因此在后续步骤中，生成的模型会关注它们。因为已知小分离中的实例难以预测，所以有理由相信提升将提高它们的分类性能。根据这一想法，已经开发了许多方法来修改标准的提升权重更新机制，以提高少数类和小析取的性能(Galar，Fernández，Barrenechea，Bustince & Herrera，2011)，并且在第3.3节中提到了那些涉及SMOTE导数的方法。然而，我们必须考虑到，如果几个数据内在特征(重叠、小分离、噪声等)在同一个问题中收敛，即使集成学习算法也会发现很难进行适当的类别区分。

重叠或类别可分性

在所有数据的内在特征中，类别之间的重叠可能是最有害的问题(Garc ´ ıa et al., 2008)。它被定义为数据空间中类的表示相似的那些区域。这种情况导致在这个重叠的区域中发展出一个具有几乎相同先验概率的推论，这使得很难甚至不可能区分这两个类别。事实上，任何“线性可分”的问题都可以用简单的分类器来解决，而不管类别分布如何(Prati & Batista, 2004)。
重叠和班级不平衡的普遍存在意味着对学习模式的更大限制。Luengo等人(2011年)进行的研究指出了这个问题，在该研究中，作者描述了几个数据集的性能，这些数据集根据不同的数据复杂性度量进行排序，以搜索一些有趣的好的或坏的行为区域。这项工作的结果表明，与不平衡率相比，衡量类别之间重叠的指标可以更好地表征最终获得的精度。
计算给定数据集重叠程度的最广泛使用的度量是最大费希尔判别比，或简称为F1 (Ho & Basu, 2002)(不得与F1分数性能度量混淆)。它是针对每个单独的特征(一维)获得的: $f=(\frac{(u_1-u_2)^2}{\theta_1^2+\theta_2^2})$ , $u_1$ ， $u_2$ , $\theta_1^2$ , $\theta_2^2$ 分别为两类的均值和方差。最后，获得F1作为所有特征的最大值。
F1度量值较小的数据集将具有高度的重叠。图4至7显示了这种行为的一个说明性例子，它是用合成数据构建的，使用了[0.0；1.0]和两个类。
重叠区域与“边界实例”的概念直接相关(Napierala et al., 2010)。顾名思义，这些实例被定义为位于少数和多数阶级重叠的阶级边界周围的那些实例。主要问题是再次试图确定这些例子是简单的噪音还是代表有用的信息。因此，对于给定的问题，能够在不同类型的实例之间进行识别是特别重要的，即线性可分的、边界线的和重叠的数据(Vorraboot，Rasmequan，Chinnasarn & Lursinsap，2015)。通过这种方式，我们将能够丢弃“误导性”的实例，并专注于那些难以区分的领域，执行一个知情的过采样过程。因此，在这种情况下，可以遵循类似于在小析取中使用的过程，即结合过滤技术、聚类和分析每个实例的邻域来确定它们对问题的实际贡献。
此外，特征选择或特征加权可以与SMOTE预处理相结合(Mart n-félez & Mollineda，2010；？).在这个意义上，SMOTE预处理将处理类分布和小析取(“红外部分”)，特征预处理以某种方式降低重叠程度(“F1部分”)。最近的一种方法提出了SMOTE与特征和实例选择之间的协同作用(费尔南德斯，卡莫纳，德尔·热苏斯和埃雷拉，2017)。这种新方法的基础与以前的方法相似，但它不是学习一个单一的解决方案，而是提供一个多目标进化算法(Zhou, Qu, Li, Zhao, Suganthan, & Zhangd, 2011)，以实现不同训练集下的不同分类器集，即考虑不同的特征和实例。关键是在问题的不同区域专门化几个分类器，产生一个健壮的集成方案。

数据集转换

数据集转换问题(Moreno-Torres, Raeder, Alaiz-Rodriguez, Chawla, & Herrera,2012a)被定义为训练和测试数据遵循不同分布的情况。数据集转换有三种潜在类型:
先验概率偏移:当训练集和测试集之间的类分布不同时(Storkey，2009)。这种情况可以通过应用分层交叉验证方案来直接解决，以便在两个集合中表示每个类相同数量的实例。
协变量移位:当输入属性值在训练集和测试集之间具有不同的分布时(Shimodaira, 2000)。这个问题的发生主要取决于为验证目的而对数据进行的划分。这项任务最广泛使用的程序，分层的k折叠交叉验证，可能会导致这种类型的诱导数据集移动，因为实例在不同的折叠之间随机混合。
概念转变:当输入和类变量之间的关系发生变化时(Yamazaki, Kawanabe, Watanabe, Sugiyama, & M¨ uller, 2007)。这是不同类型数据集转换中最大的挑战。在专门的文献中，它通常被称为“概念漂移”(Webb, Hyde, Cao, Nguyen, &Petitjean, 2016)。
如上所述，数据集转换包括一个普遍和常见的问题，可以影响所有类型的分类问题。换句话说，它不是与数据流或实时处理内在相关的条件。特别是，在不平衡的领域，这个问题可能特别敏感，因为少数群体的例子很少(Moreno-Torres & Herrera, 2010)。在最极端的情况下，少数类的一个错误分类的例子会导致性能的显著下降。
在协变量移位的情况下，有必要将SMOTE过采样技术与适当的验证技术相结合。特别是，我们可能会在莫雷诺-托雷斯等人(2012年b)的工作中发现一种新的方法，这种方法不会对这个问题产生偏见。命名为多布-SCV，这种划分策略的目的是给不同的褶皱指定近旁的例子，这样每个褶皱将有足够的每个区域的代表。洛佩兹、费尔南德斯和埃雷拉(2014)考虑了在不平衡分类的情况下使用前一种方法，他们发现这是一种稳定的性能估计器。避免每个文件夹中不同的数据分布将允许不平衡数据的研究人员集中精力设计仅基于偏斜数据的新学习模型，而不是在试图克服训练和测试结果之间的差距时寻求复杂的解决方案。
最后，关于概念转变，必须应用更复杂的解决方案。正如我们在第4.1节中提到的，Ditzler和Polikar (2013)将SMOTE预处理集成到一种新的集成增强方法中，该方法根据实例在每个时间步长的分布在实例之间应用分布权重。

维数灾难与插值机制

具有大量属性的分类问题意味着对最终模型的正确开发的重大障碍。首先，由于大多数学习方法都考虑了整个特征空间来构建系统，因此很难找到真正的最优解。第二，因为这些属性的类之间有重叠，这可能导致过度拟合，正如前面指出的。
除了前者之外，我们必须考虑到维度问题也导致了傲慢现象(Radovanovic, Nanopoulos, & Ivanovic, 2010)，定义为成为大多数观察到的最近邻居的少量点。在SMOTE程序的情况下，由于两个相互关联的原因，这影响了新合成实例的质量(Blagus & Lusa, 2013)。一方面，邻域的计算变得偏向实际邻域。另一方面，新创建的实例的差异变得更大。
克服这个问题的一种方法是预测和纠正有害的中心点出现，例如使用基于朴素贝叶斯的方法来避免边界示例和异常值(Tomasev & Mladenic, 2013)。另一个更简单的解决方案是在应用SMOTE过采样之前使用特征选择方法，如在几个著作中所建议的Lin & Chen, 2013; Yin & Gai, 2015)。一些研究还表明，k-NN分类器从这种协同中获得了更高的收益(Blagus &
Lusa, 2013)。然而，我们可能会发现作者遵循相反程序的其他作品，即他们首先重新平衡数据，然后应用特征选择方案(高，科斯富塔和沃尔德，Gao,
Khosgoftaar, & Wald, 2014a; Lachheta & Bawa, 2016)，也取得了很好的效果。
不同插值机制的使用可以为这个问题提供一些有趣的见解。此外，需要给新的合成实例增加更多的可变性，这可以通过部分外推法来实现。因此，概括将是积极的偏见，导致更好地覆盖“可能稀疏”的少数类样本。
另一个获得更多相关合成实例的有趣视角是分析不同的距离度量以获得最近邻居。一个例子是马拉纳霍比斯距离，它产生了一个椭圆形的影响区域，可能更适合重叠的情况(Abdi & Hashemi, 2016)。基于概率分布和强偏斜不敏感的海灵格距离度量也已经被应用于不平衡学习的环境中，尽管更侧重于特征选择(Yin, Ge, Xiao, Wang,& Quan, 2013)。最后，我们必须考虑混合属性的情况，其中诸如HOEM或HVDM的度量是强制性的，以便找到邻居实例(Wilson &Martinez, 1997)。
最后，通过特征提取将问题转化到低维空间是解决这个问题的另一种方法。当在应用SMOTE之前执行该过程时，该变换数据集的新聚类可以允许更好地生成实例(Xie et al., 2015)。它也可以在数据集重新平衡后应用(Hamid,Sugumaran, & Journaux, 2016)。在后一种情况下，建议进行特征提取，以便更好地学习分类器。

实时处理

正如本文所报道的，不平衡分类的问题通常集中在静态数据集上。然而，在大量的应用程序中，数据不断到达，并且查询必须实时回答。我们指的是从数据流中在线学习分类器的主题(Last，2002)。在这种情况下，不均匀分布的例子出现在许多案例研究中，如视频监控(Radtke, Granger, Sabourin, & Gorodnichy, 2014)或故障检测(Wang，Minku，& Yao，2013b)。与这个问题相关的问题是，它需要一种机制来强化代表性不足的阶级概念，以提供高的整体绩效(Wang et al., 2013)。
除了前者之外，问题本身的动力结构也隐含着对不稳定的类概念的管理，即概念漂移(Wang, Minku, Ghezzi,Caltabiano, Ti˜ no, & Yao, 2013a)。为此，已经从预处理的角度提出了几种方法来处理这两种障碍(Nguyen et al., 2011; He &Chen, 2011; Wang, Minku, & Yao, 2015)，特别是使用SMOTE (Ditzler & Polikar，2013)，和/或通过分类器集成的成本敏感学习(Mirza, Lin, & Liu, 2015;Ghazikhani, Monsefi, & Sadoghi Yazdi, 2013; Pan, Wu, Zhu, & Zhang, 2015)。
SMOTE对这个框架的适应并不简单。开窗过程意味着只有全部数据的子集被馈送到预处理算法，从而限制了生成数据的质量。但是，如果我们甚至可以存储数据的历史，从数据和类分布的角度来看，概念漂移的问题会降低可以实现的最佳性能。因此，应该计算生成的合成实例与新引入的少数类实例之间的相关性。在发现高差异的情况下，必须执行更新过程。

大数据问题中的不平衡分类

大数据主题的意义与知识提取对这类问题的巨大优势有关，这些问题体积大、速度快、种类多(Fernández et al., 2014; Zikopoulos, Eaton, deRoos, Deutsch, & Lapis, 2011)。
这意味着需要一个新的框架，允许传统学习方法的可伸缩性。这个框架就是MapReduce (Dean & Ghemawat, 2008)及其开源实现(Hadoop-MapReduce)。这种新的执行模式以容错的方式执行“分而治之”的分布式过程，以适应商用硬件。为了允许计算算法嵌入到这个框架中，程序员必须实现两个简单的功能，即映射和减少。一般而言，地图任务致力于处理原始数据的子集并产生部分结果。减少任务将地图的输出作为输入(所有地图必须共享相同的“关键”信息)，并执行融合或聚合过程。
目前，关于大数据问题不平衡分类的研究很少(费尔南德斯等人，2017年)。在所有的研究中，我们必须首先强调由若昂等人(2014年)进行的研究，在该研究中，SMOTE对大数据的第一次适应被适应于MapReduce工作流。具体来说，每个地图任务负责其数据块的数据生成，而唯一的缩减阶段将前者的输出结合起来，以提供单个平衡数据集。我们也可能发现MapReduce的一些SMOTE扩展，第一个基于邻域粗糙集理论(胡和李，2013；胡，李，楼，&戴，2014)，和后者关于集成学习和数据重采样(翟，张，&王，2017)。然而，这些工作都不是真正的大数据解决方案，因为它们的可扩展性有限。最后，古铁雷斯、拉斯特拉、贝尼特斯和埃雷拉(2017)提出了一种基于图形处理单元(GPU)并行计算SMOTE的新方法。预处理技术通过智能使用主存储器(即仅包括少数类实例)和通过kNN算法的快速GPU实现的邻域计算来适应商品硬件(Gutierrez，Lastra，Bacardit，Benitez，& Herrera，2016)。
关于这个主题的工作如此之少的原因之一可能是由于与标准解决方案适应MapReduce编程风格相关的技术困难。关于这一问题，重点是在MapReduce中开发和采用全局和精确的并行技术(Ram rez-Gallego，Fernández，García，陈，& Herrera，2018)。以SMOTE为重点，考虑到所有的少数类实例都应该被考虑用于该任务，该问题主要与快速和精确的kNN方法的使用有关。
此外，使用带GPU的流处理器不是一个简单的解决方案。程序员的技术能力，加上图形处理器实现的内存和数据结构的限制，意味着一个重大的挑战。最后，我们还必须考虑是否有合适的硬件设备用于此类大数据的实验研究。
我们还必须指出，为克服可伸缩性问题而应用的数据重新分区意味着额外的复杂性来源。我们必须记住数据的缺乏和小的分离(乔&贾普科维茨，2004；Wasikowski &陈，2010)，在这种情况下可能会变得更加严重。正如我们已经指出的，这些问题对SMOTE算法的行为有很大的影响。与大数据问题中的随机过采样和随机欠采样等更简单的技术相比，SMOTE的低性能可能是一个突出的问题(费尔南德斯等人，2017年)。这一事实意味着有必要对数据生成过程进行彻底的设计，以提高新合成实例的质量。此外，建议针对最终的简化任务，研究与模型融合或集成系统管理相关的不同可能性。

结论

在SMOTE算法诞生15周年之际，本文提出了一种最先进的SMOTE算法，以庆祝其丰富的研究和发展。它提供了对SMOTE的变化的总结性分析，该分析是针对在原始思想上检测到的不同缺陷的改进及其在更复杂的预测问题上的潜在应用而设计的，例如流数据、半监督学习、多实例和多标签学习和回归。在当前概述的挑战背景下，我们强调需要加强对小分离、噪声、缺乏数据、重叠、数据集移位和维数灾难的处理。为此，必须进一步深入分析SMOTE关于这些数据特征的理论性质及其与新合成实例的关系。最后，我们还认为，在大数据和实时处理的框架内，关注数据采样和预处理方法(如SMOTE及其扩展)非常重要。
遵循SMOTE启发的基于人工生成数据的类似过采样策略的更精细的数据预处理方法的新领域的开发和应用仍然是未来15年的一个棘手问题。为了激发这一目的，我们希望为初学者和研究人员提供一个有价值的概述，无论是在数据挖掘的任何角度，特别是在不平衡学习的情况下。

你可能感兴趣的:(机器学习,算法)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
粒子群优化 (PSO) 在三维正弦波函数中的应用 subject625Ruben 机器学习人工智能 matlab 算法
在这篇博客中，我们将展示如何使用粒子群优化（PSO）算法求解三维正弦波函数，并通过增加正弦波扰动，使优化过程更加复杂和有趣。本文将介绍目标函数的定义、PSO参数设置以及算法执行的详细过程，并展示搜索空间中的动态过程和收敛曲线。1.目标函数定义我们使用的目标函数是一个三维正弦波函数，定义如下：objectiveFunc=@(x)sin(sqrt(x(1).^2+x(2).^2))+0.5*sin(5
非对称加密算法————RSA理论及详情 hu19930613
转自：https://www.kancloud.cn/kancloud/rsa_algorithm/48484一、一点历史1976年以前，所有的加密方法都是同一种模式：（1）甲方选择某一种加密规则，对信息进行加密；（2）乙方使用同一种规则，对信息进行解密。由于加密和解密使用同样规则（简称"密钥"），这被称为"对称加密算法"（Symmetric-keyalgorithm）。这种加密模式有一个最大弱点
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
【加密算法基础——对称加密和非对称加密】 XWWW668899 网络安全服务器笔记
对称加密与非对称加密对称加密和非对称加密是两种基本的加密方法，各自有不同的特点和用途。以下是详细比较：1.对称加密特点密钥:使用相同的密钥进行加密和解密。发送方和接收方必须共享这个密钥。速度:通常速度较快，适合处理大量数据。实现:算法相对简单，计算效率高。常见算法AES(高级加密标准)DES(数据加密标准)3DES(三重数据加密标准)RC4(流密码)应用场景文件加密磁盘加密传输大量数据时的加密2.
【算法练习】IDEA集成leetcode插件实现快速刷 2401_84102892 2024年程序员学习算法 intellij-idea leetcode
============点击右侧边leetcode->设置->配置地址、用户名、密码、存放目录、文件模板用户名要登录后在账号信息里看模板代码1.codefilename!velocityTool.camelC
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
【加密算法基础——RSA 加密】 XWWW668899 网络服务器笔记 python
RSA加密RSA（Rivest-Shamir-Adleman）加密是非对称加密，一种广泛使用的公钥加密算法，主要用于安全数据传输。公钥用于加密，私钥用于解密。RSA加密算法的名称来源于其三位发明者的姓氏：R:RonRivestS:AdiShamirA:LeonardAdleman这三位计算机科学家在1977年共同提出了这一算法，并发表了相关论文。他们的工作为公钥加密的基础奠定了重要基础，使得安全通
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class