Python数据之道

机器学习算法备忘单！

来源：Datawhale

干货 
作者：Anthony Barrios，编译：追风者

机器学习（ML）是人工智能（AI）和计算机科学的一个子领域，主要是利用数据和算法来模仿人的学习方式，逐步提高其准确性。使用这个树状图作为指南，以确定使用哪种ML算法来解决你的AI问题。

图片来源：LatinX 在 AI™ 中的机器学习算法备忘单

如果你想知道在不同的应用程序中使用哪些机器学习算法，或者你是一个开发者，同时为你试图解决的问题寻找一种方法，请继续阅读下文，并以这些步骤作为指导。

无监督学习使用未标记的信息数据，这样机器应该在没有指导的情况下根据模式、相似性和差异来工作。

另一方面，有监督学习有一个 "老师" 存在，他负责通过标记数据来训练机器工作。接下来，机器会收到一些示例，使其能够产生正确的结果。

但是对于这些类型的学习，有一种混合的方法，这种半监督学习适用于有标签和无标签的数据。这种方法使用一个极小的标记数据集来训练和标记其余数据，并进行相应的预测，最后给出问题的解决方案。

首先，你需要知道你所处理的维数，它意味着你的问题中输入的数量（也被称为特征）。如果你正在处理一个大数据集或许多特征，你可以选择降维算法。

一、无监督学习：降维

数据集合中的大量维度可能会对机器学习算法的性能产生重大影响。"维度诅咒" 是一个用来描述大维度可能造成的麻烦的术语，例如，聚类中的 "距离聚集（Distance Concentration）" 问题，即随着数据维度的增加，不同的数据点会有相同的值。

最小化训练数据中输入变量数量的技术被称为 "降维"。

现在你需要熟悉特征提取和特征选择的概念，以便继续学习。

将原始数据转化为可以处理的数字特征，同时保留原始数据集的信息，这一过程被称为特征提取。它比直接将机器学习应用于原始数据产生更好的结果。

它用于三种已知的降维算法，包括主成分分析、奇异值分解和线性判别分析，但你需要清楚地知道你想用哪种工具来寻找模式或从数据中推断出新的信息。

如果你不希望合并数据中的变量，而是想通过只保留重要的特征来去除不需要的特征，那么你可以使用主成分分析算法。

PCA（主成分分析）

主成分分析是一种降低数据集维数的数学算法，在保留大部分信息的同时简化变量的数量。这种以准确性换取简单性的方法被广泛用于在大型数据集中寻找模式。

图片来源：什么是主成分分析？

https://liorpachter.wordpress.com/2014/05/26/what-is-principal-component-analysis/

在线性连接方面，它在有大量数据存在的情况下有着广泛的应用，如媒体编辑、统计质量控制、投资组合分析，以及人脸识别、图像压缩等许多应用。

另外，如果你想要一个通过组合你正在使用的数据的变量来工作的算法，简单的PCA可能不是你使用的最佳工具。接下来，你可以有一个概率模型或一个非概率模型。概率数据是涉及到随机选择的数据，是大多数科学家的首选，可以得到更准确的结果。而非概率数据不涉及这种随机性。

如果你正在处理非概率数据，你应该使用奇异值分解算法。

SVD（奇异值分解）

在机器学习领域，SVD允许数据被转化为一个可以轻松区分类别的空间。这种算法将一个矩阵分解为三个不同的矩阵。例如，在图像处理中，使用数量减少的矢量来重建与原始图像非常接近的图片。

使用给定数量的组件压缩图像

与PCA算法相比，两者都可以对数据进行降维处理。但PCA跳过了不太重要的成分，而SVD只是把它们变成特殊的数据，表示为三个不同的矩阵，更容易操作和分析。

当涉及到概率方法时，对于更抽象的问题，最好使用线性判别分析算法。

LDA（线性判别分析）

线性判别分析（LDA）是一种分类方法，在这种方法中，先前已经确定了两个或更多的组，根据其特征将新的观察结果归为其中一个。

它不同于PCA，因为LDA发现了一个优化组可分离性的特征子空间，而PCA忽略了类标签，专注于捕捉数据集的最高方差方向。

该算法使用贝叶斯定理，这是一个概率定理，用于根据一个事件与另一个事件的关系来确定其发生的可能性。

它经常被用于人脸识别、客户识别和医学领域，以识别病人的疾病状况。

从UMIST数据库中随机选取的五个主体（类）的170张人脸图像在（a）基于PCA的子空间，（b）基于D-LDA的子空间，以及（c）基于DF-LDA的子空间的分布。

资料来源：Face recognition using LDA-based algorithms

https://www.researchgate.net/publication/5613964FacerecognitionusingLDA-based_algorithms

下一步是选择你是否希望你的算法有响应，这意味着你要开发一个基于标记数据的预测模型来教导你的机器。如果你愿意使用非标签数据，你可以使用聚类技术，这样你的机器就可以在没有指导的情况下工作，搜索相似性。

另一方面，选择相关特征（变量、预测因子）的子集用于模型创建的过程被称为特征选择。它有助于简化模型，使研究人员和用户更容易理解它们，以及减少训练周期和避免维度诅咒。

它包括聚类法、回归法和分类法。

二、无监督学习：聚类

聚类是一种分离具有相似特征的群体并将其分配到群组的技术。

如果你正在寻找一种分层的算法：

Hierarchical Clustering（层次聚类）

这种类型的聚类是机器学习中最流行的技术之一。层次聚类协助一个组织对数据进行分类，以确定相似性，以及不同的分组和特征，从而使其定价、商品、服务、营销信息和其他方面的业务有的放矢。它的层次结构应显示出类似于树状数据结构的数据，即所谓的树状图。有两种方法对数据进行分组：聚类和分化。

聚合式聚类是一种 "自下而上" 的方法。换句话说，每个项目首先被认为是一个单元素集群（叶子）。在该方法的每个阶段，最具可比性的两个集群被连接成一个新的更大的集群（结点）。这种方法反复进行，直到所有的点都属于单个大簇（根）。

分化聚类以一种 "自上而下" 的方式工作。它从根部开始，所有项目都分组在一个集群中，然后在每个迭代阶段将最多的项目分成两个。迭代程序直到所有的项目都在他们的组中。

如果你不寻找分层解决方案，则必须确定你的方法是否需要指定要使用的集群数量。如果你不需要定义，你可以利用基于密度的有噪声的应用程序空间聚类算法。

DBSCAN（基于密度的有噪声的应用程序空间聚类法）

当涉及到任意形状的聚类或检测异常值时，最好使用基于密度的聚类方法。DBSCAN是一种检测那些任意形状的聚类和有噪声的聚类方法，它根据两个参数：eps和minPoints将彼此接近的点分组。

eps告诉我们两个点之间需要有多大的距离才能被视为一个集群。而minPoints是创建一个集群的最小点数。

我们在分析Netflix服务器的异常值时使用了这种算法。流媒体服务运行着数以千计的服务器，通常只有不到百分之一的服务器能够变得不健康，这会降低流媒体的性能。真正的问题是这个问题不容易被发现，为了解决这个问题，Netflix使用DBSCAN指定一个要监测的指标，然后收集数据，最后传递给算法来检测服务器的异常值。

资料来源：Tracking down the Villains: Outlier Detection at Netflix

日常使用可以是电子商务向客户推荐产品。对用户之前购买过的产品数据应用DBSCAN。

如果你需要指定聚类的数量，有三种现有的算法可供使用，包括K-Modes、K-Means和高斯混合模型。接下来，你需要知道是否要使用分类变量，这是一种离散变量，通过对观察值进行分组来捕捉定性的后果。如果你要使用它们，你可以选择K-Modes。

K-Modes

这种方法被用来对分类变量进行分组。我们确定这些类型的数据点之间的总不匹配度。我们的数据点之间的差异越少，它们就越相似。

K-Modes和K-Means之间的主要区别是：对于分类数据点，我们不能计算距离，因为它们不是数字值。

这种算法被用于文本挖掘应用、文档聚类、主题建模（每个聚类组代表一个特定的主题）、欺诈检测系统和市场营销。

对于数值型数据，你应该使用K-Means聚类。

K-Means

数据被聚类为k个组，其方式是同一聚类中的数据点是相关的，而其他聚类中的数据点则相距较远。这种距离经常用欧几里得距离来衡量。换句话说，K-Means算法试图最小化聚类内的距离，最大化不同聚类之间的距离。

搜索引擎、消费者细分、垃圾邮件检测系统、学术表现、缺陷诊断系统、无线通信和许多其他行业都使用K-Means聚类。

如果预期的结果是基于概率的，那么你应该使用高斯混合模型。

GMM（高斯混合模型）

这种方法意味着存在许多高斯分布，每个高斯分布代表一个集群。该算法将确定每个数据点属于给定批次数据的每个分布的概率。

GMM与K-Means不同，因为在GMM中，我们不知道一个数据点是否属于一个指定的聚类，我们使用概率来表达这种不确定性。而K-Means方法对一个数据点的位置是确定的，并开始在整个数据集上迭代。

高斯混合模型经常被用于信号处理、语言识别、异常检测和音乐的流派分类。

在使用标记数据来训练机器的情况下，首先，你需要指定它是否要预测数字，这种数字预测将有助于算法解决问题。如果是这样的话，你可以选择回归算法。

三、监督学习：回归

回归是一种机器学习算法，其结果被预测为一个连续的数值。这种方法通常用于银行、投资和其他领域。

在这里，你需要对速度和准确性做出取舍。如果你正在寻找速度，你可以使用决策树算法或线性回归算法。

决策树

决策树是一个类似树形数据结构的流程图。在这里，数据根据一个给定的参数被连续分割。每个参数允许在一个树节点中，而整个树的结果位于叶子中。有两种类型的决策树。

分类树（是/否类型），这里的决策变量是分类的。
回归树（连续数据类型），这里的决策或结果变量是连续的。

当特征和输出变量之间存在复杂的相互作用时，决策树就会派上用场。当存在缺失的特征，类别和数字特征的混合，或特征大小的巨大差异时，与其他方法相比，它们的表现更好。

该算法用于提高促销活动的准确性、欺诈检测以及患者严重或可预防疾病的检测。

线性回归

基于一个给定的自变量，这种方法预测因变量的值。因此，这种回归方法决定了输入（自变量）和输出（因变量）之间是否存在线性联系。这也是线性回归这一术语的由来。

线性回归非常适合于那些特征和输出变量具有线性关系的数据集。

它通常用于预测（这对小公司了解销售效果特别有用），了解广告支出和收入之间的联系，以及在医疗行业了解药物剂量和病人血压之间的相关性。

另外，如果你的算法需要准确性，你可以使用以下三种算法。神经网络、梯度提升树和随机森林。

神经网络

需要一个神经网络来学习特征和目标之间复杂的非线性关系。它是一种模拟人脑中神经元工作的算法。有几种类型的神经网络，包括香草神经网络（只处理结构化数据），以及循环神经网络和卷积神经网络，它们都可以处理非结构化数据。

当你有大量的数据（和处理能力），并且准确性对你很重要时，你几乎肯定会利用神经网络。

这种算法有很多应用，例如释义检测、文本分类、语义解析和问答。

Gradient Boosting Tree（梯度提升树）

梯度提升树是一种将不同树的输出合并进行回归或分类的方法。这两种监督学习都结合了大量的决策树，以减少每棵树单独面对的过拟合的危险（一种统计建模错误，当一个函数与少量数据点过于紧密匹配时，就会出现这种情况，使得模型的预测能力下降）。这种算法采用了Boosting，它需要连续组合弱学习器(通常是只有一次分裂的决策树，称为决策树桩)，以便每棵新树都纠正前一棵树的错误。

当我们希望减少偏差误差时，也就是模型的预测与目标值之间的差异，我们通常采用梯度提升算法。

当数据的维度较少，基本的线性模型表现不佳，可解释性并不重要，而且没有严格的延迟限制时，梯度提升算法是最有利的。

它被用在很多研究中，比如基于大师级运动员动机的性别预测算法，使用梯度提升决策树，探索他们基于心理维度预测性别的能力，评估参加大师级运动的原因作为统计方法。

随机森林

随机森林是一种解决回归和分类问题的方法。它利用了集成学习，这是一种通过结合几个分类器来解决复杂问题的技术。

它由许多决策树组成，其中每一个决策树的结果都会以平均或平均决策的方式得出最终结果。树的数量越多，结果的精确度就越高。

当我们有一个巨大的数据集并且可解释性不是一个关键问题时，随机森林是合适的，因为随着数据集的增大，它变得越来越难以把握。

这种算法被用于股票市场分析、医疗领域的病人诊断、预测贷款申请人的信用度，以及欺诈检测。

对于非数字预测算法，你可以选择分类方法而不是回归。

四、监督学习：分类

与回归方法一样，你选择的结果是偏向于速度还是准确性。

如果你在寻找准确性，你不仅可以选择核支持向量机，还可以使用之前提到的其他算法，如神经网络、梯度提升树和随机森林。现在，让我们来介绍一下这个新算法。

Kernel Support Vector Machine（核支持向量机）

在支持向量机模型中，通常使用核技术来连接线性和非线性。为了理解这一点，有必要知道SVM方法学习如何通过形成决策边界来分离不同的组。

但是，当我们在一个维度较高的数据集面前，而且成本昂贵时，建议使用这种核方法。它使我们能够在原始特征空间中工作，而不必在高维空间中计算数据的坐标。

它主要用于文本分类问题，因为大多数问题都可以被线性分离。

当需要速度的时候，我们需要看看我们要采用的技术是否是可解释的，这意味着它可以解释你的模型中从头到尾发生了什么。在这种情况下，我们可能会使用决策树算法或Logistic回归算法。

Logistic Regression（逻辑回归）

当因变量是分类的时候，就会使用Logistic回归。通过概率估计，它有助于理解因变量和一个或多个自变量之间的联系。

有三种不同类型的Logistic回归。

二元逻辑回归，响应只有两个可能的值。
多项式Logistic回归，三个或更多的结果，没有顺序。
有序逻辑回归，三个或更多的类别，有顺序。

逻辑回归算法在酒店预订中被广泛使用，它（通过统计研究）向你展示了你在预订中可能想要的选项，如酒店房间、该地区的一些行程等等。

如果你只对问题的输入和输出感兴趣，你可以检查你所处理的数据是否太大。如果数量很大，你可以使用线性支持向量机。

Linear Support Vector Machine（线性支持向量机）

线性SVM用于线性可分离的数据。它在具有不同变量的数据（线性可分离数据）中工作，这些变量可以用一条简单的直线（线性SVM分类器）来分离。这条直线代表了用户的行为或通过既定问题的结果。

由于文本通常是线性可分离的，并且有很多特征，因此线性SVM是用于其分类的最佳选择。

在我们的下一个算法中，如果数据量大或者不大，你都可以使用它。

Naïve Bayes（朴素贝叶斯）

这种算法是基于贝叶斯定理的。它包括通过对象的概率进行预测。它被称为Naïve（朴素），是因为它假设一个特征的出现与其他特征的出现无关。

这种方法深受欢迎，因为它甚至可以超越最复杂的分类方法。此外，它构造简单，可迅速建立。

由于其易于使用和高效，它被用来做实时决策。与此同时，Gmail使用这种算法来知道一封邮件是否是垃圾邮件。

Gmail垃圾邮件检测选择一组词或 "标记" 来识别垃圾邮件（这种方法也用于文本分类，它通常被称为词袋）。接下来，他们使用这些tokens（令牌），将其与垃圾邮件和非垃圾邮件进行比较。最后，使用Naïve Bayes算法，他们计算出该邮件是否是垃圾邮件的概率。

总结

我们发现，机器学习是一种被广泛使用的技术，由于它经常发生，因此我们无法识别许多应用。在这篇文章中，我们不仅区分了机器学习的不同方法，还区分了如何根据我们正在处理的数据和我们想要解决的问题来使用它们。

要学习机器学习，你必须具备一些微积分、线性代数、统计学和编程技能的知识。你可以使用不同的编程语言来实现其中一种算法，从Python到C++，以及R语言。这取决于你做出最好的决定，并与你的机器一起开始学习。

原文链接：

https://medium.com/accel-ai/machine-learning-algorithms-cheat-sheet-990104aaaabc

-------- End --------

精选内容

图解Pandas-图文01-数据结构介绍
图解Pandas-图文02-创建数据对象
图解Pandas-图文03-读取和存储Excel文件
图解Pandas-图文04-常见的数据访问
图解Pandas-图文05-常见的数据运算
图解Pandas-图文06-常见的数学计算
图解Pandas-图文07-常见的数据统计
图解Pandas-图文08-常见的数据筛选

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
粒子群优化 (PSO) 在三维正弦波函数中的应用 subject625Ruben 机器学习人工智能 matlab 算法
在这篇博客中，我们将展示如何使用粒子群优化（PSO）算法求解三维正弦波函数，并通过增加正弦波扰动，使优化过程更加复杂和有趣。本文将介绍目标函数的定义、PSO参数设置以及算法执行的详细过程，并展示搜索空间中的动态过程和收敛曲线。1.目标函数定义我们使用的目标函数是一个三维正弦波函数，定义如下：objectiveFunc=@(x)sin(sqrt(x(1).^2+x(2).^2))+0.5*sin(5
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
非对称加密算法————RSA理论及详情 hu19930613
转自：https://www.kancloud.cn/kancloud/rsa_algorithm/48484一、一点历史1976年以前，所有的加密方法都是同一种模式：（1）甲方选择某一种加密规则，对信息进行加密；（2）乙方使用同一种规则，对信息进行解密。由于加密和解密使用同样规则（简称"密钥"），这被称为"对称加密算法"（Symmetric-keyalgorithm）。这种加密模式有一个最大弱点
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
【加密算法基础——对称加密和非对称加密】 XWWW668899 网络安全服务器笔记
对称加密与非对称加密对称加密和非对称加密是两种基本的加密方法，各自有不同的特点和用途。以下是详细比较：1.对称加密特点密钥:使用相同的密钥进行加密和解密。发送方和接收方必须共享这个密钥。速度:通常速度较快，适合处理大量数据。实现:算法相对简单，计算效率高。常见算法AES(高级加密标准)DES(数据加密标准)3DES(三重数据加密标准)RC4(流密码)应用场景文件加密磁盘加密传输大量数据时的加密2.
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc