夜晓楼

史上最全异常检测算法概述

幻灯片1

Anomaly Detection: A Survey

幻灯片2

1、异常的一些概念及异常检测的挑战

2、异常检测问题的不同方面

3、基于分类的异常检测算法

4、基于最近邻的异常检测技术

5、基于聚类的异常检测技术

6、统计异常检测技术

7、信息理论异常检测技术

8、谱异常检测技术

9、上下文异常处理

10、处理集合异常

11、琐碎点

幻灯片3

1.1 What are anomalies?

幻灯片4

l 1.2 异常和噪声、奇异点的区别

l 1、噪声的处理分为两种：

l noise removal---》在数据分析之前把噪声删除

l ‚noise accommodation---》将噪声忽略

l 2、novelty detection ---》通常情况下，奇异点在被检测之后会被归为正常

幻灯片5

1.3 Challenges

l 正常和异常的界限并不是十分的精确

l 异常点表现得正常难以确认

l 正常的表现不断变化

l 在不同的应用场景中，异常的定义是不同的

l 标签数据难以获得

l 噪声，难以确认和删除

幻灯片6

1.4 异常检测的一些相关点

幻灯片7

2 异常检测问题的不同方面

l 2.1 输入数据的特性

l ① 输入的数据包括：对象，点，记录，向量，事件等

l ② 属性的特点决定用异常检测的方法

l ③ 输入的数据可以彼此之间有关系

l eg. 序列数据、空间数据、图数据）

l 序列---》时间序列

l 空间---》与其相邻点有关系

l 图---》输入数据表示成点，通过边相连

幻灯片8

l 2.2 异常的类型

l ①点异常(相对于正常点)

l ②上下文异常

l ③集合异常

幻灯片9

2.3 数据的标签

①有监督的异常检测

问题：1、带正常和异常标签的数据的数量不均衡

2、获得精确的、有代表性的标签很困难，特别是对于异常数据来说

②半监督的异常检测

只训练正常或异常的数据

③无监督的异常检测

隐形的假设：正常的数据相比异常的数据来说更加的频繁。若是假设不成立错误率较高

有些半监督的算法可以应用于无监督检测基于假设数据中具有极少的异常数据，并且算法对于异常是鲁棒的

幻灯片10

2.4 异常检测的输出：

①得分---异常程度

②标签---正常/异常

幻灯片11

3 基于分类的异常检测算法

l 3.1 基本概念

l ①Assumption: A classifier that can distinguish between normal and anomalous classes can be learnt in the given feature space

l ②基于标签的种类可以将分类问题分为两类

l a. 多分类问题（多个正常分类的标签）

l b. 单分类问题

l （只有一种分类标签,学习一个边界）

l |- one-class SVMs

l |- one-class Kernel Fisher Discriminants

幻灯片12

l 3.2 算法

l ①基于神经网络（适用于单分类和多分类的数据集）

l |-多层感知器（Multi Layered Perceptrons）

l |-神经树（Neural Trees）

l |-自适应网络（Auto-associative Networks ）

l |-基于自适应共振理论（Adaptive Resonance Theory Based）

l |-基于径向基函数（Radial Basis Function Based ）

l |-Hopfield Networks

l |-振荡网络（Oscillatory Networks ）

l 多分类的神经网络步骤：

l 1、利用正常的多个分类的数据训练模型

l 2、把测试数据输入模型，若是神经网络接收就是正常，否则是异常

l 复制因子神经网络（Replicator Neural Networks）用于单分类的异常检测

幻灯片13

②基于贝叶斯网络（适用于多分类的数据集）

|-给定测试数据，估计其最大后验概率

|-处理多分类时需要将每个属性的后验概率进行组合

③基于支持向量（适用于单分类）

|-学习一个区域，若是测试数据落到这个区域则是正常，否则异常

|-Eg： Robust Support Vector Machines (RSVM) 鲁棒的SVM 有较好的精确率和效率

④基于规则（适用于单分类和多分类的数据集）

|-从正常的行为中学习规则，测试数据若是没有被任何规则包括则认为是异常

步骤：1、利用规则学习算法学习规则，例如重复增量修枝（ RIPPER ）、决策树（ Decision Trees ）

2、发现最适合测试数据的规则

关联规则挖掘可以用于单分类问题（以无监督的方式），支持度—〉排除支持度较小的规则，同时会产生频繁相集

幻灯片14

l 3.3 复杂度和优缺点

l 复杂度

l 训练阶段：决策树会较快，基于二次最优化的算法（eg. SVM）会较慢

l 测试阶段：分类技术在测试阶段会较快---分类的模型已经训练好

l 优缺点：

l |- 可以处理多分类问题/ 在测试阶段速度较快

l |- 多分类问题需要精确的多分类标签/ 直接将一个确定的标签赋给测试数据有时候会不恰当（解决：利用概率）

幻灯片15

4 基于最近邻的异常检测技术

l 4.1 基本概念

l Assumption: Normal data instances occur in dense neighborhoods, while anomalies occur far from their closest neighbors.

l 分为两类：

l 异常得分：一条数据到它k个近邻的距离

l 一条数据的相对密度

l 4.2 算法

l ①基于到K个近邻的距离

l |-获得一条数据的异常得分（计算到K个近邻的总的距离，利用距离小于d的近邻的数量）

l |-提高效率---剪枝（线性）/抽样（o（mn））

幻灯片16

l ②利用相对密度（一条数据落于一个高密度的环境中--〉正常，否则异常）

l a. LOF( Local Outlier Factor)

l (以一条数据为中心，寻找能包含k个近邻的最小超平面，求其密度 (K/V) ,若是正常则与其临近点的密度相似，异常则比其最近临近点还会低)

幻灯片17

l b. COF（Connectivity based Outlier Factor ）

l (依次找一点最近的k个点键入点集)

l LOF的两个变形：

l ODIN：给定点集在在其K近邻点集中的数量

l MDEF：给定数据的最近邻的标准差

l 一些其他的变形：概率后缀树（Probabilistic Suffix Trees (PST)）寻找最近邻

幻灯片18

l 4.3 复杂度和优缺点

l 计算复杂度

l 1、o（N2）（k-d trees，R-trees ）

l 2、解决o（N2）采用简单取样的话，正确率难以保证

l 优缺点

l |-无监督，不需假设数据属于何种分布，数据驱动/适应不同的类型数据类型方便，只需定义合适的便是数据间距离的方法即可

l |-因为无监督，正常的数据没有足够的邻居或者异常点有很多的邻居/计算复杂度/定义数据之间的距离有时会很困难，例如图，序列

幻灯片19

5 基于聚类的异常检测技术

l 5.1 基本概念

l 分为三类：

l 1、Assumption: Normal data instances belong to a cluster in the data, while anomalies either do not belong to any cluster.

l eg.

l DBSCAN

l ROCK（一种粗暴的算法，直观的把两个类别内数据有链接的，并且连接的多的聚在一类里边。抛弃了距离度量，只用是否有链接来衡量。）

l SNN clustering 共享最近邻聚类

l FindOut algorithm

l WaveCluster algorithm

l 结合基于密度方法和ROCK思想，保留K最近邻简化相似矩阵和个数

l 缺点：目的并不是为了检测异常而是为了发现群集（clusters）

幻灯片20

l 2、Assumption: Normal data instances lie close to their closest cluster centroid,while anomalies are far away from their closest cluster centroid.

l 两步：利用聚类算法聚类/每个点的异常程度等于到最近类中心点的距离

l eg.

l Self-Organizing Maps (SOM)（可用于半监督模型）

l K-means Clustering

l Expectation Maximization(EM)

l 缺点：如果异常数据自己成簇，将难以发现异常

幻灯片21

l 3、Assumption: Normal data instances belong to large and dense clusters, while anomalies either belong to small or sparse clusters.

l 簇的大小或者密度小于一定阈值就认为是异常

l eg.

l FindCBLOF--CBLOF

l 基于聚类和最近邻的区别：

l |-聚类：利用数据所属的簇来评价数据

l |-最近邻：用其局部的近邻来分析数据

幻灯片22

l 5.2 复杂度和优缺点

l 计算的复杂度：

l 取决于要从所给数据中聚出多少个类

l 可以是o（N2）若是计算每一对数据的距离

l 也可以是线性：启发式的算法例如K-means

l 测试阶段会很快--只需跟有限几个簇比较即可

l 优缺点：

l |-无监督/可适应一些复杂的数据类型/测试阶段速度较快

l |-主要用于聚类，并不是主要用来异常检测/有些算法，每个数据要贴一个标签，异常数据也会贴一个标签/有些聚类算法只有异常数据不能成簇是效率才会较好/计算的复杂度 o（N2）

幻灯片23

6 统计异常检测技术

l 6.1 基本概念

l Assumption: Normal data instances occur in high probability regions of a stochastic model, while anomalies occur in the low probability regions of the stochastic model.

l 6.2 算法

l a. 参数化方法

l 基于假设：正常的数据都是由一个参数为 Θ的分布产生的，概率函数 f(x,Θ)

l 统计假设检验：

l H0：假设数据由估计的分布产生（参数为Θ）若是拒绝这个假设为异常

l ①基于高斯模型数据由高斯分布产生

l （一个简单的异常检测--〉数据落在 µ ± 3σ之外的就是异常， µ ± 3σ 99.7%）

l t分布

l x2 若卡方分布的值较大说明数据中含有异常

幻灯片24

l 基于高斯分布的变形的算法：Rosner test、 Dixon test、Slippage Detection test

l ②基于回归模型

l 基本回归分为两步：1、利用数据训练回归模型

l 2、利用残差，表示数据的异常程度

l eg.

l ARIMA：一个强健的模型，在训练阶段异常不仅能隐藏，还能被检测出处理多变量的时间序列数据

l ARMA：将多变量投影到单变量

幻灯片25

③基于混合参数分布

|-分为两类：1、为异常和正常的数据作不同的参数分布模型

2、只为正常的数据作混合参数模型

1、假设正常和异常数据分数不同的高斯分布，具有相同的期望，但是方差不相同。

利用EM算法来不断迭代调整

2、eg. 高斯混合模型、混合的泊松分布

幻灯片26

l b. 非参数方法

l ①基于直方图

l 利用直方图对正常数据画像

l 单变量基本的算法：在该属性的不同值上建立直方/若是落进任一直方认为是正常

l 难点：直方的大小难以把握：太小--〉数据难以包括

l 太大--〉包括异常数据

l 对于多变量的：分别处理单个变量然后再集合起来

幻灯片27

l ②基于核函数

l parzen windows estimation

l ③基于密度估计技术

l Desforges et al. [1998] proposed a semi-supervised statistical technique to detect anomalies which uses kernel

l functions to estimate the probability distribution function (pdf) for the normal instances

幻灯片28

l 6.3 复杂度和优缺点

l 计算复杂度

l 高斯、泊松、多项式分布通常是线性的

l EM 每次迭代是线性的

l 核函数 o（N2）

l 优缺点

l |-若是对数据分布的假设成立，会有统计上的异常检测方案/若是估计分布阶段对异常足够鲁棒，可以用无监督的方式

l |-对数据分布的假设难以确保成立/直方图难以发现属性间的关系

幻灯片29

7 信息理论异常检测技术

l Assumption: Anomalies in data induce irregularities in the information content of the data set.

l 主要评价方法：Kolomogorov Complexity，entropy，relative entropy

l 算法：Local Search Algorithm (LSA)（线性）

l 计算复杂度：指数级

l 优缺点：

l |- 无监督/不需对数据的分布做假设

l |-效果的好坏取决于评价方法/对一条测试数据难以得到异常的程度

幻灯片30

8 谱异常检测技术

l 8.1 基本概念

l Assumption: Data can be embedded into a lower dimensional subspace in which normal instances and anomalies appear significantly different.

l 目标：寻找子空间---将异常和正常信息识别

l Eg. PCA主成分分析降维

幻灯片31

l 8.2 复杂度和优缺点

l 计算复杂度

l pca 在数据上一般是线性的但是在维度上是o（N2）

l 优缺点

l |-可降维，适用于高维的数据类型/无监督的方式

l |-只有异常和正常数据在投影到低维空间能有效区分时谱分析才是有效的/计算的复杂度很高

幻灯片32

9 上下文异常处理

l 9.1 基本概念

l 上下文的属性

l 空间：点的位置和相邻点

l 图：点及边

l 序列：在序列的位置(eg. 时间序列)

l 画像: 不一定具有空间和序列的结构

l 方法：

l |-简化为点异常检测

l |-利用数据的结构

幻灯片33

l 9.2 算法

l a. 简化为点异常检测

l 分为两步： 1、对于每条数据利用上下文属性识别上下文

l 2、利用已知的点异常检测算法计算每条数据的异常得分

l Eg.

l 假设数据的属性分为contextual and behavioral attributes.

l 并且contextual and behavioral attributes. 分属于不同的混合高斯模型U/V

l 则一条数据可以用<x,y>来表示

l p(Vj|Ui) 代表 behavioral attributes 由混合模型Vj 产生的概率，在contextual attributes. 由混合模型Ui 产生的条件下

l 则属于的异常得分：(全概率)

l 其他方法： Peer group analysis ； class anomaly detection

幻灯片34

l b. 利用数据的结构（将数据的属性分解并不简单，eg 时间序列数据，事件序列数据）

l 方法：利用训练数据给出的上下文预测，若是与观察值有明显不同，则认为是异常 eg. 回归

l 对于时间序列数据回归模型： robust regression、 auto-regressive models、 ARMA models、 ARIMA models、 Support Vector Regression

l 事件序列： Frequent Itemset Mining 、 Markov Models（利用历史数据计算事件的条件概率）

l FSA：基于前n个数据预测之后的数据

幻灯片35

l 9.3 复杂度和优缺点

l 计算复杂度

l 简化为点异常检测：在第一个阶段利用划分的技术会较快/用聚类或混合模型会较慢，第二个阶段课采用较快的点异常检测

l 测试阶段较慢：每条测试用例需要划分属性，病计算异常程度/标签

l 利用数据的结构：训练模型阶段会相对较慢。测试阶段较快

l 优缺点

l |-可以利用实际异常的定义来检测异常

l |-只有上下文相关的属性定义之后，相关技术才会有效

幻灯片36

10 处理集合异常

l 10.1 基本概念

l Sequential Anomaly Detection Techniques 序列异常检测

l ---异常的子序列

l Spatial Anomaly Detection Techniques 空间异常检测

l ---异常的子区域

l Graph Anomaly Detection Techniques 图异常检测

l ----异常的子图

幻灯片37

l 10.2 算法

l a. 处理序列异常

l ①在一组序列中检查异常序列（半监督和无监督的方式）

l |- 挑战：1、序列可能不等长 2、测试序列可能不是彼此对齐的或者与正常序列

l 处理不等长的方法：

l 1、假定都等长

l 2、处理成等长的，Box Modeling

l 3、longest common subsequence as the similarity measure

l 4、为序列建立模型 ---半监督的算法，需要正常的训练数据

l ----马尔科夫模型（Markovian model）

l ----有限状态自动机（FSA）

l ----隐马尔可夫模型（ Hidden Markov Model HMM）

l ----概率后缀树（ Probabilistic Suffix Trees PST ）

l ----稀疏的马尔可夫树( Sparse Markov Trees SMT）

幻灯片38

l ②检测一个长序列中的异常子序列

l 挑战：异常序列的长度难以确定

l 因为在输入序列中包含异常的子序列，建立鲁棒的正常模型是个挑战

l 算法：

l 1、Window Comparison Anomaly Detection (WCAD)

l 2、 (HOT SAX)

l 3、Maximum Entropy Markov Models

l 4、 Conditional Random Fields (CRF)

幻灯片39

l ③ 测试一个字串的频繁性是否异常---依据其在输入数据中频繁程度

l 依据：依据一个字串在给定的数据集合中的频繁程度是否与其在正常的数据集中的频繁程度相似，若是差距很大则认为是异常

l 算法：

l suffix trees

l Interpolated Markov Models (IMM)

幻灯片40

l b. 处理空间异常

l 研究较少

l eg.

l 算法：Multivariate Gaussian Random Markov Fields (MGMRF)

l 因为空间中的点是上下文相关的，先检查点的上下文异常，然后利用其空间结构联系起来

幻灯片41

11 琐碎点

l 1、最近邻和聚类高维失效

l ①高维数据集中存在大量无关的属性使得在所有维中存在簇的可能性几乎为零；

l ②高维空间中数据较低维空间中数据分布要稀疏，其中数据间距离几乎相等是普遍现象

l 2、最近邻和聚类选择合适的距离计算方法很重要

l 3、谱技术可以处理高维数据，但是其依据：数据在合适的低维空间可分

l 4、分类技术可以处理上述问题，但是分类问题需要正常和异常的标签，并且正常和异常标签的数据数量并不均衡

l 5、统计技术（无监督）当数据是低维的并且假设的数据分布满足时高效

幻灯片42

l 6、计算复杂性

l 分类、聚类、统计在训练阶段较慢，测试阶段很快

l 最近邻、信息论、谱技术没有训练阶段，测试阶段时间复杂度较高

幻灯片43

谢谢！

你可能感兴趣的:(史上最全异常检测算法概述)

QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
SpringBlade dict-biz/list 接口 SQL 注入漏洞文章永久免费只为良心 oracle 数据库
SpringBladedict-biz/list接口SQL注入漏洞POC:构造请求包查看返回包你的网址/api/blade-system/dict-biz/list?updatexml(1,concat(0x7e,md5(1),0x7e),1)=1漏洞概述在SpringBlade框架中，如果dict-biz/list接口的后台处理逻辑没有正确地对用户输入进行过滤或参数化查询（PreparedSta
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
【六】阿伟开始搭建Kafka学习环境能源恒观中间件学习 kafka spring
阿伟开始搭建Kafka学习环境概述上一篇文章阿伟学习了Kafka的核心概念，并且把市面上流行的消息中间件特性进行了梳理和对比，方便大家在学习过程中进行对比学习，最后梳理了一些Kafka使用中经常遇到的Kafka难题以及解决思路，经过上一篇的学习我相信大家对Kafka有了初步的认识，本篇将继续学习Kafka。一、安装和配置学习一项技术首先要搭建一套服务，而Kafka的运行主要需要部署jdk、zook
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
4.C_数据结构_队列荣世蓥数据结构数据结构
概述什么是队列：队列是限定在两端进行插入操作和删除操作的线性表。具有先入先出(FIFO)的特点相关名词：队尾：写入数据的一段队头：读取数据的一段空队：队列中没有数据，队头指针=队尾指针满队：队列中存满了数据，队尾指针+1=队头指针循环队列1、基本内容循环队列是以数组形式构成的队列数据结构。循环队列的结构体如下：typedefintdata_t;//队列数据类型#defineN64//队列容量typ
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
基于STM32与Qt的自动平衡机器人：从控制到人机交互的的详细设计流程极客小张 stm32 qt 机器人物联网人机交互毕业设计 c语言
一、项目概述目标和用途本项目旨在开发一款基于STM32控制的自动平衡机器人，结合步进电机和陀螺仪传感器，实现对平衡机器人的精确控制。该机器人可以用于教育、科研、娱乐等多个领域，帮助用户了解自动控制、机器人运动学等相关知识。技术栈关键词STM32单片机步进电机陀螺仪传感器AD采集电路Qt人机界面实时数据监控二、系统架构系统架构设计本项目的系统架构设计包括以下主要组件：控制单元:STM32单片机传感器
基于STM32的汽车仪表显示系统：集成CAN、UART与I2C总线设计流程极客小张 stm32 汽车嵌入式硬件物联网单片机 c语言
一、项目概述项目目标与用途本项目旨在设计和实现一个基于STM32微控制器的汽车仪表显示系统。该系统能够实时显示汽车的速度、转速、油量等关键信息，并通过CAN总线与其他汽车控制单元进行通信。这种仪表显示系统不仅提高了驾驶的安全性和便捷性，还能为汽车提供更智能的用户体验。技术栈关键词微控制器：STM32显示技术：TFTLCD/OLED传感器：速度传感器、温度传感器、油量传感器通信协议：CAN总线、UA
ARMV8体系结构简介：概述简单同学 ARMV8体系结构 ARMV8
1.前言本文主要概括的介绍ARMV8体系结构定义了哪些内容，概括的说：ARM体系结构定义了PE的行为，不会定义具体的实现ARM体系结构也定义了debug体系结构和trace体系结构ARM体系结构采用RISC指令集（1）长度一致的寄存器；（2）load/store架构，数据处理操作只能对寄存器内容进行处理，不会直接对内存的内容进行处理；（3）简单寻址方式，load/store地址来源于寄存器或指令域
ESP32-C3入门教程网络篇⑩——基于esp_https_ota和MQTT实现开机主动升级和被动触发升级的OTA功能小康师兄 ESP32-C3入门教程 https 服务器 esp32 OTA MQTT
文章目录一、前言二、软件流程三、部分源码四、运行演示一、前言本文基于VSCodeIDE进行编程、编译、下载、运行等操作基础入门章节请查阅：ESP32-C3入门教程基础篇①——基于VSCode构建HelloWorld教程目录大纲请查阅：ESP32-C3入门教程——导读ESP32-C3入门教程网络篇⑨——基于esp_https_ota实现史上最简单的ESP32OTA远程固件升级功能二、软件流程
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
粒子群优化 (PSO) 在三维正弦波函数中的应用 subject625Ruben 机器学习人工智能 matlab 算法
在这篇博客中，我们将展示如何使用粒子群优化（PSO）算法求解三维正弦波函数，并通过增加正弦波扰动，使优化过程更加复杂和有趣。本文将介绍目标函数的定义、PSO参数设置以及算法执行的详细过程，并展示搜索空间中的动态过程和收敛曲线。1.目标函数定义我们使用的目标函数是一个三维正弦波函数，定义如下：objectiveFunc=@(x)sin(sqrt(x(1).^2+x(2).^2))+0.5*sin(5
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin