chuang94

时序数据异常检测

文章目录

AIOPS网上相关资料
一、时序数据概念及分析

1.1 数据前期处理的重要性

1.2.1时序数据周期研究（重点方向）

1.3 时序数据的随机过程
1.4 白噪声序列
1.5 平稳性序列
1.7 弱平稳

1.7.1 原始序列平稳处理方法

1.8 关于多时间间隔的处理办法研究(重点研究方向)

1.8.1 研究背景
1.8.2 研究方法
1.8.3 研究进展

2019年6月20日

1.9 时序数据特征提取方法
1.10 多指标检测

1.10.1 如何判断多指标之间，是谁影响谁？

1.11 时序数据预处理文档

二、运用无监督进行异常检测

2.0 无监督算法基本分类

2.0.1 统计与概率模型
2.0.2 线性模型
2.0.3 基于相似度衡量的模型
2.0.4 集成异常检测与模型融合
2.0.5 特定领域的异常检测
2.0.6 参考文献

2.1 3σ准则

2.1.1 基本原理

2.1.2.1优点

2.2.1 基本原理
2.2.2 优缺点

2.2.2.2 缺点

依赖
1) d(p,o)d(p,o)：两点p和o之间的距离；
2) k-distance：第k距离
3) k-distance neighborhood of p：第k距离邻域
4) reach-distance：可达距离
5) local reachability density：局部可达密度
6) local outlier factor：局部离群因子
优缺点

缺点
优点

2.4 孤立森林

孤立森林核心算法
优缺点

缺点
优点

2.5 密度聚类DBSCAN

基本原理
密度定义
DBSCAN密度聚类思想
DBSCAN聚类算法
DBSCAN小结
DBSCAN实现
优缺点

优点
缺点

2.6 oneclass-svm

优缺点

缺点
优点

2.7 时序分解pyculiarity

grubbs'Test
ESD方法
时间序列分解算法
时间序列异常检测

S- ESD (Seasonal ESD)
S-H-ESD

优缺点

优点
缺点

优缺点

缺点

2.10 Histogram-based Outlier Score (HBOS)

基本原理

2.11 FastABOD: Fast Angle-Based Outlier Detection using approximation

基本原理

2.12 MCD: Minimum Covariance Determinant

基本原理

2.13 EmpiricalCovariance

基本原理

PyOD
2.14 CLOF

参考资料
AI中台化发展

AIOPS网上相关资料

华为云 AIOps 实践全面解析
AIOps背景/所应具备技术能力分析
AIOps探索：基于VAE模型的周期性KPI异常检测方法

一、时序数据概念及分析

1.1 数据前期处理的重要性

数据处理是机器学习的重要环节，据说，机器学习相关问题，算法人员需要花百分之80的时间来对数据进行处理。
由于不同的业务背景，不同类型的数据，不同的算法，数据如果不处理好，就无法正确的应用计算算法来得到想要的结果。
##1.2 时序数据组成
趋势变动在长时期内按某种规则稳定地呈现出来的持续向上或向下或保持在某一水平。
季节变动在一个年度内重复出现的周期性波动。它是诸如气候条件、生产条件、节假日或人们的风俗习惯等各种因素影响的结果。
**循环波动：**是时间序列呈现出得非固定长度的周期性变动。循环波动的周期可能会持续一段时间，但与趋势不同，它不是朝着单一方向的持续变动，而是涨落相同的交替波动。

1.2.1时序数据周期研究（重点方向）

**不规则波动（随机变动）：**是许多不可控的偶然因素共同作用的结果，致使时间序列产生一种波浪形或震荡式的变动。

1.3 时序数据的随机过程

在研究随机过程时人们透过表面的偶然性描述出必然的内在规律并以概率的形式来描述这些规律，从偶然中悟出必然正是这一学科的魅力所在。
随机变量：简单的随机现象，如某班一天学生出勤人数，是静态的。
随机过程：随机现象的动态变化过程。
如某一时期各个时刻的状态。所谓过程就是事物的发展变化过程，尽管过程的形式各异，但归纳起来不外乎两种：一种是确定性的，一种是随机性的。所谓确定性过程，就是指事物的发展有必然的变化规律，用数学语言来说，就是事物变化的过程可以用一个（或几个）时间t的确定的函数来描述。可重复性。如自由落体。所谓随机过程，就是说现象的变化没有确定形式，没有必然的变化规律。用数学语言来说，就是事物变化的过程不能用一个（或几个）时间t的确定的函数来描述。不可重复性。也就是说，如果对事物变化的全过程进行一次观测得到一次观察结果是一个时间t的函数，但对同一事物的变化过程独立地重复进行多次观测所得的结果是不相同的。如果对于每一特定的t属于T（T是时间集合），X(t)是一个随机变量，则称这一族无穷多个随机变量{X(t),t属于T}是一个随机过程。

1.4 白噪声序列

随机变量X（t）（t=1，2，3……），如果是由一个不相关的随机变量的序列构成的，即对于所有s不等于k，随机变量Xs和Xk的协方差为零，则称其为纯随机过程。
如果一个纯随机过程的期望和方差均为常数，则称之为白噪声过程。白噪声过程的样本实称成为白噪声序列，简称白噪声。
白噪声序列是一个有限均值、有限方差的独立同分布随机变量序列(随机过程)。之所以称为白噪声，是因为他和白光的特性类似，白光的光谱在各个频率上有相同的强度，白噪声的谱密度在各个频率上的值相同。
如果白噪声具体是服从均值为0、方差为常数的正态分布，那就是高斯白噪声序列。

1.5 平稳性序列

平稳性可以说是时间序列分析的基础。
平稳的通俗理解就是时间序列的一些行为不随时间改变，所谓平稳过程就是其统计特性不随时间的平移而变化的过程。
仅仅通过统计特性不变来判别异常是不靠谱的，即时间序列内含的规律和逻辑，要在被预测的未来时间段内能够延续下去。这样我们才能用历史信息去预测未来信息，类似机器学习中的训练集和测试集同分布。如果时间序列的变化是没有规律的、完全随机的，那么预测模型也就没有用。平稳性的数学表达：如果时间序列在某一常数附近波动且波动范围有限，即有常数均值和常数方差，并且延迟k期的序列变量的自协方差和自相关系数是相等的或者说延迟k期的序列变量之间的影响程度是一样的，则称该序列为平稳序列。简单说就是没有明显趋势且波动范围有限。
##1.6 严平稳/强平稳
通俗来说，就是时间序列的联合分布随着时间变化严格保持不变。
数学表达：如果对所有的时刻 t， (yt1,yt2,…ytm)的联合分布与(y(t1+k),(yt2+k),…y(tm+k))的联合分布相同，我们称时间序列 {yt} 是严平稳的。也就是时间序列的联合分布在时间的平移变换下保持不变。

1.7 弱平稳

数学表达：均值不变，协方差Cov（yt，y(t-k)）=γk，γk依赖于k。
——即协方差也不随时间改变，而仅与时间差k相关。
可以根据根据时间序列的折线图等大致观察数据的（弱）平稳性：所有数据点在一个常数水平上下以相同幅度波动。
弱平稳的线性时间序列具有短期相关性（证明见参考书），即通常只有近期的序列值对现时值得影响比较明显，间隔越远的过去值对现时值得影响越小。至于这个间隔，也就是下面要提到的模型的阶数。

1.7.1 原始序列平稳处理方法

1.如果序列波动很大，也就是方差比较大，可以对序列作对数转换以减缓其波动幅度
2.如果序列存在明显趋势，且呈现近似一条直线的趋势，可以对序列作一阶差分，从而消除趋势性
3.如果序列存在明显的S期季节性，则可对序列作S阶差分，从而消除季节性

1.8 关于多时间间隔的处理办法研究(重点研究方向)

1.8.1 研究背景

多时间间隔，是时序数据在采集过程中有不同的采集频率，由于客户需要以及采集系统能够做到随时改变单一指标的采集间隔，以及不同之间存在不同的时间间隔，时序数据出现多标准化问题，无法用统一的办法来对其进行解决。

在处理多时间间隔问题上，目前尚无成熟的解决方案，但是在应用上无法绕开多时间间隔带来的问题，由于无论是有监督还是无监督，都是需要依靠历史数据来对当前时刻点作出判断，历史数据缓存在本地是一个必然的事情，但是由于秒级数据存在量太大的问题，极有可能在指标量非常大的时候会带来内存问题以及性能问题；

1.8.2 研究方法

论文
网络

1.8.3 研究进展

2019年6月20日

目前规则化的解决方案
这个解决方案的缺点在于，对于每一个指标，都有一套历史窗口的取值方法

如果间隔过大，历史值非常少，就取所有值；
如果间隔过小，历史值非常多，就取前后180个值，
关键是多少算多，如果一天数据量大于180就算多，如果小于180就算少；
而且正确率稍高的stl分解办法在这行不通了，而且现在对时序分解办法存在理论不了解；
其实时序分解是一种非常好的时序处理方法，但是目前还不适用几个小时内的数据处理；

1.9 时序数据特征提取方法

tsfresht特征提取库文档

1.10 多指标检测

1.10.1 如何判断多指标之间，是谁影响谁？

格兰杰因果关系检验
这种方法能够测出来是是谁影响谁

1.11 时序数据预处理文档

流入算法的数据需要满足什么条件？
无null值
数据格式符合要求
历史数据数量符合要求
数据无缺失值
数据保持时序完整性
数据无重复值
指标聚类也算作预处理的一部分

二、运用无监督进行异常检测

2.0 无监督算法基本分类

参考资料

2.0.1 统计与概率模型

主要是对数据的分布做出假设，并找出假设下所定义的“异常”，因此往往会使用极值分析或者假设检验。比如对最简单的一维数据假设高斯分布，然后将距离均值特定范围以外的数据当做异常点。而推广到高维后，可以假设每个维度各自独立，并将各个维度上的异常度相加。如果考虑特征间的相关性，也可以用马氏距离（mahalanobis distance）来衡量数据的异常度[12]。不难看出，这类方法最大的好处就是速度一般比较快，但因为存在比较强的“假设”，效果不一定很好。

2.0.2 线性模型

假设数据在低维空间上有嵌入，那么无法、或者在低维空间投射后表现不好的数据可以认为是离群点。举个简单的例子，PCA可以用于做异常检测[10]，一种方法就是找到k个特征向量（eigenvector），并计算每个样本再经过这k个特征向量投射后的重建误差（reconstruction error），而正常点的重建误差应该小于异常点。同理，也可以计算每个样本到这k个选特征向量所构成的超空间的加权欧氏距离（特征值越小权重越大）。在相似的思路下，我们也可以直接对协方差矩阵进行分析，并把样本的马氏距离（在考虑特征间关系时样本到分布中心的距离）作为样本的异常度，而这种方法也可以被理解为一种软性（Soft PCA） [6]。同时，另一种经典算法One-class SVM[3]也一般被归类为线性模型。

2.0.3 基于相似度衡量的模型

异常点因为和正常点的分布不同，因此相似度较低，由此衍生了一系列算法通过相似度来识别异常点。比如最简单的K近邻就可以做异常检测，一个样本和它第k个近邻的距离就可以被当做是异常值，显然异常点的k近邻距离更大。同理，基于密度分析如LOF [1]、LOCI和LoOP主要是通过局部的数据密度来检测异常。显然，异常点所在空间的数据点少，密度低。相似的是，Isolation Forest[2]通过划分超平面来计算“孤立”一个样本所需的超平面数量（可以想象成在想吃蛋糕上的樱桃所需的最少刀数）。在密度低的空间里（异常点所在空间中），孤例一个样本所需要的划分次数更少。另一种相似的算法ABOD[7]是计算每个样本与所有其他样本对所形成的夹角的方差，异常点因为远离正常点，因此方差变化小。换句话说，大部分异常检测算法都可以被认为是一种估计相似度，无论是通过密度、距离、夹角或是划分超平面。通过聚类也可以被理解为一种相似度度量，比较常见不再赘述。

2.0.4 集成异常检测与模型融合

在无监督学习时，提高模型的鲁棒性很重要，因此集成学习就大有用武之地。比如上面提到的Isolation Forest，就是基于构建多棵决策树实现的。最早的集成检测框架feature bagging[9]与分类问题中的随机森林（random forest）很像，先将训练数据随机划分（每次选取所有样本的d/2-d个特征，d代表特征数），得到多个子训练集，再在每个训练集上训练一个独立的模型（默认为LOF）并最终合并所有的模型结果（如通过平均）。值得注意的是，因为没有标签，异常检测往往是通过bagging和feature bagging比较多，而boosting比较少见。boosting情况下的异常检测，一般需要生成伪标签，可参靠[13, 14]。集成异常检测是一个新兴但很有趣的领域，综述文章可以参考[16, 17, 18]。

2.0.5 特定领域的异常检测

比如图像异常检测 [21]，顺序及流数据异常检测（时间序列异常检测）[22]，以及高维空间上的异常检测 [23]，比如前文提到的Isolation Forest就很适合高维数据上的异常检测。

2.0.6 参考文献

[1] Breunig, M.M., Kriegel, H.P., Ng, R.T. and Sander, J., 2000, May. LOF: identifying density-based local outliers. In ACM SIGMOD Record, pp. 93-104. ACM.
[2] Liu, F.T., Ting, K.M. and Zhou, Z.H., 2008, December. Isolation forest. In ICDM ‘08, pp. 413-422. IEEE.
[3] Ma, J. and Perkins, S., 2003, July. Time-series novelty detection using one-class support vector machines. In IJCNN’ 03, pp. 1741-1745. IEEE.
[4] Micenková, B., McWilliams, B. and Assent, I. 2015. Learning Representations for Outlier
Detection on a Budget. arXiv Preprint arXiv:1507.08104.
[5] Goldstein, M. and Dengel, A., 2012. Histogram-based outlier score (hbos): A fast unsupervised anomaly detection algorithm. InKI-2012: Poster and Demo Track, pp.59-63.
[6] Aggarwal, C.C., 2015. Outlier analysis. InData mining(pp. 237-263). Springer, Cham.
[7] Kriegel, H.P. and Zimek, A., 2008, August. Angle-based outlier detection in high-dimensional data. InKDD '08, pp. 444-452. ACM.
[8] Zhao,Y. and Hryniewicki, M.K. 2018. XGBOD: Improving Supervised Outlier Detection
with Unsupervised Representation Learning. IJCNN. (2018).
[9] Lazarevic, A. and Kumar, V., 2005, August. Feature bagging for outlier detection. In KDD '05. 2005.
[10] Shyu, M.L., Chen, S.C., Sarinnapakorn, K. and Chang, L., 2003. A novel anomaly detection scheme based on principal component classifier. MIAMI UNIV CORAL GABLES FL DEPT OF ELECTRICAL AND COMPUTER ENGINEERING.
[11] Rousseeuw, P.J. and Driessen, K.V., 1999. A fast algorithm for the minimum covariance determinant estimator. Technometrics, 41(3), pp.212-223.
[12] Hardin, J. and Rocke, D.M., 2004. Outlier detection in the multiple cluster setting using the minimum covariance determinant estimator. Computational Statistics & Data Analysis, 44(4), pp.625-638.
[13] Rayana, S. and Akoglu, L. 2016. Less is More: Building Selective Anomaly Ensembles. TKDD. 10, 4 (2016), 1–33.
[14] Rayana, S.,Zhong, W. and Akoglu, L. 2017. Sequential ensemble learning for outlier
detection: A bias-variance perspective. ICDM. (2017), 1167–1172.
[15] Chandola, V., Banerjee, A. and Kumar, V., 2009. Anomaly detection: A survey.ACM computing surveys, 41(3), p.15.
[16] Aggarwal, C.C., 2013. Outlier ensembles: position paper. ACM SIGKDD Explorations Newsletter, 14(2), pp.49-58. [Download PDF]
[17] Zimek, A., Campello, R.J. and Sander, J., 2014. Ensembles for unsupervised outlier detection: challenges and research questions a position paper. ACM Sigkdd Explorations Newsletter, 15(1), pp.11-22.
[18] Aggarwal, C.C. and Sathe, S., 2017.Outlier ensembles: an introduction. Springer.
[19] Ramaswamy, S., Rastogi, R. and Shim, K., 2000, May. Efficient algorithms for mining outliers from large data sets. ACM Sigmod Record, 29(2), pp. 427-438).
[20] Angiulli, F. and Pizzuti, C., 2002, August. Fast outlier detection in high dimensional spaces. In European Conference on Principles of Data Mining and Knowledge Discovery pp. 15-27.
[21] Akoglu, L., Tong, H. and Koutra, D., 2015. Graph based anomaly detection and description: a survey.Data Mining and Knowledge Discovery, 29(3), pp.626-688.
[22] Gupta, M., Gao, J., Aggarwal, C.C. and Han, J., 2014. Outlier detection for temporal data: A survey.IEEE Transactions on Knowledge and Data Engineering, 26(9), pp.2250-2267.
[23] Zimek, A., Schubert, E. and Kriegel, H.P., 2012. A survey on unsupervised outlier detection in high‐dimensional numerical data.Statistical Analysis and Data Mining: The ASA Data Science Journal, 5(5), pp.363-387.

2.1 3σ准则

2.1.1 基本原理

3σ准则又称为拉依达准则，它是先假设一组检测数据只含有随机误差，对其进行计算处理得到标准偏差，按一定概率确定一个区间，认为凡超过这个区间的误差，就不属于随机误差而是粗大误差，含有该误差的数据应予以剔除。且3σ适用于有较多组数据的时候。
这种判别处理原理及方法仅局限于对正态或近似正态分布的样本数据处理，它是以测量次数充分大为前提的，当测量次数较少的情形用准则剔除粗大误差是不够可靠的。因此，在测量次数较少的情况下，最好不要选用准则，而用其他准则。
在正态分布中σ代表标准差,μ代表均值。x=μ即为图像的对称轴
3σ原则为
数值分布在（μ-σ,μ+σ)中的概率为0.6827
数值分布在（μ-2σ,μ+2σ)中的概率为0.9545
数值分布在（μ-3σ,μ+3σ)中的概率为0.9973
可以认为，Y 的取值几乎全部集中在（μ-3σ,μ+3σ)区间内，超出这个范围的可能性仅占不到0.3%.

###2.1.2 优缺点

2.1.2.1优点

计算速度非常快；
####2.1.2.2 缺点
效果可提升空间小；
计算正确率一般，百分之30左右（已经测过的）
无法应用到多维指标
##2.2 箱型图法

2.2.1 基本原理

箱线图算法不需要数据服从特定分布，比如数据分布不符合高斯分布时可以使用该方法。该方法需要先计算第一四分位数Q1（25%）和第三四分位数Q3（75%）。令IQR=Q3-Q1，然后算出异常值边界点Q3+λIQR和Q1- λIQR，通常λ取1.5（类似于正态分布中的image，如下图4所示：
[外链图片转存失败(img-EPckB9Dr-1562923256468)(./1561460688230.png)]

2.2.2 优缺点

####2.2.2.1 优点

不需要数据服从任何分布
不需要数据具有稳定间隔
不需要数据时间上保持连续
计算速度快

2.2.2.2 缺点

在异常表现上可能存在问题，目前还未证实

依赖

四分数的计算需要numpy第三方库
##2.3 LOF
csdn相关文章
[外链图片转存失败(img-tJGf9TwJ-1562923256470)(./1560835717842.png)]
下面介绍LOF算法的相关定义：

1) d(p,o)d(p,o)：两点p和o之间的距离；

2) k-distance：第k距离

对于点p的第k距离dk§dk§定义如下：
　　　　dk§=d(p,o)dk§=d(p,o)，并且满足：
　　　　　　a) 在集合中至少有不包括p在内的kk个点o,∈C{x≠p}o,∈C{x≠p}，满足d(p,o,)≤d(p,o)d(p,o,)≤d(p,o) ；
　　　　　　b) 在集合中最多有不包括p在内的k−1k−1个点o,∈C{x≠p}o,∈C{x≠p}，满足d(p,o,) 　　　　p的第k距离，也就是距离p第k远的点的距离，不包括p，如图3。
[外链图片转存失败(img-1ZdyN6rs-1562923256470)(./1560835816750.png)]

3) k-distance neighborhood of p：第k距离邻域

点p的第k距离邻域Nk§，就是p的第k距离即以内的所有点，包括第k距离。
　　　　因此p的第k邻域点的个数 |Nk§|≥k|Nk§|≥k。

4) reach-distance：可达距离

点o到点p的第k可达距离定义为：
reach−distancek(p,o)=max{k−distance(o),d(p,o)}reach−distancek(p,o)=max{k−distance(o),d(p,o)}
　　　　也就是，点o到点p的第k可达距离，至少是o的第k距离，或者为o、p间的真实距离。
　　　　这也意味着，离点o最近的k个点，o到它们的可达距离被认为相等，且都等于dk(o)。
　　　　如图4，o1o1到p的第5可达距离为d(p,o1)d(p,o1)，o2o2到p的第5可达距离为d5(o2)。
[外链图片转存失败(img-iJ6vWeKQ-1562923256471)(./1560835962865.png)]

5) local reachability density：局部可达密度

点ｐ的局部可达密度表示为：
　　　　
$\operatorname{lr} d_{k}(p)=1 /\left(\frac{\sum_{o \in N_{k}(p)} r e a c h-\operatorname{dist}_{k}(p, o)}{\left|N_{k}(p)\right|}\right)$

表示点p的第k邻域内点到p的平均可达距离的倒数。
　　　　注意，是p的邻域点Nk§Nk§到p的可达距离，不是p到Nk§Nk§的可达距离，一定要弄清楚关系。并且，如果有重复点，那么分母的可达距离之和有可能为0，则会导致lrd变为无限大，下面还会继续提到这一点。
　　　　这个值的含义可以这样理解，首先这代表一个密度，密度越高，我们认为越可能属于同一簇，密度越低，越可能是离群点。如果p和周围邻域点是同一簇，那么可达距离越可能为较小的dk(o)dk(o)，导致可达距离之和较小，密度值较高；如果p和周围邻居点较远，那么可达距离可能都会取较大值d(p,o)，导致密度较小，越可能是离群点。

6) local outlier factor：局部离群因子

点p的局部离群因子表示为：
　　　　 $F_{k}(p)=\frac{\sum_{o \in N_{k}(p)} \frac{l r d_{k}(o)}{l r d_{k}(p)}}{\left|N_{k}(p)\right|}=\frac{\sum_{o \in N_{k}(p)} \operatorname{lr} d_{k}(o)}{\left|N_{k}(p)\right|} / \operatorname{lr} d_{k}(p)$
表示点p的邻域点Nk§的局部可达密度与点p的局部可达密度之比的平均数。
　　　　如果这个比值越接近1，说明p的其邻域点密度差不多，p可能和邻域同属一簇；如果这个比值越小于1，说明p的密度高于其邻域点密度，p为密集点；如果这个比值越大于1，说明p的密度小于其邻域点密度，p越可能是异常点。

优缺点

缺点

所需要的起始数据量较大；
检测效果不佳；
参数难以调整和固定；

优点

该算法可以应用到多维指标
该算法异常检测效果再单指标上表现一般，但是在多维指标上可能表现良好；

2.4 孤立森林

[外链图片转存失败(img-qzQPsVzE-1562923256471)(./1560838962793.png)]
csdn
iForest 是刘飞博士(Fei Tony Liu)在莫纳什大学就读期间由陈开明(Kai-Ming Ting)教授和周志华(Zhi-Hua Zhou)教授指导发表的。第一个版本是在2008年ICDM上，获得年度最佳论文，扩充版本发表于TKDD。
传统的异常检测算法都是通过数据拟合出来一个模型，然后用现有数据测试，然后看看是不是异常点。但是孤立森林却不是这样，而是通过一个简单的超平面划分数据集，来检测异常点的存在。
其思想大致是：用一个随机超平面来分割数据空间，切一次可以生成两个子空间，然后继续用一个随机超平面来切割每个子空间，循环下去，直到每个子空间只有一个数据点为止。
如图所示：
[外链图片转存失败(img-qyfzUPLS-1562923256472)(./1560914699097.png)]

孤立森林核心算法

孤立森林是如何创造出来的，和以前的方法有什么不同；以前的异常检测方法，比如统计方法，以分类为基础的方法，以聚类为基础的方法，但是他们有两方面的缺点：⑴训练出来的异常检测器对正常数据拟合的特别好，但是对出现次数比较少的数据拟合的就不是很好，预测出来的异常很多都是假的，⑵ 另外大多数已经存在的方法因为计算复杂度太高受限于低纬度数据，无法对对高纬度数据进行有效检测。
孤立森林利用过去方法存在的问题以及抓住异常点的特有特征——出现次数少而且和正常数据很不一样，利用这两点，提出了孤立森林的方法。
孤立森林这种方法，基本的思想非常简单，就是不断的分割数据集，当整棵孤立树分割的高度超过限制高度的时候就停止分割。
孤立树构造过程伪代码如图所示：
[外链图片转存失败(img-QmCpnK7i-1562923256473)(./1560914715536.png)]

但是，用这种方法，如果你不对它进行限制的话，如果原始数据有数十万个数据点，那么分割将会是一件非常麻烦的事情，而且对于数据密集的区域，不断进行迭代分割意义也并不是很大。
所以，在伪代码中，对树的高度是有一定限制的。
那么利用原始数据，最终得到一棵树，如何能够判断数据点是正常的还是不正常的，其实，我们在图一中就可以看到，对于需要很多次才能够孤立出来，但是对于仅仅需要几次就能够孤立出来了，如下图所示，二者平均路径长度是不一样的。
异常点往往很容易就能够孤立出来，但是正常点由于数据量比较大，需要好多次才能够孤立出来。
那么，是不是根据这种孤立的次数就能够判断一个点是不是异常点了？
实际上，对于孤立森林来说，一个数据集不仅仅构造一棵孤立树，而是很多棵孤立树，要不然也不会叫做孤立森林了。
上面我们已经给出构造孤立树的过程，那么现在是如何构造孤立森林了，如图所示，我们能够看到构造孤立森林的伪代码：
[外链图片转存失败(img-1cFUfYZ0-1562923256474)(./1560914730926.png)]

那么这个切割出来又是如何进行异常点检测的？
虽然树和森林都构造出来了，但是结果是如何得到的，实际上孤立森林算是集成方法的一种，但是对于单个的孤立树来说，如何判断一个样本是不是异常值，我们需要根据该样本被划分的难易，也就是说，该样本在孤立树中的深度如何，查询某个样本的树深度，其伪代码如图所示：
[外链图片转存失败(img-ZDF8kkvL-1562923256475)(./1560914754043.png)]

孤立森林应用场景
通过对孤立森林的思想以及算法原理的了解，我们知道，孤立森林对基于密度的样本可以很好的展现它优良的特性，但是在异常检测领域，并不是所有的样本都是以向量的形式呈现，在工业界，有很多场景下产生的数据都是以时间为基准，不断的产生数据，对于这种时序数据，孤立森林处理起来比较困难，也就是说，孤立森林的应用领域具有一定的局限性。
孤立森林优劣势分析
孤立森林算法有着线性时间复杂度以及较低的内存需求，在大量非相关属性的高纬问题上表现很好，而且它的训练集不需要包含任何异常。
对于其时间复杂度，我们很容易理解，为什么孤立森林具有很低的时间复杂度，能够达到线性，原因就在于，孤立森林每次对样本集进行切分，都只是随机选取一个特征，然后选取该特征的一个值进行切分，这样把整个样本集切分完，实际上，其时间复杂度，也就相当于其切分的次数；往往为了不让切割之后的图形过于复杂，在使用孤立森林之前，会预先设置孤立森林的树的深度，这样以至于，其切分次数计算如下；
n——树的深度；
我们可以看到孤立森林的深度如果设置为n的话，切割完成需要大概次，也就是说，如果按照操作次数，其实这个时间复杂度是不会到达线性的，但是为什么原作者告诉我们，孤立森林的时间复杂度会成为线性的了，这是因为，在构造孤立森林的过程中，还用到了剪枝策略，也就是说并不是对每一个子样本都需要切割，因为并不是每个子样本领域都有多个样本点，对于密度比较低的子样本，如果其样本个数不超过一个，就不用再进行切割了，所以这个剪枝方法大大减少了迭代执行的次数。
孤立森林还有一个缺点就是无法对多属性进行有效的划分，一般来说，孤立森林表现最好的就是在二维平面上的划分。

优缺点

缺点

所需要的起始数据量较大；
检测效果不佳；
参数难以调整和固定；

优点

可以应用到多维指标；
在多维指标上表现良好；

2.5 密度聚类DBSCAN

DBSCAN(Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法，和K-Means，BIRCH这些一般只适用于凸样本集的聚类相比，DBSCAN既可以适用于凸样本集，也可以适用于非凸样本集。下面我们就对DBSCAN算法的原理做一个总结。

基本原理

DBSCAN是一种基于密度的聚类算法，这类密度聚类算法一般假定类别可以通过样本分布的紧密程度决定。同一类别的样本，他们之间的紧密相连的，也就是说，在该类别任意样本周围不远处一定有同类别的样本存在。
通过将紧密相连的样本划为一类，这样就得到了一个聚类类别。通过将所有各组紧密相连的样本划为各个不同的类别，则我们就得到了最终的所有聚类类别结果。

密度定义

在上一节我们定性描述了密度聚类的基本思想，本节我们就看看DBSCAN是如何描述密度聚类的。DBSCAN是基于一组邻域来描述样本集的紧密程度的，参数(ϵ, MinPts)用来描述邻域的样本分布紧密程度。其中，ϵ描述了某一样本的邻域距离阈值，MinPts描述了某一样本的距离为ϵ的邻域中样本个数的阈值。

假设我的样本集是D=(x1,x2,…,xm),则DBSCAN具体的密度描述定义如下：

1） ϵ-邻域：对于xj∈D，其ϵ-邻域包含样本集D中与xj的距离不大于ϵ的子样本集，即Nϵ(xj)={xi∈D|distance(xi,xj)≤ϵ}, 这个子样本集的个数记为|Nϵ(xj)|

2) 核心对象：对于任一样本xj∈D，如果其ϵ-邻域对应的Nϵ(xj)至少包含MinPts个样本，即如果|Nϵ(xj)|≥MinPts，则xj是核心对象。

3）密度直达：如果xi位于xj的ϵ-邻域中，且xj是核心对象，则称xi由xj密度直达。注意反之不一定成立，即此时不能说xj由xi密度直达, 除非且xi也是核心对象。

4）密度可达：对于xi和xj,如果存在样本样本序列p1,p2,…,pT,满足p1=xi,pT=xj, 且pt+1由pt密度直达，则称xj由xi密度可达。也就是说，密度可达满足传递性。此时序列中的传递样本p1,p2,…,pT−1均为核心对象，因为只有核心对象才能使其他样本密度直达。注意密度可达也不满足对称性，这个可以由密度直达的不对称性得出。

5）密度相连：对于xi和xj,如果存在核心对象样本xk，使xi和xj均由xk密度可达，则称xi和xj密度相连。注意密度相连关系是满足对称性的。

从下图可以很容易看出理解上述定义，图中MinPts=5，红色的点都是核心对象，因为其ϵ-邻域至少有5个样本。黑色的样本是非核心对象。所有核心对象密度直达的样本在以红色核心对象为中心的超球体内，如果不在超球体内，则不能密度直达。图中用绿色箭头连起来的核心对象组成了密度可达的样本序列。在这些密度可达的样本序列的ϵ-邻域内所有的样本相互都是密度相连的。
　　　　[外链图片转存失败(img-tYhIIDKb-1562923256475)(./1560912435950.png)]

DBSCAN密度聚类思想

DBSCAN的聚类定义很简单：由密度可达关系导出的最大密度相连的样本集合，即为我们最终聚类的一个类别，或者说一个簇。

这个DBSCAN的簇里面可以有一个或者多个核心对象。如果只有一个核心对象，则簇里其他的非核心对象样本都在这个核心对象的ϵ-邻域里；如果有多个核心对象，则簇里的任意一个核心对象的ϵ-邻域中一定有一个其他的核心对象，否则这两个核心对象无法密度可达。这些核心对象的ϵ-邻域里所有的样本的集合组成的一个DBSCAN聚类簇。

那么怎么才能找到这样的簇样本集合呢？DBSCAN使用的方法很简单，它任意选择一个没有类别的核心对象作为种子，然后找到所有这个核心对象能够密度可达的样本集合，即为一个聚类簇。接着继续选择另一个没有类别的核心对象去寻找密度可达的样本集合，这样就得到另一个聚类簇。一直运行到所有核心对象都有类别为止。

基本上这就是DBSCAN算法的主要内容了，是不是很简单？但是我们还是有三个问题没有考虑。

第一个是一些异常样本点或者说少量游离于簇外的样本点，这些点不在任何一个核心对象在周围，在DBSCAN中，我们一般将这些样本点标记为噪音点。

第二个是距离的度量问题，即如何计算某样本和核心对象样本的距离。在DBSCAN中，一般采用最近邻思想，采用某一种距离度量来衡量样本距离，比如欧式距离。这和KNN分类算法的最近邻思想完全相同。对应少量的样本，寻找最近邻可以直接去计算所有样本的距离，如果样本量较大，则一般采用KD树或者球树来快速的搜索最近邻。如果大家对于最近邻的思想，距离度量，KD树和球树不熟悉，建议参考之前写的另一篇文章K近邻法(KNN)原理小结。

第三种问题比较特殊，某些样本可能到两个核心对象的距离都小于ϵ，但是这两个核心对象由于不是密度直达，又不属于同一个聚类簇，那么如果界定这个样本的类别呢？一般来说，此时DBSCAN采用先来后到，先进行聚类的类别簇会标记这个样本为它的类别。也就是说DBSCAN的算法不是完全稳定的算法。

DBSCAN聚类算法

下面我们对DBSCAN聚类算法的流程做一个总结。
　　　　输入：样本集D=(x1,x2,…,xm)，邻域参数(ϵ,MinPts), 样本距离度量方式
　　　　输出：簇划分C.　
　　　　1）初始化核心对象集合Ω=∅, 初始化聚类簇数k=0，初始化未访问样本集合Γ = D, 簇划分C = ∅
　　　　2) 对于j=1,2,…m, 按下面的步骤找出所有的核心对象：
　　　　　　a) 通过距离度量方式，找到样本xj的ϵ-邻域子样本集Nϵ(xj)
　　　　　　b) 如果子样本集样本个数满足|Nϵ(xj)|≥MinPts，将样本xj加入核心对象样本集合：Ω=Ω∪{xj}
　　　　3）如果核心对象集合Ω=∅，则算法结束，否则转入步骤4.
　　　　4）在核心对象集合Ω中，随机选择一个核心对象o，初始化当前簇核心对象队列Ωcur={o}, 初始化类别序号k=k+1，初始化当前簇样本集合Ck={o}, 更新未访问样本集合Γ=Γ−{o}
　　　　5）如果当前簇核心对象队列Ωcur=∅，则当前聚类簇Ck生成完毕, 更新簇划分C={C1,C2,…,Ck}, 更新核心对象集合Ω=Ω−Ck，转入步骤3。
　　　　6）在当前簇核心对象队列Ωcur中取出一个核心对象o′,通过邻域距离阈值ϵ找出所有的ϵ-邻域子样本集Nϵ(o′)，令Δ=Nϵ(o′)∩Γ, 更新当前簇样本集合Ck=Ck∪Δ, 更新未访问样本集合Γ=Γ−Δ, 更新Ωcur=Ωcur∪(Δ∩Ω)−o′，转入步骤5.
　　　　输出结果为：簇划分C={C1,C2,…,Ck}

DBSCAN小结

和传统的K-Means算法相比，DBSCAN最大的不同就是不需要输入类别数k，当然它最大的优势是可以发现任意形状的聚类簇，而不是像K-Means，一般仅仅使用于凸的样本集聚类。同时它在聚类的同时还可以找出异常点，这点和BIRCH算法类似。
　　　　那么我们什么时候需要用DBSCAN来聚类呢？一般来说，如果数据集是稠密的，并且数据集不是凸的，那么用DBSCAN会比K-Means聚类效果好很多。如果数据集不是稠密的，则不推荐用DBSCAN来聚类。
　　　　下面对DBSCAN算法的优缺点做一个总结。
　　　　DBSCAN的主要优点有：
　　　　1）可以对任意形状的稠密数据集进行聚类，相对的，K-Means之类的聚类算法一般只适用于凸数据集。
　　　　2）可以在聚类的同时发现异常点，对数据集中的异常点不敏感。
　　　　3）聚类结果没有偏倚，相对的，K-Means之类的聚类算法初始值对聚类结果有很大影响。
　　　　DBSCAN的主要缺点有：
　　　　1）如果样本集的密度不均匀、聚类间距差相差很大时，聚类质量较差，这时用DBSCAN聚类一般不适合。
　　　　2）如果样本集较大时，聚类收敛时间较长，此时可以对搜索最近邻时建立的KD树或者球树进行规模限制来改进。
　　　　3）调参相对于传统的K-Means之类的聚类算法稍复杂，主要需要对距离阈值ϵ，邻域样本数阈值MinPts联合调参，不同的参数组合对最后的聚类效果有较大影响。

DBSCAN实现

sklearn-刘建平博客实现

优缺点

优点

唯一值得称赞的优点就是对于非凸数据簇也是可以分离开的；
相对于k-means聚类肯定是表现非常好的；

缺点

所需要的起始数据量较大；
检测效果不佳；
参数难以调整和固定；

2.6 oneclass-svm

One Class Learning比较经典的算法是One-Class-SVM[参考文献1]，这个算法的思路非常简单，就是寻求一个超平面将样本中的正例圈起来，预测是就用这个超平面做决策，在圈内的样本就认为是正样本。由于核函数计算比较耗时，在海量数据的场景用得并不多；
[外链图片转存失败(img-DGnsnWKb-1562923256475)(./1560913837791.png)]

优缺点

缺点

要求只能使用正常数据点来拟合，然后才能检测是否有异常；
计算量较大

优点

可以在多维指标上进行应用；

2.7 时序分解pyculiarity

此方法确实是在时序分解基础之上，更近一步，用中位数代替趋势分量，这样会消除掉假异常点
S-H-ESD方法-非常详细的讲解[外链图片转存失败(img-Er13msZJ-1562923256476)(./1560906942581.png)]

grubbs’Test

一种假设检验的方法，常被用来检验服从正太分布的单变量数据集（univariate data set）Y 中的单个异常值。若有异常值，则其必为数据集中的最大值或最小值。原假设与备择假设如下：
H0: 数据集中没有异常值
H1: 数据集中有一个异常值
Grubbs’ Test检验假设的所用到的检验统计量（test statistic）为
$G=\frac{\max \left|Y_{i}-\overline{Y}\right|}{s}$
其中， $\overline{Y}$ 为均值，s为标准差。原假设 $H_{0}$ 被拒绝，当检验统计量满足以下条件
$G>\frac{(N-1)}{\sqrt{N}} \sqrt{\frac{\left(t_{\alpha /(2 N), N-2}\right)^{2}}{N-2+\left(t_{\alpha /(2 N), N-2}\right)^{2}}}$
其中，N为数据集的样本数，tα/(2N),N−2为显著度(significance level)等于α/(2N)、自由度（degrees of freedom）等于N−2的t分布临界值。实际上，Grubbs’ Test可理解为检验最大值、最小值偏离均值的程度是否为异常。
grubbs’Test具体资料

ESD方法

在现实数据集中，异常值往往是多个而非单个。为了将Grubbs’ Test扩展到k个异常值检测，则需要在数据集中逐步删除与均值偏离最大的值（为最大值或最小值），同步更新对应的t分布临界值，检验原假设是否成立。基于此，Rosner提出了Grubbs’ Test的泛化版ESD（Extreme Studentized Deviate test）。算法流程如下：

计算与均值偏离最远的残差，注意计算均值时的数据序列应是删除上一轮最大残差样本数据后；
$R_{j}=\frac{\max _{i}\left|Y_{i}-\overline{Y^{\prime}}\right|}{s}, \quad 1 \leq j \leq k$
计算临界值（critical value）；
$\lambda_{j}=\frac{(n-j) * t_{p, n-j-1}}{\sqrt{\left(n-j-1+t_{p, n-j-1}^{2}\right)(n-j+1)}}, \quad 1 \leq j \leq k$
检验原假设，比较检验统计量与临界值；若Ri>λj，则原假设H0不成立，该样本点为异常点；
重复以上步骤k次至算法结束。

时间序列分解算法

STL

时间序列异常检测

鉴于时间序列数据具有周期性（seasonal）、趋势性（trend），异常检测时不能作为孤立的样本点处理；故而Twitter的工程师提出了S- ESD (Seasonal ESD)与S-H-ESD (Seasonal Hybrid ESD)算法，将ESD扩展到时间序列数据。

S- ESD (Seasonal ESD)

STL将时间序列数据分解为趋势分量、周期分量和余项分量。想当然的解法——将ESD运用于STL分解后的余项分量中，即可得到时间序列上的异常点。但是，我们会发现在余项分量中存在着部分假异常点（spurious anomalies）。如下图所示：
[外链图片转存失败(img-H8NdKJ6D-1562923256476)(./1560910207670.png)]
在红色矩形方框中，向下突起点被误报为异常点。为了解决这种假阳性降低准确率的问题，S-ESD算法用中位数（median）替换掉趋势分量；余项计算公式如下：
$R_{X}=X-S_{X}-\tilde{X}$
其中，X为原时间序列数据，$
S_{X}
$为STL分解后的周期分量，X̃ 为X的中位数。

S-H-ESD

由于个别异常值会极大地拉伸均值和方差，从而导致S-ESD未能很好地捕获到部分异常点，召回率偏低。为了解决这个问题，S-H-ESD采用了更具鲁棒性的中位数与绝对中位差（Median Absolute Deviation, MAD）替换公式(1)中的均值与标准差。MAD的计算公式如下
$D=\operatorname{median}\left(\left|X_{i}-\operatorname{median}(X)\right|\right)$

实现开源代码

优缺点

优点

这种方法对时序数据起始量要求不高；
经过数据分解以及算法迭代，效果可以达到期望水平；
复杂度较高，但是计算成本不高
召回率、准确率都会良好表现

缺点

理论上只能在单指标上进行应用，无法在多维指标上进行应用；
##2.8 自编码无监督异常检测
Autoencoder，中文称作自编码器，是一种无监督式学习模型。本质上它使用了一个神经网络来产生一个高维输入的低维表示。Autoencoder与主成分分析PCA类似，但是Autoencoder在使用非线性激活函数时克服了PCA线性的限制。

Autoencoder包含两个主要的部分，encoder（编码器）和 decoder（解码器）。Encoder的作用是用来发现给定数据的压缩表示，decoder是用来重建原始输入。在训练时，decoder 强迫 autoencoder 选择最有信息量的特征，最终保存在压缩表示中。最终压缩后的表示就在中间的coder层当中。

以下图为例，原始数据的维度是10，encoder和decoder分别有两层，中间的coder共有3个节点，也就是说原始数据被降到了只有3维。Decoder根据降维后的数据再重建原始数据，重新得到10维的输出。从Input到Ouptut的这个过程中，autoencoder实际上也起到了降噪的作用。
[外链图片转存失败(img-8GrsIhBw-1562923256477)(./1561463151170.png)]
异常检测(anomaly detection)通常分为有监督和无监督两种情形。在无监督的情况下，我们没有异常样本用来学习，而算法的基本上假设是异常点服从不同的分布。根据正常数据训练出来的Autoencoder，能够将正常样本重建还原，但是却无法将异于正常分布的数据点较好地还原，导致还原误差较大。

如果样本的特征都是数值变量，我们可以用MSE或者MAE作为还原误差。例如上图，如果输入样本为
$X=\left(X_{1}, X_{2}, \cdots, X_{10}\right)$
经过自编码重建后的结果：
$X^{R}=\left(X_{1}^{R}, X_{2}^{R}, \cdots, X_{10}^{R}\right)$
还原误差MSE
$\frac{1}{10} \sum_{i=1}^{10}\left(X_{i}-X_{i}^{R}\right)^{2}$
还原误差MAE
$\frac{1}{10} \sum_{i=1}^{10}\left|X_{i}-X_{i}^{R}\right|$
sofa教程
自编码原理详解

优缺点

缺点

训练数据中不能有异常数据

##2.9 主成分分析
在主成分分析（PCA）这种降维方法中，数据从原来的坐标系转换到新的坐标系，新坐标系的选择是由数据集本身所决定的。第一个新坐标轴的方向选择的是原始数据集中方差最大的方向，第二个新坐标轴的选择是和第一个坐标轴正交并且具有最大方差的方向。该过程一直重复，重复的次数就是原始数据中特征的数目。如此操作下去，将会发现，大部分方差都包含在最前面的几个新坐标轴之中。因此，我们可以忽略余下的坐标轴，也就是对数据进行了降维的处理。

为了提取到第一个主成分（数据差异性最大）的方向，进而提取到第二个主成分（数据差异性次大）的方向，并且该方向需要和第一个主成分方向正交，那么我们就需要对数据集的协方差矩阵进行特征值的分析，从而获得这些主成分的方向。一旦我们计算出了协方差矩阵的特征向量，我们就可以保留最大的 N 个值。正是这 N 个值反映了 N 个最重要特征的真实信息，可以把原始数据集合映射到 N 维的低维空间。
[外链图片转存失败(img-H391Ur5X-1562923256478)(./1561463733420.png)]
离这个偏差最大的点可以认为是异常点

2.10 Histogram-based Outlier Score (HBOS)

基本原理

2.11 FastABOD: Fast Angle-Based Outlier Detection using approximation

基本原理

2.12 MCD: Minimum Covariance Determinant

基本原理

MinCovDet是基于最小协方差行列式（Minimum Covariance Determinant，简称MCD）的算法，是鲁棒协方差估计。

2.13 EmpiricalCovariance

基本原理

EmpiricalCovariance是基于最大似然协方差估计的算法

PyOD

introduce pyod

2.14 CLOF

华南理工大学陶晶在他的毕业论文中，提出基于K-means算法和LOF算法的CLOP算法。其实基于密度的聚类算法的引入在离群点检测算法中很常见。下面简单叙述下该算法。
基于聚类的离群点检测方法的基本思想是：在聚类过程中，将那些不属于任何簇的点作为离群点。然而，基于聚类的离群点检测方法主要目标是聚类，离群点只是聚类时产生的“副产物”。因此传统的基于聚类的离群点离群点检测方法检测精度比较低。
基于密度的LOF算法，能有效的检测数据集中的局部离群点和全局离群点，检测精度比较高。但是基于密度的LOF方法存在如下缺点，使其应用受到一定的限制。
LOF方法在检测离群点的过程中，遍历整个数据集以计算每个点的LOF值，使得算法运算速度慢。同时，由于数据正常点的数量一般远远多于离群点的数量，而LOF方法通过比较所有数据点的LOF值判断离群程度，这产生了大量没必要的计算，造成时间成本太高，同时由于中间结果的存储而浪费空间资源。因此，假如能在计算离群因子前，剪枝一部分正常数据点，则可以提高LOF方法的计算效率。
那么如何进行剪枝呢？考虑到K-means是一种效率很高的聚类的算法，CLOF算法利用了该聚类算法，对数据集进行剪枝，得到“离群点侯选集”，最后对该集合中的所有点执行LOF算法，从而判断是否是离群点。
综上所述，CLOF算法的第一阶段是调用k均值聚类算法，聚完类后，可以得到k个类的中心（质点），然后求出类中所有点到该质点距离的平均值，这个平均值记为半径R，针对类中所有点，若该点到质点的距离大于等于R，则将其放入离群点候选集中。

Liu Y , Li Z , Zhou C , et al. “Generative Adversarial Active Learning for Unsupervised Outlier Detection”, arXiv:1809.10816, 2018.

参考资料

makedown编辑教程
孤立森林论文1
孤立森林论文2
STL
STL论文
LOF论文
one-class svm论文
arima论文该方法用于预测，而不是检测，上述几种方法都是用于检测
DBSCAN论文

AI中台化发展

AI中台宜信

你可能感兴趣的:(机器学习与深度学习)

AI编程基础：学习Python是进入AI领域的必经之路（文末含学习路线与知识推荐） Clf丶忆笙 AI 人工智能开发全栈教程学习 python 人工智能 ai
文章目录Python市场行情：AI开发的首选语言为什么学习Python对AI至关重要AI开发所需的Python知识体系Python编程基础科学计算与数据处理机器学习与深度学习性能优化与并行计算Python学习路线推荐阶段一：Python编程基础（1-2个月）阶段二：科学计算与数据处理（1-2个月）阶段三：机器学习基础（2-3个月）阶段四：深度学习与AI专项（3-6个月）阶段五：进阶与专项深化（持续
为什么 Python 是 AI 的首选语言？
文章目录一、简洁优雅，易于上手二、丰富的库和框架1.数据处理与分析2.数据可视化3.机器学习与深度学习框架三、强大的社区支持四、跨平台性和可移植性五、与其他语言的互操作性文章配套代码已上传，点击查看：https://download.csdn.net/download/2501_92578370/91180848在人工智能（AI）技术飞速发展的今天，编程语言的选择对AI开发者来说至关重要。当你翻开
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等深度科研 Yolo566Q chatgpt 语言模型数据分析
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等 xiao5kou4chang6kai4 人工智能深度学习机器学习 rnn 语言模型 lstm 深度学习机器学习人工智能 DeepSeek
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模 asyxchenchong888 chatgpt 语言模型机器学习
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等科研应用科研的力量人工智能 ChatGPT chatgpt 语言模型数据分析
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
AI大模型从0到1记录学习大模型技术之机器学习 day27-day60 Gsen2819 算法大模型人工智能人工智能学习机器学习
机器学习概述机器学习（MachineLearning,ML）主要研究计算机系统对于特定任务的性能，逐步进行改善的算法和统计模型。通过输入海量训练数据对模型进行训练，使模型掌握数据所蕴含的潜在规律，进而对新输入的数据进行准确的分类或预测。机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸优化、算法复杂度理论等多门学科。人工智能、机器学习与深度学习人工智能（AI）是计算机科学的一个广泛领域，
机器学习与深度学习22-数据预处理 my_q 机器学习与深度学习机器学习深度学习人工智能
目录前文回顾1.常见的数据质量问题2.归一化和标准化3.特征选择和特征提取4.独热编码前文回顾上一篇文章地址：链接1.常见的数据质量问题在数据预处理过程中，常见的数据质量问题包括缺失值、异常值和重复数据。以下是这些问题的详细描述以及处理方法：缺失值：缺失值是指数据表中某些单元格或字段缺乏数值或信息的情况处理方法：删除包含缺失值的行：如果缺失值数量较少，可以考虑删除包含缺失值的行，但这可能导致信息损
Rust 机器学习 KENYCHEN奉孝 Rust rust 机器学习开发语言
Rust机器学习Rust机器学习与深度学习现状Rust在机器学习（ML）和深度学习（DL）领域的生态仍处于早期阶段，但因其高性能、内存安全和并发优势，逐渐吸引开发者探索。以下从工具链、库和实际应用方向展开。机器学习（ML）笔记以下是关于机器学习（MachineLearning,ML）的详细学习集，涵盖核心概念、方法、工具和学习路径：机器学习基础概念机器学习是人工智能的子领域，通过算法让计算机从数据
机器学习与深度学习21-信息论 my_q 机器学习与深度学习机器学习深度学习人工智能
目录前文回顾1.信息上的概念2.相对熵是什么3.互信息是什么4.条件熵和条件互信息5.最大熵模型6.信息增益与基尼不纯度前文回顾上一篇文章链接：地址1.信息上的概念信息熵（Entropy）是信息理论中用于度量随机变量不确定性的概念。它表示了对一个随机事件发生的预测的平均困惑程度或信息量。对于一个离散型随机变量X，其信息熵H(X)定义为所有可能取值的负概率加权平均。数学上，可以使用以下公式来计算离散
机器学习与深度学习07-随机森林01 my_q 机器学习与深度学习机器学习深度学习随机森林
目录前文回顾1.随机森林的定义2.随机森林中的过拟合3.随机森林VS单一决策树4.随机森林的随机性前文回顾上一篇文章链接：地址1.随机森林的定义随机森林（RandomForest）是一种集成学习算法，用于解决分类和回归问题。它基于决策树（DecisionTrees）构建，并通过组合多个决策树来提高模型的性能和稳定性。随机森林的主要思想是通过随机选择样本和特征来构建多棵决策树，然后综合它们的预测结果
机器学习与深度学习20-数学优化 my_q 机器学习与深度学习机器学习深度学习人工智能
目录前文回顾1.梯度下降的基本原理2.什么是损失函数？3.随机梯度下降和小批量梯度下降4.什么是学习率5.优化算法中的收敛性6.常用的数学优化算法前文回顾上一篇文章链接：地址1.梯度下降的基本原理梯度下降（GradientDescent）是一种常用的优化算法，用于对目标函数进行最小化或最大化。其基本原理是通过迭代更新模型参数，沿着目标函数的负梯度方向逐步调整参数值，直到达到局部最优解。在机器学习中
医疗风险预测AI模型：机器学习与深度学习方法的深度分析与实践 Allen_Lyb 数智化医院2025 人工智能机器学习深度学习
一、技术前沿进展与创新架构医疗风险预测领域正处于技术爆发期，多种人工智能模型正不断突破性能极限。通过对最新研究的系统分析，我们观察到以下几个关键发展方向：深度学习模型的革新应用时间序列建模：在脓毒症相关急性肾损伤(SA-AKI)预测领域，ORAKLE模型采用DynamicDeepHit框架整合长短期记忆网络(LSTM)，显著提升了动态预测能力。该模型通过处理患者生命体征、实验室指标等多变量时间序列
机器学习与深度学习16-概率论和统计学01 my_q 机器学习与深度学习机器学习深度学习概率论
目录前文回顾1.什么是概率论和统计学2.概率的基本概念3.什么是概率密度函数和累积分布函数4.均值、中位数与众数前文回顾上一篇文章地址：链接1.什么是概率论和统计学概率论和统计学是数学中重要的分支，用于研究随机事件和数据的分布、关联性以及不确定性。概率论是研究随机事件发生的可能性和规律的数学学科。它提供了一套工具和方法来描述和分析随机变量、随机过程以及他们之间的关系。概率论包括概率分布、随机变量、
JAVA资料，C#资料，人工智能资料，Python资料】全网最全编程学习文档合集 wangjinjin180 java c#人工智能
目录Java编程学习资源Java入门基础面向对象编程（OOP）Java高级特性与框架Java项目实践与开发工具C#编程学习资源C#入门与基础面向对象编程（OOP）在C#中的应用C#开发中的常见库与框架C#项目开发与实践人工智能编程学习资源人工智能基础机器学习与深度学习强化学习与自然语言处理AI开发工具与库Python编程学习资源Python基础与语法Python高级特性与库Python数据科学与人
机器学习与深度学习13-K均值聚类 my_q 机器学习与深度学习机器学习深度学习均值算法
目录前文回顾1.K均值聚类定义2.K均值聚类的工作原理3.如何确定K均值聚类的K值4.K均值聚类的优点和局限性5.K均值聚类的常见初始化方法6.K均值聚类和层次聚类的区别与联系前文回顾上一篇文章地址：链接1.K均值聚类定义K均值聚类（K-meansclustering）是一种常用的无监督学习算法，用于将数据集划分为K个不同的簇。该算法通过最小化簇内样本之间的平方误差和最大化簇间的距离来确定簇的位置
机器学习与深度学习14-集成学习
目录前文回顾1.集成学习的定义2.集成学习中的多样性3.集成学习中的Bagging和Boosting4.集成学习中常见的基本算法5.什么是随机森林6.AdaBoost算法的工作原理7.如何选择集成学习中的基础学习器或弱分类器8.集成学习中常见的组合策略9.集成学习中袋外误差和交叉验证的作用10.集成学习的优势和局限性前文回顾上一篇文章链接：地址1.集成学习的定义集成学习（EnsembleLearn
机器学习与深度学习04-逻辑回归02 my_q 机器学习与深度学习机器学习深度学习逻辑回归
目录前文回顾6.正则化在逻辑回归中的作用7.特征工程是什么8.逻辑回归的预测结果如何9.什么是ROC曲线和AUC值10.如何处理类不平衡问题11.什么是交叉验证前文回顾上一篇文章地址：链接6.正则化在逻辑回归中的作用逻辑回归中，正则化是一种用于控制模型复杂度的技术，它对模型的参数进行约束，以防止过拟合。正则化通过在损失函数中引入额外的正则化项来实现，这些正则化项对参数的大小进⾏惩罚，逻辑回归中常用
植被监测新范式！Python驱动机器学习反演NDVI/LAI关键技术解析梦想的初衷~ 生态环境遥感植被 python 机器学习生态环境监测
在全球气候变化与生态环境监测的重要需求下，植被参数遥感反演作为定量评估植被生理状态、结构特征及生态功能的核心技术，正面临数据复杂度提升、模型精度要求高、多源异构数据融合等挑战。人工智能（AI）技术的快速发展，尤其是机器学习与深度学习算法的突破，为解决这些难题提供了全新路径。AI凭借强大的非线性拟合能力、数据特征自动提取优势及跨模态信息融合潜力，能够高效处理遥感数据中的噪声与不确定性，显著提升植被参
阅读宋立恒《AI制胜：机器学习极简入门》第1章：机器学习概述酒城译痴无心剑 AI -机器学习 -深度学习机器学习人工智能自然语言处理
文章目录一、什么是机器学习二、机器学习的流程（一）数据收集（二）数据预处理（三）特征工程（四）模型构建和训练三、机器学习该如何学（一）AI时代首选Python（二）PyCharm可视化编辑器和Anaconda大礼包1、PyCharm可视化编辑器2、Anaconda大礼包（三）掌握算法原理与掌握机器学习软件库同等重要（四）机器学习与深度学习的区别四、机器学分类（一）监督学习（三）无监督学习（三）强化
2024最新全流程Python编程、机器学习与深度学习科研的力量人工智能 ChatGPT 机器学习深度学习循环神经网络 PyTorch 随机森林 BP神经网络决策树
近年来，人工智能领域的飞速发展极大地改变了各个行业的面貌。当前最新的技术动态，如大型语言模型和深度学习技术的发展，展示了深度学习和机器学习技术的强大潜力，成为推动创新和提升竞争力的关键。特别是PyTorch，凭借其灵活性和高效性，成为科研人员和工程师的首选工具。一、Python基础知识1、Python环境搭建（Python软件下载、安装与版本选择；PyCharm下载、安装；Python之Hello
人工智能、机器学习与深度学习：全面介绍与对比分析山顶望月川人工智能机器学习深度学习
文章目录引言1.1技术革命的背景1.2三者的关系概述人工智能(AI)概述2.1人工智能的定义与发展历程2.2人工智能的主要分支2.3人工智能的应用领域2.4人工智能的现状与未来趋势机器学习(ML)详解3.1机器学习的基本概念3.2机器学习的核心算法分类3.3机器学习的工作流程3.4机器学习的优势与局限性深度学习(DL)深入解析4.1深度学习的定义与起源4.2神经网络基础架构4.3主流深度学习模型4
东南大学图像处理课程PPT核心要点详解 leniou的牙膏
本文还有配套的精品资源，点击获取简介：图像处理是多领域交叉的学科，主要通过数字计算手段操作图像数据。东南大学的PPT讲义详述图像处理的基础知识与实践方法，涵盖了从图像增强到深度学习应用的各个方面。包括图像基础知识、图像增强、变换、分割、特征提取、复原与重建、编码与压缩，以及机器学习与深度学习在图像处理的应用，还可能包含实际案例分析。1.图像基础知识概览图像的数字化数字图像处理开始于图像的数字化。图
人工智能、机器学习与深度学习：概念解析与内在联系 AI糊涂是福人工智能人工智能机器学习深度学习
人工智能、机器学习与深度学习：概念解析与内在联系一、人工智能（ArtificialIntelligence,AI）（一）人工智能的定义人工智能的定义随着技术发展不断演变。从广义上讲，人工智能是指通过计算机技术实现的、模拟人类智能的理论、方法、技术及应用系统。其核心目标是使机器能够执行通常需要人类智能才能完成的任务，如推理、学习、感知、语言理解、决策等。1956年达特茅斯会议被视为人工智能学科的诞生
趣谈Ai各种模型算法及应用 KingDol_MIni 深度学习大数据和机器学习深度学习人工智能
机器学习与深度学习模型选型终极指南：告别选择困难症！大家好！今天，我们来聊一个让很多初学者甚至有经验的开发者都头疼的问题：面对琳琅满目的机器学习和深度学习模型，到底该如何选择？就像走进一家拥有无数工具的五金店，如果你不知道每件工具的用途，很容易就挑花了眼。别担心！这篇博客将带你梳理常见的模型，点亮它们的“技能树”，让你在面对不同任务时，能够胸有成竹地挑选出最合适的“神兵利器”。核心理念：没有万能钥
机器学习与深度学习水花花花花花人工智能就业实战机器学习深度学习人工智能
目录一、机器学习（一）机器学习的分类1.监督学习2.无监督学习3.强化学习（二）机器学习的应用场景二、深度学习（一）深度学习的核心原理（二）常见的深度学习模型1.卷积神经网络（CNN）2.循环神经网络（RNN）及其变体3.Transformer架构（三）深度学习的应用拓展三、机器学习与深度学习的关系一、机器学习机器学习是一门多领域交叉学科，它涉及计算机科学、统计学、概率论、优化理论等众多领域，致力
机器学习 vs 深度学习：深入浅出解析两者的区别海豹工匠机器学习深度学习人工智能神经网络卷积神经网络
在当今科技飞速发展的时代，**机器学习（MachineLearning）和深度学习（DeepLearning）**成为了人工智能（AI）领域的热门话题。无论你是技术专家、学生，还是对AI感兴趣的普通读者，理解这两者的区别都是至关重要的。本文将以通俗易懂的方式，深入浅出地解析机器学习与深度学习的区别，帮助你全面掌握这一知识。什么是机器学习？机器学习是人工智能的一个子领域，专注于开发能够从数据中自动学
《机器学习与深度学习：开启智能未来的钥匙》 OCR_wintone421 人工智能机器学习深度学习
一、机器学习与深度学习的基础认知在当今数字化时代，机器学习和深度学习作为人工智能领域的核心技术，正以惊人的速度改变着我们的生活和工作方式。机器学习是一门让计算机从数据中自动学习模式和规律，并利用这些模式和规律来进行预测和决策的科学。它通过对大量数据的分析和处理，不断优化自身的性能，从而实现对未知数据的准确预测。深度学习则是机器学习的一个重要分支，它借鉴了人脑神经网络的结构和工作原理，通过构建多层神
机器学习与深度学习的区别详解云端.代码农夫CloudFarmer 机器学习深度学习人工智能
机器学习与深度学习的区别详解在数据科学和人工智能领域，机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是两个非常重要的概念。尽管这两个术语常常被提及，并且有时会被混淆，但它们之间有着显著的区别。本文将详细介绍机器学习和深度学习的不同之处，帮助读者更好地理解这两个技术的特点和应用场景。一、基本概念1.机器学习机器学习是一种通过数据训练模型，以便使计算机能够
植被参数遥感反演技术革命！AI+Python支持向量机/随机森林/神经网络/CNN/LSTM/迁移学习在植被参数反演中的实战应用与优化小艳加油农林生态植被参数反演 Python AI大模型
在全球气候变化与生态环境监测的重要需求下，植被参数遥感反演作为定量评估植被生理状态、结构特征及生态功能的核心技术，正面临诸多挑战。随着遥感技术的发展，数据复杂度不断提升，模型精度的要求也越来越高。同时，多源异构数据的融合成为了一个亟待解决的问题。这些挑战对传统遥感反演方法提出了严峻的考验。人工智能技术为遥感反演带来新机遇幸运的是，人工智能（AI）技术的快速发展，尤其是机器学习与深度学习算法的突破，
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。