fennvde007

用Python做单变量数据集的异常点分析

laizi:http://my.oschina.net/taogang/blog/279402

目录[-]

基于标准差得异常检测

基于ZSCORE的异常检测

基于KMEAN聚集的异常检测

总结

大数据时代，数据的异常分析被广泛的用于各个场合。今天我们就来看一看其中的一种场景，对于单变量数据集的异常检测。

所谓单变量，就是指数据集中只有一个变化的值，下面我们来看看今天我们要分析的的数据，点击这里数据文件下载数据文件。

分析数据的第一步是要加载文件，本文使用了numpy，pandas，scikit learn等常见的数据分析要用到的Python库。

 
     ? 
    
          import  
          numpy as np 
         
          import  
          pandas as pd 
         
          df  
          =  
          pd.read_csv( 
          "farequote.csv" 
          )

Pandas 是一个常用的数据分析的Python库，提供对数据的加载，清洗，抽取，变形等操作。Pandas依赖numpy，numpy提供了基于列/多维数组（List/N-D Array）的数据结构的操作。许多科学计算和数据分析的库都依赖于numpy。

df 是Pandas中常用的数据类型dataframe，dataframe类似与一个数据库的表，使用 df.head()可以得到数据的头几行，以便了解数据的概貌。

该数据结构中，第一列式Pandas添加的索引，第一行是每一列数据的名字，除了第一列，每一列数据可以看成是一个变量，所以该数据集共有三个变量，时间（_time）、航空公司名称(airline)、响应时间（responsetime）。我们可以这样理解，该数据集记录了一段时间内，各个航空公司飞机延误的时间。我们希望通过分析找出是否存在异常的情况。

注意，我们是要分析单变量，所以所有的分析都是基于某一个航空公司的数据，所以就需要对该数据集做一个查询，找出要分析的航空公司。首先要知道有哪些航空公司，使用np.unique(df.airline)可以找到所有的航空公司代码，类似SQL的Unique命令

查询某个航空公司的数据使用dataframe的query方法，类似SQL的select。Query返回的结果仍然是一个dataframe对象。

 
     ? 
    
          dd  
          =  
          df.query( 
          'airline=="KLM"' 
          )  
          ## 得到法航的数据

我们先了解一下数据的大致信息，使用describe方法

 
     ? 
    
          dd.responsetime.describe()

得到如下的结果：

 
     ? 
    
          count     
          1724.000000 
         
          mean      
          1500.613766 
         
          std        
          100.085320 
         
          min       
          1209.766800 
         
          25 
          %       
          1434.084625 
         
          50 
          %       
          1499.135000 
         
          75 
          %       
          1567.831025 
         
          max       
          1818.774100 
         
          Name: responsetime, dtype: float64

该结果返回了数据集responsetime维度上的主要统计指标，个数，均值，方差，最大最小值等等，也可以调用单独的方法例如min（），mean（）等来获得某一个指标。

基于标准差得异常检测

下面我们就可以开始异常点的分析了，对于单变量的异常点分析，最容易想到的就是基于标准差（Standard Deviation）的方法了。我们假定数据的正态分布的，利用概率密度函数，我们知道

95.449974面积在平均数左右两个标准差的范围内
99.730020%的面积在平均数左右三个标准差的范围内
99.993666的面积在平均数左右三个标准差的范围内

所以我们95%也就是大概两个标准差为门限，凡是落在门限外的都认为是异常点。代码如下

 
     ? 
    
          def  
          a1(dataframe, threshold 
          = 
          . 
          95 
          ): 
         
          d  
          =  
          dataframe[ 
          'responsetime' 
          ] 
         
          dataframe[ 
          'isAnomaly' 
          ]  
          =  
          d > d.quantile(threshold)   
         
          return  
          dataframe 
         
          print  
          a1(dd)

运行以上程序我们得到如下结果

 
     ? 
    
 
      
        
        
                                        
          _time airline  responsetime isAnomaly 
         
 
          20     
          2013 
          - 
          02 
          - 
          01T23 
          : 
          57 
          : 
          59.000 
          - 
          0700      
          KLM      
          1481.4945      
          False 
         
 
          76     
          2013 
          - 
          02 
          - 
          01T23 
          : 
          52 
          : 
          34.000 
          - 
          0700      
          KLM      
          1400.9050      
          False 
         
 
          124    
          2013 
          - 
          02 
          - 
          01T23 
          : 
          47 
          : 
          10.000 
          - 
          0700      
          KLM      
          1501.4313      
          False 
         
 
          203    
          2013 
          - 
          02 
          - 
          01T23 
          : 
          39 
          : 
          08.000 
          - 
          0700      
          KLM      
          1278.9509      
          False 
         
 
          281    
          2013 
          - 
          02 
          - 
          01T23 
          : 
          32 
          : 
          27.000 
          - 
          0700      
          KLM      
          1386.4157      
          False 
         
 
          336    
          2013 
          - 
          02 
          - 
          01T23 
          : 
          26 
          : 
          09.000 
          - 
          0700      
          KLM      
          1629.9589      
          False 
         
 
          364    
          2013 
          - 
          02 
          - 
          01T23 
          : 
          23 
          : 
          52.000 
          - 
          0700      
          KLM      
          1482.5900      
          False 
         
 
          448    
          2013 
          - 
          02 
          - 
          01T23 
          : 
          16 
          : 
          08.000 
          - 
          0700      
          KLM      
          1553.4988      
          False 
         
 
          511    
          2013 
          - 
          02 
          - 
          01T23 
          : 
          10 
          : 
          39.000 
          - 
          0700      
          KLM      
          1555.1894      
          False 
         
 
          516    
          2013 
          - 
          02 
          - 
          01T23 
          : 
          10 
          : 
          08.000 
          - 
          0700      
          KLM      
          1720.7862       
          True 
         
 
          553    
          2013 
          - 
          02 
          - 
          01T23 
          : 
          06 
          : 
          29.000 
          - 
          0700      
          KLM      
          1306.6489      
          False 
         
 
          593    
          2013 
          - 
          02 
          - 
          01T23 
          : 
          03 
          : 
          03.000 
          - 
          0700      
          KLM      
          1481.7081      
          False 
         
 
          609    
          2013 
          - 
          02 
          - 
          01T23 
          : 
          01 
          : 
          29.000 
          - 
          0700      
          KLM      
          1521.0253      
          False 
         
 
          666    
          2013 
          - 
          02 
          - 
          01T22 
          : 
          56 
          : 
          04.000 
          - 
          0700      
          KLM      
          1675.2222       
          True 
         
 
          ...   ...   ...   ... 
         
 
      
 
    

结果数据集上多了一列isAnomaly用来标记每一行记录是否是异常点，我们看到已经有一些点被标记为异常点了。

我们看看程序的详细内容：

方法a1定义了一个异常检测的函数
dataframe['responsetime']等价于dataframe.responsetime,该操作取出responsetime这一列的值
d.quantile(threshold)用正态分布假定返回位于95%的点的值，大于该值得点都落在正态分布95%之外
d > d.quantile(threshold)是一个数组操作，返回的新数组是responsetime和threshold的比较结果，[False,False,True,... ... False]
然后通过dataframe的赋值操作增加一个新的列，标记所有的异常点。

数据可视化往往是数据分析的最后一步，我们看看结果如何：

 
     ? 
    
          import  
          matplotlib.pyplot as plt 
         
          da  
          =  
          a1(dd) 
         
          fig  
          =  
          plt.figure() 
         
          ax1  
          =  
          fig.add_subplot( 
          2 
          ,  
          1 
          ,  
          1 
          ) 
         
          ax2  
          =  
          fig.add_subplot( 
          2 
          ,  
          1 
          ,  
          2 
          ) 
         
          ax1.plot(da[ 
          'responsetime' 
          ]) 
         
          ax2.plot(da[ 
          'isAnomaly' 
          ])

这异常点也太多了，用99%在试试：

现在似乎好一点，然而我们知道，对于数据集的正态分布的假定往往是不成立的,假如数据分布在大小两头，那么这样的异常检测就很难奏效了。我们看看其他一些改进的方法。

基于ZSCORE的异常检测

zscore的计算如下

sd是标准差，X是均值。一般建议门限值取为3.5

代码如下：

 
     ? 
    
          def  
          a2(dataframe, threshold 
          = 
          3.5 
          ): 
         
          d  
          =  
          dataframe[ 
          'responsetime' 
          ] 
         
          zscore  
          =  
          (d  
          -  
          d.mean()) 
          / 
          d.std() 
         
          dataframe[ 
          'isAnomaly' 
          ]  
          =  
          zscore. 
          abs 
          () > threshold 
         
          return  
          dataframe

另外还有一种增强的zscore算法，基于MAD。MAD的定义是

其中X是中位数。

增强的zscore算法如下：

 
     ? 
    
          def  
          a3(dataframe, threshold 
          = 
          3.5 
          ): 
         
          dd  
          =  
          dataframe[ 
          'responsetime' 
          ] 
         
          MAD  
          =  
          (dd  
          -  
          dd.median()). 
          abs 
          ().median() 
         
          zscore  
          =  
          ((dd  
          -  
          dd.median()) 
          *  
          0.6475  
          / 
          MAD). 
          abs 
          () 
         
          dataframe[ 
          'isAnomaly' 
          ]  
          =  
          zscore > threshold 
         
          return  
          dataframe

用zscore算法得到：

调整门限为3得到

如果换一组数据AAL，结果会怎么样呢?

我们发现有一段时间，所有的响应都很慢，我们想要把这些点都标记为异常，可能么？

基于KMEAN聚集的异常检测

通常基于KMEAN的聚集算法并不适用于异常点检测，以为聚集算法总是试图平衡每一个聚集中的点的数目，所以对于少数的异常点，聚集非常不好用，但是我们这个例子中，异常点都聚在一起，所以应该可以使用。

首先，为了看清聚集，我们使用时间序列的常用分析方法，增加一个维度，该维度是每一个点得前一个点得响应时间。

 
     ? 
    
          preresponse  
          =  
          0 
         
          newcol  
          =  
          [] 
         
          newcol.append( 
          0 
          ) 
         
          for  
          index, row  
          in  
          dd.iterrows(): 
         
          if  
          preresponse ! 
          =  
          0 
          : 
         
          newcol.append(preresponse) 
         
          preresponse  
          =  
          row.responsetime 
         
          dd[ 
          "t0" 
          ]  
          =  
          newcol 
         
          plt.scatter(dd.t0,dd.responsetime)

我们利用iterrows来循环数据，把前一个点的响应时间增加到当前点，第一个点的该值为0，命名该列为t0。然后用scatter plot把它画出来。

上面是法航KLM的数据，其中最左边的点是一个无效的点，因为前一个点的响应时间不知道所以填了0，分析时应该过滤该店。

对于AAL，我们可以清楚的看到两个聚集：

其中右上方的聚集，也就是点数目比较少得聚集就是我们希望检测到的异常点得集合。

我们看看如何使用KMEAN算法来检测吧：

 
     ? 
    
          def  
          a4(dataframe, threshold  
          =  
          . 
          9 
          ): 
         
          ## add one dimention of previous response 
         
          preresponse  
          =  
          0 
         
          newcol  
          =  
          [] 
         
          newcol.append( 
          0 
          ) 
         
          for  
          index, row  
          in  
          dataframe.iterrows(): 
         
          if  
          preresponse ! 
          =  
          0 
          : 
         
          newcol.append(preresponse) 
         
          preresponse  
          =  
          row.responsetime 
         
          dataframe[ 
          "t0" 
          ]  
          =  
          newcol 
         
          ## remove first row as there is no previous event for time 
         
          dd  
          =  
          dataframe.drop(dataframe.head( 
          1 
          ).index)  
         
          clf  
          =  
          cluster.KMeans(n_clusters 
          = 
          2 
          ) 
         
          X 
          = 
          np.array(dd[[ 
          'responsetime' 
          , 
          't0' 
          ]]) 
         
          cls  
          =  
          clf.fit_predict(X) 
         
          freq  
          =  
          itemfreq( 
          cls 
          ) 
         
          (A,B)  
          =  
          (freq[ 
          0 
          , 
          1 
          ],freq[ 
          1 
          , 
          1 
          ]) 
         
          t  
          =  
          abs 
          (A 
          - 
          B) 
          / 
          max 
          (A,B) 
         
          if  
          t > threshold : 
         
          ## "Anomaly Detected!" 
         
          index  
          =  
          freq[ 
          0 
          , 
          0 
          ] 
         
          if  
          A > B : 
         
          index  
          =  
          freq[ 
          1 
          , 
          0 
          ] 
         
          dd[ 
          'isAnomaly' 
          ]  
          =  
          ( 
          cls  
          = 
          =  
          index) 
         
          else  
          : 
         
          ## "No Anomaly Point" 
         
          dd[ 
          'isAnomaly' 
          ]  
          =  
          False 
         
          return  
          dd

其核心代码是以下这几行：

 
     ? 
    
          clf  
          =  
          cluster.KMeans(n_clusters 
          = 
          2 
          ) 
         
          X 
          = 
          np.array(dd[[ 
          'responsetime' 
          , 
          't0' 
          ]]) 
         
          cls  
          =  
          clf.fit_predict(X)

cluster.KMeans返回一个预测模型，我们假定有两个聚集。你可以试着加大聚集的数量，结果没什么影响。

dd[['responsetime','t0']]返回一个2*n的数组，并赋值给X，用于聚集计算。

fit_pridict方法是对X做聚集运算,并计算每一个点对应的聚集编号。

 
     ? 
    
          freq  
          =  
          itemfreq( 
          cls 
          )

itemfreq返回聚集结果中每一个聚集的发生频率，如果其中一个比另一个显著地多，我们则认为那个少得是异常点聚集。

用该方法可以把所有聚集里的点标记为异常点。

这里我用红色标记结果让大家看的清楚一点，注意因为是line chart，连个竖线间的都是异常点。

总结

除了上述的算法，还有其它一些相关的算法，大家如果对背后的数据知识有兴趣的话，可以参考这篇相关介绍。

单变量的异常检测算法相对比较简单，但是要做到精准检测就更难，因为掌握的信息更少。另外boxplot也经常被用于异常检测，他和基于方差的异常检测是一致的，只不过用图形让大家一目了然的获得结果，大家有兴趣可以了解一下。

你可能感兴趣的:(用Python做单变量数据集的异常点分析)

蓝桥杯2023年第十四届省赛真题-公因数匹配好好学习^按时吃饭蓝桥杯
题目来自DOPCPP：公因数：一个能同时整数若干整数的整数。暴力代码（超时）：#include#defineintlonglongusingnamespacestd;constintN=1e5+10;intn;intarr[N];signedmain(){cin>>n;for(inti=1;i>arr[i];//s表示方案中的起点e表示终点//题目中说了i1){//更新答案cout#definei
C语言每日一练——day_8 Run_Teenage C语言入门练习题 c语言开发语言
引言针对初学者，每日练习几个题，快速上手C语言。第八天。（连续更新中）采用在线OJ的形式什么是在线OJ？在线判题系统（英语：OnlineJudge，缩写OJ）是一种在编程竞赛中用来测试参赛程序的在线系统，也可以用于平时的练习。详细内容可以看一下这篇博客：关于C/C++语言的初学者在哪刷题，怎么刷题-CSDN博客https://blog.csdn.net/2401_88433210/article/
AI学习指南RAG篇(24)-RAGFlow的社区与开源贡献俞兆鹏 AI学习指南人工智能
一、引言RAGFlow是一款基于深度文档理解的开源RAG（Retrieval-AugmentedGeneration，检索增强生成）引擎，旨在解决现有RAG技术在数据处理和生成答案方面的挑战。RAGFlow通过结合大型语言模型（LLMs）的强大生成能力和高效的信息检索系统，为用户提供了一种全新的交互体验。本文将鼓励读者参与到RAGFlow的开源社区中，共同推动技术的发展和创新。二、RAGFlow的
C#实战：使用ZXing.NET库轻松生成二维码与条形码墨瑾轩一起学学C#【一】c#.net 开发语言
下面我将详细介绍C#中用于生成二维码和条形码的库——ZXing.NET，并附带一份详细的代码示例，其中每行代码均配有注释以解释其功能。ZXing.NET是基于开源项目ZXing（ZebraCrossing）的.NET移植版，它提供了生成和解析多种一维条形码和二维二维码的功能。准备工作首先，确保您已通过NuGet包管理器在项目中安装了ZXing.NET库。在VisualStudio中，可以通过以下步
Nodejs模块：使用Helmet 增强Web应用安全性 ohn.yu Nodejs javascript node.js
Helmet是一个Node.js中间件，主要用于增强Web应用的安全性。它通过设置各种HTTP响应头，帮助你的应用抵御多种常见的Web漏洞攻击，例如跨站脚本攻击(XSS)、点击劫持(Clickjacking)、内容嗅探攻击(ContentSniffing)等。1.什么是Helmet？为什么使用Helmet？Helmet本身并不是一个"银弹"，不能解决所有的安全问题，但它提供了一个简单有效的方式来设
Redis 使用入门与进阶指南 ohn.yu 技术杂谈 redis 数据库缓存
Redis（RemoteDictionaryServer）是一个高性能的开源内存数据存储系统，常被用作数据库、缓存和消息队列。它以速度快、支持多种数据结构和简单易用而著称。本文将带你从Redis的基础用法开始，逐步深入到适合中级技术人员的实际应用场景。如果你是一个初学者或有一定经验的技术人员，这篇博客会帮助你更好地掌握Redis。什么是Redis？Redis是一个键值对存储系统，但它不仅仅是简单的
10 分钟学会SpringValidation数据校验和全局异常处理 ohn.yu spring spring boot java
以下是一个使用Spring开发的简单RESTAPI小程序，通过对一张user表进行操作，代码演示如何RestAPI开发中实现数据校验、全局异常处理和返回Json格式数据。使用的核心框架包括SpringBootSpringWebSpringDataJPABeanValidation（JSR-303）Lombok1.项目依赖（pom.xml）创建一个Maven项目，添加以下依赖："xmlns:xsi=
如何在 Node.js 中使用 .env 文件管理环境变量？鸠摩智首席音效师 node.js
Node.js应用程序通常依赖于环境变量来管理敏感信息或配置设置。.env文件已经成为一种流行的本地管理这些变量的方法，而无需在代码存储库中公开它们。本文将探讨.env文件为什么重要，以及如何在Node.js应用程序中有效的使用它。为什么使用.env文件?Security在源代码中保留敏感信息(如API密钥、数据库凭据)可能会将它们暴露给意想不到的访问者。将此数据分离到特定于环境的文件中，您可以使
Java设计模式之代理模式飞翔中文网 Java java 设计模式
概念和作用代理模式是一种结构型设计模式，它允许为其他对象提供一种代理以控制对这个对象的访问。代理对象在客户端和目标对象之间起到中介作用，可以在目标对象执行某些操作前后添加额外的功能。使用场景1.访问控制：根据用户权限决定是否允许访问目标对象。2.日志记录：在访问目标对象前后记录日志信息。3.性能监控：测量目标对象方法的执行时间。4.延迟加载：按需加载资源，避免过早占用内存。举例静态代理静态代理在编
【Vue+TypeScript实战指南：提高代码质量和开发效率】小怪兽9699 typescript vue.js 前端
前言在现代前端开发中，Vue.js是一个非常流行且强大的框架，而TypeScript则是增强代码类型安全性和可维护性的利器。本文将详细介绍如何结合Vue和TypeScript来构建高质量的应用程序。无论你是有一定基础的开发者还是希望进一步提升技能的高手，本文都将为你提供详细的步骤和代码示例。1.环境搭建首先，确保你已经安装了Node.js和npm。然后，全局安装VueCLI：npminstall-
Node.js 中使用 RabbitMQ 海上彼尚 node.js node.js rabbitmq 分布式
目录一、RabbitMQ简介二、核心概念解析三、环境搭建（以Ubuntu为例）四、Node.js实战：生产者与消费者1.安装依赖2.生产者代码（发送消息）3.消费者代码（处理消息）五、高级配置与最佳实践六、常见问题与解决方案七、总结一、RabbitMQ简介RabbitMQ是一个基于AMQP协议的开源消息代理工具，专为分布式系统设计。它通过解耦生产者和消费者实现异步通信，支持流量削峰、任务队列、服务
多机器人系统感知能力和控制体系结构综述罗伯特之技术屋人工智能与智能系统专栏机器人
摘要:为了促进多机器人系统(multirobotsystem,MRS)的智能化、无人化发展，并提升MRS在不同工作环境中的探测能力和系统的灵活性，本文从MRS的感知能力及其控制系统架构的角度出发，深度调研并分析了MRS相关的研究与工作，重点探讨了空中、地面、水面、水下4种应用环境下的MRS感知能力与控制系统架构，并对未来的研究方向进行展望。本文的结果可对于后续MRS在感知方法和控制系统的选用上提供
若依框架入门指南：快速上手SpringBoot+前后端分离版小小鸭程序员 spring java spring boot 后端 intellij-idea
若依（RuoYi）是一款基于SpringBoot的快速开发平台，集成了权限管理、代码生成、监控管理等功能。本文将以SpringBoot+Vue前后端分离版本为例，带你快速上手若依框架。一、环境准备基础环境：JDK1.8+MySQL5.7+Redis5.0+Maven3.6+Node.js14+（前端）下载项目：#后端项目gitclonehttps://gitee.com/y_project/Ruo
【C语言】memset(含常见用途、注意事项) 司六米希 #C c语言算法数据结构
这里写目录标题1.memset用法及示例2.常见用途2.1初始化数组2.2清零动态分配的内存2.3初始化结构体2.4填充非零值3.注意事项4.总结1.memset用法及示例memset是C标准库中的一个函数，用于将一段内存区域填充为指定的值。它通常用于初始化数组、结构体或动态分配的内存。#include//需要包含头文件void*memset(void*ptr,intvalue,size_tnum
leetcode501-二叉搜索树中的众数记得早睡~ 算法小课堂 leetcode 算法 javascript 数据结构
leetcode501思路由于是二叉搜索树，那么我们知道它的特性：使用中序遍历得到的是从小到大排序的，所以我们利用这个规则，使用count来统计每次出现一个新的数的总个数，maxCount统计最大的个数值，result来存储二叉树中的众数，也就是要得到的结果值，pre用于统计前一个节点值初始化定义好值以后，我们需要使用中序遍历，中间处理逻辑值当pre还不存在的时候或者前一个节点跟后一个节点不相同时
Deno入门教程：Node.js 的替代品 xiaoweids 编程语言 JavaScript node.js javascript 开发语言
转自：微点阅读https://www.weidianyuedu.com这几天假期，我学习了一下Deno[1]。它是Node.js的替代品。有了它，将来可能就不需要Node.js了。这篇文章就是Deno的一个初步介绍，尝试回答为什么Node.js不能满足需要，以及Deno能够带给我们什么？以下内容主要基于BertBelder[2]和RyanDahl[3]的最新演讲。0、进入主题之前，先说一下Deno
leetcode530-二叉搜索树的最小绝对值记得早睡~ 算法小课堂 leetcode typescript javascript 算法数据结构
leetcode530思路这里题目有确切说明这个二叉树是：二叉搜索树那么我们可以想到二叉搜索树的特性，利用中序遍历：左中右得到的结果是从小到达排列的所以我们就只需要计算出每一个节点和前一个节点之间的差值，然后保存最小的差值就是本题答案所以我们在中序遍历的过程中需要存储最小的差值，我们首先初始化result为无穷大，还需要存储前一个节点，用于进行比较，每次遍历到一个节点的时候，我们比较resul和r
nvm 安装某个node.js版本后不能使用或者报错，或不能使用npm的问题腥臭腐朽的日子熠熠生辉 node.js npm 前端
安装了nvm之后发现不能使用某个版本的node.js，报错之后，不能使用npm这个命令。可以这样解决：1、再node.js官网直接下载node.js的压缩包。找到nvm的安装目录2、直接将文件夹解压到这个安装目录中修改一下名字即可。
Vue2集成LuckExcel实现excel在线编辑及保存冉成未来 Web excel vue.js
文章目录LuckSheetnpm安装相关依赖vue使用luckSheet第一步：通过CDN引入第二步：指定一个excel编辑容器第三步：创建一个表格通过文件url实现excel文件的加载Excel工具类export.jsLuckSheetgitee网址：https://gitee.com/mengshukeji/LuckysheetluckSheet文档网址：https://dream-num.g
SSL证书失效？用户数据还安全吗？ ssl证书
一、SSL证书：数据安全的“护盾”SSL证书，全称为安全套接层证书，它通过在浏览器和服务器之间建立加密通道，确保数据传输的保密性、完整性与真实性。当用户访问一个启用SSL证书的网站时，数据被加密成密文，外人难以窃取或篡改，犹如给数据穿上了一层坚固的铠甲。SSL证书申请流程↓快速申请入口直接访问JoySSL，注册一个账号，记得填写注册码230931，获得技术支持二、证书失效瞬间：风险乍现一旦SSL证
进入Tokio的异步世界 lipicoder rust 开发语言后端
Tokio是一个基于Rust语言开发的异步运行时。初接触的开发者可能会存在两个疑问，为什么要异步，什么要基于Rust来做异步？简单的说，异步更符合计算机的运行机制，能够更大的发挥计算能力。当然，这个是针对IO密集型的任务。如果是CPU密集型的，长耗时的纯计算，那还是同步机制好从通常的场景来看，大部分的应用都是IO密集型的。长耗时的纯CPU计算只需要写一个脚本跑就可以了，比较简单为什么采用Rust来
通信之光接口玖Yee 信息与通信
光接口即光纤接口，是用于连接光纤线缆的物理接口。常见类型FC接口（配线架）：FerruleConnector的缩写，外部加强采用金属套，紧固方式为螺丝扣，是单模网络中常见连接设备，有牢靠、防灰尘的优点，但安装时间稍长。 SC接口：外形为矩形，采用插针与耦合套筒结构，尺寸与FC型相同，插针端面多采用PC或APC性研磨方式，紧固方式为插拔销闩式，无需旋转，使用方便，被广泛应用于光猫、光纤收发器等设备。
量子密码学技术架构解析与程序员视角算法
量子计算威胁模型分析传统公钥密码体系（RSA/ECC）的安全假设基于：大数分解问题的计算复杂度（RSA）椭圆曲线离散对数问题（ECC）有限域离散对数问题（DSA）Shor算法的时间复杂度为O((logN)^3)，当量子比特数达到阈值时：2048位RSA可在8小时内破解（理论值）ECC-256的破解时间将降至多项式级别Grover算法对对称密码的影响：AES-256的有效安全性降至2^128哈希函数
在Ubuntu上安装MEAN Stack的4个步骤 ubuntu
在Ubuntu上安装MEANStack的4个步骤为：1.安装MEAN；2.安装MongoDB；3.安装NodeJS，Git和NPM；4.安装剩余的依赖项。什么是MEANStack？平均堆栈一直在很大程度上升高为基于稳健的基于JavaScript的开发堆栈。名称的意思是指其组件;MongoDB，ExpressJS，Angularjs和NodeJS。第1步：安装MEAN对于此安装，我们将在本指南中使用
在线视频创作平台（Vidnami） deepdata_cn 视频生成视频剪辑视频创作
Vidnami是一款功能强大的在线视频创作平台，前身为ContentSamurai，于2015年推出，2020年更名为Vidnami。它运用人工智能技术，能够分析输入的文本，自动从大量素材中选取合适的图像和视频片段，将文字快速转化为具有专业外观的视频，无需用户具备视频编辑经验。该平台提供多种视频模板、全主题定制功能以及内置的免版权媒体库，包括3000万张图片和3万首音乐，还支持自动配音，用户可以录
Vue.js的watch监听阿珊和她的猫 vue.js 前端 javascript
前端开发工程师、技术日更博主、已过CET6阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1牛客高级专题作者、打造专栏《前端面试必备》、《2024面试高频手撕题》、《前端求职突破计划》蓝桥云课签约作者、上架课程《Vue.js和Egg.js开发企业级健康管理项目》、《带你从入门到实战全面掌握uni-app》文章目录引言`watch`选项的基本概念`watch`选项的基本语法`watch
聊聊langchain4j的Naive RAG langchain4j
序本文主要研究一下langchain4j的NaiveRAG示例publicclassNaive_RAG_Example{/***ThisexampledemonstrateshowtoimplementanaiveRetrieval-AugmentedGeneration(RAG)application.*By"naive",wemeanthatwewon'tuseanyadvancedRAGte
如何申请内网 IP 证书 ssl证书
一、明确需求与规划在企业或特定内部网络环境中，开启申请内网IP证书流程的首要任务是明确自身需求并做好精细规划。要仔细确定内网中究竟哪些服务器、应用程序或服务亟待IP证书的加持，这可能涉及到企业内部的办公系统、数据库服务器、关键业务应用等诸多关键节点。二、选择合适的证书颁发机构（CA）完成需求规划后，紧接着便是抉择恰当的证书颁发机构。对于内网场景，有两种主流途径：一是企业自主搭建内部CA二是选用专业
黑客最恨的安全武器！开发者必知的代码签名证书终极指南 ssl证书数字证书
为什么黑客害怕代码签名证书？当用户下载未签名的软件时，系统会弹出“未知发布者”红色警告——这正是黑客的突破口。超过62%的用户会因此放弃安装，而剩下的用户可能因忽略警告而中招。代码签名证书通过加密技术为软件赋予“数字身份证”，让用户瞬间识别开发者身份，直接切断黑客伪装合法软件的传播链。这是开发者对抗黑产的终极防线。代码签名证书申请流程↓1、快速申请入口2、直接访问JoySSL官方网站，注册一个新账
为什么有免费 SSL 证书大家还用付费的 ssl证书数字证书
一、信任基石：权威与否大不同免费SSL证书通常由一些非权威的证书颁发机构提供，在浏览器地址栏中显示时，可能会出现诸如“不安全”的提示标识，容易引发用户对网站可信度的质疑。付费SSL证书多来自全球知名、广受认可的权威机构，这些大机构经过长期的行业深耕，有着严苛的审核流程，其颁发的证书能让网站瞬间提升“可信度”，用户看到熟悉且信任的锁形图标，更愿意放心地在网站上输入敏感信息，如登录密码、银行卡号等，这
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，