weixin_30553065

5-Spark高级数据分析-第五章基于K均值聚类的网络流量异常检测

据我们所知，有‘已知的已知’，有些事，我们知道我们知道；我们也知道，有 ‘已知的未知’，也就是说，有些事，我们现在知道我们不知道。但是，同样存在‘不知的不知’——有些事，我们不知道我们不知道。

上一章中分类和回归都属于监督学习。当目标值是未知时，需要使用非监督学习，非监督学习不会学习如何预测目标值。但是，它可以学习数据的结构并找出相似输入的群组，或者学习哪些输入类型可能出现，哪些类型不可能出现。

5.1 异常检测

异常检测常用于检测欺诈、网络攻击、服务器及传感设备故障。在这些应用中，我们要能够找出以前从未见过的新型异常，如新欺诈方式、新入侵方法或新服务器故障模式。

5.2 K均值聚类

聚类是最有名的非监督学习算法，K均值聚类是应用最广泛的聚类算法。它试图在数据集中找出k个簇群。在K均值算法中数据点相互距离一般采用欧氏距离。

在K均值算法中簇群其实是一个点，即组成该簇的所有点的中信。数据点其实就是由所有数值型特征组成的特征向量，简称向量。

簇群的中心称为质心，它是簇群中所有点的算术平均值，因此算法取名K均值。算法开始时选择一些数据点作为簇群的质心。然后把每个数据点分配给最近的质心。接着对每个簇计算该簇所有数据点的平均值，并将其作为该簇的新质心。然后不断重复这个过程。

5.3 网络入侵

统计对各个端口在短时间内被远程访问的次数，就可以得到一个特征，该特征可以很好地预测端口扫描攻击。检测网络入侵是要找到与以往见过的连接不通的连接。K均值可根据每个网络连接的统计属性进行聚类，结果簇定义了历史连接类型，帮我们界定了正常的连接的区域。任何在区域之外的点都是不正常的。

5.4 KDD Cup 1999数据集

KDD Cup是数据挖掘竞赛，由ACM特别兴趣小组举办。1999年主题为网络入侵。
数据下载地址：http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html
百度云：http://pan.baidu.com/s/1cFqnRS
数据集大小为108，每个连接信息包括发送的字节数、登录次数、TCP错误数等。数据集为CSV格式，每个连接占一行，包括38个特征。
我们关心的问题是找到“未知”的攻击。

5.5 初步尝试聚类

加载数据并查看有哪些类别标号及每类样本有多少：

Scala：

val rawData = sc.textFile("D:/Workspace/AnalysisWithSpark/src/main/java/advanced/chapter5/kddcup.data/kddcup.data.corrected")
rawData.map(_.split(',').last).countByValue().toSeq.sortBy(_._2).reverse.foreach(println)

Java：

 1 //初始化SparkConf
 2 SparkConf sc = new SparkConf().setMaster("local").setAppName("AnomalyDetectionInNetworkTraffic");
 3 System.setProperty("hadoop.home.dir", "D:/Tools/hadoop-2.6.4");
 4 JavaSparkContext jsc = new JavaSparkContext(sc);
 5 
 6 //读入数据
 7 JavaRDD rawData =jsc.textFile("src/main/java/advanced/chapter5/kddcup.data/kddcup.data.corrected");
 8 
 9 //查看有哪些类别标号及每类样本有多少
10 ArrayList> lineList = new ArrayList<>(rawData.map(line -> line.split(",")[line.split(",").length-1]).countByValue().entrySet());
11 Collections.sort(lineList, (m1, m2) -> m2.getValue().intValue()-m1.getValue().intValue());
12 lineList.forEach(line -> System.out.println(line.getKey() + "," + line.getValue()));

结果：
smurf.,2807886
neptune.,1072017
normal.,972781
satan.,15892
ipsweep.,12481
portsweep.,10413
nmap.,2316
back.,2203
warezclient.,1020
teardrop.,979
pod.,264
guess_passwd.,53
buffer_overflow.,30
land.,21
warezmaster.,20
imap.,12
rootkit.,10
loadmodule.,9
ftp_write.,8
multihop.,7
phf.,4
perl.,3
spy.,2

看来用Scala一行能写完的代码用Java还是比较麻烦的。

下面将CSV格式的行拆成列，删除下标从1开始的三个类别型列和最后的标号列。

Scala：

import org.apache.spark.mllib.linalg._
val labelsAndData = rawData.map { line =>
	val buffer = line.split(',').toBuffer
	buffer.remove(1, 3)
	val label = buffer.remove(buffer.length-1)
	val vector = Vectors.dense(buffer.map(_.toDouble).toArray)
	(label,vector)
}
val data = labelsAndData.values.cache()

Java：

 1 //删除下标从1开始的三个类别型列和最后的标号列
 2 JavaRDD> labelsAndData = rawData.map(line -> {
 3     String[] lineArrya = line.split(",");
 4     double[] vectorDouble = new double[lineArrya.length-4];
 5     for (int i = 0, j=0; i < lineArrya.length; i++) {
 6         if(i==1 || i==2 || i==3 || i==lineArrya.length-1) {
 7             continue;
 8         }
 9         vectorDouble[j] = Double.parseDouble(lineArrya[i]);
10         j++;
11     }
12     String label = lineArrya[lineArrya.length-1];
13     Vector vector = Vectors.dense(vectorDouble);
14     return new Tuple2(label,vector);
15 });
16 
17 RDD data = JavaRDD.toRDD(labelsAndData.map(f -> f._2));

对数据进行聚类

Scala：

import org.apache.spark.mllib.clustering._
val kmeans = new KMeans()
val model = kmeans.run(data)
model.clusterCenters.foreach(println)

Java：

1 //聚类
2 KMeans kmeans = new KMeans();
3 KMeansModel model = kmeans.run(data);
4 
5 //聚类结果
6 Arrays.asList(model.clusterCenters()).forEach(v -> System.out.println(v.toJson()));

结果：
{"type":1,"values":[48.34019491959669,1834.6215497618625,826.2031900016945,5.7161172049003456E-6,6.487793027561892E-4,7.961734678254053E-6,0.012437658596734055,3.205108575604837E-5,0.14352904910348827,0.00808830584493399,6.818511237273984E-5,3.6746467745787934E-5,0.012934960793560386,0.0011887482315762398,7.430952366370449E-5,0.0010211435092468404,0.0,4.082940860643104E-7,8.351655530445469E-4,334.9735084506668,295.26714620807076,0.17797031701994304,0.17803698940272675,0.05766489875327384,0.05772990937912762,0.7898841322627527,0.021179610609915762,0.02826081009629794,232.98107822302248,189.21428335201279,0.753713389800417,0.030710978823818437,0.6050519309247937,0.006464107887632785,0.1780911843182427,0.17788589813471198,0.05792761150001037,0.05765922142400437]}

{"type":1,"values":[10999.0,0.0,1.309937401E9,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,1.0,1.0,1.0,0.0,0.0,255.0,1.0,0.0,0.65,1.0,0.0,0.0,0.0,1.0,1.0]}

程序输出两个向量，代表K均值将数据聚类成k=2个簇。对本章的数据集，我们知道连接的类型有23个，因此程序肯定没能准确刻画出数据中的不同群组。

查看两个簇中分别包含哪些类型的样本。

Scala：

val clusterLabelCount = labelsAndData.map { case (label,datum) =>
	val cluster = model.predict(datum)
	(cluster,label)
}.countByValue
clusterLabelCount.toSeq.sorted.foreach {
	case ((cluster,label),count) =>
		println(f"$cluster%1s$label%18s$count%8s")
}

Java：

1 ArrayList, Long>> clusterLabelCount = new ArrayList, Long>>(labelsAndData.map( v -> {
2     int cluster = model.predict(v._2);
3     return new Tuple2(cluster, v._1);
4 }).countByValue().entrySet());
5 
6 Collections.sort(clusterLabelCount, (m1, m2) -> m2.getKey()._1-m1.getKey()._1);
7 clusterLabelCount.forEach(t -> System.out.println(t.getKey()._1 +"\t"+ t.getKey()._2 +"\t\t"+ t.getValue()));

结果：
1 portsweep. 1
0 portsweep. 10412
0 rootkit. 10
0 buffer_overflow. 30
0 phf. 4
0 pod. 264
0 perl. 3
0 spy. 2
0 ftp_write. 8
0 nmap. 2316
0 ipsweep. 12481
0 imap. 12
0 warezmaster. 20
0 satan. 15892
0 teardrop. 979
0 smurf. 2807886
0 neptune. 1072017
0 loadmodule. 9
0 guess_passwd. 53
0 normal. 972781
0 land. 21
0 multihop. 7
0 warezclient. 1020
0 back. 2203

结果显示聚类根本没有任何作用。簇1只有一个数据点！

5.6 K的选择

计算两点距离函数：
Scala：

def distance(a: Vector, b: Vector) =
	math.sqrt(a.toArray.zip(b.toArray).
		map(p => p._1 - p._2).map(d => d * d).sum)

Java：

1 public static double distance(Vector a, Vector b){
2     double[] aArray = a.toArray();
3     double[] bArray = b.toArray();
4     ArrayList> ab = new ArrayList>();
5     for (int i = 0; i < a.toArray().length; i++) {
6         ab.add(new Tuple2(aArray[i],bArray[i]));
7     }
8     return Math.sqrt(ab.stream().map(x -> x._1-x._2).map(d -> d*d).reduce((r,e) -> r= r+e).get());
9 }

计算数据点到簇质心距离函数：
Scala：

def distToCentroid(datum: Vector, model: KMeansModel) = {
	val cluster = model.predict(datum)
	val centroid = model.clusterCenters(cluster)
	distance(centroid, datum)
}

Java：

1 public static double distToCentroid(Vector datum, KMeansModel model) {
2     int cluster = model.predict(datum);
3      Vector[] centroid = model.clusterCenters();
4      return distance(centroid[cluster], datum);
5 }

给定k值的模型的平均质心距离函数：
Scala：

import org.apache.spark.rdd._
def clusteringScore(data: RDD[Vector], k: Int) = {
	val kmeans = new KMeans()
	kmeans.setK(k)
	val model = kmeans.run(data)
	data.map(datum => distToCentroid(datum, model)).mean()
}

Java：

1 public static double clusteringScore(JavaRDD data, int k) {
2     KMeans kmeans = new KMeans();
3     kmeans.setK(k);
4     KMeansModel model = kmeans.run(JavaRDD.toRDD(data));
5     return data.mapToDouble(datum -> distToCentroid(datum, model)).stats().mean();
6 }

对K从5到40进行评估：
Scala：

(5 to 40 by 5).map(k => (k, clusteringScore(data, k))).foreach(println)

Java：
1 List list = Arrays.asList(new Integer[]{1, 2, 3, 4, 5, 6, 7, 8}).stream().map(k -> clusteringScore(labelsAndData.map(f -> f._2), k*5)).collect(Collectors.toList()); 2 3 list.forEach(System.out::println);

要算很久，结果：
1938.8583418059206
1686.4806829850777
1440.0646239087368
1305.763038353858
964.3070891182899
878.7358671386651
571.8923560384558
745.7857049862099

5.11 聚类实战

偷懒了，中间的那些和R相关还有标准化的没有写。

取k=150，聚类结果如下：
149 normal. 4
148 warezclient. 590
148 guess_passwd. 52
148 nmap. 1472
148 portsweep. 378
148 imap. 9
148 ftp_write. 2
…..
97 warezclient. 275
96 normal. 3
95 normal. 1
94 normal. 126
93 normal. 47
92 normal. 52196
92 loadmodule. 1
92 satan. 1
92 buffer_overflow.3
92 guess_passwd. 1
91 normal. 1
90 normal. 3
89 normal. 6
88 normal. 12388
…..
16 normal. 1
15 normal. 11
14 normal. 68
13 normal. 232
12 normal. 1
11 portsweep. 1
10 portsweep. 1
9 warezclient. 59
9 normal. 1
8 normal. 1
7 normal. 1
6 portsweep. 1
5 portsweep. 1
4 portsweep. 1
3 portsweep. 2
2 portsweep. 1
1 portsweep. 1
0 smurf. 527579
0 normal. 345

作为示例，我们在原始数据上进行异常检查：
Scala：

val model = ...
val originalAndData = ...
val anomalies = originalAndData.filter { case (original, datum) =>
	val normalized = normalizeFunction(datum)
	distToCentroid(normalized, model) > threshold
}.keys

Java：

 1         KMeans kmeansF = new KMeans();
 2         kmeansF.setK(150);
 3         KMeansModel modelF = kmeansF.run(data);
 4         
 5         System.out.println("json:---------");
 6         Arrays.asList(modelF.clusterCenters()).forEach(v -> System.out.println(v.toJson()));
 7         
 8         ArrayList, Long>> clusterLabelCountF = new ArrayList, Long>>(labelsAndData.map( v -> {
 9             int cluster = modelF.predict(v._2);
10             return new Tuple2(cluster, v._1);
11         }).countByValue().entrySet());
12         
13         Collections.sort(clusterLabelCountF, (m1, m2) -> m2.getKey()._1-m1.getKey()._1);
14         clusterLabelCountF.forEach(t -> System.out.println(t.getKey()._1 +"\t"+ t.getKey()._2 +"\t\t"+ t.getValue()));
15         
16         //距离中心最远的第100个点的距离
17         JavaDoubleRDD distances = labelsAndData.map(f -> f._2).mapToDouble(datum -> distToCentroid(datum, modelF));
18         Double threshold = distances.top(100).get(99);
19         
20         JavaRDD> result = labelsAndData.filter(t -> distToCentroid(t._2, modelF) > threshold);
21         System.out.println("result:---------");
22         result.foreach(f -> System.out.println(f._2));

结果如下：
[2.0,222.0,1703110.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,73.0,255.0,1.0,0.0,0.01,0.03,0.0,0.0,0.0,0.0]
[10.0,194.0,954639.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,255.0,255.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0]
[43.0,528.0,1564759.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,94.0,10.0,0.11,0.76,0.01,0.0,0.0,0.0,0.7,0.1]
[24.0,333.0,1462897.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,2.0,2.0,1.0,0.0,0.5,0.0,0.0,0.0,0.0,0.0]
[60.0,885.0,1581712.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,30.0,8.0,0.27,0.1,0.03,0.0,0.0,0.0,0.0,0.0]
[65.0,693.0,2391949.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,75.0,16.0,0.21,0.05,0.01,0.0,0.0,0.0,0.0,0.0]
[60.0,854.0,1519233.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,113.0,34.0,0.3,0.04,0.01,0.0,0.0,0.0,0.0,0.0]
[107.0,585.0,2661605.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,171.0,47.0,0.27,0.02,0.01,0.0,0.0,0.0,0.0,0.0]
……
……

5.12 小结

可以改成StreamingKmeans，它会根据增量对簇进行更新。官方文档中也只有用Scala写的代码，如果需要找Java的话，可以参考我的另外一个项目中的代码： https://github.com/jiangpz/LearnSpark/blob/master/src/main/java/mllib/StreamingKmeansExample.java

转载于:https://www.cnblogs.com/mr-totoro/p/5803821.html

【人工智能】Spring AI Alibaba，一个面向 Java 开发者的开源框架，它旨在简化将人工智能（AI）功能集成到应用程序中的过程。本本本添哥 A -AIGC 人工智能大模型人工智能 java spring
一、SpringAIAlibaba介绍SpringAIAlibaba是一个面向Java开发者的开源框架，它旨在简化将人工智能（AI）功能集成到应用程序中的过程。该项目基于SpringAI构建，并且是阿里云通义系列模型及服务在JavaAI应用开发领域的最佳实践。SpringAIAlibaba的目标是为开发者提供一套高层次的AIAPI抽象以及与云原生基础设施的深度集成方案，从而帮助他们快速构建智能应用
SpringAI Alibaba 正式版发布！四个问题让你彻底拿捏它小付爱coding 人工智能
SpringAIAlibaba正式版发布！四个问题让你彻底拿捏它作者：XXX|发布时间：2025年4月最近，SpringAIAlibaba正式版重磅上线了！作为一个Java开发者，如果你还没听说过它，那你可能真的要掉队了。别急，今天我就用最通俗的方式带你搞懂这玩意儿到底是个啥、为啥要学它、学什么、能干啥！一、SpringAIAlibaba到底是个啥？一句话总结：SpringAIAlibaba是一个
Spring Security：认证与授权的实现原理及实践
SpringSecurity是Spring生态中强大的安全框架，用于为Java应用提供认证（Authentication）和授权（Authorization）功能。根据2024年StackOverflow开发者调查，SpringBoot是Java开发者中最流行的框架，约60%的Java开发者使用它构建微服务，而SpringSecurity是其首选安全解决方案。本文深入剖析SpringSecurit
web后端框架MyBatis 猿力觉醒 java 后端 mybatis
目录前言1.xml配置方式开发步骤2.注解方式开发步骤前言mybatis是一个优秀的基于java的持久层框架，它内部封装了jdbc，使开发者只需要关注sql语句本身，而不需要花费精力去处理加载驱动、创建连接、创建statement等繁杂的过程。mybatis通过xml或注解的方式将要执行的各种statement配置起来，并通过java对象和statement中sql的动态参数进行映射生成最终执行的
广州曼顿2P数字微断：保护电力设备的安全守护者 mdkk678 安全
在现代社会，电力设备的安全运行对各行各业至关重要。然而，电力系统中存在各种电压波动、过载和短路等问题，可能对设备造成损害。为了保护电力设备免受这些问题的影响，广州曼顿推出了2P数字微断器。本文将介绍这一创新产品的特点和优势，以及它对电力设备的保护作用。广州曼顿科技有限公司专注用户侧智慧数字电气产品研制，以及智慧电能服务大数据云平台建设。基于人工智能技术，大幅提升人触电时的生命安全保障，以及电气火灾
Python爬虫在社交平台数据挖掘中的应用：深入探索用户互动程序员威哥 python 爬虫数据挖掘
引言社交媒体已经成为全球用户互动的主要平台，每天都有大量的信息生成，用户之间的互动行为如点赞、评论、分享、转发等构成了宝贵的数据资源。如何利用这些互动数据为商业决策、用户行为分析以及产品优化提供支持，已经成为数据科学与大数据分析领域的一个重要课题。Python作为一款强大的编程语言，凭借其丰富的爬虫库和数据分析工具，已经成为挖掘社交平台数据的重要工具。在本文中，我们将通过Python爬虫技术，深入
突破性能瓶颈，几个高性能Python网络框架，高效实现网络应用
引言随着互联网和大数据时代的到来，高性能网络应用的需求日益增加。Python作为一种流行的编程语言，在高性能网络编程领域也具有广泛的应用。本文将深入探讨基于Python的几种高性能网络框架，分析它们各自的优势和适用场景，帮助开发者选择最适合自己需求的网络框架这里插播一条粉丝福利，如果你正在学习Python或者有计划学习Python，想要突破自我，对未来十分迷茫的，可以点击这里获取最新的Python
新手向:实现验证码程序 nightunderblackcat Java新手开发语言 java maven spring intellij-idea spring boot spring cloud
本文将从零开始，通过一个简单的验证码程序。即使你没有任何编程基础，也能跟着这篇文章一步步学习。第一章：Java开发环境搭建1.1安装JDK要开始Java编程，首先需要安装Java开发工具包(JDK)。JDK是Java开发的核心，包含了运行Java程序所需的工具和库。访问Oracle官网下载适合你操作系统的JDK运行安装程序，按照提示完成安装配置环境变量（这一步很重要，确保你可以在任何目录下运行Ja
C#.NET log4net 详解 c#.net
简介log4net是.NET平台上非常成熟的日志组件，源自Java世界的log4j。它功能丰富、性能高、配置灵活，是企业应用中常见的日志框架之一。核心特点支持多种输出目标（Appender）：文件、数据库、控制台、远程服务等支持多种格式化（Layout）支持按级别（Level）记录日志支持日志分类（Logger分组、命名空间隔离）配置灵活，可通过XML文件配置，也可通过代码配置支持异步日志、按文件
Java HashMap扩容=灾难？看Redis如何用渐进式方案征服亿级Key 今天你慧了码码码码码码码码码码 Redis 数据库 redis java
某电商平台在进行大促压测时，一个存储3000万用户资料的Hash表触发扩容，导致Redis实例完全阻塞12秒，所有请求超时。切换到渐进式扩容方案后，同样规模扩容仅造成0.3毫秒的请求延迟波动。这个案例揭示了哈希表扩容机制对高并发系统的致命影响。一、Redis哈希表vsJavaHashMap：架构本质差异1.底层结构对比特性Redis哈希表JavaHashMap存储结构拉链法（链表解决冲突）链表+红
#TypeScript高频面试题总结（2025版）沈大大520 typescript 前端面试
本文将分享TypeScript高频面试题的一些面试点以及相应的示列作者：沈大大更新时间：2025-03-11前言TypeScript作为JavaScript的超集，已经成为前端开发中不可或缺的技术。本文整理了最常见的TypeScript面试题，从基础到高级，帮助你全面准备技术面试。基础概念篇1.TypeScript与JavaScript的区别是什么？TypeScript是JavaScript的超集
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
百度地图迁徙大数据深度解析与实战指南
百度地图迁徙大数据深度解析与实战指南在数字化时代，人口流动数据已成为洞察社会经济活动的关键指标。百度地图依托海量位置数据和AI算法打造的"迁徙大数据"平台，为城市规划、交通管理、商业选址等领域提供了重要决策支持。本文将系统性解析百度地图迁徙大数据的查看方法、核心功能及实战应用场景，帮助读者快速掌握这一数据驱动的决策工具。一、迁徙大数据的核心价值迁徙大数据通过聚合手机用户的定位信息，构建全国范围的人
SpringBoot-19-企业云端开发实践之web开发晋级皮皮冰燃 SpringBoot spring boot 前端后端
文章目录1静态资源访问1.1static静态资源目录1.2application.properties(过滤规则)2文件上传2.1文件上传原理2.2SprintBoot文件上传功能2.3FileUploadController.java2.4配置访问上传的文件3拦截器3.1interceptor/LoginInterceptor3.2config/WebConfig4RESTful服务和Swagg
使用CocoaPods做依赖管理(淘宝源更换为HTTPS)--转自唐巧技术博客 q364385155 cocopods 依赖管理 OC iOS
CocoaPods简介每种语言发展到一个阶段，就会出现相应的依赖管理工具，例如Java语言的Maven，nodejs的npm。随着iOS开发者的增多，业界也出现了为iOS程序提供依赖管理的工具，它的名字叫做：CocoaPods。CocoaPods项目的源码在Github上管理。该项目开始于2011年8月12日，经过多年发展，现在已经成为iOS开发事实上的依赖管理标准工具。开发iOS项目不可避免地要
iOS CocoaPods（依赖管理）安装和使用教程 Andyjicw iOS 移动开发 cocoapods ios 开发教程依赖
参考资料CocoaPods简介每种语言发展到一个阶段，就会出现相应的依赖管理工具，例如Java语言的Maven，nodejs的npm。随着iOS开发者的增多，业界也出现了为iOS程序提供依赖管理的工具，它的名字叫做：CocoaPods。CocoaPods项目的源码在Github上管理。该项目开始于2011年8月12日，经过多年发展，现在已经成为iOS开发事实上的依赖管理标准工具。开发iOS项目不可
实现顶部固定与平滑滑动二级菜单的网页导航设计
本文还有配套的精品资源，点击获取简介：现代网页设计中，高效的导航菜单对用户体验至关重要。本设计涵盖固定在顶部的导航栏和二级菜单项的平滑滑动效果。通过CSS实现导航栏的固定定位，而JavaScript则负责二级菜单的平滑过渡动画。包含的文件如HTML结构、JavaScript交互逻辑、CSS样式和可能的图像资源，共同构建了这种流行的导航菜单布局。1.顶部固定、二级栏目之间相互滑动的导航菜单在现代网页
关于java项目中maven的理解
我的理解：maven是java项目的依赖管理工具，通过pom.xml文件配置要下载的依赖，settings.xml配置maven下载的镜像没有就默认在maven中央仓库下载依赖，本地仓库是存储下载好的依赖ai:1.功能定位局限Maven不只是依赖管理工具，更是项目构建管理工具。除依赖管理，还能实现编译（如mvncompile编译源码）、测试（mvntest执行单元测试）、打包（mvnpackage
java PDF模板生成并导出(文字、表格、图片)
最新word转pdf模板导出可分页带图片http://t.csdn.cn/JmWZb1：jar包com.itextpdfitext-asian5.2.0com.itextpdfitextpdf5.4.32：制作一个pdf模板创建表单–编辑域3：工具类：/***pdf模板导出**@parammap*@paramout*@throwsException*/publicstaticvoidcreatPd
Java 数据清洗 List集合去重 Dolphin_Home 生产环境_场景抽象私有_案例分析代码规范 java list python
Java数据清洗List集合去重Java8列表去重实用指南（多属性去重）方法1：最优性能方案（自定义循环+Key包装器）importjava.util.*;publicclassDistinctUtil{//高性能去重工具（预分配内存/避免装箱）publicstaticListdistinctByKeys(Listlist,FunctionkeyExtractor){//预分配足够空间防止扩容Se
Jackson JSR310 日期反序列化问题解决方案 Dolphin_Home 生产环境_场景抽象代码规范 Spring Boot python 开发语言
JacksonJSR310日期反序列化问题解决方案一、问题背景在SpringBoot微服务项目中，使用Java8时间API（如LocalDateTime）配合Jackson处理JSON序列化时，升级Jackson从2.12到2.15后，出现以下反序列化异常：com.fasterxml.jackson.datatype.jsr310.deser.JSR310DateTimeDeserializerB
Java通用实体验证框架：从业务需求到可复用代码的完整实现
Java通用实体验证框架：从业务需求到可复用代码的完整实现一、业务需求：为什么需要验证框架？场景：处理订单配送费数据时，需确保列表中所有记录的以下字段一致：付款公司ID（payId）币种ID（currencyId）银行账号（bankNum，需去空格后验证）银行名称（bankName）传统实现问题：//硬编码验证（重复且难以维护）Listlist=...;if(list.isEmpty())thro
Java 导出pdf 写出demo 1、需要设置自定义页眉和文字 2、可以插入表格 3、可以插入图片赵八斤 java
以下是一个使用iText7库实现PDF导出的Java示例，包含自定义页眉、文字、表格和图片功能：添加Maven依赖com.itextpdfitext7-core7.2.5com.itextpdflayout7.2.5Java示例代码importcom.itextpdf.io.image.ImageDataFactory;importcom.itextpdf.kernel.colors.ColorC
爬虫-正则表达式打酱油的； python自动化+爬虫爬虫 python
在线正则表达式测试OSCHINA.NET在线工具,ostools为开发设计人员提供在线工具，提供jsbin在线CSS、JS调试，在线JavaAPI文档,在线PHPAPI文档,在线Node.jsAPI文档,LessCSS编译器，MarkDown编译器等其他在线工具https://tool.oschina.net/regex/
Vue 2 和 Vue 3 区别哈哈123453 vue.js 前端 javascript html
1.响应式系统原理Vue2：利用Object.defineProperty()实现属性拦截。存在局限性，无法自动监测对象属性增减，需用Vue.set/delete；数组变异方法要重写；深层对象递归转换性能差。Vue3：采用ES6Proxy代理对象，能直接拦截属性访问修改。无需特殊API就能监测属性变化；数组操作拦截更自然；深层响应式惰性处理，提升性能。javascript//Vue3响应式创建im
【JAVA】Spring MVC 详解弗瑞德学JAVA JAVA复习 java spring mvc
SpringMVC基本概念1.SpringMVC概述SpringMVC是Spring框架中的一个模块，专注于为Web应用程序提供Model-View-Controller(MVC)架构。它帮助开发者构建可扩展、可维护的Web应用，并且能够轻松集成到Spring生态系统中。2.DispatcherServletDispatcherServlet是SpringMVC的核心组件，负责接收HTTP请求，并
领域驱动设计核心解析
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
DDD实践精髓：战略与战术 Java廖志伟 Java场景面试宝典 DDD Software Architecture Business Logic
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
ShardingSphere核心技术揭秘 Java廖志伟 Java场景面试宝典 Database Sharding Distributed Systems Performance Scaling
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
初学者之Redis 美好的事情能不能发生在我身上 redis 数据库缓存 java 后端 spring spring boot
文章目录前言一、什么是Redis二、Redis基本类型三、通用命令四、基础命令1.String类型2.List类型3.Set类型4.Hash类型5.Zset有序集合类型五、在Java中的运用1.配置信息2.配置类3.操作String类型4.操作Hash类型5.操作List类型6.操作Set类型7.操作ZSet类型六、修改营业状态的实例总结前言第一次学习Redis，最后的目标是在idea中连接red
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在

5-Spark高级数据分析-第五章 基于K均值聚类的网络流量异常检测

5.1 异常检测

5.2 K均值聚类

5.3 网络入侵

5.4 KDD Cup 1999数据集

5.5 初步尝试聚类

5.6 K的选择

5.11 聚类实战

5.12 小结

你可能感兴趣的:(scala,大数据,java)

5-Spark高级数据分析-第五章基于K均值聚类的网络流量异常检测