Eastmount

[当人工智能遇上安全] 8.基于API序列和机器学习的恶意家族分类实例详解

您或许知道，作者后续分享网络安全的文章会越来越少。但如果您想学习人工智能和安全结合的应用，您就有福利了，作者将重新打造一个《当人工智能遇上安全》系列博客，详细介绍人工智能与安全相关的论文、实践，并分享各种案例，涉及恶意代码检测、恶意请求识别、入侵检测、对抗样本等等。只想更好地帮助初学者，更加成体系的分享新知识。该系列文章会更加聚焦，更加学术，更加深入，也是作者的慢慢成长史。换专业确实挺难的，系统安全也是块硬骨头，但我也试试，看看自己未来四年究竟能将它学到什么程度，漫漫长征路，偏向虎山行。享受过程，一起加油~

前一篇文章介绍安全相关的数据集供大家下载和实验，包括恶意URL、流量分析、域名检测、恶意软件、图像分类、垃圾邮件等。这篇文章将讲解如何学习提取的API序列特征，并构建机器学习算法实现恶意家族分类，这也是安全领域典型的任务或工作。基础性文章，希望对您有所帮助~

文章目录

一.恶意软件分析
- 1.静态特征
- 2.动态特征
二.基于逻辑回归的恶意家族检测
- 1.数据集
- 2.模型构建
三.基于SVM的恶意家族检测
- 1.SVM模型
- 2.代码实现
四.基于随机森林的恶意家族检测
五.总结

作者作为网络安全的小白，分享一些自学基础教程给大家，主要是在线笔记，希望您们喜欢。同时，更希望您能与我一起操作和进步，后续将深入学习AI安全和系统安全知识并分享相关实验。总之，希望该系列文章对博友有所帮助，写文不易，大神们不喜勿喷，谢谢！如果文章对您有帮助，将是我创作的最大动力，点赞、评论、私聊均可，一起加油喔！

前文推荐：

[当人工智能遇上安全] 1.人工智能真的安全吗？浙大团队外滩大会分享AI对抗样本技术
[当人工智能遇上安全] 2.清华张超老师 - GreyOne: Discover Vulnerabilities with Data Flow Sensitive Fuzzing
[当人工智能遇上安全] 3.安全领域中的机器学习及机器学习恶意请求识别案例分享
[当人工智能遇上安全] 4.基于机器学习的恶意代码检测技术详解
[当人工智能遇上安全] 5.基于机器学习算法的主机恶意代码识别研究
[当人工智能遇上安全] 6.基于机器学习的入侵检测和攻击识别——以KDD CUP99数据集为例
[当人工智能遇上安全] 7.基于机器学习的安全数据集总结
[当人工智能遇上安全] 8.基于API序列和机器学习的恶意家族分类实例详解

作者的github资源：

https://github.com/eastmountyxz/AI-Security-Paper

一.恶意软件分析

恶意软件或恶意代码分析通常包括静态分析和动态分析。特征种类如果按照恶意代码是否在用户环境或仿真环境中运行，可以划分为静态特征和动态特征。

那么，如何提取恶意软件的静态特征或动态特征呢？ 因此，第一部分将简要介绍静态特征和动态特征。

1.静态特征

没有真实运行的特征，通常包括：

字节码：二进制代码转换成了字节码，比较原始的一种特征，没有进行任何处理
IAT表：PE结构中比较重要的部分，声明了一些函数及所在位置，便于程序执行时导入，表和功能比较相关
Android权限表：如果你的APP声明了一些功能用不到的权限，可能存在恶意目的，如手机信息
可打印字符：将二进制代码转换为ASCII码，进行相关统计
IDA反汇编跳转块：IDA工具调试时的跳转块，对其进行处理作为序列数据或图数据
常用API函数
恶意软件图像化

静态特征提取方式：

CAPA
– https://github.com/mandiant/capa
IDA Pro
安全厂商沙箱

2.动态特征

相当于静态特征更耗时，它要真正去执行代码。通常包括：
– API调用关系：比较明显的特征，调用了哪些API，表述对应的功能
– 控制流图：软件工程中比较常用，机器学习将其表示成向量，从而进行分类
– 数据流图：软件工程中比较常用，机器学习将其表示成向量，从而进行分类

动态特征提取方式：

Cuckoo
– https://github.com/cuckoosandbox/cuckoo
CAPE
– https://github.com/kevoreilly/CAPEv2
– https://capev2.readthedocs.io/en/latest/
安全厂商沙箱

二.基于逻辑回归的恶意家族检测

前面的系列文章详细介绍如何提取恶意软件的静态和动态特征，包括API序列。接下来将构建机器学习模型学习API序列实现分类。基本流程如下：

1.数据集

整个数据集包括5类恶意家族的样本，每个样本经过先前的CAPE工具成功提取的动态API序列。数据集分布情况如下所示：（建议读者提取自己数据集的样本，包括BIG2015、BODMAS等）

恶意家族	类别	数量	训练集	测试集
AAAA	class1	352	242	110
BBBB	class2	335	235	100
CCCC	class3	363	243	120
DDDD	class4	293	163	130
EEEE	class5	548	358	190

数据集分为训练集和测试集，如下图所示：

数据集中主要包括四个字段，即序号、恶意家族类别、Md5值、API序列或特征。

需要注意，在特征提取过程中涉及大量数据预处理和清洗的工作，读者需要结合实际需求完成。比如提取特征为空值的过滤代码。

#coding:utf-8
#By:Eastmount CSDN 2023-05-31
import csv
import re
import os

csv.field_size_limit(500 * 1024 * 1024)
filename = "AAAA_result.csv"
writename = "AAAA_result_final.csv"
fw = open(writename, mode="w", newline="")
writer = csv.writer(fw)
writer.writerow(['no', 'type', 'md5', 'api'])
with open(filename,encoding='utf-8') as fr:
    reader = csv.reader(fr)
    no = 1
    for row in reader: #['no','type','md5','api']
        tt = row[1]
        md5 = row[2]
        api = row[3]
        #print(no,tt,md5,api)
        #api空值的过滤
        if api=="" or api=="api":
            continue
        else:
            writer.writerow([str(no),tt,md5,api])
            no += 1
fr.close()

2.模型构建

由于机器学习算法比较简单，这里仅给出关键代码。此外，常用特征表征包括TF-IDF和Word2Vec，这里采用TF-IDF计算特征向量，读者可以尝试Word2Vec，最终实现家族分类并取得0.6215的Acc值。

# -*- coding: utf-8 -*-
# By:Eastmount CSDN 2023-06-01
import os
import csv
import time
import numpy as np
import seaborn as sns
from sklearn import metrics
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.model_selection import train_test_split
from sklearn.decomposition import PCA
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report

start = time.clock()
csv.field_size_limit(500 * 1024 * 1024)

#---------------------------第一步 加载数据集------------------------
#训练集
file = "train_dataset.csv"
label_train = []
content_train = []
with open(file, "r") as csv_file:
    csv_reader = csv.reader(csv_file)
    header = next(csv_reader)
    for row in csv_reader:
        label_train.append(row[1])
        value = str(row[3])
        content_train.append(value)
print(label_train[:2])
print(content_train[:2])

#测试集
file = "test_dataset.csv"
label_test = []
content_test = []
with open(file, "r") as csv_file:
    csv_reader = csv.reader(csv_file)
    header = next(csv_reader)
    for row in csv_reader:
        label_test.append(row[1])
        value = str(row[3])
        content_test.append(value)
print(len(label_train),len(label_test))
print(len(content_train),len(content_test)) #1241 650

#---------------------------第二步 向量转换------------------------
contents = content_train + content_test
labels = label_train + label_test

#计算词频 min_df max_df
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(contents)
words = vectorizer.get_feature_names()
print(words[:10])
print("特征词数量:",len(words))

#计算TF-IDF
transformer = TfidfTransformer()
tfidf = transformer.fit_transform(X)
weights = tfidf.toarray()

#---------------------------第三步 编码转换------------------------
le = LabelEncoder()
y = le.fit_transform(labels)
X_train, X_test = weights[:1241], weights[1241:]
y_train, y_test = y[:1241], y[1241:]

#---------------------------第四步 分类检测------------------------
clf = LogisticRegression(solver='liblinear')
clf.fit(X_train, y_train)
pre = clf.predict(X_test)
print(clf)
print(classification_report(y_test, pre, digits=4))
print("accuracy:")
print(metrics.accuracy_score(y_test, pre))

#计算时间
elapsed = (time.clock() - start)
print("Time used:", elapsed)

输出结果如下图所示：

1241 650
1241 650
['__anomaly__', 'accept', 'bind', 'changewindowmessagefilter', 'closesocket', 'clsidfromprogid', 'cocreateinstance', 'cocreateinstanceex', 'cogetclassobject', 'colescript_parsescripttext']
特征词数量: 269
LogisticRegression(solver='liblinear')
              precision    recall  f1-score   support

           0     0.5398    0.5545    0.5471       110
           1     0.6526    0.6200    0.6359       100
           2     0.6596    0.5167    0.5794       120
           3     0.8235    0.5385    0.6512       130
           4     0.5665    0.7842    0.6578       190

    accuracy                         0.6215       650
   macro avg     0.6484    0.6028    0.6143       650
weighted avg     0.6438    0.6215    0.6199       650

accuracy:
0.6215384615384615
Time used: 2.2597622

三.基于SVM的恶意家族检测

1.SVM模型

SVM分类算法的核心思想是通过建立某种核函数，将数据在高维寻找一个满足分类要求的超平面，使训练集中的点距离分类面尽可能的远，即寻找一个分类面使得其两侧的空白区域最大。如图19.16所示，两类样本中离分类面最近的点且平行于最优分类面的超平面上的训练样本就叫做支持向量。

SVM分类算法在Sklearn机器学习包中，实现的类是 svm.SVC，即C-Support Vector Classification，它是基于libsvm实现的。构造方法如下：

SVC(C=1.0, 
	cache_size=200, 
	class_weight=None, 
	coef0=0.0,
	decision_function_shape=None, 
	degree=3, 
	gamma='auto', 
	kernel='rbf',
	max_iter=-1, 
	probability=False, 
	random_state=None, 
	shrinking=True,
	tol=0.001, 
	verbose=False)

SVC算法主要包括两个步骤：

训练：nbrs.fit(data, target)
预测：pre = clf.predict(data)

2.代码实现

下面仅给出SVM实现恶意家族分类的关键代码，该算法也是各类安全任务中的常用模型。需要注意，这里将预测结果保存至文件中，在真实实验中，建议大家多将实验过程数据保存，从而能更好地比较各种性能，体现论文的贡献。

# -*- coding: utf-8 -*-
# By:Eastmount CSDN 2023-06-01
import os
import csv
import time
import numpy as np
import seaborn as sns
from sklearn import svm
from sklearn import metrics
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.model_selection import train_test_split
from sklearn.decomposition import PCA
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report

start = time.clock()
csv.field_size_limit(500 * 1024 * 1024)

#---------------------------第一步 加载数据集------------------------
#训练集
file = "train_dataset.csv"
label_train = []
content_train = []
with open(file, "r") as csv_file:
    csv_reader = csv.reader(csv_file)
    header = next(csv_reader)
    for row in csv_reader:
        label_train.append(row[1])
        value = str(row[3])
        content_train.append(value)
print(label_train[:2])
print(content_train[:2])

#测试集
file = "test_dataset.csv"
label_test = []
content_test = []
with open(file, "r") as csv_file:
    csv_reader = csv.reader(csv_file)
    header = next(csv_reader)
    for row in csv_reader:
        label_test.append(row[1])
        value = str(row[3])
        content_test.append(value)
print(len(label_train),len(label_test))
print(len(content_train),len(content_test)) #1241 650

#---------------------------第二步 向量转换------------------------
contents = content_train + content_test
labels = label_train + label_test

#计算词频 min_df max_df
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(contents)
words = vectorizer.get_feature_names()
print(words[:10])
print("特征词数量:",len(words))

#计算TF-IDF
transformer = TfidfTransformer()
tfidf = transformer.fit_transform(X)
weights = tfidf.toarray()

#---------------------------第三步 编码转换------------------------
le = LabelEncoder()
y = le.fit_transform(labels)
X_train, X_test = weights[:1241], weights[1241:]
y_train, y_test = y[:1241], y[1241:]

#---------------------------第四步 分类检测------------------------
clf = svm.LinearSVC()
clf.fit(X_train, y_train)
pre = clf.predict(X_test)
print(clf)
print(classification_report(y_test, pre, digits=4))
print("accuracy:")
print(metrics.accuracy_score(y_test, pre))

#结果存储
f1 = open("svm_test_pre.txt", "w")
for n in pre:
    f1.write(str(n) + "\n")
f1.close()

f2 = open("svm_test_y.txt", "w")
for n in y_test:
    f2.write(str(n) + "\n")
f2.close()

#计算时间
elapsed = (time.clock() - start)
print("Time used:", elapsed)

实验结果如下图所示：

1241 650
1241 650

['__anomaly__', 'accept', 'bind', 'changewindowmessagefilter', 'closesocket', 'clsidfromprogid', 'cocreateinstance', 'cocreateinstanceex', 'cogetclassobject', 'colescript_parsescripttext']
特征词数量: 269
LinearSVC()
              precision    recall  f1-score   support

           0     0.6439    0.7727    0.7025       110
           1     0.8780    0.7200    0.7912       100
           2     0.7315    0.6583    0.6930       120
           3     0.9091    0.6154    0.7339       130
           4     0.6583    0.8316    0.7349       190

    accuracy                         0.7292       650
   macro avg     0.7642    0.7196    0.7311       650
weighted avg     0.7534    0.7292    0.7301       650

accuracy:
0.7292307692307692
Time used: 2.2672032

四.基于随机森林的恶意家族检测

该部分关键代码如下，并且补充可视化分析代码。

# -*- coding: utf-8 -*-
# By:Eastmount CSDN 2023-06-01
import os
import csv
import time
import numpy as np
import seaborn as sns
from sklearn import svm
from sklearn import metrics
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.model_selection import train_test_split
from sklearn.decomposition import PCA
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap

start = time.clock()
csv.field_size_limit(500 * 1024 * 1024)

#---------------------------第一步 加载数据集------------------------
#训练集
file = "train_dataset.csv"
label_train = []
content_train = []
with open(file, "r") as csv_file:
    csv_reader = csv.reader(csv_file)
    header = next(csv_reader)
    for row in csv_reader:
        label_train.append(row[1])
        value = str(row[3])
        content_train.append(value)
print(label_train[:2])
print(content_train[:2])

#测试集
file = "test_dataset.csv"
label_test = []
content_test = []
with open(file, "r") as csv_file:
    csv_reader = csv.reader(csv_file)
    header = next(csv_reader)
    for row in csv_reader:
        label_test.append(row[1])
        value = str(row[3])
        content_test.append(value)
print(len(label_train),len(label_test))
print(len(content_train),len(content_test)) #1241 650

#---------------------------第二步 向量转换------------------------
contents = content_train + content_test
labels = label_train + label_test

#计算词频 min_df max_df
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(contents)
words = vectorizer.get_feature_names()
print(words[:10])
print("特征词数量:",len(words))

#计算TF-IDF
transformer = TfidfTransformer()
tfidf = transformer.fit_transform(X)
weights = tfidf.toarray()

#---------------------------第三步 编码转换------------------------
le = LabelEncoder()
y = le.fit_transform(labels)
X_train, X_test = weights[:1241], weights[1241:]
y_train, y_test = y[:1241], y[1241:]

#---------------------------第四步 分类检测------------------------
clf = RandomForestClassifier(n_estimators=5)
clf.fit(X_train, y_train)
pre = clf.predict(X_test)
print(clf)
print(classification_report(y_test, pre, digits=4))
print("accuracy:")
print(metrics.accuracy_score(y_test, pre))

#结果存储
f1 = open("rf_test_pre.txt", "w")
for n in pre:
    f1.write(str(n) + "\n")
f1.close()

f2 = open("rf_test_y.txt", "w")
for n in y_test:
    f2.write(str(n) + "\n")
f2.close()

#计算时间
elapsed = (time.clock() - start)
print("Time used:", elapsed)

#---------------------------第五步 可视化分析------------------------
#降维
pca = PCA(n_components=2)
pca = pca.fit(X_test)
xx = pca.transform(X_test)

#画图
plt.figure()
plt.scatter(xx[:,0],xx[:,1],c=y_test, s=50)
plt.title("Malware Family Detection")
plt.show()

输出结果如下所示，效果达到了0.8092，感觉还不错。

1241 650
1241 650
['__anomaly__', 'accept', 'bind', 'changewindowmessagefilter', 'closesocket', 'clsidfromprogid', 'cocreateinstance', 'cocreateinstanceex', 'cogetclassobject', 'colescript_parsescripttext']
特征词数量: 269
RandomForestClassifier(n_estimators=5)
              precision    recall  f1-score   support

           0     0.7185    0.8818    0.7918       110
           1     0.9000    0.8100    0.8526       100
           2     0.7963    0.7167    0.7544       120
           3     0.9444    0.7846    0.8571       130
           4     0.7656    0.8421    0.8020       190

    accuracy                         0.8092       650
   macro avg     0.8250    0.8070    0.8116       650
weighted avg     0.8197    0.8092    0.8103       650

accuracy:
0.8092307692307692
Time used: 2.1914324

同时，五类恶意家族进行可视化分析。然而，整个效果一般，需要进一步优化代码和维度来区分数据集，或者三维散点图，请读者自行思考。

五.总结

写到这里这篇文章就结束，希望对您有所帮助。忙碌的五月，真的很忙，项目本子论文毕业，等忙完后好好写几篇安全博客，感谢支持和陪伴，尤其是家人的鼓励和支持，继续加油！

一.恶意软件分析
1.静态特征
2.动态特征
二.基于逻辑回归的恶意家族检测
1.数据集
2.模型构建
三.基于SVM的恶意家族检测
1.SVM模型
2.代码实现
四.基于随机森林的恶意家族检测
五.总结

作者提问如下，欢迎大家补充：

恶意软件或二进制常见的特征包括哪些？各自有哪些优缺点。
恶意软件转灰度图是常见的家族分类方法，它与本文提出的方法的优缺点是什么？
如何提取恶意软件CFG和ICFG呢？提取后又如何被机器学习模型学习？
常见的向量表征方法有哪些，各自有哪些特点？您能否实现Word2Vec的代码呢？
机器学习和深度学习的联系及区别是什么？如果构建深度学习模型学习API序列，其恶意家族检测效果如何？
恶意软件家族分类或恶意代码检测发展到如今现状如何？工业界和学术界各种有哪些特点及局限，如何更好地关联来促进领域发展？
二进制方向是否还有更好的创新或突破性方法？其鲁棒性、语义增强、可解释性如何提升。
如何实现未知家族的恶意软件检测，又如何实现高威胁恶意软件的溯源呢？
恶意软件检测如何更好地和底层硬件及编译器融合？以及如何对抗变种、混淆及对抗。
恶意软件检测能通过chatGPT技术快速生成变种吗？又如何对抗该技术的发展。

人生路是一个个十字路口，一次次博弈，一次次纠结和得失组成。得失得失，有得有失，不同的选择，不一样的精彩。虽然累和忙，但看到小珞珞还是挺满足的，感谢家人的陪伴。
小珞：爸爸，你下班回来了啊
我：你今天和婆婆去超市哭了吗？
小珞：是的，我想自己拿小发糕
我：听说被老爷爷老奶奶笑了啊，以后…
小珞：他们笑有什么用嘛！

是啊，哈哈，有什么用嘛小珞珞长大了，小可爱长成了小调皮。最近舍不得打车，改公交和共享摩托，但又寄托于买彩票，我们的500万话说，17年我咋不跟着女神在我们小区买套房呢？到今年感觉能赚近100万，够我在贵州教十年书。都是博弈，都是选择，都是酸甜，望小珞能开心健康成长，爱你们喔，继续干活，加油

(By:Eastmount 2023-09-06 夜于贵阳 http://blog.csdn.net/eastmount/ )

小波变换系数计算实例_时间序列小波分析的操作步骤及实例分析与何人说小波变换系数计算实例
小波分析实例时间序列(TimeSeries)是地学研究中经常遇到的问题。在时间序列研究中，时域和频域是常用的两种基本形式。其中，时域分析具有时间定位能力，但无法得到关于时间序列变化的更多信息；频域分析(如Fourier变换)虽具有准确的频率定位功能，但仅适合平稳时间序列分析。河川径流是地理水文学研究中的一个重要变量，而多时间尺度是径流演化过程中存在的重要特征。所谓径流时间序列的多时间尺度是指：河川
【go语言规范】关于接口设计还没入门的大菜狗 golang python java
抽象应该被发现，而不是被创造。为了避免不必要的复杂性，需要时才创建接口，而不是预见到需要它，或者至少可以证明这种抽象是有价值的。“Thebiggertheinterface,theweakertheabstraction.不要用接口进行设计，要发现他们——robpike作为一个常用java的程序员，在创建具体类型之前创建接口是很自然的，但是go不应该这样工作。创建接口是为了创建抽象。当编程时遇到抽
【etcd】ubuntu22安装，与redis对比的区别 {⌐■_■} etcd redis chrome 服务器数据库 golang 缓存
安装方法1：通过apt安装（简单，但版本可能较旧）步骤更新软件包列表：sudoaptupdate安装etcd：sudoaptinstalletcd启动etcd服务：sudosystemctlstartetcd验证安装：etcdctlversion如果输出类似以下内容，表示安装成功：etcdctlversion:3.4.20APIversion:3.4设置开机自启（可选）：sudosystemctl
vue3 reactive丢失响应式想不到耶 vue3 前端 vue.js
问题使用reactive构造响应式对象时，当对其进行重新赋值后，会导致原有变量失去响应式，页面不会发生联动更新例如：1、使用reactive定义一个响应式的对象变量letdata1=reactive({name:'小李',date:'2024-03-18',address:'xx地址'})2、将属性渲染到页面上点击更新{{data1.name}}constchange=()=>{letdata2=
LINUX系统优化敖光 SRE linux 运维服务器
LINUX系统优化企业生产场景中Linux系统的分区方案及内核企业生产场景中Linux系统的分区方案常规的分区方案如下：方案1：针对网站集群架构中的某个节点服务器分区，该服务器上的数据有多份（其他节点也有）且数据不太重要，建议的分区方案如下。/boot：设置为100~200MB。swap：物理内存的1.5倍，当内存大于或等于8GB时，配置为8~16GB即可。/：剩余硬盘空间大小（/usr、/hom
Java垃圾回收机制 karte Java垃圾回收机制 Java垃圾回收机制
Java垃圾回收机制说到垃圾回收（GarbageCollection，GC），很多人就会自然而然地把它和Java联系起来。在Java中，程序员不需要去关心内存动态分配和垃圾回收的问题，这一切都交给了JVM来处理。顾名思义，垃圾回收就是释放垃圾占用的空间，那么在Java中，什么样的对象会被认定为“垃圾”？那么当一些对象被确定为垃圾之后，采用什么样的策略来进行回收（释放空间）？在目前的商业虚拟机中，有
.NET-随机数Random（.NET 8） code-Study C#.NET c#.net 开发语言
一、线程安全的RandomRandomrandom=Random.Shared;二、从数组中随机获取几个值int[]ints=newint[]{1,2,3,4,5};Randomrandom=Random.Shared;varresults=random.GetItems(ints,2);foreach(variteminresults){Console.WriteLine(item);}三、乱序
机器学习：k均值 golemon. ML 机器学习均值算法人工智能
所有代码和文档均在golitter/Decoding-ML-Top10:使用Python优雅地实现机器学习十大经典算法。(github.com)，欢迎查看。在“无监督学习”中，训练样本的标记信息是未知的，目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律，为进一步的数据分析提供基础，较为经典的是聚类。**聚类试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个“簇”。**聚
关于go-context包敖光 SRE go基础知识 golang 数据库开发语言
思维导图目的为了在不同的goroutine之间或跨API边界传递超时、取消信号和其他请求范围内的值（与该请求相关的值。这些值可能包括用户身份信息、请求处理日志、跟踪信息等等）。常用场景数据操作网络请求RPC操作context接口context包在提供了一个用于跨API边界传递超时、取消信号和其他请求范围值的通用数据结构。用于在多个Goroutine和函数之间传递请求范围内的信息。核心方法：Dead
大模型产品Deepseek（三）、API 调用指南伯牙碎琴大模型 Deepseek AI 大模型
DeepSeekAPI调用指南DeepSeek作为一款高效的智能搜索与推荐引擎，为开发者提供了简洁易用的API接口，使得将其集成到各种应用场景中变得更加高效和便捷。在这一章节中，我们将详细介绍如何通过API调用DeepSeek，包括如何进行身份验证、如何提交请求、如何解析响应以及如何通过代码实现基本的搜索与推荐功能。1.DeepSeekAPI概述DeepSeek作为一款高效的智能搜索与推荐引擎，通
unity中的双击按钮检测和长按按钮的检测头号理想游戏效果 unity
之前我写过关于UGUI的接口的几篇博客地址1地址2之后今天使用上边的知识来实现一下按钮的双击和按钮长按的检测其实我们的思路就是每次按下检测按下时间如果长按时间超过某一特定的值那么我们判定长按至于双击的检测我们是当第一次按下之后抬起开始计时在特定值之前我们如果检测到按下第二次我们判定双击按钮usingUnityEngine;usingUnityEngine.Events;usingUnityEngi
selenium 控制内嵌table滚动条的方法 qq_492448446 Web自动化 selenium 测试工具
selenium控制内嵌table滚动条的方法我们经常会遇到selenium无法捕获到对应元素的问题，其中有一个原因是由于页面中存在滚动条，而需要操作的元素需要滑动滚动条后才能捕获到。之前有使用过如下方式：document.getElementById('id').scrollTop=10000但是当出现需要操作内嵌table的滚动条时，这种方式就不可用了。正确的操作方式如下，遇到这种情况时，需要
【Spring：Caused by java.lang.ClassNotFoundException 】 m0_74823490 面试学习路线阿里巴巴 java spring tomcat
Spring：Causedby:java.lang.ClassNotFoundException:org.springframework.dao.support.DaoSupportSpring中使用Mybatis连接数据库时可能会出现以上错误，但是当出现以上错误时说明你在applicationContext.xml文件中所做的相关操作：spring整合myBATis后控制的创建连接用的对象加载M
Node.js 调用 DeepSeek API 完整指南 m0_74823490 面试学习路线阿里巴巴 node.js
简介本文将介绍如何使用Node.js调用DeepSeekAPI，实现流式对话并保存对话记录。Node.js版本使用现代异步编程方式实现，支持流式处理和错误处理。1.环境准备1.1系统要求Node.js14.0或更高版本npm包管理器1.2项目结构deepseek-project/├──main.js#主程序├──package.json#项目配置文件└──conversation.txt#对话记录
关于鼠标右击菜单，出现很慢的问题墨雪夜789 计算机外设 windows
鼠标右击菜单出现的很慢，多半是右键集成的驱动太多。简单方便的解决办法：用火绒安全，安全工具中有个右键管理右键管理中有桌面管理，将桌面管理中与显卡有关的关掉，就可以了。
Ubuntu 系统 LVM 逻辑卷扩容教程运维linuxubuntu
Ubuntu系统LVM逻辑卷扩容教程前言在Linux系统中，LVM（LogicalVolumeManager）是一种逻辑卷管理工具，允许管理员动态调整磁盘空间，而无需重启系统。本文将详细介绍如何使用LVM扩容逻辑卷，以实现灵活的磁盘管理。准备工作备份重要数据任何磁盘操作都有风险，建议提前备份关键数据。确认当前磁盘状态确保已扩展物理磁盘或添加了新磁盘（虚拟机需扩展虚拟磁盘后重启系统）。步骤1：检查当
[Acwing] 双指针 2816. 判断子序列 *DDL_GzmBlog #双指针
目录前言思路code:错误的思路前言基础不打牢今朝见鬼神(我是牛马呜呜呜)思路通过i指针循环一遍b数组然后通过j(j=1)遍历a数组当且仅当(jusingnamespacestd;constintN=1e5+10;inta[N],b[N],n,m;voidsolve(){cin>>n>>m;for(inti=1;i>a[i];for(inti=1;i>b[i];intj=1;for(inti=1;
【动态路由】系统Web URL资源整合系列（后端技术实现）【apisix实现】飞火流星02027 URL整合 apisix反向代理 apisix网关 apisix实现web资源整合系统URL资源整合 apisix基于请求参数的路由 apisix基于请求头的路由 APISIXDashboard
需求说明软件功能需求：反向代理功能（描述：apollo、eureka控、apisix、sentinel、普米、kibana、timetask、grafana、hbase、skywalking-ui、pinpoint、cmak界面、kafka-map、nacos、gateway、elasticsearch、oa-portal业务应用等多个web资源等只能通过有限个代理地址访问），不考虑SSO。软件质
最新2024.5.7版威盾IP-guard V4.84全向文档加密桌面安全管理系统8000用户破解 heike_沧海 tcp/ip 安全网络协议系统安全数据库前端 web安全
最新2024.5.7版威盾IP-guardV4.84全向文档加密桌面安全管理系统8000用户破解,可注册用户数V4.84.112（New）功能改进:日志查询的时间范围增加了时分秒的设置远程维护进程信息增加了进程树和加载模块等信息客户端增加了扫描企业微信、钉钉二维码登录验证增加了管控企业微信登录的组织的功能涉敏信息全盘扫描任务增加了备份副本的功能涉敏信息外传策略中增加了应用程序条件增加了复制到剪切板
Java程序性能优化读书笔记（一）：Java性能调优概述 anxunnian1498 java 数据库操作系统
程序性能的主要表现点：执行速度：程序的反映是否迅速，响应时间是否足够短内存分配：内存分配是否合理，是否过多地消耗内存或者存在内存泄漏启动时间：程序从运行到可以正常处理业务需要花费多少时间负载承受能力：当系统压力上升时，系统的执行速度、响应时间的上升曲线是否平缓衡量程序性能的主要指标：执行时间：程序从运行到结束所使用的时间CPU时间：函数或者线程占用CPU的时间内存分配：程序在运行时占用内容的空间磁
双指针算法 AcWing 2816. 判断子序列飞滕人生TYF 算法算法 c++数据结构
双指针算法AcWing2816.判断子序列原题链接AcWing2816.判断子序列算法标签双指针思路子序列指序列的一部分项按原有次序排列而得的序列。在枚举序列a时，若匹配上，即a[i]==b[j]，需使i,j后移，若尚未匹配上，需使j后移。所以j满足单调性，可使用双指针算法代码#include#defineintlonglong#definerep(i,a,b)for(inti=a;ib;--i)
基于vue3实现的课堂点名程序 zhouzhurong vue.js javascript elementui
设计思路采用vue3实现的课堂点名程序，模拟课堂座位布局，点击开始点名按钮后，一朵鲜花在座位间传递，直到点击结束点名按钮，鲜花停留的座位被点名。课堂点名座位组件seat.vue//组合式APIimport{ref,reactive,onMounted}from'vue';constseatImage=ref('/src/assets/desk.jpg')constprops=defineProps
【练习】洛谷 B2047 分段函数柠石榴输入输出洛谷题解算法 c++开发语言
题目编写程序，计算下列分段函数y=f(x)y=f(x)y=f(x)的值。当0≤x=0&&x#includeusingnamespacestd;intmain(){doublex,y;cin>>x;if(x>=0&&x=5&&x=10&&x<20)y=x/2-1.5;printf("%.3lf",y);return0;}
信息安全之网络安全黑客Jack web安全安全
网络安全技术是一类包含内容极其广泛的技术，广义上说任何检测、防御和抵制网络攻击的技术都属于网络安全技术，而且很多网络安全技术都是攻击驱动型的。网络安全大致包含的内容主要有防火墙，入侵检测，漏洞扫描与网络隔离，拒绝服务攻击检测与防御，计算机病毒防治以及×××技术的概念、原理、应用部署等方面。防火墙防火墙是设置在内部网络与外部网络（如互联网）之间，实施访问控制策略的一个或者一组系统，是访问控制机制在网
网络安全清单黑客Jack web安全网络安全
自主访问控(DAC:DiscretionaryAccessControl)自主访问控制(DAC)是一个访问控制服务，其执行一个基于系统实体身份的安全政策和它们的授权来访问系统资源。双附接集线器(DAC:Dual-attachedConcentrator)双附接集线器(DAC)是FDDI或CDDI集线器有能力接入到一个FDDI或CDDI网络的两个环。它也能够是来自其它FDDI或CDDI集线器的主机端
工控网络安全学习路线 206333308 安全
一、基础技能编程语言：从汇编语言开始学习，了解底层机器指令和内存管理等基础知识。接着学习C/C++，掌握面向过程和面向对象编程的基本概念和技术，为后续的漏洞挖掘和底层分析打下基础。最后学习Python，它在安全领域应用广泛，可用于自动化脚本编写、漏洞扫描和数据分析等。《计算机网络原理》：掌握网络通信的基本原理，包括OSI七层模型、TCP/IP协议栈、IP地址分配、子网掩码等。了解网络拓扑结构、路由
2024年最全工控网络安全学习路线_工控网络安全专业，零基础学网络安全开发 2401_84545213 程序员 web安全学习安全
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以点击这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！工业背景对于我国而言，工业控制系统安全所面临的重要问
2025年——【寒假】自学黑客计划（网络安全）网安CILLE web安全网络安全网络安全 linux
CSDN大礼包：基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包前言什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客
LeetCode Hot100刷题——最长连续序列圈圈编码 leetcode 算法职场和发展
128.最长连续序列给定一个未排序的整数数组nums，找出数字连续的最长序列（不要求序列元素在原数组中连续）的长度。请你设计并实现时间复杂度为O(n)的算法解决此问题。示例1：输入：nums=[100,4,200,1,3,2]输出：4解释：最长数字连续序列是[1,2,3,4]。它的长度为4。示例2：输入：nums=[0,3,7,2,5,8,4,6,0,1]输出：9HashSetHashSet是Ja
电子电气架构 --- 机器学习推动车载雷达的发展车载诊断技术汽车行业车辆信息安全机器学习人工智能电子电器框架网络架构汽车
我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：简单，单纯，喜欢独处，独来独往，不易合同频过着接地气的生活，除了生存温饱问题之外，没有什么过多的欲望，表面看起来很高冷，内心热情，如果你身边有这样灵性的人，一定要好好珍惜他们眼中有神有光，干净，给人感觉很舒服，有超强的感知能力有形的无形的感知力很强，能感知人的内心变化喜欢独处，好静，
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &