Eastmount

[当人工智能遇上安全] 9.基于API序列和深度学习的恶意家族分类实例详解

您或许知道，作者后续分享网络安全的文章会越来越少。但如果您想学习人工智能和安全结合的应用，您就有福利了，作者将重新打造一个《当人工智能遇上安全》系列博客，详细介绍人工智能与安全相关的论文、实践，并分享各种案例，涉及恶意代码检测、恶意请求识别、入侵检测、对抗样本等等。只想更好地帮助初学者，更加成体系的分享新知识。该系列文章会更加聚焦，更加学术，更加深入，也是作者的慢慢成长史。换专业确实挺难的，系统安全也是块硬骨头，但我也试试，看看自己未来四年究竟能将它学到什么程度，漫漫长征路，偏向虎山行。享受过程，一起加油~

前文详细介绍如何学习提取的API序列特征，并构建机器学习算法实现恶意家族分类，这也是安全领域典型的任务或工作。这篇文章将讲解如何构建深度学习模型实现恶意软件家族分类，常见模型包括CNN、BiLSTM、BiGRU，结合注意力机制的CNN+BiLSTM。基础性文章，希望对您有帮助，如果存在错误或不足之处，还请海涵。且看且珍惜！

文章目录

一.恶意软件分析
- 1.静态特征
- 2.动态特征
二.基于CNN的恶意家族检测
- 1.数据集
- 2.模型构建
- 3.实验结果
三.基于BiLSTM的恶意家族检测
- 1.模型构建
- 2.实验结果
四.基于BiGRU的恶意家族检测
- 1.模型构建
- 2.实验结果
五.基于CNN+BiLSTM和注意力的恶意家族检测
- 1.模型构建
- 2.实验结果
六.总结

作者作为网络安全的小白，分享一些自学基础教程给大家，主要是在线笔记，希望您们喜欢。同时，更希望您能与我一起操作和进步，后续将深入学习AI安全和系统安全知识并分享相关实验。总之，希望该系列文章对博友有所帮助，写文不易，大神们不喜勿喷，谢谢！如果文章对您有帮助，将是我创作的最大动力，点赞、评论、私聊均可，一起加油喔！

前文推荐：

[当人工智能遇上安全] 1.人工智能真的安全吗？浙大团队外滩大会分享AI对抗样本技术
[当人工智能遇上安全] 2.清华张超老师 - GreyOne: Discover Vulnerabilities with Data Flow Sensitive Fuzzing
[当人工智能遇上安全] 3.安全领域中的机器学习及机器学习恶意请求识别案例分享
[当人工智能遇上安全] 4.基于机器学习的恶意代码检测技术详解
[当人工智能遇上安全] 5.基于机器学习算法的主机恶意代码识别研究
[当人工智能遇上安全] 6.基于机器学习的入侵检测和攻击识别——以KDD CUP99数据集为例
[当人工智能遇上安全] 7.基于机器学习的安全数据集总结
[当人工智能遇上安全] 8.基于API序列和机器学习的恶意家族分类实例详解
[当人工智能遇上安全] 9.基于API序列和深度学习的恶意家族分类实例详解

作者的github资源：

https://github.com/eastmountyxz/AI-Security-Paper

一.恶意软件分析

恶意软件或恶意代码分析通常包括静态分析和动态分析。特征种类如果按照恶意代码是否在用户环境或仿真环境中运行，可以划分为静态特征和动态特征。

那么，如何提取恶意软件的静态特征或动态特征呢？ 因此，第一部分将简要介绍静态特征和动态特征。

1.静态特征

没有真实运行的特征，通常包括：

字节码：二进制代码转换成了字节码，比较原始的一种特征，没有进行任何处理
IAT表：PE结构中比较重要的部分，声明了一些函数及所在位置，便于程序执行时导入，表和功能比较相关
Android权限表：如果你的APP声明了一些功能用不到的权限，可能存在恶意目的，如手机信息
可打印字符：将二进制代码转换为ASCII码，进行相关统计
IDA反汇编跳转块：IDA工具调试时的跳转块，对其进行处理作为序列数据或图数据
常用API函数
恶意软件图像化

静态特征提取方式：

CAPA
– https://github.com/mandiant/capa
IDA Pro
安全厂商沙箱

2.动态特征

相当于静态特征更耗时，它要真正去执行代码。通常包括：
– API调用关系：比较明显的特征，调用了哪些API，表述对应的功能
– 控制流图：软件工程中比较常用，机器学习将其表示成向量，从而进行分类
– 数据流图：软件工程中比较常用，机器学习将其表示成向量，从而进行分类

动态特征提取方式：

Cuckoo
– https://github.com/cuckoosandbox/cuckoo
CAPE
– https://github.com/kevoreilly/CAPEv2
– https://capev2.readthedocs.io/en/latest/
安全厂商沙箱

二.基于CNN的恶意家族检测

前面的系列文章详细介绍如何提取恶意软件的静态和动态特征，包括API序列。接下来将构建机器学习模型学习API序列实现分类。基本流程如下：

1.数据集

整个数据集包括5类恶意家族的样本，每个样本经过先前的CAPE工具成功提取的动态API序列。数据集分布情况如下所示：（建议读者提取自己数据集的样本，包括BIG2015、BODMAS等）

恶意家族	类别	数量	训练集	测试集
AAAA	class1	352	242	110
BBBB	class2	335	235	100
CCCC	class3	363	243	120
DDDD	class4	293	163	130
EEEE	class5	548	358	190

数据集分为训练集、测试集和验证集（部分训练集和测试集组成），如下图所示：

数据集中主要包括四个字段，即序号、恶意家族类别、Md5值、API序列或特征。

需要注意，在特征提取过程中涉及大量数据预处理和清洗的工作，读者需要结合实际需求完成。比如提取特征为空值的过滤代码。

#coding:utf-8
#By:Eastmount CSDN 2023-05-31
import csv
import re
import os

csv.field_size_limit(500 * 1024 * 1024)
filename = "AAAA_result.csv"
writename = "AAAA_result_final.csv"
fw = open(writename, mode="w", newline="")
writer = csv.writer(fw)
writer.writerow(['no', 'type', 'md5', 'api'])
with open(filename,encoding='utf-8') as fr:
    reader = csv.reader(fr)
    no = 1
    for row in reader: #['no','type','md5','api']
        tt = row[1]
        md5 = row[2]
        api = row[3]
        #print(no,tt,md5,api)
        #api空值的过滤
        if api=="" or api=="api":
            continue
        else:
            writer.writerow([str(no),tt,md5,api])
            no += 1
fr.close()

2.模型构建

该模型的基本步骤如下：

第一步数据读取
第二步 OneHotEncoder()编码
第三步使用Tokenizer对词组进行编码
第四步建立CNN模型并训练
第五步预测及评估
第六步验证算法

构建模型如下图所示：

完整代码如下所示：

# -*- coding: utf-8 -*-
# By:Eastmount CSDN 2023-06-27
import pickle
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import metrics
import tensorflow as tf
from sklearn.preprocessing import LabelEncoder,OneHotEncoder
from keras.models import Model
from keras.layers import LSTM, Activation, Dense, Dropout, Input, Embedding
from keras.layers import Convolution1D, MaxPool1D, Flatten
from keras.optimizers import RMSprop
from keras.layers import Bidirectional
from keras.preprocessing.text import Tokenizer
from keras.preprocessing import sequence
from keras.callbacks import EarlyStopping
from keras.models import load_model
from keras.models import Sequential
from keras.layers.merge import concatenate
import time

"""
import os
os.environ["CUDA_DEVICES_ORDER"] = "PCI_BUS_IS"
os.environ["CUDA_VISIBLE_DEVICES"] = "0"
gpu_options = tf.GPUOptions(per_process_gpu_memory_fraction=0.8)
sess = tf.Session(config=tf.ConfigProto(gpu_options=gpu_options))
"""

start = time.clock()

#---------------------------------------第一步 数据读取------------------------------------
# 读取测数据集
train_df = pd.read_csv("..\\train_dataset.csv")
val_df = pd.read_csv("..\\val_dataset.csv")
test_df = pd.read_csv("..\\test_dataset.csv")

# 指定数据类型 否则AttributeError: 'float' object has no attribute 'lower' 存在文本为空的现象
# train_df.SentimentText = train_df.SentimentText.astype(str)
print(train_df.head())

# 解决中文显示问题
plt.rcParams['font.sans-serif'] = ['KaiTi']   #指定默认字体 SimHei黑体
plt.rcParams['axes.unicode_minus'] = False    #解决保存图像是负号'

#---------------------------------第二步 OneHotEncoder()编码---------------------------------
# 对数据集的标签数据进行编码  (no apt md5 api)
train_y = train_df.apt
print("Label:")
print(train_y[:10])
val_y = val_df.apt
test_y = test_df.apt
le = LabelEncoder()
train_y = le.fit_transform(train_y).reshape(-1,1)
print("LabelEncoder")
print(train_y[:10])
print(len(train_y))
val_y = le.transform(val_y).reshape(-1,1)
test_y = le.transform(test_y).reshape(-1,1)
Labname = le.classes_
print(Labname)

# 对数据集的标签数据进行one-hot编码
ohe = OneHotEncoder()
train_y = ohe.fit_transform(train_y).toarray()
val_y = ohe.transform(val_y).toarray()
test_y = ohe.transform(test_y).toarray()
print("OneHotEncoder:")
print(train_y[:10])

#-------------------------------第三步 使用Tokenizer对词组进行编码-------------------------------
# 使用Tokenizer对词组进行编码
# 当我们创建了一个Tokenizer对象后，使用该对象的fit_on_texts()函数，以空格去识别每个词
# 可以将输入的文本中的每个词编号，编号是根据词频的，词频越大，编号越小
max_words = 1000
max_len = 200
tok = Tokenizer(num_words=max_words)  #使用的最大词语数为1000
print(train_df.api[:5])
print(type(train_df.api))

# 提取token：api
train_value = train_df.api
train_content = [str(a) for a in train_value.tolist()]
val_value = val_df.api
val_content = [str(a) for a in val_value.tolist()]
test_value = test_df.api
test_content = [str(a) for a in test_value.tolist()]
tok.fit_on_texts(train_content)
print(tok)

# 保存训练好的Tokenizer和导入
# saving
with open('tok.pickle', 'wb') as handle:
    pickle.dump(tok, handle, protocol=pickle.HIGHEST_PROTOCOL)
# loading
with open('tok.pickle', 'rb') as handle:
    tok = pickle.load(handle)

# 使用word_index属性可以看到每次词对应的编码
# 使用word_counts属性可以看到每个词对应的频数
for ii,iterm in enumerate(tok.word_index.items()):
    if ii < 10:
        print(iterm)
    else:
        break
print("===================")  
for ii,iterm in enumerate(tok.word_counts.items()):
    if ii < 10:
        print(iterm)
    else:
        break

# 使用tok.texts_to_sequences()将数据转化为序列
# 使用sequence.pad_sequences()将每个序列调整为相同的长度
# 对每个词编码之后，每句新闻中的每个词就可以用对应的编码表示，即每条新闻可以转变成一个向量了
train_seq = tok.texts_to_sequences(train_content)
val_seq = tok.texts_to_sequences(val_content)
test_seq = tok.texts_to_sequences(test_content)

# 将每个序列调整为相同的长度
train_seq_mat = sequence.pad_sequences(train_seq,maxlen=max_len)
val_seq_mat = sequence.pad_sequences(val_seq,maxlen=max_len)
test_seq_mat = sequence.pad_sequences(test_seq,maxlen=max_len)
print(train_seq_mat.shape)  #(1241, 200)
print(val_seq_mat.shape)    #(459, 200)
print(test_seq_mat.shape)   #(650, 200)
print(train_seq_mat[:2])

#-------------------------------第四步 建立CNN模型并训练-------------------------------
num_labels = 5
inputs = Input(name='inputs',shape=[max_len], dtype='float64')

# 词嵌入（使用预训练的词向量）
layer = Embedding(max_words+1, 256, input_length=max_len, trainable=False)(inputs)

# 词窗大小分别为3,4,5
cnn = Convolution1D(256, 3, padding='same', strides = 1, activation='relu')(layer)
cnn = MaxPool1D(pool_size=3)(cnn)

# 合并三个模型的输出向量
flat = Flatten()(cnn) 
drop = Dropout(0.4)(flat)
main_output = Dense(num_labels, activation='softmax')(drop)
model = Model(inputs=inputs, outputs=main_output)
model.summary()
model.compile(loss="categorical_crossentropy",
              optimizer='adam',      #RMSprop()
              metrics=["accuracy"])

# 增加判断 防止再次训练
flag = "train"
if flag == "train":
    print("模型训练")
    # 模型训练
    model_fit = model.fit(train_seq_mat, train_y, batch_size=64, epochs=15,
                          validation_data=(val_seq_mat,val_y),
                          callbacks=[EarlyStopping(monitor='val_loss',min_delta=0.001)]   #当val-loss不再提升时停止训练 0.0001
                         )
    
    # 保存模型
    model.save('cnn_model.h5')  
    del model  # deletes the existing model
    
    # 计算时间
    elapsed = (time.clock() - start)
    print("Time used:", elapsed)
    print(model_fit.history)
    
else:
    print("模型预测")
    # 导入已经训练好的模型
    model = load_model('cnn_model.h5')
    
    #--------------------------------------第五步 预测及评估--------------------------------
    # 对测试集进行预测
    test_pre = model.predict(test_seq_mat)
    
    # 评价预测效果，计算混淆矩阵
    confm = metrics.confusion_matrix(np.argmax(test_y,axis=1),
                                     np.argmax(test_pre,axis=1))
    print(confm)
    print(metrics.classification_report(np.argmax(test_y,axis=1),
                                        np.argmax(test_pre,axis=1),
                                        digits=4))
    print("accuracy", metrics.accuracy_score(np.argmax(test_y, axis=1),
                                             np.argmax(test_pre, axis=1)))
    # 结果存储
    f1 = open("cnn_test_pre.txt", "w")
    for n in np.argmax(test_pre, axis=1):
        f1.write(str(n) + "\n")
    f1.close()

    f2 = open("cnn_test_y.txt", "w")
    for n in np.argmax(test_y, axis=1):
        f2.write(str(n) + "\n")
    f2.close()

    plt.figure(figsize=(8,8))
    sns.heatmap(confm.T, square=True, annot=True,
                fmt='d', cbar=False, linewidths=.6,
                cmap="YlGnBu")
    plt.xlabel('True label',size = 14)
    plt.ylabel('Predicted label', size = 14)
    plt.xticks(np.arange(5)+0.5, Labname, size = 12)
    plt.yticks(np.arange(5)+0.5, Labname, size = 12)
    plt.savefig('cnn_result.png')
    plt.show()

    #--------------------------------------第六步 验证算法--------------------------------
    # 使用tok对验证数据集重新预处理
    val_seq = tok.texts_to_sequences(val_content)
    # 将每个序列调整为相同的长度
    val_seq_mat = sequence.pad_sequences(val_seq,maxlen=max_len)
    # 对验证集进行预测
    val_pre = model.predict(val_seq_mat)
    print(metrics.classification_report(np.argmax(val_y,axis=1),
                                        np.argmax(val_pre,axis=1),
                                        digits=4))
    print("accuracy", metrics.accuracy_score(np.argmax(val_y, axis=1),
                                             np.argmax(val_pre, axis=1)))
    # 计算时间
    elapsed = (time.clock() - start)
    print("Time used:", elapsed)

3.实验结果

最终运行结果及其生成文件如下图所示：

输出中间过程结果如下所示：

   no  ...                                                api
0   1  ...  GetSystemInfo;HeapCreate;NtAllocateVirtualMemo...
1   2  ...  GetSystemInfo;HeapCreate;NtAllocateVirtualMemo...
2   3  ...  NtQueryValueKey;GetSystemTimeAsFileTime;HeapCr...
3   4  ...  NtQueryValueKey;NtClose;NtAllocateVirtualMemor...
4   5  ...  NtOpenFile;NtCreateSection;NtMapViewOfSection;...

[5 rows x 4 columns]
Label:
0    class1
1    class1
2    class1
3    class1
4    class1
5    class1
6    class1
7    class1
8    class1
9    class1
Name: apt, dtype: object
LabelEncoder
[[0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]]
1241
['class1' 'class2' 'class3' 'class4' 'class5']
OneHotEncoder:
[[1. 0. 0. 0. 0.]
 [1. 0. 0. 0. 0.]
 [1. 0. 0. 0. 0.]
 [1. 0. 0. 0. 0.]
 [1. 0. 0. 0. 0.]
 [1. 0. 0. 0. 0.]
 [1. 0. 0. 0. 0.]
 [1. 0. 0. 0. 0.]
 [1. 0. 0. 0. 0.]
 [1. 0. 0. 0. 0.]]
0    GetSystemInfo;HeapCreate;NtAllocateVirtualMemo...
1    GetSystemInfo;HeapCreate;NtAllocateVirtualMemo...
2    NtQueryValueKey;GetSystemTimeAsFileTime;HeapCr...
3    NtQueryValueKey;NtClose;NtAllocateVirtualMemor...
4    NtOpenFile;NtCreateSection;NtMapViewOfSection;...
Name: api, dtype: object
<class 'pandas.core.series.Series'>
<keras_preprocessing.text.Tokenizer object at 0x0000028E55D36B08>

('regqueryvalueexw', 1)
('ntclose', 2)
('ldrgetprocedureaddress', 3)
('regopenkeyexw', 4)
('regclosekey', 5)
('ntallocatevirtualmemory', 6)
('sendmessagew', 7)
('ntwritefile', 8)
('process32nextw', 9)
('ntdeviceiocontrolfile', 10)
===================
('getsysteminfo', 2651)
('heapcreate', 2996)
('ntallocatevirtualmemory', 115547)
('ntqueryvaluekey', 24120)
('getsystemtimeasfiletime', 52727)
('ldrgetdllhandle', 25135)
('ldrgetprocedureaddress', 199952)
('memcpy', 9008)
('setunhandledexceptionfilter', 1504)
('ntcreatefile', 43260)

(1241, 200)
(459, 200)
(650, 200)
[[  3 135   3   3   2  21   3   3   4   3  96   3   3   4  96   4  96  20
   22  20   3   6   6  23 128 129   3 103  23  56   2 103  23  20   3  23
    3   3   3   3   4   1   5  23  12 131  12  20   3  10   2  10   2  20
    3   4   5  27   3  10   2   6  10   2   3  10   2  10   2   3  10   2
   10   2  10   2  10   2  10   2   3  10   2  10   2  10   2  10   2   3
    3   3  36   4   3  23  20   3   5 207  34   6   6   6  11  11   6  11
    6   6   6   6   6   6   6   6   6  11   6   6  11   6  11   6  11   6
    6  11   6  34   3 141   3 140   3   3 141  34   6   2  21   4  96   4
   96   4  96  23   3   3  12 131  12  10   2  10   2   4   5  27  10   2
    6  10   2  10   2  10   2  10   2  10   2  10   2  10   2  10   2  10
    2  10   2  10   2  10   2  36   4  23   5 207   6   3   3  12 131  12
  132   3]
 [ 27   4  27   4  27   4  27   4  27  27   5  27   4  27   4  27  27  27
   27  27  27  27   5  27   4  27   4  27   4  27   4  27   4  27   4  27
    4  27   4  27   4  27   5  52   2  21   4   5   1   1   1   5  21  25
    2  52  12  33  51  28  34  30   2  52   2  21   4   5  27   5  52   6
    6  52   4   1   5   4  52  54   7   7  20  52   7  52   7   7   6   4
    4  24  24  24  24  24  24  24  24  24  24  24  24  24  24  24  24   5
    5   3   7  50  50  50  95  50  50  50  50  50   4   1   5   4   3   3
    3   3   3   7   7   7   3   7   3   7   3  60   3   3   7   7   7   7
   60   3   7   7   7   7   7   7   7   7  52  20   3   3   3  14  14  60
   18  19  18  19   2  21   4   5  18  19  18  19  18  19  18  19   7   7
    7   7   7   7   7   7   7   7   7  52   7   7   7   7   7  60   7   7
    7   7]]

模型训练过程如下：

模型训练
Epoch 1/15

 1/20 [>.............................] - ETA: 5s - loss: 1.5986 - accuracy: 0.2656
 2/20 [==>...........................] - ETA: 1s - loss: 1.6050 - accuracy: 0.2266
 3/20 [===>..........................] - ETA: 1s - loss: 1.5777 - accuracy: 0.2292
 4/20 [=====>........................] - ETA: 2s - loss: 1.5701 - accuracy: 0.2500
 5/20 [======>.......................] - ETA: 2s - loss: 1.5628 - accuracy: 0.2719
 6/20 [========>.....................] - ETA: 3s - loss: 1.5439 - accuracy: 0.3125
 7/20 [=========>....................] - ETA: 3s - loss: 1.5306 - accuracy: 0.3348
 8/20 [===========>..................] - ETA: 3s - loss: 1.5162 - accuracy: 0.3535
 9/20 [============>.................] - ETA: 3s - loss: 1.5020 - accuracy: 0.3698
10/20 [==============>...............] - ETA: 3s - loss: 1.4827 - accuracy: 0.3969
11/20 [===============>..............] - ETA: 3s - loss: 1.4759 - accuracy: 0.4020
12/20 [=================>............] - ETA: 3s - loss: 1.4734 - accuracy: 0.4036
13/20 [==================>...........] - ETA: 3s - loss: 1.4456 - accuracy: 0.4255
14/20 [====================>.........] - ETA: 3s - loss: 1.4322 - accuracy: 0.4353
15/20 [=====================>........] - ETA: 2s - loss: 1.4157 - accuracy: 0.4469
16/20 [=======================>......] - ETA: 2s - loss: 1.4093 - accuracy: 0.4482
17/20 [========================>.....] - ETA: 2s - loss: 1.4010 - accuracy: 0.4531
18/20 [==========================>...] - ETA: 1s - loss: 1.3920 - accuracy: 0.4601
19/20 [===========================>..] - ETA: 0s - loss: 1.3841 - accuracy: 0.4638
20/20 [==============================] - ETA: 0s - loss: 1.3763 - accuracy: 0.4674
20/20 [==============================] - 20s 1s/step - loss: 1.3763 - accuracy: 0.4674 - val_loss: 1.3056 - val_accuracy: 0.4837

Time used: 26.1328806
{'loss': [1.3762551546096802], 'accuracy': [0.467365026473999], 
 'val_loss': [1.305567979812622], 'val_accuracy': [0.48366013169288635]}

最终预测结果如下所示：

模型预测
[[ 40  14  11   1  44]
 [ 16  57  10   0  17]
 [  6  30  61   0  23]
 [ 12  20  15  47  36]
 [ 11  14  19   0 146]]
              precision    recall  f1-score   support

           0     0.4706    0.3636    0.4103       110
           1     0.4222    0.5700    0.4851       100
           2     0.5259    0.5083    0.5169       120
           3     0.9792    0.3615    0.5281       130
           4     0.5489    0.7684    0.6404       190

    accuracy                         0.5400       650
   macro avg     0.5893    0.5144    0.5162       650
weighted avg     0.5980    0.5400    0.5323       650

accuracy 0.54

              precision    recall  f1-score   support

           0     0.9086    0.4517    0.6034       352
           1     0.5943    0.5888    0.5915       107
           2     0.0000    0.0000    0.0000         0
           3     0.0000    0.0000    0.0000         0
           4     0.0000    0.0000    0.0000         0

    accuracy                         0.4837       459
   macro avg     0.3006    0.2081    0.2390       459
weighted avg     0.8353    0.4837    0.6006       459

accuracy 0.48366013071895425

Time used: 14.170902800000002

思考：
然而，整个预测结果效果较差，请读者思考，这是为什么呢？我们能不能通过调参进行优化，又如何改进算法呢？本文仅提供基本思路和代码，更多优化及完善需要读者学会独立解决，加油喔！

三.基于BiLSTM的恶意家族检测

1.模型构建

该模型的基本步骤如下：

第一步数据读取
第二步 OneHotEncoder()编码
第三步使用Tokenizer对词组进行编码
第四步建立BiLSTM模型并训练
第五步预测及评估
第六步验证算法

构建模型如下图所示：

完整代码如下所示：

# -*- coding: utf-8 -*-
# By:Eastmount CSDN 2023-06-27
import pickle
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import metrics
import tensorflow as tf
from sklearn.preprocessing import LabelEncoder,OneHotEncoder
from keras.models import Model
from keras.layers import LSTM, Activation, Dense, Dropout, Input, Embedding
from keras.layers import Convolution1D, MaxPool1D, Flatten
from keras.optimizers import RMSprop
from keras.layers import Bidirectional
from keras.preprocessing.text import Tokenizer
from keras.preprocessing import sequence
from keras.callbacks import EarlyStopping
from keras.models import load_model
from keras.models import Sequential
from keras.layers.merge import concatenate
import time

start = time.clock()

#---------------------------------------第一步 数据读取------------------------------------
# 读取测数据集
train_df = pd.read_csv("..\\train_dataset.csv")
val_df = pd.read_csv("..\\val_dataset.csv")
test_df = pd.read_csv("..\\test_dataset.csv")
print(train_df.head())

# 解决中文显示问题
plt.rcParams['font.sans-serif'] = ['KaiTi']
plt.rcParams['axes.unicode_minus'] = False

#---------------------------------第二步 OneHotEncoder()编码---------------------------------
# 对数据集的标签数据进行编码  (no apt md5 api)
train_y = train_df.apt
val_y = val_df.apt
test_y = test_df.apt
le = LabelEncoder()
train_y = le.fit_transform(train_y).reshape(-1,1)
val_y = le.transform(val_y).reshape(-1,1)
test_y = le.transform(test_y).reshape(-1,1)
Labname = le.classes_

# 对数据集的标签数据进行one-hot编码
ohe = OneHotEncoder()
train_y = ohe.fit_transform(train_y).toarray()
val_y = ohe.transform(val_y).toarray()
test_y = ohe.transform(test_y).toarray()

#-------------------------------第三步 使用Tokenizer对词组进行编码-------------------------------
# 使用Tokenizer对词组进行编码
max_words = 2000
max_len = 300
tok = Tokenizer(num_words=max_words)

# 提取token：api
train_value = train_df.api
train_content = [str(a) for a in train_value.tolist()]
val_value = val_df.api
val_content = [str(a) for a in val_value.tolist()]
test_value = test_df.api
test_content = [str(a) for a in test_value.tolist()]
tok.fit_on_texts(train_content)
print(tok)

# 保存训练好的Tokenizer和导入
with open('tok.pickle', 'wb') as handle:
    pickle.dump(tok, handle, protocol=pickle.HIGHEST_PROTOCOL)
with open('tok.pickle', 'rb') as handle:
    tok = pickle.load(handle)

# 使用tok.texts_to_sequences()将数据转化为序列
train_seq = tok.texts_to_sequences(train_content)
val_seq = tok.texts_to_sequences(val_content)
test_seq = tok.texts_to_sequences(test_content)

# 将每个序列调整为相同的长度
train_seq_mat = sequence.pad_sequences(train_seq,maxlen=max_len)
val_seq_mat = sequence.pad_sequences(val_seq,maxlen=max_len)
test_seq_mat = sequence.pad_sequences(test_seq,maxlen=max_len)

#-------------------------------第四步 建立LSTM模型并训练-------------------------------
num_labels = 5
model = Sequential()
model.add(Embedding(max_words+1, 128, input_length=max_len))
#model.add(Bidirectional(LSTM(128, dropout=0.3, recurrent_dropout=0.1)))
model.add(Bidirectional(LSTM(128)))
model.add(Dense(128, activation='relu'))
model.add(Dropout(0.3))
model.add(Dense(num_labels, activation='softmax'))
model.summary()
model.compile(loss="categorical_crossentropy",
              optimizer='adam',
              metrics=["accuracy"])

flag = "train"
if flag == "train":
    print("模型训练")
    # 模型训练
    model_fit = model.fit(train_seq_mat, train_y, batch_size=64, epochs=15,
                          validation_data=(val_seq_mat,val_y),
                          callbacks=[EarlyStopping(monitor='val_loss',min_delta=0.0001)]
                         )
    
    # 保存模型
    model.save('bilstm_model.h5')  
    del model  # deletes the existing model
    
    # 计算时间
    elapsed = (time.clock() - start)
    print("Time used:", elapsed)
    print(model_fit.history)
    
else:
    print("模型预测")
    model = load_model('bilstm_model.h5')
    
    #--------------------------------------第五步 预测及评估--------------------------------
    # 对测试集进行预测
    test_pre = model.predict(test_seq_mat)
    confm = metrics.confusion_matrix(np.argmax(test_y,axis=1),
                                     np.argmax(test_pre,axis=1))
    print(confm)
    print(metrics.classification_report(np.argmax(test_y,axis=1),
                                        np.argmax(test_pre,axis=1),
                                        digits=4))
    print("accuracy", metrics.accuracy_score(np.argmax(test_y, axis=1),
                                             np.argmax(test_pre, axis=1)))
    # 结果存储
    f1 = open("bilstm_test_pre.txt", "w")
    for n in np.argmax(test_pre, axis=1):
        f1.write(str(n) + "\n")
    f1.close()

    f2 = open("bilstm_test_y.txt", "w")
    for n in np.argmax(test_y, axis=1):
        f2.write(str(n) + "\n")
    f2.close()

    plt.figure(figsize=(8,8))
    sns.heatmap(confm.T, square=True, annot=True,
                fmt='d', cbar=False, linewidths=.6,
                cmap="YlGnBu")
    plt.xlabel('True label',size = 14)
    plt.ylabel('Predicted label', size = 14)
    plt.xticks(np.arange(5)+0.5, Labname, size = 12)
    plt.yticks(np.arange(5)+0.5, Labname, size = 12)
    plt.savefig('bilstm_result.png')
    plt.show()

    #--------------------------------------第六步 验证算法--------------------------------
    # 使用tok对验证数据集重新预处理
    val_seq = tok.texts_to_sequences(val_content)
    val_seq_mat = sequence.pad_sequences(val_seq,maxlen=max_len)
    
    # 对验证集进行预测
    val_pre = model.predict(val_seq_mat)
    print(metrics.classification_report(np.argmax(val_y,axis=1),
                                        np.argmax(val_pre,axis=1),
                                        digits=4))
    print("accuracy", metrics.accuracy_score(np.argmax(val_y, axis=1),
                                             np.argmax(val_pre, axis=1)))
    # 计算时间
    elapsed = (time.clock() - start)
    print("Time used:", elapsed)

2.实验结果

训练输出结果如下图所示：

模型训练
Epoch 1/15
 1/20 [>.............................] - ETA: 40s - loss: 1.6114 - accuracy: 0.2031
 2/20 [==>...........................] - ETA: 10s - loss: 1.6055 - accuracy: 0.2969
 3/20 [===>..........................] - ETA: 10s - loss: 1.6015 - accuracy: 0.3281
 4/20 [=====>........................] - ETA: 10s - loss: 1.5931 - accuracy: 0.3477
 5/20 [======>.......................] - ETA: 10s - loss: 1.5914 - accuracy: 0.3469
 6/20 [========>.....................] - ETA: 10s - loss: 1.5827 - accuracy: 0.3698
 7/20 [=========>....................] - ETA: 10s - loss: 1.5785 - accuracy: 0.3884
 8/20 [===========>..................] - ETA: 10s - loss: 1.5673 - accuracy: 0.4121
 9/20 [============>.................] - ETA: 9s - loss: 1.5610 - accuracy: 0.4149
10/20 [==============>...............] - ETA: 9s - loss: 1.5457 - accuracy: 0.4187
11/20 [===============>..............] - ETA: 8s - loss: 1.5297 - accuracy: 0.4148
12/20 [=================>............] - ETA: 8s - loss: 1.5338 - accuracy: 0.4128
13/20 [==================>...........] - ETA: 7s - loss: 1.5214 - accuracy: 0.4279
14/20 [====================>.........] - ETA: 6s - loss: 1.5176 - accuracy: 0.4286
15/20 [=====================>........] - ETA: 5s - loss: 1.5100 - accuracy: 0.4271
16/20 [=======================>......] - ETA: 4s - loss: 1.5065 - accuracy: 0.4258
17/20 [========================>.....] - ETA: 3s - loss: 1.5021 - accuracy: 0.4237
18/20 [==========================>...] - ETA: 2s - loss: 1.4921 - accuracy: 0.4288
19/20 [===========================>..] - ETA: 1s - loss: 1.4822 - accuracy: 0.4334
20/20 [==============================] - ETA: 0s - loss: 1.4825 - accuracy: 0.4327
20/20 [==============================] - 33s 2s/step - loss: 1.4825 - accuracy: 0.4327 - val_loss: 1.4187 - val_accuracy: 0.4074

Time used: 38.565846900000004
{'loss': [1.4825222492218018], 'accuracy': [0.4327155649662018], 
 'val_loss': [1.4187402725219727], 'val_accuracy': [0.40740740299224854]}
>>>

最终预测结果如下所示：

模型预测
[[36 18 37  1 18]
 [14 46 34  0  6]
 [ 8 29 73  0 10]
 [16 29 14 45 26]
 [47 15 33  0 95]]
              precision    recall  f1-score   support

           0     0.2975    0.3273    0.3117       110
           1     0.3358    0.4600    0.3882       100
           2     0.3822    0.6083    0.4695       120
           3     0.9783    0.3462    0.5114       130
           4     0.6129    0.5000    0.5507       190

    accuracy                         0.4538       650
   macro avg     0.5213    0.4484    0.4463       650
weighted avg     0.5474    0.4538    0.4624       650

accuracy 0.45384615384615384

              precision    recall  f1-score   support

           0     0.9189    0.3864    0.5440       352
           1     0.4766    0.4766    0.4766       107
           2     0.0000    0.0000    0.0000         0
           3     0.0000    0.0000    0.0000         0
           4     0.0000    0.0000    0.0000         0

    accuracy                         0.4074       459
   macro avg     0.2791    0.1726    0.2041       459
weighted avg     0.8158    0.4074    0.5283       459

accuracy 0.4074074074074074

Time used: 32.2772881

四.基于BiGRU的恶意家族检测

1.模型构建

该模型的基本步骤如下：

第一步数据读取
第二步 OneHotEncoder()编码
第三步使用Tokenizer对词组进行编码
第四步建立BiGRU模型并训练
第五步预测及评估
第六步验证算法

构建模型如下图所示：

完整代码如下所示：

# -*- coding: utf-8 -*-
# By:Eastmount CSDN 2023-06-27
import pickle
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import metrics
import tensorflow as tf
from sklearn.preprocessing import LabelEncoder,OneHotEncoder
from keras.models import Model
from keras.layers import GRU, LSTM, Activation, Dense, Dropout, Input, Embedding
from keras.layers import Convolution1D, MaxPool1D, Flatten
from keras.optimizers import RMSprop
from keras.layers import Bidirectional
from keras.preprocessing.text import Tokenizer
from keras.preprocessing import sequence
from keras.callbacks import EarlyStopping
from keras.models import load_model
from keras.models import Sequential
from keras.layers.merge import concatenate
import time

start = time.clock()

#---------------------------------------第一步 数据读取------------------------------------
# 读取测数据集
train_df = pd.read_csv("..\\train_dataset.csv")
val_df = pd.read_csv("..\\val_dataset.csv")
test_df = pd.read_csv("..\\test_dataset.csv")
print(train_df.head())

# 解决中文显示问题
plt.rcParams['font.sans-serif'] = ['KaiTi']
plt.rcParams['axes.unicode_minus'] = False

#---------------------------------第二步 OneHotEncoder()编码---------------------------------
# 对数据集的标签数据进行编码  (no apt md5 api)
train_y = train_df.apt
val_y = val_df.apt
test_y = test_df.apt
le = LabelEncoder()
train_y = le.fit_transform(train_y).reshape(-1,1)
val_y = le.transform(val_y).reshape(-1,1)
test_y = le.transform(test_y).reshape(-1,1)
Labname = le.classes_

# 对数据集的标签数据进行one-hot编码
ohe = OneHotEncoder()
train_y = ohe.fit_transform(train_y).toarray()
val_y = ohe.transform(val_y).toarray()
test_y = ohe.transform(test_y).toarray()

#-------------------------------第三步 使用Tokenizer对词组进行编码-------------------------------
# 使用Tokenizer对词组进行编码
max_words = 2000
max_len = 300
tok = Tokenizer(num_words=max_words)

# 提取token：api
train_value = train_df.api
train_content = [str(a) for a in train_value.tolist()]
val_value = val_df.api
val_content = [str(a) for a in val_value.tolist()]
test_value = test_df.api
test_content = [str(a) for a in test_value.tolist()]
tok.fit_on_texts(train_content)
print(tok)

# 保存训练好的Tokenizer和导入
with open('tok.pickle', 'wb') as handle:
    pickle.dump(tok, handle, protocol=pickle.HIGHEST_PROTOCOL)
with open('tok.pickle', 'rb') as handle:
    tok = pickle.load(handle)

# 使用tok.texts_to_sequences()将数据转化为序列
train_seq = tok.texts_to_sequences(train_content)
val_seq = tok.texts_to_sequences(val_content)
test_seq = tok.texts_to_sequences(test_content)

# 将每个序列调整为相同的长度
train_seq_mat = sequence.pad_sequences(train_seq,maxlen=max_len)
val_seq_mat = sequence.pad_sequences(val_seq,maxlen=max_len)
test_seq_mat = sequence.pad_sequences(test_seq,maxlen=max_len)

#-------------------------------第四步 建立GRU模型并训练-------------------------------
num_labels = 5
model = Sequential()
model.add(Embedding(max_words+1, 256, input_length=max_len))
#model.add(Bidirectional(GRU(128, dropout=0.2, recurrent_dropout=0.1)))
model.add(Bidirectional(GRU(256)))
model.add(Dense(256, activation='relu'))
model.add(Dropout(0.4))
model.add(Dense(num_labels, activation='softmax'))
model.summary()
model.compile(loss="categorical_crossentropy",
              optimizer='adam',
              metrics=["accuracy"])

flag = "train"
if flag == "train":
    print("模型训练")
    # 模型训练
    model_fit = model.fit(train_seq_mat, train_y, batch_size=64, epochs=15,
                          validation_data=(val_seq_mat,val_y),
                          callbacks=[EarlyStopping(monitor='val_loss',min_delta=0.005)]
                         )
    
    # 保存模型
    model.save('gru_model.h5')  
    del model  # deletes the existing model
    
    # 计算时间
    elapsed = (time.clock() - start)
    print("Time used:", elapsed)
    print(model_fit.history)
    
else:
    print("模型预测")
    model = load_model('gru_model.h5')
    
    #--------------------------------------第五步 预测及评估--------------------------------
    # 对测试集进行预测
    test_pre = model.predict(test_seq_mat)
    confm = metrics.confusion_matrix(np.argmax(test_y,axis=1),
                                     np.argmax(test_pre,axis=1))
    print(confm)
    print(metrics.classification_report(np.argmax(test_y,axis=1),
                                        np.argmax(test_pre,axis=1),
                                        digits=4))
    print("accuracy", metrics.accuracy_score(np.argmax(test_y, axis=1),
                                             np.argmax(test_pre, axis=1)))
    # 结果存储
    f1 = open("gru_test_pre.txt", "w")
    for n in np.argmax(test_pre, axis=1):
        f1.write(str(n) + "\n")
    f1.close()

    f2 = open("gru_test_y.txt", "w")
    for n in np.argmax(test_y, axis=1):
        f2.write(str(n) + "\n")
    f2.close()

    plt.figure(figsize=(8,8))
    sns.heatmap(confm.T, square=True, annot=True,
                fmt='d', cbar=False, linewidths=.6,
                cmap="YlGnBu")
    plt.xlabel('True label',size = 14)
    plt.ylabel('Predicted label', size = 14)
    plt.xticks(np.arange(5)+0.5, Labname, size = 12)
    plt.yticks(np.arange(5)+0.5, Labname, size = 12)
    plt.savefig('gru_result.png')
    plt.show()

    #--------------------------------------第六步 验证算法--------------------------------
    # 使用tok对验证数据集重新预处理
    val_seq = tok.texts_to_sequences(val_content)
    val_seq_mat = sequence.pad_sequences(val_seq,maxlen=max_len)
    
    # 对验证集进行预测
    val_pre = model.predict(val_seq_mat)
    print(metrics.classification_report(np.argmax(val_y,axis=1),
                                        np.argmax(val_pre,axis=1),
                                        digits=4))
    print("accuracy", metrics.accuracy_score(np.argmax(val_y, axis=1),
                                             np.argmax(val_pre, axis=1)))
    # 计算时间
    elapsed = (time.clock() - start)
    print("Time used:", elapsed)

2.实验结果

训练输出结果如下图所示：

模型训练
Epoch 1/15

 1/20 [>.............................] - ETA: 47s - loss: 1.6123 - accuracy: 0.1875
 2/20 [==>...........................] - ETA: 18s - loss: 1.6025 - accuracy: 0.2656
 3/20 [===>..........................] - ETA: 18s - loss: 1.5904 - accuracy: 0.3333
 4/20 [=====>........................] - ETA: 18s - loss: 1.5728 - accuracy: 0.3867
 5/20 [======>.......................] - ETA: 17s - loss: 1.5639 - accuracy: 0.4094
 6/20 [========>.....................] - ETA: 17s - loss: 1.5488 - accuracy: 0.4375
 7/20 [=========>....................] - ETA: 16s - loss: 1.5375 - accuracy: 0.4397
 8/20 [===========>..................] - ETA: 16s - loss: 1.5232 - accuracy: 0.4434
 9/20 [============>.................] - ETA: 15s - loss: 1.5102 - accuracy: 0.4358
10/20 [==============>...............] - ETA: 14s - loss: 1.5014 - accuracy: 0.4250
11/20 [===============>..............] - ETA: 13s - loss: 1.5053 - accuracy: 0.4233
12/20 [=================>............] - ETA: 12s - loss: 1.5022 - accuracy: 0.4232
13/20 [==================>...........] - ETA: 11s - loss: 1.4913 - accuracy: 0.4279
14/20 [====================>.........] - ETA: 9s - loss: 1.4912 - accuracy: 0.4286 
15/20 [=====================>........] - ETA: 8s - loss: 1.4841 - accuracy: 0.4365
16/20 [=======================>......] - ETA: 7s - loss: 1.4720 - accuracy: 0.4404
17/20 [========================>.....] - ETA: 5s - loss: 1.4669 - accuracy: 0.4375
18/20 [==========================>...] - ETA: 3s - loss: 1.4636 - accuracy: 0.4349
19/20 [===========================>..] - ETA: 1s - loss: 1.4544 - accuracy: 0.4383
20/20 [==============================] - ETA: 0s - loss: 1.4509 - accuracy: 0.4400
20/20 [==============================] - 44s 2s/step - loss: 1.4509 - accuracy: 0.4400 - val_loss: 1.3812 - val_accuracy: 0.3660

Time used: 49.7057119
{'loss': [1.4508591890335083], 'accuracy': [0.4399677813053131], 
 'val_loss': [1.381193995475769], 'val_accuracy': [0.3660130798816681]}

最终预测结果如下所示：

模型预测
[[ 30   8   9  17  46]
 [ 13  50   9  13  15]
 [ 10   4  58  29  19]
 [ 11   8   8  73  30]
 [ 25   3  23  14 125]]
              precision    recall  f1-score   support

           0     0.3371    0.2727    0.3015       110
           1     0.6849    0.5000    0.5780       100
           2     0.5421    0.4833    0.5110       120
           3     0.5000    0.5615    0.5290       130
           4     0.5319    0.6579    0.5882       190

    accuracy                         0.5169       650
   macro avg     0.5192    0.4951    0.5016       650
weighted avg     0.5180    0.5169    0.5120       650

accuracy 0.5169230769230769

              precision    recall  f1-score   support

           0     0.8960    0.3182    0.4696       352
           1     0.7273    0.5234    0.6087       107
           2     0.0000    0.0000    0.0000         0
           3     0.0000    0.0000    0.0000         0
           4     0.0000    0.0000    0.0000         0

    accuracy                         0.3660       459
   macro avg     0.3247    0.1683    0.2157       459
weighted avg     0.8567    0.3660    0.5020       459

accuracy 0.3660130718954248

Time used: 60.106339399999996

五.基于CNN+BiLSTM和注意力的恶意家族检测

1.模型构建

该模型的基本步骤如下：

第一步数据读取
第二步 OneHotEncoder()编码
第三步使用Tokenizer对词组进行编码
第四步建立Attention机制
第五步建立Attention+CNN+BiLSTM模型并训练
第六步预测及评估
第七步验证算法

构建模型如下图所示：

Model: "model"
__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
==================================================================================================
inputs (InputLayer)             [(None, 100)]        0                                            
__________________________________________________________________________________________________
embedding (Embedding)           (None, 100, 256)     256256      inputs[0][0]                     
__________________________________________________________________________________________________
conv1d (Conv1D)                 (None, 100, 256)     196864      embedding[0][0]                  
__________________________________________________________________________________________________
conv1d_1 (Conv1D)               (None, 100, 256)     262400      embedding[0][0]                  
__________________________________________________________________________________________________
conv1d_2 (Conv1D)               (None, 100, 256)     327936      embedding[0][0]                  
__________________________________________________________________________________________________
max_pooling1d (MaxPooling1D)    (None, 25, 256)      0           conv1d[0][0]                     
__________________________________________________________________________________________________
max_pooling1d_1 (MaxPooling1D)  (None, 25, 256)      0           conv1d_1[0][0]                   
__________________________________________________________________________________________________
max_pooling1d_2 (MaxPooling1D)  (None, 25, 256)      0           conv1d_2[0][0]                   
__________________________________________________________________________________________________
concatenate (Concatenate)       (None, 25, 768)      0           max_pooling1d[0][0]              
                                                                 max_pooling1d_1[0][0]            
                                                                 max_pooling1d_2[0][0]            
__________________________________________________________________________________________________
bidirectional (Bidirectional)   (None, 25, 256)      918528      concatenate[0][0]                
__________________________________________________________________________________________________
dense (Dense)                   (None, 25, 128)      32896       bidirectional[0][0]              
__________________________________________________________________________________________________
dropout (Dropout)               (None, 25, 128)      0           dense[0][0]                      
__________________________________________________________________________________________________
attention_layer (AttentionLayer (None, 128)          6500        dropout[0][0]                    
__________________________________________________________________________________________________
dense_1 (Dense)                 (None, 5)            645         attention_layer[0][0]            
==================================================================================================
Total params: 2,002,025
Trainable params: 1,745,769
Non-trainable params: 256,256

完整代码如下所示：

# -*- coding: utf-8 -*-
# By:Eastmount CSDN 2023-06-27
import pickle
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import tensorflow as tf
from sklearn import metrics
from sklearn.preprocessing import LabelEncoder,OneHotEncoder
from keras.models import Model
from keras.layers import LSTM, GRU, Activation, Dense, Dropout, Input, Embedding
from keras.layers import Convolution1D, MaxPool1D, Flatten
from keras.optimizers import RMSprop
from keras.layers import Bidirectional
from keras.preprocessing.text import Tokenizer
from keras.preprocessing import sequence
from keras.callbacks import EarlyStopping
from keras.models import load_model
from keras.models import Sequential
from keras.layers.merge import concatenate
import time

start = time.clock()

#---------------------------------------第一步 数据读取------------------------------------
# 读取测数据集
train_df = pd.read_csv("..\\train_dataset.csv")
val_df = pd.read_csv("..\\val_dataset.csv")
test_df = pd.read_csv("..\\test_dataset.csv")
print(train_df.head())

# 解决中文显示问题
plt.rcParams['font.sans-serif'] = ['KaiTi']
plt.rcParams['axes.unicode_minus'] = False

#---------------------------------第二步 OneHotEncoder()编码---------------------------------
# 对数据集的标签数据进行编码  (no apt md5 api)
train_y = train_df.apt
val_y = val_df.apt
test_y = test_df.apt
le = LabelEncoder()
train_y = le.fit_transform(train_y).reshape(-1,1)
val_y = le.transform(val_y).reshape(-1,1)
test_y = le.transform(test_y).reshape(-1,1)
Labname = le.classes_

# 对数据集的标签数据进行one-hot编码
ohe = OneHotEncoder()
train_y = ohe.fit_transform(train_y).toarray()
val_y = ohe.transform(val_y).toarray()
test_y = ohe.transform(test_y).toarray()

#-------------------------------第三步 使用Tokenizer对词组进行编码-------------------------------
# 使用Tokenizer对词组进行编码
max_words = 1000
max_len = 100
tok = Tokenizer(num_words=max_words)

# 提取token：api
train_value = train_df.api
train_content = [str(a) for a in train_value.tolist()]
val_value = val_df.api
val_content = [str(a) for a in val_value.tolist()]
test_value = test_df.api
test_content = [str(a) for a in test_value.tolist()]
tok.fit_on_texts(train_content)
print(tok)

# 保存训练好的Tokenizer和导入
with open('tok.pickle', 'wb') as handle:
    pickle.dump(tok, handle, protocol=pickle.HIGHEST_PROTOCOL)
with open('tok.pickle', 'rb') as handle:
    tok = pickle.load(handle)

# 使用tok.texts_to_sequences()将数据转化为序列
train_seq = tok.texts_to_sequences(train_content)
val_seq = tok.texts_to_sequences(val_content)
test_seq = tok.texts_to_sequences(test_content)

# 将每个序列调整为相同的长度
train_seq_mat = sequence.pad_sequences(train_seq,maxlen=max_len)
val_seq_mat = sequence.pad_sequences(val_seq,maxlen=max_len)
test_seq_mat = sequence.pad_sequences(test_seq,maxlen=max_len)

#-------------------------------第四步 建立Attention机制-------------------------------
"""
由于Keras目前还没有现成的Attention层可以直接使用，我们需要自己来构建一个新的层函数。
  Keras自定义的函数主要分为四个部分，分别是：
  init：初始化一些需要的参数
  bulid：具体来定义权重是怎么样的
  call：核心部分，定义向量是如何进行运算的
  compute_output_shape：定义该层输出的大小

推荐文章 https://blog.csdn.net/huanghaocs/article/details/95752379
推荐文章 https://zhuanlan.zhihu.com/p/29201491
"""
# Hierarchical Model with Attention
from keras import initializers
from keras import constraints
from keras import activations
from keras import regularizers
from keras import backend as K
from keras.engine.topology import Layer

K.clear_session()

class AttentionLayer(Layer):
    def __init__(self, attention_size=None, **kwargs):
        self.attention_size = attention_size
        super(AttentionLayer, self).__init__(**kwargs)
        
    def get_config(self):
        config = super().get_config()
        config['attention_size'] = self.attention_size
        return config
        
    def build(self, input_shape):
        assert len(input_shape) == 3
        
        self.time_steps = input_shape[1]
        hidden_size = input_shape[2]
        if self.attention_size is None:
            self.attention_size = hidden_size
            
        self.W = self.add_weight(name='att_weight', shape=(hidden_size, self.attention_size),
                                initializer='uniform', trainable=True)
        self.b = self.add_weight(name='att_bias', shape=(self.attention_size,),
                                initializer='uniform', trainable=True)
        self.V = self.add_weight(name='att_var', shape=(self.attention_size,),
                                initializer='uniform', trainable=True)
        super(AttentionLayer, self).build(input_shape)

    #解决方法: Attention The graph tensor has name: model/attention_layer/Reshape:0
    #https://blog.csdn.net/weixin_54227557/article/details/129898614
    def call(self, inputs):
        #self.V = K.reshape(self.V, (-1, 1))
        V = K.reshape(self.V, (-1, 1))
        H = K.tanh(K.dot(inputs, self.W) + self.b)
        #score = K.softmax(K.dot(H, self.V), axis=1)
        score = K.softmax(K.dot(H, V), axis=1)
        outputs = K.sum(score * inputs, axis=1)
        return outputs
    
    def compute_output_shape(self, input_shape):
        return input_shape[0], input_shape[2]

#-------------------------------第五步 建立Attention+CNN模型并训练-------------------------------
# 构建TextCNN模型
num_labels = 5
inputs = Input(name='inputs',shape=[max_len], dtype='float64')
layer = Embedding(max_words+1, 256, input_length=max_len, trainable=False)(inputs)
cnn1 = Convolution1D(256, 3, padding='same', strides = 1, activation='relu')(layer)
cnn1 = MaxPool1D(pool_size=4)(cnn1)
cnn2 = Convolution1D(256, 4, padding='same', strides = 1, activation='relu')(layer)
cnn2 = MaxPool1D(pool_size=4)(cnn2)
cnn3 = Convolution1D(256, 5, padding='same', strides = 1, activation='relu')(layer)
cnn3 = MaxPool1D(pool_size=4)(cnn3)

# 合并三个模型的输出向量
cnn = concatenate([cnn1,cnn2,cnn3], axis=-1)

# BiLSTM+Attention
#bilstm = Bidirectional(LSTM(100, dropout=0.2, recurrent_dropout=0.1, return_sequences=True))(cnn)
bilstm = Bidirectional(LSTM(128, return_sequences=True))(cnn)  #参数保持维度3
layer = Dense(128, activation='relu')(bilstm)
layer = Dropout(0.3)(layer)
attention = AttentionLayer(attention_size=50)(layer)

output = Dense(num_labels, activation='softmax')(attention)
model = Model(inputs=inputs, outputs=output)
model.summary()
model.compile(loss="categorical_crossentropy",
              optimizer='adam',
              metrics=["accuracy"])


flag = "test"
if flag == "train":
    print("模型训练")
    # 模型训练
    model_fit = model.fit(train_seq_mat, train_y, batch_size=128, epochs=15,
                          validation_data=(val_seq_mat,val_y),
                          callbacks=[EarlyStopping(monitor='val_loss',min_delta=0.0005)]
                         )

    # 保存模型
    model.save('cnn_bilstm_model.h5')
    del model  # deletes the existing model
    
    #计算时间
    elapsed = (time.clock() - start)
    print("Time used:", elapsed)
    print(model_fit.history)
    
else:
    print("模型预测")
    model = load_model('cnn_bilstm_model.h5', custom_objects={'AttentionLayer': AttentionLayer(50)}, compile=False)

    #--------------------------------------第六步 预测及评估--------------------------------
    # 对测试集进行预测
    test_pre = model.predict(test_seq_mat)
    confm = metrics.confusion_matrix(np.argmax(test_y,axis=1),np.argmax(test_pre,axis=1))
    print(confm)
    print(metrics.classification_report(np.argmax(test_y,axis=1),
                                        np.argmax(test_pre,axis=1),
                                        digits=4))
    print("accuracy",metrics.accuracy_score(np.argmax(test_y,axis=1),
                                 np.argmax(test_pre,axis=1)))
    # 结果存储
    f1 = open("cnn_bilstm_test_pre.txt", "w")
    for n in np.argmax(test_pre, axis=1):
        f1.write(str(n) + "\n")
    f1.close()

    f2 = open("cnn_bilstm_test_y.txt", "w")
    for n in np.argmax(test_y, axis=1):
        f2.write(str(n) + "\n")
    f2.close()

    plt.figure(figsize=(8,8))
    sns.heatmap(confm.T, square=True, annot=True,
                fmt='d', cbar=False, linewidths=.6,
                cmap="YlGnBu")
    plt.xlabel('True label',size = 14)
    plt.ylabel('Predicted label', size = 14)
    plt.xticks(np.arange(5)+0.5, Labname, size = 12)
    plt.yticks(np.arange(5)+0.5, Labname, size = 12)
    plt.savefig('cnn_bilstm_result.png')
    plt.show()

    #--------------------------------------第七步 验证算法--------------------------------
    # 使用tok对验证数据集重新预处理，并使用训练好的模型进行预测
    val_seq = tok.texts_to_sequences(val_content)
    val_seq_mat = sequence.pad_sequences(val_seq,maxlen=max_len)
    
    # 对验证集进行预测
    val_pre = model.predict(val_seq_mat)
    print(metrics.classification_report(np.argmax(val_y, axis=1),
                                        np.argmax(val_pre, axis=1),
                                        digits=4))
    print("accuracy", metrics.accuracy_score(np.argmax(val_y, axis=1),
                                             np.argmax(val_pre, axis=1)))
    # 计算时间
    elapsed = (time.clock() - start)
    print("Time used:", elapsed)

2.实验结果

训练输出结果如下图所示：

模型训练
Epoch 1/15

 1/10 [==>...........................] - ETA: 18s - loss: 1.6074 - accuracy: 0.2188
 2/10 [=====>........................] - ETA: 2s - loss: 1.5996 - accuracy: 0.2383 
 3/10 [========>.....................] - ETA: 2s - loss: 1.5903 - accuracy: 0.2500
 4/10 [===========>..................] - ETA: 2s - loss: 1.5665 - accuracy: 0.2793
 5/10 [==============>...............] - ETA: 2s - loss: 1.5552 - accuracy: 0.2750
 6/10 [=================>............] - ETA: 1s - loss: 1.5346 - accuracy: 0.2930
 7/10 [====================>.........] - ETA: 1s - loss: 1.5229 - accuracy: 0.3103
 8/10 [=======================>......] - ETA: 1s - loss: 1.5208 - accuracy: 0.3135
 9/10 [==========================>...] - ETA: 0s - loss: 1.5132 - accuracy: 0.3281
10/10 [==============================] - ETA: 0s - loss: 1.5046 - accuracy: 0.3400
10/10 [==============================] - 9s 728ms/step - loss: 1.5046 - accuracy: 0.3400 - val_loss: 1.4659 - val_accuracy: 0.5599

Time used: 13.8141568
{'loss': [1.5045626163482666], 'accuracy': [0.34004834294319153], 
 'val_loss': [1.4658586978912354], 'val_accuracy': [0.5599128603935242]}

最终预测结果如下所示：

模型预测
[[ 56  13   1   0  40]
 [ 31  53   0   0  16]
 [ 54  47   3   1  15]
 [ 27  14   1  51  37]
 [ 39  16   8   2 125]]
              precision    recall  f1-score   support

           0     0.2705    0.5091    0.3533       110
           1     0.3706    0.5300    0.4362       100
           2     0.2308    0.0250    0.0451       120
           3     0.9444    0.3923    0.5543       130
           4     0.5365    0.6579    0.5910       190

    accuracy                         0.4431       650
   macro avg     0.4706    0.4229    0.3960       650
weighted avg     0.4911    0.4431    0.4189       650

accuracy 0.4430769230769231

havior.
              precision    recall  f1-score   support

           0     0.8571    0.5625    0.6792       352
           1     0.6344    0.5514    0.5900       107
           2     0.0000    0.0000    0.0000         0
           4     0.0000    0.0000    0.0000         0

    accuracy                         0.5599       459
   macro avg     0.3729    0.2785    0.3173       459
weighted avg     0.8052    0.5599    0.6584       459

accuracy 0.5599128540305011
Time used: 23.0178675

六.总结

写到这里这篇文章就结束，希望对您有所帮助。忙碌的五月、六月，真的很忙，项目本子论文毕业，等忙完后好好写几篇安全博客，感谢支持和陪伴，尤其是家人的鼓励和支持，继续加油！

一.恶意软件分析
1.静态特征
2.动态特征
二.基于CNN的恶意家族检测
1.数据集
2.模型构建
3.实验结果
三.基于BiLSTM的恶意家族检测
1.模型构建
2.实验结果
四.基于BiGRU的恶意家族检测
1.模型构建
2.实验结果
五.基于CNN+BiLSTM和注意力的恶意家族检测
1.模型构建
2.实验结果

作者提问如下，欢迎大家补充：

恶意软件或二进制常见的特征包括哪些？各自有哪些优缺点。
恶意软件转灰度图是常见的家族分类方法，它与本文提出的方法的优缺点是什么？
如何提取恶意软件CFG和ICFG呢？提取后又如何被机器学习模型学习？
常见的向量表征方法有哪些，各自有哪些特点？您能否实现Word2Vec的代码呢？
机器学习和深度学习的联系及区别是什么？如果构建深度学习模型学习API序列，其恶意家族检测效果如何？
恶意软件家族分类或恶意代码检测发展到如今现状如何？工业界和学术界各种有哪些特点及局限，如何更好地关联来促进领域发展？
二进制方向是否还有更好的创新或突破性方法？其鲁棒性、语义增强、可解释性如何提升。
如何实现未知家族的恶意软件检测，又如何实现高威胁恶意软件的溯源呢？
恶意软件检测如何更好地和底层硬件及编译器融合？以及如何对抗变种、混淆及对抗。
恶意软件检测能通过chatGPT技术快速生成变种吗？又如何对抗该技术的发展。

人生路是一个个十字路口，一次次博弈，一次次纠结和得失组成。得失得失，有得有失，不同的选择，不一样的精彩。虽然累和忙，但看到小珞珞还是挺满足的，感谢家人的陪伴。
小珞：爸爸，你下班回来了啊
我：你今天和婆婆去超市哭了吗？
小珞：是的，我想自己拿小发糕
我：听说被老爷爷老奶奶笑了啊，以后…
小珞：他们笑有什么用嘛！

是啊，哈哈，有什么用嘛小珞珞长大了，小可爱长成了小调皮。最近舍不得打车，改公交和共享摩托，但又寄托于买彩票，我们的500万话说，17年我咋不跟着女神在我们小区买套房呢？到今年感觉能赚近100万，够我在贵州教十年书。都是博弈，都是选择，都是酸甜，望小珞能开心健康成长，爱你们喔，继续干活，加油

(By:Eastmount 2023-09-15 夜于贵阳 http://blog.csdn.net/eastmount/ )

你可能感兴趣的:(当人工智能遇上安全,人工智能,深度学习,网络安全,系统安全,恶意代码)

Git解决本地与远程的代码冲突 HUGOkungggg 杂 git github
情况1:当本地的代码已经commit我遇到的是这个情况。方法肯定有很多。这里仅记录我处理成功的。首先我们应该把远端的代码分支拉取到本地的一个新的临时分支上。gitfetchoriginremote_brach:local_tmp然后可以通过下面命令查看与本地最新分支的差异。gitdifflocal_tmp在自己想提交的分支上执行合并命令。gitmergelocal_tmp如果有不能自动合并的冲突文
计算机基础之操作系统——进程与线程管理（三）查理养殖场计算机八股服务器 linux
1、多进程与多线程怎么选择？多进程资源隔离性好、安全性高、支持并行，然而资源需求高、进程间通信复杂、上下文切换开销大；多线程轻量级、高度共享资源和数据、线程间通信简单、资源占用低、上下文切换开销小，然而隔离性差，容错性差。应用场景多进程：如果应用需要独立的地址空间和资源，或者需要在不同的安全上下文中运行，那么多进程可能是更好的选择。多线程：如果应用需要高度共享数据和资源，或者需要轻量级的任务并发，
学习笔记08——ConcurrentHashMap实现原理及源码解析码代码的小仙女高级开发必备技能哈希算法算法
1.概述为什么需要ConcurrentHashMap？解决HashMap线程不安全问题：多线程put可能导致死循环（JDK7）、数据覆盖（JDK8）优化HashTable性能：通过细粒度锁替代全局锁，提高并发度对比表特性HashMapHashTableConcurrentHashMap线程安全否是是锁粒度无锁全局锁分段锁/CAS+synchronized并发性能高极低高Null键/值允许不允许不允
react原理面试题前端react
以下是一些关于React原理的面试题：一、虚拟DOM（VirtualDOM）请简要解释React中的虚拟DOM是如何工作的？答案：当组件的状态发生变化时，React首先会在内存中创建一个新的虚拟DOM树来表示更新后的UI结构。然后，React会将这个新的虚拟DOM树与旧的虚拟DOM树进行比较（这个过程称为Diff算法）。Diff算法会找出两个虚拟DOM树之间的差异，例如哪些节点被添加、删除或者修改
Eureka应用 javaspringboot
Eureka[juˈriːkə]简介Eureka是Netflix服务发现的服务端与客户端，Eureka提供服务注册以及服务发现的能力，当是EurekaServer时(注册中心)，所有的客户端会向其注册，当是EurekaClient时，可以从注册中心获取对应的服务信息，或者是向EurekaServer将自己作为实例注册进去，每个Eureka不仅仅是一个服务端同时还是一个客户端。注册中心当Eureka
《动手学PyTorch深度学习建模与应用》第二章：2.4-2.6节详解环工人学Python 深度学习 pytorch 人工智能 python 机器学习学习
写在前面：不知不觉已经更了第一个章节，目前的内容都是很基础的内容，有人会问现在ai时代，还有必要学习这些内容吗，我想说的是，越是基础的内容我们越要认真去学习和分析，ai可以快速解决问题，但是我希望我们可以知其所以然，感谢所有支持的收藏和粉丝，希望这些文章对你们有些许帮助！点点关注不迷路，免费的赞和收藏走起来！后续更新第一时间提示哦，每周会更新不同内容，下周更新如何用各种模态的大模型去为你服务，编写
ssm002学院党员管理系统(文档+源码)_kaic 开心毕设开发语言 vue.js 前端 javascript java
摘要互联网发展至今，无论是其理论还是技术都已经成熟，而且它广泛参与在社会中的方方面面。它让信息都可以通过网络传播，搭配信息管理工具可以很好地为人们提供服务。针对鄂尔多斯应用技术学院党员信息管理混乱，出错率高，信息安全性差，劳动强度大，费时费力等问题，采用鄂尔多斯应用技术学院党员管理系统可以有效管理，使信息管理能够更加科学和规范。鄂尔多斯应用技术学院党员管理系统在Eclipse环境中，使用Java语
清华DeepSeek从入门到精通系列PDF全五弹 2501_90737221 pdf 人工智能
资源链接：https://pan.quark.cn/s/e9b7230b1538宝子们，今天要给大家分享一套超级厉害的DeepSeek系列PDF，由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室出品，从入门到精通，全方位带你玩转人工智能!DeepSeek从入门到精通(清华大学指南第一弹)这本PDF是DeepSeek的敲门砖，内容涵盖DeepSeek的基本概念、应用场景以及如何使用DeepSe
明知是在乎的人还是忍不住生气怎么办魙先生生活问题都有解/让自己变更好生活
不克制情绪也不被情绪控制（四）■有时，明知对方不会伤害自己，明知是在乎的人，还是忍不住对他或因他生气怎么办■1其实很多都是误会2陌生人也就罢了，倘若是在乎自己的人，如家人、朋友、爱人…可以生气但也可以不生气■追本溯源•误会、频道•安全需求《复原力》：“人类有三种最基本的需求：安全感、满足感和与他人的连接而生气，大多是以为感觉安全感受到威胁，而本能的反应而实际很多时候，安全感并没有受到威胁，只是误会
每日十个计算机专有名词 (7) 太炀每日十个计算机专有名词杂项
Metasploit词源：Meta（超越，超出）+exploit（漏洞利用）Metasploit是一个安全测试框架，用来帮助安全专家（也叫渗透测试人员）发现和利用计算机系统中的漏洞。你可以把它想象成一个工具箱，里面装满了各种可以测试网络和应用程序安全的工具。它有很多预设的“攻击模块”，这些模块可以模拟黑客的攻击方式，帮助你检查自己的系统是否容易受到攻击。通过这些攻击模拟，你可以发现安全漏洞，并及时
计算机网络学编程吗,网络安全要学编程吗啊倩计算机网络学编程吗
网络编程从大的方面说就是对信息的发送到接收，中间传输为物理线路的作用。网络安全要学编程吗?佰佰安全网看看吧。网络安全的任何一项工作，都必须在网络安全组织、网络安全策略、网络安全技术、网络安全运行体系的综合作用下才能取得成效。首先必须有具体的人和组织来承担安全工作，并且赋予组织相应的责权;其次必须有相应的安全策略来指导和规范安全工作的开展，明确应该做什么，不应该做什么，按什么流程和方法来做;再次若有
AI 进阶指南：携手DeepSeek从小白到行业先锋的跃迁之路轻口味大模型实战人工智能 deepseek 大模型
AI进阶指南：携手DeepSeek从小白到行业先锋的跃迁之路在当今数字化浪潮汹涌澎湃的时代，人工智能（AI）宛如一颗璀璨的明星，照亮了各个领域的创新与发展道路。然而，面对AI这一庞大而复杂的体系，许多人往往感到迷茫无措，不知自己处于何种水平，更不知如何迈向更高的层次。尤其是DeepSeek的出圈，AI的热度更加火爆。无论是普通用户还是AI从业者也变得很迷茫，不知如何应对AI的崛起。本文将依据AI应
C++编译过程详解采采卷耳77 C/C++c++
编译步骤：一、编译：预处理，编译，汇编二、链接预处理：生成“.ii文件”,对所有的#进行预处理，对include进行链接，对宏macro进行替换（预处理器cpp（cpreprocessor））g++生成的文件后缀名为.ii，gcc生成的文件后缀名为.i。头文件中不能放函数的以及变量定义，因为当同时编译多个编译单元并连接为一个可执行文件的时候，如果这些编译单元中有重复引用同一个头文件，,如果头文件中
AI赋能智能家居，CES Asia 2025论坛深度探讨行业未来赛逸展张胜人工智能科技
在科技飞速发展的当下，人工智能（AI）正以惊人的速度渗透到各个领域，智能家居便是其中备受瞩目的应用场景之一。2025年，第七届亚洲消费电子技术贸易展（CESAsia2025）以“科技重塑生活，创新定义未来”为主题盛大举行，同期举办的“AI赋能未来：从技术创新到商业落地”论坛，聚焦AI在智能家居领域的应用与发展，吸引了众多企业的高度关注。AI重塑智能家居新生态随着人们对生活品质的追求不断提高，智能家
python学习一星光网络安全社 python 学习 python 网络安全 web安全
学习网络安全为什么要学python?1、在实际的渗透测试过程中，面对复杂多变的网络环境，当常用工具不能满足实际需求的时候，往往需要对现有工具进行扩展，或者编写符合我们要求的工具、自动化脚本，这个时候就需要具备一定的编程能力。2、python是一门编程语言经常用它来写脚本怎么学习python？1、通过本课程能够用python写基本的脚本2、在以后工作中多使用熟练使用那么就让我们先了解一下python
网络安全审计员网络安全-老纪 web安全网络安全
在当今数字化时代，随着信息技术的迅猛发展，网络安全问题日益凸显，成为各行各业不容忽视的重要议题。特别是对于企业、政府机构等组织而言，网络安全不仅关乎数据资产的安全，更与组织的声誉、客户信任乃至法律法规的遵从性紧密相连。因此，网络安全审计员这一角色应运而生，他们在保障网络安全方面发挥着举足轻重的作用。网络安全审计员是负责监督和评估组织网络安全状况的专业人员。他们需具备深厚的网络安全知识，包括但不限于
vim基本命令网络安全-老纪 vim excel 编辑器
简介Vim是一款开源的模式化文本编辑器，项目源码公开在Github。Windows用户可以从此下载最新的每日构建版：vim-win32-installer。如何退出vim别紧张。确保你使用的是英文输入法，然后按如下顺序敲击键盘：按一下ESC输入一个:输入一个q输入一个!按一下回车，即键盘上的Enter做得很好，你已经安全了。什么是模式Vim不同于其他编辑器的主要特点就是模式化。什么叫做模式化？可以
信息安全与网络安全有什么区别？ 2401_84297944 程序员 web安全网络安全
信息安全包含哪些内容？1、硬件安全：即网络硬件和存储媒休的安全。要保护这些硬设施不受损害，能够正常工作。2、软件安全：即计算机及其网络r各种软件不被篡改或破坏，不被非法操作或误操作，功能不会失效，不被非法复制。3、运行服务安全：即网络中的各个信息系统能够正常运行并能正常地通过网络交流信息。通过对网络系统中的各种设备运行状况的监测，发现不安全因素能及时报警并采取措施改变不安全状态，保障网络系统正常运
Redis--过期删除策略和数据淘汰策略像素化创新 redis redis 数据库缓存
过期删除策略Redis的键过期后不会立即删除，而是通过定时删除、定期删除和惰性删除三种策略来管理过期键。这些策略旨在平衡性能和内存使用，避免系统资源的过度消耗。下面详细介绍这三种策略：1.定时删除（TimelyDeletion）解释：Redis会为每个设置了过期时间的键创建一个定时器，当键过期时，定时器触发，Redis会立即删除这个键。优点：及时删除过期键，释放内存。缺点：为每个键都设置定时器可能
在Python中高效操作三维和四维数组相乘：人工智能基础 NumPy部分秋‍. python numpy 开发语言人工智能
一、前言在深度学习、科学计算和数据分析领域，处理高维数组是家常便饭。本文将深入探讨三维和四维数组的相乘操作，通过NumPy库演示各种实用技巧。二、核心概念梳理1.数组维度理解三维数组：(层,行,列)可理解为多个二维矩阵的堆叠四维数组：(批次大小,通道数,高度,宽度)常见于图像处理2.关键函数对比函数特性说明支持维度np.multiply元素级相乘任意np.dot标准矩阵点积≤2np.matmul广
如何更加优雅提问：浅谈提示词愚戏师语言模型人工智能自然语言处理
询问是一门艺术，如何优雅高效地提问很可能是未来十年每个人的必备素质参考ISO/IEC23894人工智能系统工程标准第一步：理论基础构建目标：通过结构化分析与实践验证，提升提示词设计的精准度、可控性与生成效率一、提示词设计的核心方法论分阶目标拆解基础层：明确任务类型（生成、推理、分类、创作等）逻辑层：定义输出格式（步骤化、代码块、表格、故事体例等）优化层：嵌入约束条件（长度、风格、知识范围、反例排除
基于STM32F103的0.96寸OLED显示屏驱动程序IIC（注释详细_复制可用）巨大蜗牛常用器件驱动 stm32 嵌入式硬件单片机
先介绍一下OLEDOLED被称为有机激光二极管显示，OLED采用有机材料涂层和玻璃基板，当有电流通过时有机材料就会发光，所以OLED具有自发光特性，不需要背光源的特点。显示的原理是将图像或文字分解为一组组小点,并通过控制每个点的亮度或颜色来显示信息。这些小点通常是很小的正方形，并且由有机发光二极管组成。常用的点阵大小有12x12、14x14、16x16、8x16等，每个点用0或1表示，0代表没有点
CES Asia 2025前瞻：网络安全与数据隐私成焦点赛逸展张胜 web安全安全
在数字化转型的浪潮加速奔涌之际，网络安全与数据隐私已然成为企业发展版图中的核心关切。即将盛大启幕的CESAsia2025第七届亚洲消费电子技术贸易展（赛逸展），无疑将汇聚行业目光，成为探讨网络安全与数据隐私领域前沿趋势、创新技术以及法规动态的关键平台。零信任架构的普及走向、数据隐私法规的最新动向，以及量子加密技术蕴含的潜在影响，都备受瞩目，有望在展会上引发广泛关注与深入探讨。零信任架构：网络安全新
缓存过期的惰性删除（Lazy Deletion）策略布谷歌缓存 spring java spring boot 前端
缓存过期-惰性删除(LazyDeletion)是一种用于处理缓存过期的策略，它在读取缓存数据时才去判断缓存项是否过期，如果过期则将其删除并返回空值，而不是在缓存项过期的瞬间就立即进行删除操作。以下从原理、优缺点、适用场景、实现示例几个方面为你详细介绍：原理在采用惰性删除策略的缓存系统中，为每个缓存项设置了过期时间，但系统不会主动去监控这些缓存项是否过期。当客户端发起对某个缓存项的读取请求时，缓存系
2-1文件描述符要好好养胃 linux linux 服务器
文章目录1虚拟地址空间1.1为什么需要虚拟内存而不是直接加载进物理内存1.2分区2文件描述符1.1文件描述符表file1虚拟地址空间可以用来加载程序数据对应一段连续的内存地址，其实位置为0这个内存地址是虚拟的，并不是物理内存的0地址当运行磁盘上的一个可执行程序，就会得到一个进程，内核会给每一个进程创建一个虚拟地址空间，并将应用程序装载到虚拟地址空间对应的内存中进程在运行过程中，程序内部的指令都是通
前后端数据传输加密：Python 与 Vue 的实践风清扬【coder】 Web应用 vue.js python 前端
Python与Vue实现接口数据加密传输在当今互联网应用开发中，数据安全是重中之重。尤其是在前后端进行数据交互时，确保传输数据的保密性、完整性和可用性，是每一位开发者不可忽视的关键环节。本文将深入探讨如何运用Python后端和Vue前端技术，实现接口数据传输过程中的加密处理，为大家揭开数据安全保护的神秘面纱。加密基石：AES算法我们选用的加密算法是AES（AdvancedEncryptionSta
网络安全导论PDF 网络安全Ash pdf
点击文末小卡片，免费获取网络安全全套资料，资料在手，涨薪更快这份重点是在准备复试时边看书和ppt边手打的。掐指一算已经是整整一个月前的事情惹。这本教材是哈工程复试参考书目，但是网络上关于它的材料比较少。把自己整理的重点放上来，希望能帮到期末、复试以及自学网络安全的小可爱♥网络安全2.1基本协议ARP地址解析协议：将局域网中的32bitIP地址→48bit物理地址（网卡的MAC地址）ARP欺骗：计算
2025年入职/转行网络安全，该如何规划？网络安全职业规划教网络安全的毛老师 web安全安全网络运维云计算
网络安全是一个日益增长的行业，对于打算进入或转行进入该领域的人来说，制定一个清晰且系统的职业规划非常重要。2025年，网络安全领域将继续发展并面临新的挑战，包括不断变化的技术、法规要求以及日益复杂的威胁环境。以下是一个关于网络安全职业规划的详细指南，涵盖了从入门到高级岗位的成长路径、技能要求、资源获取等方面的内容。第一部分：网络安全行业概述1.1网络安全的现状与未来网络安全已经成为全球企业和政府的
jenkins创建新用户_Jenkins的用户管理 Damong.Liu jenkins创建新用户
用户管理入口Jenkins首页有一个用户，但是只能从那查看用户列表和信息，管理用户的入口在Jenkins->系统管理->管理用户新建用户在管理用户左侧有一个新增用户，点击后按照表单填写即可用户权限在确定使用用户功能之后，需要在全局安全设置中先做一些配置在Jenkins->系统管理->ConfigureGlobalSecurity中，勾选启用安全上图是一个简单的示例全局权限第一行的用户是超级管理员超
python数据预处理技术与实践期末考试_Python机器学习手册：从数据预处理到深度学习... 坂田月半
内容简介O'ReillyMedia,Inc．介绍第1章向量、矩阵和数组1.0简介1.1创建一个向量1.2创建一个矩阵1.3创建一个稀疏矩阵1.4选择元素1.5展示一个矩阵的属性1.6对多个元素同时应用某个操作1.7找到最大值和最小值1.8计算平均值、方差和标准差1.9矩阵变形1.10转置向量或矩阵1.11展开一个矩阵1.12计算矩阵的秩1.13计算行列式1.14获取矩阵的对角线元素1.15计算矩阵
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author cngolon@126.com * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本