LB200003

NSL-KDD 基于随机森林的分类模型

数据集

NSL-KDD数据集是网络安全领域相对权威的入侵检测数据集，它对KDD 99的一些固有问题做了改进。

（1）NSL-KDD数据集的训练集和测试集中不包含冗余记录，使检测更加准确。

（2）训练和测试中的记录数量设置是合理的，这使得在整套实验上运行实验成本低廉而无需随机选择一小部分。因此，不同研究工作的评估结果将是一致的和可比较的。

NSL-KDD官方地址
本实验用到的文件有 KDDTrain+.txt、KDDTrain+_20Percent.txt和KDDTest+.txt

数据预处理

1.原始数据的攻击类型很多，我们把它划分为五大类，先建立一个映射字典

def data_handle():



 dataset_root = 'data'#数据根目录

 header_names = ['duration', 'protocol_type', 'service', 'flag', 'src_bytes', 'dst_bytes', 'land', 'wrong_fragment', 'urgent', 'hot', 'num_failed_logins', 'logged_in', 'num_compromised', 'root_shell', 'su_attempted', 'num_root', 'num_file_creations', 'num_shells', 'num_access_files', 'num_outbound_cmds', 'is_host_login', 'is_guest_login', 'count', 'srv_count', 'serror_rate', 'srv_serror_rate', 'rerror_rate', 'srv_rerror_rate', 'same_srv_rate', 'diff_srv_rate', 'srv_diff_host_rate', 'dst_host_count', 'dst_host_srv_count', 'dst_host_same_srv_rate', 'dst_host_diff_srv_rate', 'dst_host_same_src_port_rate', 'dst_host_srv_diff_host_rate', 'dst_host_serror_rate', 'dst_host_srv_serror_rate', 'dst_host_rerror_rate', 'dst_host_srv_rerror_rate', 'attack_type', 'success_pred']

 #------------------------创建攻击类型的映射字典-----------------------
 category = defaultdict(list)
 category['benign'].append('normal')

 with open('data/training_attack_types.txt', 'r') as f:
	 for line in f.readlines():
		 attack, cat = line.strip().split(' ')
		 category[cat].append(attack)
 # print(category)
 attack_mapping = dict((v,k) for k in category for v in category[k])
 # print(attack_mapping)

training_attack_types.txt 文件内容

apache2 dos
back dos
mailbomb dos
processtable dos
snmpgetattack dos
teardrop dos
smurf dos
land dos
neptune dos
pod dos
udpstorm dos
ps u2r
buffer_overflow u2r
perl u2r
rootkit u2r
loadmodule u2r
xterm u2r
sqlattack u2r
httptunnel u2r
ftp_write r2l
guess_passwd r2l
snmpguess r2l
imap r2l
spy r2l
warezclient r2l
warezmaster r2l
multihop r2l
phf r2l
named r2l
sendmail r2l
xlock r2l
xsnoop r2l
worm r2l
nmap probe
ipsweep probe
portsweep probe
satan probe
mscan probe
saint probe

载入数据

 train_file = os.path.join(dataset_root, 'KDDTrain+.txt')
 test_file = os.path.join(dataset_root, 'KDDTest+.txt')

 train_df = pd.read_csv(train_file, names=header_names)
 print(f'初始数据规模')
 print(f'X_train shape is {train_df.shape}')
 print(Counter(train_df['attack_type']))
 # print(f'train_label is {Counter(train_df['attack_type'])}')
 print(train_df.info())

查看一下初始数据是什么样子

数据共43列，前41列为网络流量特征，第42列为攻击类型，43列为能够正确标注给定记录的学习者数量。第43列与流量本身无关，后面会删掉。
进行归类

 train_df['label'] = train_df['attack_type'] .map(lambda x: attack_mapping[x])#把攻击类型归到五大类中
 train_df.drop(['attack_type'], axis=1, inplace=True)#去掉细分攻击类型那一列
 train_df.drop(['success_pred'], axis=1, inplace=True)#去掉最后一列
 # print(train_df)
 # print(train_df.info())
 test_df = pd.read_csv(test_file, names=header_names)
 print(f'X_test shape is {test_df.shape}')
 print(Counter(test_df['attack_type']))
 test_df['label'] = test_df['attack_type'] .map(lambda x: attack_mapping[x])
 test_df.drop(['attack_type'], axis=1, inplace=True)#去掉细分攻击类型那一列
 test_df.drop(['success_pred'], axis=1, inplace=True)

查看归类后的数据规模

Y_train = train_df['label'] #训练数据的标签列
 Y_test  = test_df['label'] #测试数据的标签列
 X_train = train_df.drop('label', axis=1) #训练数据的40列特征
 X_test  = test_df.drop('label', axis=1) #测试数据的40列特征
 # print(Y_train)
 # print(X_train)
 print(f'归类后数据规模')
 print(f'X_train shape is {X_train.shape}')
 print(f'Y_train shape is {Y_train.shape}')
 print(f'train_label is {Counter(Y_train)}')
 print(f'X_test shape is {X_test.shape}')
 print(f'Y_test shape is {Y_train.shape}')
 print(f'test_label is {Counter(Y_test)}')

数据中存在三个字符型离散特征：‘protocol_type’, ‘service’, ‘flag’，先对它们编码，转换成数字表示。由于转换后的值会影响同一特征在样本中的权重，因此采用独热编码（用N位状态寄存器来对N个状态进行编码）

 # # ---------------------分离离散特征------------------------------
 def split_category(data, columns):
    cat_data = data[columns] #分离出的三个离散变量
    rest_data = data.drop(columns, axis=1)#剩余的特征
    return rest_data, cat_data


 categorical_mask = (X_train.dtypes == object)
 categorical_columns = X_train.columns[categorical_mask].tolist()
 # print(categorical_mask)
 # print(categorical_columns)
 # ----------------------把三个离散字符型特征编码，转化成数字------------------------
 from sklearn.preprocessing import LabelEncoder
 def label_encoder(data):
  labelencoder = LabelEncoder()
  for col in data.columns:
   data.loc[:, col] = labelencoder.fit_transform(data[col])
  return data

 X_train[categorical_columns]= label_encoder(X_train[categorical_columns])
 X_test[categorical_columns] = label_encoder(X_test[categorical_columns])

由于数据集极不平衡，先对训练集重采样再进行独热编码

#---------------------------重采样-----------------------------------
 from imblearn.over_sampling import SMOTE, ADASYN
 oversample = ADASYN()
 X_train, Y_train = oversample.fit_resample(X_train, Y_train)
 print(f'重采样后的数据规模')
 print(f'X_train shape is {X_train.shape}')
 print(f'Y_train shape is {Y_train.shape}')
 X_train, X_train_cat = split_category(X_train, categorical_columns)
 # print(X)#剩余的38个特征
 # print(X_cat) #分离出的三个离散变量  'protocol_type', 'service', 'flag'，各自的类别数为3 70 11

 X_test, X_test_cat = split_category(X_test, categorical_columns)
 # ----------------------------对所有离散变量进行独热编码-------------------------------
 def one_hot_cat(data):
    if isinstance(data, pd.Series):
        data = pd.DataFrame(data, columns=[data.name])
    # print(data)
    out = pd.DataFrame([])
    for col in data.columns:
        one_hot_cols = pd.get_dummies(data[col], prefix=col)
        out = pd.concat([out, one_hot_cols], axis=1)
    out.set_index(data.index)
    return out

 X_train_cat_one_hot = one_hot_cat(X_train_cat)
 print(X_train_cat_one_hot.shape)
 print(X_train_cat_one_hot.iloc[:,[0,1,2]])
 X_test_cat_one_hot = one_hot_cat(X_test_cat)
 print(X_test_cat_one_hot.shape)

额外的一些处理，由于测试集和训练集中存在不同的类型，所以要对齐

# 将测试集与训练集对齐
 X_train_cat_one_hot, X_test_cat_one_hot = X_train_cat_one_hot.align(X_test_cat_one_hot, join='inner', axis=1)
 print(X_train_cat_one_hot)
 print(X_test_cat_one_hot)
 X_train_cat_one_hot.fillna(0, inplace=True) #用NAN填充数据集中的空值
 X_test_cat_one_hot.fillna(0, inplace=True)
 X_train = pd.concat([X_train, X_train_cat_one_hot], axis=1)#数据合并
 X_test = pd.concat([X_test, X_test_cat_one_hot], axis=1)
 # 特征值归一化
 min_max_scaler = MinMaxScaler()
 X_train = min_max_scaler.fit_transform(X_train)
 X_test = min_max_scaler.fit_transform(X_test)

最后把分类标签也编码一下。可以尝试采用pca降维，但我降维之后准确率变得很离谱，大家可以尝试一下。

 #--------------------把分类标签编码-------------------------------

 from sklearn.preprocessing import LabelEncoder


 Y_train_encode = LabelEncoder().fit_transform(Y_train)
 Y_test_encode = LabelEncoder().fit_transform(Y_test)

 # pca = decomposition.PCA()
 # pca = PCA(n_components=83)
 # pca.fit(X_train)
 # X_train_reduced = pca.fit_transform(X_train)
 # print(X_train_reduced.shape)
 # 
 # pca.fit(X_test)
 # X_test_reduced = pca.fit_transform(X_test)
 # print(X_test_reduced.shape)

 return X_train,Y_train_encode,X_test,Y_test_encode

把处理好的数据存一下，后面验证的时候不用每次都处理了
KDDTrain+.txt和KDDTest+.txt

if __name__ == '__main__':
 X_train,Y_train,X_test,Y_test=data_handle()

  pd.DataFrame(X_train).to_csv('data/KDDTrain+vtest+_afterHandle.csv',index=False)
  pd.DataFrame(Y_train).to_csv('data/KDDTrain+vtest+_label_afterHandle.csv',index=False)
  pd.DataFrame(X_test).to_csv('data/KDDTest+_afterHandle.csv', index=False)
  pd.DataFrame(Y_test).to_csv('data/KDDTest+_label_afterHandle.csv', index=False)

把前面注释掉，处理KDDTrain+.txt和KDDTrain+_20Percent.txt

  pd.DataFrame(X_train).to_csv('data/KDDTrain+_afterHandle.csv',index=False)
  pd.DataFrame(Y_train).to_csv('data/KDDTrain+_label_afterHandle.csv',index=False)
  pd.DataFrame(X_test).to_csv('data/data/KDDTrain20+_afterHandle.csv', index=False)
  pd.DataFrame(Y_test).to_csv('data/KDDTrain20+_label_afterHandle.csv', index=False)

模型建立

随机森林是一种集成学习方法，它是对决策树的集成。每棵决策树都是一个分类器，那么对于一个输入样本，N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果，将投票次数最多的类别指定为最终的输出，是一种最简单的 Bagging 思想。
构建过程：
（1）从N个训练样本中以有放回抽样的方式，取样N次，形成一个训练集，并用未抽到的用例（样本）作预测，评估其误差。
（2）对于每一个节点，随机选择m个特征，m远小于总特征数。从这m个属性中采用某种策略（比如说信息增益或Gini）来选择1个属性作为该节点的分裂属性。
（3）决策树形成过程中每个节点都要按照步骤（2）来分裂，直到不能再分裂。
（4）按照步骤（1）-（3）建立大量的决策树，构成随机森林。
随机森林具有较好的准确率；能够有效地运行在大数据集上；能够处理具有高维特征的输入样本。
模型建立
对下面的参数进行调优

将n_estimators设置在0-200之间，设置步长为10，得到最优参数为131

# 优化n_estimators树的棵数
 scorel = []
 for i in range(0, 200, 10):
  RFC = RandomForestClassifier(n_estimators=i + 1,
                               n_jobs=-1,
                               random_state=0)
  score = cross_val_score(RFC, X_train, Y_train, cv=10).mean()
  scorel.append(score)

 print(max(scorel), (scorel.index(max(scorel)) * 10) + 1)  # 作图反映出准确度随着估计器数量的变化，131的附近最好
 plt.figure(figsize=[20, 5])
 plt.plot(range(1, 201, 10), scorel)
 plt.show()

缩小步长为1，在120-140内继续调优，最终得到最优参数为

 # 根据上面的显示最优点在131附近，进一步细化学习曲线
 scorel = []
 for i in range(120, 140):
  RFC = RandomForestClassifier(n_estimators=i,
                               n_jobs=-1,
                               random_state=0)
  score = cross_val_score(RFC, X_train, Y_train, cv=10).mean()
  scorel.append(score)

 print(max(scorel), ([*range(120, 140)][scorel.index(max(scorel))]))  # 132是最优的估计器数量 #最优得分是0.990285
 plt.figure(figsize=[20, 5])
 plt.plot(range(120, 140), scorel)
 plt.show()

## 调整max_features
 param_grid = {'max_features': ['auto', 'sqrt', 'log2']}
 RFC = RandomForestClassifier(n_estimators=132
                              , random_state=0
                              )
 GS = GridSearchCV(RFC, param_grid, cv=10)
 GS.fit(X_train, Y_train)
 print(GS.best_params_)  # 最佳最大特征方法为auto  不用更改默认

## 调整criterion
 param_grid = {'criterion': ['gini', 'entropy']}
 RFC = RandomForestClassifier(n_estimators=132
                              , random_state=0
                              )
 GS = GridSearchCV(RFC, param_grid, cv=10)
 GS.fit(X_train, Y_train)
 print(GS.best_params_)  # 在这种情况下，最佳判别标准为gini

## 优化max_depth
 from sklearn.model_selection import GridSearchCV

 param_grid = {'max_depth': np.arange(1, 20, 1)}  # 一般根据数据的大小来进行一个1~20这样的试探，更应该画出学习曲线，来观察深度对模型的影响
 RFC = RandomForestClassifier(n_estimators=132
                              , random_state=0

                              )
 GS = GridSearchCV(RFC, param_grid, cv=10)
 GS.fit(X_train, Y_train)
 print(GS.best_params_)  # 最佳深度为19

调优结果

模型测试

用默认参数分类

if __name__ == '__main__':
#------------------测试1 训练集KDDTrain+.txt  测试集KDDTrain+_20Percent.txt------------------------
 X_train = pd.read_csv("data/KDDTrain+_afterHandle.csv")
 X_train=X_train.values
 print(X_train.shape)
 Y_train=pd.read_csv("data/KDDTrain+_label_afterHandle.csv")
 Y_train=Y_train.values
 print(Y_train.shape)
 X_test=pd.read_csv("data/KDDTrain20+_afterHandle.csv")
 X_test=X_test.values
 Y_test=pd.read_csv("data/KDDTrain20+_label_afterHandle.csv")
 Y_test=Y_test.values

 # ------------------测试2 训练集KDDTrain+.txt  测试集KDDTest+_.txt------------------------
 # X_train = pd.read_csv("data/KDDTrain+vtest_afterHandle.csv")
 # X_train = X_train.values
 # # print(X_train.shape)
 # Y_train = pd.read_csv("data/KDDTrain+vtest_label_afterHandle.csv")
 # Y_train = Y_train.values
 # # print(Y_train.shape)
 # X_test = pd.read_csv("data/KDDTest+_afterHandle.csv")
 # X_test = X_test.values
 # Y_test = pd.read_csv("data/KDDTest+_label_afterHandle.csv")
 # Y_test = Y_test.values
 #------------------模型评估--------------------
 def assess_model(model_pred):
  target_names = ['benign', 'dos', 'probe', 'r2l', 'u2r']
  print(f'准确率: {accuracy_score(Y_test, model_pred)}')
  print(f'混淆矩阵:')
  print(confusion_matrix(Y_test, model_pred))
  print(f'分类报告:')
  print(classification_report(Y_test, model_pred, target_names=target_names, digits=3))
  f1 = f1_score(model_pred, Y_test, average='macro')
  print(f'f1_score  is {f1}')
  # 默认
 RFC = RandomForestClassifier()
 # RFC.fit(X_train, Y_train)
 RFC.fit(X_train, Y_train)
 RFC_pred = RFC.predict(X_test)
 print(f'随机森林')
 assess_model(RFC_pred)

测试1 训练集KDDTrain+.txt 测试集KDDTrain+20Percent.txt

测试2 训练集KDDTrain+.txt 测试集KDDTest+.txt
这个报错可以忽略或者把RFC.fit(X_train, Y_train)改成RFC.fit(X_train, pd.DataFrame(Y_train).values.ravel())就ok了

C:/Users/LB/Desktop/2021研究生课程资料/2021研一上/数据仓库及数据挖掘/作业2_数据挖掘/AnomalyDetection/test.py:112: DataConversionWarning: A column-vector y was passed when a 1d array was expected. Please change the shape of y to (n_samples,), for example using ravel().
  RFC.fit(X_train, Y_train)

用调优后的参数分类

# 调参后
 RFC = RandomForestClassifier(n_estimators=132 , random_state=0,max_depth=19)
 # RFC.fit(X_train, Y_train)
 RFC.fit(X_train, Y_train)
 RFC_pred = RFC.predict(X_test)
 print(f'随机森林')
 assess_model(RFC_pred)

测试1 训练集KDDTrain+.txt 测试集KDDTrain+_20Percent.txt

测试2 训练集KDDTrain+.txt 测试集KDDTest+_.txt

max_depth调整可能会导致过拟合，我们验证一下，用调优后的其他参数，但不使用max_depth=19 ，训练集20%的准确率升高了，但测试集的准确率下降了，明显过拟合了

RFC = RandomForestClassifier(n_estimators=132 , random_state=0)
 # RFC.fit(X_train, Y_train)
 RFC.fit(X_train, Y_train)
 RFC_pred = RFC.predict(X_test)
 print(f'随机森林')
 assess_model(RFC_pred)

测试1 训练集KDDTrain+.txt 测试集KDDTrain+_20Percent.txt

测试2 训练集KDDTrain+.txt 测试集KDDTest+_.txt

因此我们还是采用调优后的整套参数

总结

以上建立了NSL-KDD的一个简单分类模型。本实验是我作为数据挖掘的一个课堂汇报，老师问了一个问题我没答上来。这个问题是随机森林是二分类算法，怎么用于多分类呢
我下来想了一下，应该是因为随机森林里的很多棵决策树，它们最后分成的两类结果不一定是一样的，这样每种类别都会有对应的决策树。因此对每个类别进行分类时，用的是与之相关的决策树，所以随机森林可以实现多分类。

参考

参考1
参考2

番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
xilinx vivado PULLMODE 设置思路坚持每天写程序 fpga开发
1.xilinx引脚分类XilinxIO的分类：以XC7A100TFGG484为例，其引脚分类如下：1.UserIO(用户IO)：用户使用的普通IO1.1专用(Dedicated)IO：命名为IO_LXXY_#、IO_XX_#的引脚，有固定的特定用途，多为底层特定功能的直接实现，如差分对信号、关键控制信号等，不能随意变更。1.2多功能(Multi-Function)IO：命名为IO_LXXY_ZZ
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
网络通信流程记得开心一点啊服务器网络运维
目录♫IP地址♫子网掩码♫MAC地址♫相关设备♫ARP寻址♫网络通信流程♫IP地址我们已经知道IP地址由网络号+主机号组成，根据IP地址的不同可以有5钟划分网络号和主机号的方案：其中，各类地址的表示范围是：分类范围适用网络网络数量主机最大连接数A类0.0.0.0~127.255.255.255大型网络12616777214【(2^24)-2】B类128.0.0.0~191.255.255.255中
5分钟说透AppStore审核原理，让你拥有上架新思路！ Q仔本人噢
在AppStore上架是越来越难了!相信非常多公司的技术人员都为此困扰，然而外包团队水平又层次不齐，容易遇坑，实在是内忧外患。是什么原因导致审核机制频繁调整？又是什么原因使得审核变得越发严格？那么接下来听小Q分解，马上给各位带来解答!首先看一下近一年的上下架的情况：近一年上架情况近一年下架情况通过数据我们发现越是马甲包产量权重高的分类里被下架的app数量越多，苹果此举可谓是上有政策，下有对策。通过
计算机木马详细编写思路小熊同学哦 php 开发语言木马木马思路
导语：计算机木马（ComputerTrojan）是一种恶意软件，通过欺骗用户从而获取系统控制权限，给黑客打开系统后门的一种手段。虽然木马的存在给用户和系统带来严重的安全风险，但是了解它的工作原理与编写思路，对于我们提高防范意识、构建更健壮的网络安全体系具有重要意义。本篇博客将深入剖析计算机木马的详细编写思路，以及如何复杂化挑战，以期提高读者对计算机木马的认识和对抗能力。计算机木马的基本原理计算机木
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
《转介绍方法论》学习笔记小可乐的妈妈
一、高效转介绍的流程：价值观---执行----方案一）转介绍发生的背景：1、对象：谁向谁转介绍？全员营销，人人参与。①员工的激励政策、客户的转介绍诱因制作客户画像：a信任；支付能力；意愿度；便利度（根据家长具备四个特征的个数分为四类）B性格分类C职业分类D年龄性别②执行：套路，策略，方法，流程2、诱因：为什么要转介绍？认同信任；多方共赢；传递美好；零风险承诺打动人心，超越期待。选择做教育，就是选择
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
【自动化测试】UI自动化的分类、如何选择合适的自动化测试工具以及其中appium的设计理念、引擎和引擎如何工作 Lossya ui 自动化测试工具自动化测试 appium
引言UI自动化测试主要针对软件的用户界面进行测试，以确保用户界面元素的交互和功能符合预期文章目录引言一、UI自动化的分类1.1基于代码的自动化测试1.2基于录制/回放的自动化测试1.3基于框架的自动化测试1.4按测试对象分类1.5按测试层次分类1.6按测试执行方式分类1.7按测试目的分类二、如何选择合适的自动化测试工具2.1项目需求分析2.2工具特性评估2.3成本考虑2.4团队技能2.5试用和评估
性格小测试熹大头
有些人非常肯定自己属于外向型，有些人则发现自己是绝对的内向型。然而，多数人却发现他们似乎介于两者之间，是两种性格的结合。现在我们就来看看你在这种分类中处在何种位置。阅读以下问题，从a、b、c中选出最适合自己的选项。你可能会发现三个选项都不合适，或者合适的不止一项，这种情况下，选出相对来说更适合自己的即可。1人们经常会用下列哪个词语描述你：a善于分析b遵守纪律c有创造力2一连几天参与社交活动（比如，
李克富 | 咨询师推荐阅读书目李克富
最重要的书籍不是别人的推荐，而是自己学过的教材，不论当初使用的是哪个版本，它都是我们专业的底层代码，具有不可替代性。前不久，中国心理咨询师筹委会的一位老师邀请我罗列一个推荐书目清单作为咨询师工具包的内容，并要求“说明一下简单的分类或者作三言两语的说明”。斟酌后，我觉得自己推荐的书目大体可以分为普及类书籍、心理学书籍和心理咨询与治疗专业书籍，第三类又分为适合于咨询师新手的和有经验咨询师的。经过严格筛
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
信息系统安全相关概念(下) YuanDaima2048 基础概念课程笔记安全
文章总览：YuanDaiMa2048博客文章总览上篇指路：信息系统安全相关概念(上)信息系统安全相关概念[下]信息系统风险评估安全风险评估信息系统等级保护网络安全法等级保护等级保护工作流程环境安全信息系统风险评估安全风险评估对信息系统整体安全态势的感知和对重大安全事件的预警，实现“事前能预防，事中能控制，事后能处理”。安全风险组成的四要素：信息系统资产（Asset）信息系统脆弱性（Vulnerab
新能源汽车 BMS 学习笔记篇—BMS 基本定义及分类 WPG大大通其他笔记汽车 BMS 经验分享新能源电池
一、BMS定义1、概念：BMS（BatteryManagementSystem）即电池管理系统，其管理对象是二次电池（充电电池或蓄电池），其主要目的是电池的利用率，防止电池出现过度充电和过度放电，可应用于电动汽车、电瓶车、机器人、无人机等图片来源：腾讯网https://new.qq.com《标准普尔警告，电动汽车电池生产面临供应链和地缘政治风险》2、四大功能①感知和测量：检测电池的电压、电流、温度
郭生白中药方论之二(破除温凉寒热的框框) 本能学堂a昨年
离病说药茫茫然，对症下药不着边。顺势利导一乘法，排异调节渡法船。无限整合非模糊，模糊病区得清楚。共性之外求个性，亲和不生抗药性。温凉寒热巧方便，君臣佐使筏喻焉。药包大小折中看，毒性有无一念间。导读破除温凉寒热的框框寒热温凉是基于中药共性的传统分类药无寒热人有寒热药无寒热病有寒热抛弃温凉不并用的错误观念寒热温凉是基于中药共性的传统分类寒热温凉是个共性，是说的共性。这个共性，知道什么叫共性吗？所有的药
2022-04-25 L是木子李呢
上门维修APP开发应具备哪些功能随着移动互联网的不断发展，上门维修在我们生活中已经是非常普遍的存在了，为了给用户更方便的找到上门维修的渠道，上门维修APP应运而生，那么上门维修APP开发应具备哪些功能呢？1、维修门店搜索为了更好地方便用户省时省力，上门维修APP会依据用户定位信息搜索线下实体店，促使用户更好的找到线下维修店面，省时又省力。2、维修服务分类包括管道洁具维修、强电弱电维修、木工维修、粉
二十四、k8s 资源管理繁华依在 k8s kubernetes 容器云原生
目录一、资源配置范围管理LimitRange介绍1、LimitRange可以做什么：2、资源限制和请求的约束3、创建LimitsRange对象4、示例：创建一个pod5、测试用例测试1：测试2：测试3：二、资源服务质量管理（RequestsQos）1、Qos级别分类：1.1、Guaranteed：1.2、BestEffort：1.3、Burstable：2、Qos的工作特点3、示例三、资源配额管理
使用游戏盾就可以保证游戏不被攻击吗？德迅云安全小李游戏网络服务器安全网络安全
游戏服务器不管是个人的还是企业的，被攻击都是，很常见的，在所难免的。特别是游戏新上线时，都要承受的住哪些外来压力，玩家突然猛增，被攻击等等。如果承受不住可能会直接宣布游戏倒闭。这里我们一起来说说怎么用游戏盾防御游戏服务器。首先我们要了解的一点是，什么是"游戏盾"游戏盾是针对游戏行业所推出的高度可定制的网络安全解决方案，除了能针对大型DDoS攻击（T级别）进行有效防御外，还能彻底解决游戏行业特有的T
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
神经网络-损失函数红米煮粥神经网络人工智能深度学习
文章目录一、回归问题的损失函数1.均方误差（MeanSquaredError,MSE）2.平均绝对误差（MeanAbsoluteError,MAE）二、分类问题的损失函数1.0-1损失函数（Zero-OneLossFunction）2.交叉熵损失（Cross-EntropyLoss）3.合页损失（HingeLoss）三、总结在神经网络中，损失函数（LossFunction）扮演着至关重要的角色，它
教师资格考试中学《教育知识与能力》知识点｜高频考点汇总小山丘
温馨提示：更多汇总详情留言小编哦！！！认知过程之易混知识点剖析社会中心课程论情绪——重要考点皮亚杰教你带孩子斯金纳强化规律你的心理足够强大吗?教育心理学的效应德育有规律常考人物思想之夸美纽斯中学常考教学原则孔子及《论语》中的重要教育思想教育学创立阶段人物之赫尔巴特学习策略分类知识点梳理教师资格证辨析题作答思路综合课程的类型班杜拉的学习理论马斯洛需要层次理论记忆类型的四大分类柏拉图和他的《理想国》感
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
MySQL锁沉着冷静2024 MySQL mysql 数据库
MySQL锁文章目录MySQL锁MySQL中锁的分类创建索引时会锁表吗线上修改表结构会加什么锁Innodb存储引擎的行级锁有哪些Update语句中，不带where条件，加什么锁？MySQL实现乐观锁MySQL死锁MySQL死锁是怎么发生的？检查死锁如何避免死锁MySQL中锁的分类全局锁：主要用于全库逻辑备份表级锁：表锁、元数据锁、意向锁表锁：通过locktables语句对表进行加锁，它不仅限制其他
构建常态化安全防线：XDR的态势感知与自动化响应机制安胜ANSCEN 网络安全运维威胁分析自动化响应网络安全常态化安全运营
当前，网络安全威胁日益复杂多变，企业正面临前所未有的严峻挑战。为有效应对这些挑战，态势感知与自动化响应机制在提升网络安全运营效率与防御效果中扮演着至关重要的角色。它们能够实时监测网络状态，智能分析潜在威胁，并在发现异常时立即触发自动化响应流程，从而迅速遏制安全风险，保障企业数字资产的安全。态势感知网络安全的“预警雷达”态势感知，作为网络安全运营的核心组件，犹如一张无形的“预警雷达”，全面监测网络环
Python(PyTorch)和MATLAB及Rust和C++结构相似度指数测量导图亚图跨际 Python 交叉知识算法量化检查图像压缩质量低分辨率多光谱峰值信噪比端到端优化图像压缩手术机器人三维实景实时可微分渲染重建三维可视化
要点量化检查图像压缩质量低分辨率多光谱和高分辨率图像实现超分辨率分析图像质量图像索引/多尺度结构相似度指数和光谱角映射器及视觉信息保真度多种指标峰值信噪比和结构相似度指数测量结构相似性图像分类PNG和JPEG图像相似性近似算法图像压缩，视频压缩、端到端优化图像压缩、神经图像压缩、GPU变速图像压缩手术机器人深度估计算法重建三维可视化推理图像超分辨率算法模型三维实景实时可微分渲染算法MATLAB结构
外卖返利宝app下载外卖返利宝(外卖红包返现软件) 氧惠购物达人
外卖返利软件是可以帮助用户进行点外卖省钱以及点外卖之后获得返利的外卖返利软件分类合集，外卖返利软件可以帮助喜欢点外卖的用户省钱以及获得返利实惠，外卖返利软件中每日都有大量优惠券赠送活动，还有霸王餐可以秒杀，获得霸王餐的机会，用户可以直接免单外卖，不用花费一分钱。小编这里推荐了多款外卖返利软件。氧惠APP（带货领导者）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面。
STM32的寄存器深度解析千千道 STM32 stm32 单片机物联网
目录一、STM32寄存器概述二、寄存器的定义与作用三、寄存器分类1.内核寄存器2.外设寄存器四、重要寄存器详解1.GPIO相关寄存器2.定时器相关寄存器3.中断相关寄存器4.RCC相关寄存器五、寄存器操作方法1.直接操作寄存器2.使用库函数操作寄存器六、总结在嵌入式系统开发中，STM32微控制器以其强大的性能和丰富的功能而备受青睐。而理解和掌握STM32的寄存器是深入学习和开发STM32的关键。本
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro

NSL-KDD 基于随机森林的分类模型

NSL-KDD 基于随机森林的分类模型

数据集

数据预处理

模型建立

模型测试

总结

参考

你可能感兴趣的:(网络安全,随机森林,分类)