__一条秋刀鱼

【Project】决策树、随机森林、多层感知机、支持向量机在多分问题中的对比

决策树、随机森林、多层感知机、支持向量机在多分问题中的对比

Introduction
数据
决策树 (Decision Tree)
随机森林 (Random Forest)
多层感知机 (Multiple Perceptron)
支持向量机 (Support Vector Machine)
四种方法学习正确率

Introduction

本篇文章使用决策树 (Decision Tree)、随机森林 (Random Forest)、多层感知机 (Multiple Perceptron)、支持向量机 (Support Vector Machine) 四种算法来进行三分类问题。依赖于python sklearn 代码库。

数据

项目中使用的数据有六个特征，分成三类，从excel表格中读取数据，并使用dataframe进行简单的数据处理。

决策树 (Decision Tree)

在sklearn中，决策树的两种criterion分别是gini和entropy，本文用gini作为判别方式，因为查阅资料，目前基尼系数和信息熵增法没有较大的区别。
以下代码覆盖数据导入、找到决策树最佳深度、画不同深度对应的test正确率、画feature importance柱状图、画混淆矩阵和树的导出。其中树的导出需要安装额外的库，导出的数据直接以PDF格式存在文件夹中。from IPython.display import Image
import pydotplus

from sklearn.model_selection import train_test_split
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import mglearn
from sklearn.tree import DecisionTreeClassifier

excelFile = r'K2_1013.xlsx'
df=pd.DataFrame(pd.read_excel(excelFile))

#Part1 导入数据
###### For feature subset 1
df4=df[['n-pentane', 'iso-octane', 'n-decane', 'T', 'P','Classification','K1/K2(Pa/Pb)']]
#print(df1.shape) #(270,6)

y_df4=df4['Classification'].values
X_df4=df4.drop(['Classification'],axis=1).values
X_df4_col=df4.drop(['Classification'],axis=1)


X_df4_train, X_df4_test, y_df4_train, y_df4_test = train_test_split(X_df4,y_df4,test_size=0.25,random_state=1)
#print("X_df1_train_shape:", X_df1_train.shape, " y_df1_train_shape:", y_df1_train.shape)
#print("X_df1_test_shape:", X_df1_test.shape,"  y_df1_test_shape:", y_df1_test.shape)

#clf_df1=DecisionTreeClassifier(random_state=1)

#Part 2 find max depth, plot max depth vs train_accuracy and test_accuracy
def cv_score(d):
	clf=DecisionTreeClassifier(random_state=1, max_depth=d)
	clf.fit(X_df4_train,y_df4_train)
	return(clf.score(X_df4_train, y_df4_train),clf.score(X_df4_test,y_df4_test))

#bestdepth=[]
#for i in range(100):

depth=np.arange(1,7)
scores=[cv_score(d) for d in depth]
#print("scores:", scores)
tr_scores=[s[0] for s in scores]
te_scores=[s[1] for s in scores]

# 找出交叉验证数据集评分最高的索引
tr_best_index = np.argmax(tr_scores)
te_best_index = np.argmax(te_scores)

#bestdepth.append(te_best_index+1)
#print("bestdepth:", te_best_index+1, " bestdepth_score:", te_scores[te_best_index], '\n')
'''
print(bestdepth)
unique_data=np.unique(bestdepth)
print(unique_data)

resdata=[]
for ii in unique_data:
	resdata.append(bestdepth.count(ii))
	print(resdata)
'''
#对于feature 1, 发现 max_depth=4
#matplotlib inline
from matplotlib import pyplot as plt
depths = np.arange(1,7)
plt.figure(figsize=(6,4), dpi=120)
plt.grid()
plt.xlabel('max depth')
plt.ylabel('Scores')
plt.plot(depths, te_scores, label='test_scores')
plt.plot(depths, tr_scores, label='train_scores')
plt.legend()
plt.show()
print(te_scores)


#part 3 feature importance
clf_df4=DecisionTreeClassifier(random_state=1, max_depth=2)
clf_df4.fit(X_df4_train, y_df4_train)

importance=clf_df4.feature_importances_
#print(importance)

'''
##############################################################calculate total accuracy (the performance)
clf_df4=DecisionTreeClassifier(random_state=1, max_depth=2)
clf_df4.fit(X_df4, y_df4)
total_score=clf_df4.score(X_df4,y_df4)
print("the total accuracy is: ", total_score)

###############################################################
'''
feature_importance_df=pd.DataFrame(importance, index=X_df4_col.columns, columns=['Importance'])
#print(importance_df)
#print(feature_importance_df.values)
feature=feature_importance_df['Importance']
charac=X_df4_col.columns

#charac_array=np.array(charac)
#print(charac_array)
y=[1,2,3,4,5,6]
label=np.array(charac)
plt.figure()
plt.barh(y, feature, height=0.5,tick_label=label)
plt.xlabel('Feature importance')
plt.ylabel('Feature')
plt.show()

#part 4 confusion matrix + export_graphviz
#confusion matrix
import seaborn as sns 
from sklearn.metrics import confusion_matrix
from sklearn.tree import export_graphviz
from sklearn import tree
cn=confusion_matrix(y_df4_test, clf_df4.predict(X_df4_test))
sns.heatmap(cn, cmap=sns.hls_palette(8, l=0.8, s=0.5), annot=True)
plt.show()

#export_graphviz
'''
with open("feature1_tree.dot",'w') as f:
	f=tree.export_graphviz(clf_df1, feature_names=vec.get_feature_names(), out_file=f)
'''
from IPython.display import Image
import pydotplus  
tree4 = tree.export_graphviz(clf_df4, out_file=None, feature_names=charac, class_names=['0','1','2'],
                         filled=True, rounded=True,  
                         special_characters=True)  
graph = pydotplus.graph_from_dot_data(tree4)  
graph.write_png("tree4.png")

Feature importance 柱状图

混淆矩阵（confusion matrix）
树树树树树树

随机森林 (Random Forest)

随机森林与决策树的区别就是，随机森林的结果是所有决策树共同决策的结果。
对于分类来说，决策树的特征选择应该是1/3总特征，(e.g. 总数据有六个features，那么每个决策树应该使用两个features)。
以下代码包括数据导入、feature importance柱状图、画混淆矩阵和输出训练、测试的正确率。

from sklearn.model_selection import train_test_split
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import mglearn
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn import metrics
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report


excelFile = r'K2_1013.xlsx'
df=pd.DataFrame(pd.read_excel(excelFile))

#Part1 导入数据
###### For feature subset 1
df1=df[['n-pentane', 'iso-octane', 'n-decane', 'T', 'P','Classification','K1/K2(Pa/Pb)']]
#print(df1.shape) #(270,6)

y_df1=df1['Classification'].values
X_df1=df1.drop(['Classification'],axis=1).values
X_df1_col=df1.drop(['Classification'],axis=1)


X_df1_train, X_df1_test, y_df1_train, y_df1_test = train_test_split(X_df1,y_df1,test_size=0.25,random_state=1)

 
#n_estimators integer, optimal=10 决策树的个数 for feature 1 , n=50 has the best accuracy
clf_df1=RandomForestClassifier(n_estimators=50, criterion='gini', max_features=2, random_state=1)
clf_df1.fit(X_df1_train,y_df1_train)
y_pred=clf_df1.predict(X_df1_test)
#print(classification_report(y_df1_test,y_pred))
print("Accuracy of train: ", metrics.accuracy_score(y_df1_train, clf_df1.predict(X_df1_train)))
print("Accuracy of test: ",metrics.accuracy_score(y_df1_test,y_pred))

'''
clf_df1_tree=DecisionTreeClassifier(random_state=1, max_depth=4)
clf_df1_tree.fit(X_df1_train,y_df1_train)
y_pred_tree=clf_df1_tree.predict(X_df1_test)
print("Accuracy of DTC: ",metrics.accuracy_score(y_df1_test,y_pred_tree))
'''

importance=clf_df1.feature_importances_
feature_importance_df=pd.DataFrame(importance, index=X_df1_col.columns, columns=['Importance'])
feature=feature_importance_df['Importance']
charac=X_df1_col.columns
y=[1,2,3,4,5,6]
label=np.array(charac)
plt.figure()
plt.barh(y, feature, height=0.5,tick_label=label)
plt.xlabel('Feature importance')
plt.ylabel('Feature')
plt.title('RandomForestClassifier Method')
plt.show()

#part 4 confusion matrix + export_graphviz
#confusion matrix
import seaborn as sns 
from sklearn.metrics import confusion_matrix
from sklearn.tree import export_graphviz
from sklearn import tree
cn=confusion_matrix(y_df1_test, y_pred)
sns.heatmap(cn, cmap=sns.hls_palette(8, l=0.8, s=0.5), annot=True)
plt.show()

多层感知机 (Multiple Perceptron)

多层感知机在分类问题中并没有决策树或随机森林好用，（可能是因为还没有找到最佳hidden_layer、learning rate、iteration time参数），随机森林正确率在本项目中也低于决策树。
以下代码包括输出训练正确率，和混淆矩阵的绘图。

from sklearn.preprocessing import StandardScaler
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import train_test_split
from sklearn import metrics
import pandas as pd
excelFile = r'K2_1013.xlsx'
df=pd.DataFrame(pd.read_excel(excelFile))


df1=df[['n-pentane', 'iso-octane', 'n-decane', 'T', 'P','Classification','K1/K2(Pa/Pb)']]
y_df1=df1['Classification'].values
X_df1=df1.drop(['Classification'],axis=1).values
scaler=StandardScaler()
scaler.fit(X_df1)
X_df1=scaler.transform(X_df1)
X_df1_train, X_df1_test, y_df1_train, y_df1_test = train_test_split(X_df1,y_df1,test_size=0.25,random_state=1)

cls = MLPClassifier(activation='logistic', hidden_layer_sizes=(150,10), learning_rate='constant',
       learning_rate_init=0.01, max_iter=1000, random_state=1, shuffle=True,
       solver='lbfgs')
cls.fit(X_df1_train,y_df1_train)
y_pred=cls.predict((X_df1_test))
print('trainscore: ',cls.score(X_df1_train,y_df1_train))
print('testscore: ', cls.score(X_df1_test,y_df1_test))
#print(metrics.confusion_matrix(y_df1_test,y_pred))

import seaborn as sns 
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix
from sklearn.tree import export_graphviz
from sklearn import tree
cn=confusion_matrix(y_df1_test, cls.predict(X_df1_test))
sns.heatmap(cn, cmap=sns.hls_palette(8, l=0.8, s=0.5), annot=True)
plt.show()

支持向量机 (Support Vector Machine)

支持向量机比较适用于二分问题，对于多分问题的正确率不是很高（可能是因为没找到合适的kernal和参数）。
虽然本项目有6个feature，但在SVM中每次选取两个feature进行training并画图。
以下代码包括train、test正确率的输出，画出SVM学习正确率的图像。


import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.svm import SVC
from sklearn import datasets
from itertools import product
from sklearn.ensemble import VotingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

excelFile = r'K2_1013.xlsx'

# 原始数据
df=pd.DataFrame(pd.read_excel(excelFile))
# 仅取以下列的数据
df1=df[['n-pentane', 'iso-octane', 'n-decane', 'T', 'P','Classification','K1/K2(Pa/Pb)']]

# label
y_df1=df1['Classification'].values
# 只取这俩列
X_df1=df[['n-pentane', 'P']].values

X_df1_train, X_df1_test, y_df1_train, y_df1_test = train_test_split(X_df1, y_df1, test_size=0.25, random_state=1)

degree=2
gamma=0.5
coef0=0.1
clf=SVC(C=1, kernel='rbf',  gamma=gamma, random_state=1)
clf.fit(X_df1_train,y_df1_train)

#print(clf.score(X_df1_train,y_df1_train))
print('degree', degree, 'gamma', gamma, 'coef0', coef0)
print('trainscore:', accuracy_score(y_df1_train,clf.predict(X_df1_train)))
#print(clf.score(X_df1_test,y_df1_test))
print('testscore:', accuracy_score(y_df1_test,clf.predict(X_df1_test)))

#print ('decision_function:\n', clf.decision_function(X_df1_train))
#print ('\npredict:\n', clf.predict(X_df1_train))

x_min, y_min = np.min(X_df1, axis=0)-1
x_max, y_max = np.max(X_df1, axis=0)+1

#np.meshgrid 从一个坐标向量中返回一个坐标矩阵
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.1),
                     np.arange(y_min, y_max, 0.1))

f, axarr = plt.subplots(1, 1, sharex='col', sharey='row', figsize=(10, 8))
Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)
plt.xlabel('n-pentane')
plt.ylabel('P')

#contourf画三维等高线图，对等高线间的区域进行填充
axarr.contourf(xx, yy, Z, alpha=0.4)
axarr.scatter(X_df1[:, 0], X_df1[:, 1], c=y_df1, s=50, edgecolor='k')
axarr.set_title('SVM')

plt.show()

import seaborn as sns 
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix
from sklearn.tree import export_graphviz
from sklearn import tree
cn=confusion_matrix(y_df1_test, clf.predict(X_df1_test))
sns.heatmap(cn, cmap=sns.hls_palette(8, l=0.8, s=0.5), annot=True)
plt.show()

支持向量机画图，没有找到最佳参数，正确率较低。

四种方法学习正确率

本项目用了两组数据进行学习，图中用1.3 ms 和 1.4 ms进行表示。图中可以看出DTC具有较强稳定性，且正确率较高，是一种很好的分类算法。

另外，决策树在调参方面极具优势。简易情况下需要调整的参数：

决策树：树的深度（这里指只需要调整树的深度，就能得到不错的学习正确率）
随机森林：决策树的个数，每棵树的深度（如果不调整这项参数，那么决策树会无限生长直至分类结束），每棵树使用的特征个数
多层感知机：学习速率，迭代次数，中间层个数
支持向量机：核的选择，次数（degree, 针对polynomial等核），错误容忍度（C），gamma。
由此看出，决策树在调参方面易于其他三种算法。

大语言模型(LLM)入门学习路线图_llm教程，从零基础到精通，理论与实践结合的最佳路径！ AGI学习社语言模型学习人工智能 LLM 大模型大数据自然语言处理
Github项目上有一个大语言模型学习路线笔记，它全面涵盖了大语言模型的所需的基础知识学习，LLM前沿算法和架构，以及如何将大语言模型进行工程化实践。这份资料是初学者或有一定基础的开发/算法人员入门活深入大型语言模型学习的优秀参考。这份资料重点介绍了我们应该掌握哪些核心知识，并推荐了一系列优质的学习视频和博客，旨在帮助大家系统性地掌握大型语言模型的相关技术。大语言模型（LargeLanguageM
机器学习实战——音乐流派分类（主页有源码）喵了个AI 机器学习实战机器学习分类人工智能
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.简介音乐流派分类是音乐信息检索（MusicInformationRetrieval,MIR）中的一个重要任务，旨在通过分析音频信号的特征，将音乐自动分类到不同的流派（如古典、摇滚、爵士、流行等）。随着数字音乐平台的普及，音乐流派分类技术被广泛应用于音乐推荐、自动标签生成和音乐库管理
C 语言中的数组详解 812503533 c语言 java 开发语言
在C语言中，数组是一种非常基础且常用的数据结构。数组是存储一组相同类型元素的集合，允许我们以统一的方式访问和操作这些元素。C语言中的数组不仅在编程中使用广泛，而且它的灵活性和效率使得它成为了许多算法实现的基础。本篇文章将深入分析C语言中的一维数组，包括定义、存储方式、操作方式、常见问题等等，所有的数据结构都可以从这几个方面来学习。1.数组的定义与存储方式1.1一维数组的定义数组的定义方式包括数组大
SeisMoLLM: Advancing Seismic Monitoring via Cross-modal Transfer with Pre-trained Large Language UnknownBody LLM Daily Multimodal 语言模型人工智能自然语言处理
摘要深度学习的最新进展给地震监测带来了革命性变化，但开发一个能在多个复杂任务中表现出色的基础模型仍然充满挑战，尤其是在处理信号退化或数据稀缺的情况时。本文提出SeisMoLLM，这是首个利用跨模态迁移进行地震监测的基础模型，它无需在地震数据集上进行直接预训练，就能充分发挥大规模预训练大语言模型的强大能力。通过精心设计的波形标记化处理和对预训练GPT-2模型的微调，SeisMoLLM在DiTing和
C++随机数宁玉AC c学习 c++开发语言
目录一、名著参考二、详解1.rand()函数2.time(0)3.srand(time(0))4.获取指定范围内的随机数（含指定位数）一、名著参考可以使用cstdlib头文件中的rand()函数来获得随机整数；这个函数返回0~RAND_MAX之间的随机整数；rand()函数生成的是伪随机数。即每次在同一个系统上执行这个函数的时候，rand()函数生成同一序列的数。rand()函数的算法使用一个叫种
如何通过深度学习优化操作系统中的故障诊断与恢复机制金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 深度学习人工智能
如何通过深度学习优化操作系统中的故障诊断与恢复机制（副标题：智能监控、自适应诊断与自动恢复——操作系统故障自愈的新方向）摘要随着现代操作系统在多核、高并发和分布式环境中的广泛应用，系统故障及其恢复问题日益成为影响系统稳定性和业务连续性的关键挑战。传统的故障诊断方法依赖于预设规则和人工干预，难以应对复杂多变的故障场景。本文提出了一种基于深度学习的故障诊断与恢复机制，通过对大量历史日志、监控数据和故障
三种优化算法旅者时光算法算法 python 开发语言
本文将总结遗传算法、粒子群算法、模拟退火三种优化算法的核心思路，并使用python完整实现。实际上，越来越多的优秀算法已经被封装为一个易用的接口。很多时候，一行代码就能实现我们的需求。但了解这些算法的基本逻辑，能够使用最基本的代码实现它。无论对于提升我们的编程能力还是解决问题的能力，都会大有裨益。甚至，改变我们思考问题的方式。1、遗传算法遗传算法，顾名思义，就是借鉴了生物通过遗传变异来逐渐适应环境
蓝桥杯冲击省一必刷题单(一) 小咖拉眯蓝桥杯蓝桥杯 java 算法数据结构
此题单为算法基础精选题单，包含蓝桥杯常考考点以及各种经典算法，可以帮助你打牢基础，查漏补缺。本题单目标是冲击蓝桥杯省一国一，团体程序天梯赛个人国三、XCPC区域赛铜/银奖前言本次题单重点关注日期问题，进制转换问题，排序问题，其中日期问题和进制转换问题，几乎是必考题，几乎每年蓝桥杯都能看到，大家需要重点掌握。日期问题：蓝桥杯热门考点，基本每年省赛必考。进制转换问题：与日期一样蓝桥杯热门考点，基本每年
HarmonyNext实战案例：基于ArkTS的高性能分布式机器学习应用开发 harmonyos-next
HarmonyNext实战案例：基于ArkTS的高性能分布式机器学习应用开发引言在HarmonyNext生态系统中，分布式机器学习是其核心特性之一。通过分布式机器学习，开发者可以充分利用多设备的计算资源，实现复杂模型的训练与推理。本文将深入探讨如何使用ArkTS12+语法开发一个高性能的分布式机器学习应用，涵盖从基础概念到高级技巧的全面讲解。通过本案例，您将学习到如何利用HarmonyNext的分
Vue3 基础教程：从入门到实践 (保姆级教学) 前段技术人学习前端 vue.js vue
一、Vue3简介Vue.js是一款用于构建用户界面的JavaScript框架，而Vue3作为其最新的主要版本，带来了诸多令人瞩目的改进与新特性，使其在前端开发领域备受青睐。（一）Vue3的优势性能提升：Vue3重写了虚拟DOM算法，显著提高了挂载、更新和渲染的速度。在处理大型列表或频繁数据更新的场景时，Vue3的表现更为出色，能够为用户带来更流畅的交互体验。例如，一个包含大量商品信息的电商产品列表
刷题前必学！二叉树！用JavaScript学数据结构与算法
‍JavaScript算法与数据结构-HowieCong务必要熟悉JavaScript使用再来学！一、树是什么？数据结构中的树，对于现实世界中的树简化——树根抽象为“根节点”，树枝抽象为“边”，树枝的两个端点抽象为“结点”，树叶抽象为“叶子结点”计算机中的树如下：二、树的重点树的层次计算规则：根结点所在的那一层为第一层，其子节点为第二层，以此类推结点和树的高度计算规则：叶子结点高度为1，每向上一层
成功案例丨开发时间从1小时缩短到3分钟：如何利用历史数据训练AI模型，预测设计性能？ Altair澳汰尔 PhysicsAI 仿真 AI 机器学习 HyperWorks 数据分析
案例简介PhysicsAI™助力HEROMOTOCORP实现设计效率提升99%印度领先的跨国摩托车和踏板车制造商HeroMotoCorpLtd.（以下简称Hero）致力于通过将人工智能（AI）和机器学习技术融入有限元分析（FEA）流程，以加速产品开发周期。在其首个AI驱动项目——摩托车把手设计优化中，Hero采用了PhysicsAI™几何深度学习解决方案，利用历史数据训练AI模型并预测设计性能。A
关于两次项目的学习感悟罗婕斯特大数据
经过这两次项目，我学到了以下几点：1.模块化与结构化思维：代码展示了如何将深度学习任务分解为多个模块（如数据加载、模型定义、训练循环、评估等）。这种模块化的思维方式不仅适用于编程，也可以应用于解决复杂问题时的结构化思考。2.细节决定成败：代码中涉及了许多细节，如数据预处理、学习率调整、损失函数的选择等。这些细节对模型的最终性能有着重要影响。这提醒我们，在解决实际问题时，细节往往决定成败，需要耐心和
MySQL进阶—— 视图（详解） 1加1等于 MySQL sql mysql
本文全面介绍Mysql视图相关的核心知识。包括介绍视图定义，基于查询结果的虚拟表，有简化查询、保障安全、解耦逻辑等作用。讲解创建、修改、删除视图的操作，以及及视图可更新条件、安全性控制及性能优化方法。本文目录一、视图的定义与作用定义作用二、视图的创建与管理创建视图修改视图方式1：覆盖原有视图方式2：ALTERVIEW删除视图三、视图两种算法MERGE（默认）TEMPTABLE四、视图的可更新性可更
Python通过YOLO格式TXT标签文件在图像中画框 CHERISH_KDX python YOLO 人工智能
使用场景检测数据集标注是否有误：在目标检测算法中需要标注自己的数据集，为了更加方便的检查数据集标注是否有误，可以使用该工具将标注结果绘制在图像中并查看。美化识别结果中的检测框：在一些目标检测场景中，YOLO检测算法原始的检测框绘制会导致重叠、颜色冲突、字体过大等问题。可以使用该工具进行修改。代码importosimportcv2classcheck_label:def__init__(self,c
Python学习指南：系统化路径 + 避坑建议程之编 Python全栈通关秘籍青少年编程 python 开发语言人工智能机器学习
新手小白学习编程就像搭积木——需要从基础开始，逐步构建知识体系。以下是为你量身定制的Python学习路径，帮你告别杂乱，高效入门！一、学习前的关键认知明确目标：想用Python做什么？数据分析（如Excel自动化、可视化）Web开发（如搭建网站）人工智能（如机器学习）自动化办公（如处理文件、邮件）目标不同，后续学习侧重点不同（但基础通用）。避免误区：❌只看教程不写代码✅边学边动手，哪怕抄代码也要运
机器学习之KMeans算法 Mr终游机器学习机器学习算法 kmeans
目录一、KMeans的核心思想二、KMeans算法流程三、KMeans的关键点1.优点：2.缺点：四、如何确定最佳k值1.肘部法则2.轮廓系数五、Kmeans的典型应用场景六、代码示例KMeans是一种广泛使用的无监督学习算法，主要用于聚类分析（Clustering）。它的目标是将数据集划分为K个互不重叠的子集（簇，Cluster），使得同一簇内的数据点尽可能相似，不同簇之间的数据点尽可能差异显著
使用IDEA拉取GitLab项目 strong-1024 gitlab
使用组长提供的socket和账号密码登录内网的GitLab：打开IDEA新建项目，ProjectfromVersionControl在项目路径后面添加.git：
太翌氏文化产业: AGI架构部署太翌修仙笔录 deepseek 第三代人工智能 agi 架构人工智能
在之前RGOA-重力算法等基础上，分析春秋历日盘排盘驱动行为的ai模式，是否达到AGI标准春秋历日盘排盘驱动行为的AI模式与AGI标准的对比分析一、RGOA-重力算法与春秋历日盘排盘的核心逻辑RGOA算法原理RGOA（GravitationalSearchAlgorithm）是一种基于物理引力定律的优化算法，通过模拟粒子在引力场中的运动来寻找最优解。其核心公式为：Fij=GmimjRij2+ϵ和a
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务 AGI大模型与大数据研究院程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务1.背景介绍1.1问题的由来翻译是跨语言沟通的重要桥梁，随着全球化进程的加速，翻译需求日益增长。传统的机器翻译方法主要依赖于规则和统计方法，如基于短语的翻译、基于统计的机器翻译等。然而，这些方法难以处理复杂的语言现象，翻译质量参差不齐。近年来，随着深度学习技术的快速发展，基于神经网络序列到序列（Sequence-to-Seq
Python第十六课：深度学习入门 | 神经网络解密程之编 Python全栈通关秘籍 python 神经网络青少年编程
本节目标理解生物神经元与人工神经网络的映射关系掌握激活函数与损失函数的核心作用使用Keras构建手写数字识别模型可视化神经网络的训练过程掌握防止过拟合的基础策略一、神经网络基础（大脑的数字化仿生）1.神经元对比生物神经元人工神经元树突接收信号输入层接收特征数据细胞体整合信号加权求和（∑(权重×输入)+偏置）轴突传递电信号激活函数处理输出2.核心组件解析激活函数：神经元的"开关"（如ReLU：max
【大模型开发】深入解析 DeepSpeed：原理、核心技术与示例代码云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习大模型开发大模型微调 deepseek deepspeed python 人工智能 pytorch
深入解析DeepSpeed：原理、核心技术与示例代码DeepSpeed是由微软开源的高性能深度学习训练优化引擎，专注于帮助研究人员和工程团队在分布式环境中高效地训练超大规模模型。其核心目标是提供高吞吐、低内存占用、低成本的分布式训练方案，让数千亿甚至万亿级参数模型的训练成为可能。本文将从DeepSpeed的核心原理、关键组件、代码示例及实现过程详解等方面做详细阐述，帮助读者更好地理解并使用Deep
聚类分析|k-means聚类方法及其Python实现皖山文武数据挖掘商务智能 kmeans 聚类 python 数据挖掘机器学习
k-means聚类方法及其Python实现0.k-means算法简介1.k-means算法工作原理2.k-means算法流程3.k–means算法的Python实现0.k-means算法简介k-means算法由MacQueen在1967年提出。是一种经典的基于划分的聚类方法。划分方法（PartitioningMethod）是基于距离判断样本相似度，通过不断迭代将含有多个样本的数据集划分成若干个簇，
【漫话机器学习系列】130.主成分（Principal Components） IT古董漫话机器学习系列专辑机器学习人工智能 python
主成分（PrincipalComponents）详解1.什么是主成分？主成分（PrincipalComponents，PCs）是数据集中方差最大的线性组合，它是主成分分析（PrincipalComponentAnalysis，PCA）中的核心概念。主成分可以看作是对原始特征的新表述方式，它通过数学变换找到一组新的正交坐标轴，使得数据的主要变化方向与这些轴对齐。简单来说：主成分是数据集中信息量（方差
【实战ES】实战 Elasticsearch：快速上手与深度实践-6.2.2GDPR数据脱敏处理言析数智实战 elasticsearch 大数据搜索引擎
点击关注不迷路点击关注不迷路点击关注不迷路文章大纲6.2.2GDPR数据脱敏处理深度实践指南1.GDPR核心要求映射1.1关键条款与技术要求1.2`数据类型与脱敏策略`2.全链路脱敏配置2.1`动态脱敏管道`2.2静态脱敏模板3.`脱敏算法性能对比`3.1算法性能矩阵3.2存储成本分析4.企业级合规方案4.1金融行业案例4.2医疗行业方案5.合规性验证方案5.1自动化检查脚本5.2审计检查清单6.
doris：阿里云 MaxCompute 向阳1218 大数据 doris
MaxCompute是阿里云上的企业级SaaS（SoftwareasaService）模式云数据仓库。什么是MaxCompute连接MaxCompute示例--1.创建Catalog。CREATECATALOGmcPROPERTIES("type"="max_compute","mc.default.project"="xxx","mc.access_key"="xxxx","mc.secret_
一学就会的深度学习基础指令及操作步骤（6）迁移学习小圆圆666 深度学习迁移学习人工智能卷积神经网络
文章目录迁移学习模型准备数据增强模型训练模型微调和预测检查预测结果迁移学习迁移学习是将一个任务中学到的知识应用到另一个相关任务上，以提高新任务的学习效率和性能。优势：节省训练时间，提高模型性能，尤其在小数据场景下效果显著。核心是利用源域的知识来帮助目标域任务，比如在ImageNet上预训练的模型用于医疗影像分类。源域（SourceDomain）：已有知识的领域（如ImageNet图像库）。目标域（
【贪心算法2】 m0_46150269 贪心算法算法
力扣122.买卖股票最佳时机Ⅱ链接:link思路要求最大利润，可以分解成子问题求解，在最低价格买入，最高价格卖出。假如第0天价格最低，第3天价格最高，利润=prices[3]-pricnes[0],可以将利润公式拆解成(prices[3]-prices[2])+(prices[2]-prices[1])+(prices[1]-prices[0])最终变成了求相邻两天的利润，所以可以得到一个关于利润
C++开源库大全大王算法 C/C++开发实战365 C++入门及项目实战宝典 c++开源
程序员要站在巨人的肩膀上，C++拥有丰富的开源库，这里包括：标准库、Web应用框架、人工智能、数据库、图片处理、机器学习、日志、代码分析等。标准库C++StandardLibrary：是一系列类和函数的集合，使用核心语言编写，也是C++ISO自身标准的一部分。
基于PyTorch的深度学习6——数据处理工具箱2 Wis4e 深度学习 pytorch 人工智能
torchvision有4个功能模块：model、datasets、transforms和utils。主要介绍如何使用datasets的ImageFolder处理自定义数据集，以及如何使用transforms对源数据进行预处理、增强等。下面将重点介绍transforms及ImageFolder。transforms提供了对PILImage对象和Tensor对象的常用操作。1)对PILImage的常
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s