木星流火

实战5 - 抗胰腺癌候选药物的优化建模

1 题目简介

题目来源于2021年中国研究生数学建模竞赛D题——抗乳腺癌候选药物的优化建模。

2 涉及内容

在本次实战的数据分析过程中，涉及以下技术内容：
（1）数据预处理
（2）相关系数
（3）NCA算法
（4）重采样
（5）遗传算法
（6）求AUC值

3 实战步骤

3.1 数据预处理

这里包括数据读取、删除相关性大的列、删除值全都是0的列、将超出mean±4σ的异常值替换为mean±4σ。

global Mdl_Caco_2 Mdl_CYP3A4 Mdl_hERG Mdl_HOB Mdl_MN Mdl_nca_pIC50_ensemble
%读入数据
dir_data1='Molecular_Descriptor.xlsx';
dir_data2='ERα_activity.xlsx';
warning('off');
sheets_1=sheetnames(dir_data1);
data1=readtable(dir_data1,'Sheet',sheets_1(1));
data2=readtable(dir_data2);
data3=readtable(dir_data1,'Sheet',sheets_1(2));

%求出各特征变量之间的相关系数，并删除相关性大的特征变量
table_1=data1(:,2:end);
num_1=data1{:,2:end};
%首先删除全为0的特征变量
del_0=[];
for i=1:size(num_1,2)
    if sum(num_1(:,i))==0
        del_0=[del_0,i];
    end 
end
table_1(:,del_0)=[];
num_1(:,del_0)=[];

%删除相关系数大于0.9的特征变量
corr_data=abs(corrcoef(num_1));
del_x=[];
for i=1:size(corr_data,1)
    if ~ismember(i,del_x) %已经在删除列表里的列不需要再求与其相关性大的列号
        tem1=corr_data(i,:);
        find_x=find(tem1>=0.9);
        find_x(find_x==i)=[];%该列与自己相关系数为1，所以去掉自己的列号
        del_x=[del_x,find_x];
    end
end

u_del_x=unique(del_x);
table_1_ir=table_1;
table_1_ir(:,u_del_x)=[];%table_1_ir为去掉相关性大的列后的表

%将异常值替换为mean±4σ
tem3=table_1_ir{:,:};
tem4=[];
for i=1:size(tem3,2)
    tem1=tem3(:,i);
    tem1((tem1-mean(tem1))>4*std(tem1))=mean(tem1)+4*std(tem1);
    tem1((tem1-mean(tem1))<-4*std(tem1))=mean(tem1)-4*std(tem1);
    tem4=[tem4,tem1];
    
end
tem1=table_1_ir.Properties.VariableNames;
table_1_ir=array2table(tem4);
table_1_ir.Properties.VariableNames=tem1;

3.2 求特征重要度

本来我是使用了NCA算法和树模型两种方法求特征重要度，后来发现用NCA算法求出的特征，训练的模型精度相对较高，所以后来确定的用NCA算法求特征重要的。写论文时大家可以多尝试几种求特征重要度的方法，以使论文内容丰富。

%NCA算法求特征重要度，使用了交叉验证防止过拟合
rng(1) % For reproducibility 
Xtrain=table_1_ir{:,:};
ytrain=data2{:,2};

n = length(ytrain);
cvp = cvpartition(length(ytrain),'kfold',5);
numvalidsets = cvp.NumTestSets;

lambdavals = linspace(0,50,20)*std(ytrain)/n;

lossvals = zeros(length(lambdavals),numvalidsets);

for i = 1:length(lambdavals)
    for k = 1:numvalidsets
        X = Xtrain(cvp.training(k),:);
        y = ytrain(cvp.training(k),:);
        Xvalid = Xtrain(cvp.test(k),:);
        yvalid = ytrain(cvp.test(k),:);

        nca = fsrnca(X,y,'FitMethod','exact', ...
             'Solver','minibatch-lbfgs','Lambda',lambdavals(i), ...
             'GradientTolerance',1e-4,'IterationLimit',30);
        
        lossvals(i,k) = loss(nca,Xvalid,yvalid,'LossFunction','mse');
    end
end

meanloss = mean(lossvals,2);

figure
plot(lambdavals,meanloss,'ro-')
xlabel('Lambda')
ylabel('Loss (MSE)')
grid on

%Fit the NCA feature selection model for regression using the best λ value.
[~,idx] = min(meanloss)
bestlambda = lambdavals(idx)
bestloss = meanloss(idx)

nca = fsrnca(Xtrain,ytrain,'FitMethod','exact', ...
    'Solver','lbfgs','Lambda',bestlambda);
figure
plot(nca.FeatureWeights,'ro')
xlabel('Feature Index')
ylabel('Feature Weight')
grid on

%各特征变量重要度降序
nca_w=nca.FeatureWeights;
[nca_w_d,nca_sort]=sort(nca_w,"descend");

3.3 训练pIC50值预测模型

这里之所以只用集成学习来训练模型，也是提前进行对比尝试出来的。

%使用NCA选择的前20个特征变量重新训练模型
nca_sel=nca_sort(1:20);
table_train_nca=table_1_ir(:,nca_sel);
table_train_nca.pIC50=data2{:,2};
options = struct('UseParallel',true);
Mdl_nca_pIC50_ensemble = fitrauto(table_train_nca,'pIC50','OptimizeHyperparameters','all', ...
    'HyperparameterOptimizationOptions',options,...
    "Learners",'ensemble');

3.4 预测pIC50值

%预测新数据的pIC50值
tem1=table_train_nca.Properties.VariableNames;
sel_VariableNames=tem1(1:end-1);
table_tem=data3(:,2:end);
table_predict=table_tem(:,sel_VariableNames);
Y_predict = predict(Mdl_nca_pIC50_ensemble,table_predict);
figure,plot(Y_predict,'b-o');

3.5 5种ADMET性质分类模型训练

dir_data4='ADMET-train.xlsx';
data4=readtable(dir_data4);

%训练Caco-2分类模型
%使用NCA选择的前20个特征变量训练模型
nca_sel=nca_sort(1:20);
table_train_Caco_2=table_1_ir(:,nca_sel);
Caco_2=data4{:,2};
Caco_2=categorical(Caco_2);
table_train_Caco_2.Caco_2=Caco_2;

%对分类目标是1（对应数字2）的样本进行重采样
d_Caco_2=double(Caco_2);
hang_2=find(d_Caco_2==2);
Xdata =table_train_Caco_2{:,1:end-1};
Ydata =d_Caco_2;
Xdata_chong = Xdata;
Ydata_chong = Ydata;
rng(1);
for k=1:(sum(d_Caco_2==1)-sum(d_Caco_2==2))
    r = randi([1,length(hang_2)],1,1);
    Xdata_chong =[Xdata_chong;Xdata(hang_2(r),:)];
    Ydata_chong =[Ydata_chong;Ydata(hang_2(r(1)),:)];
end

table_train_Caco_2_new=array2table(Xdata_chong);
table_train_Caco_2_new.Caco_2=categorical(Ydata_chong);
table_train_Caco_2_new.Properties.VariableNames=table_train_Caco_2.Properties.VariableNames;

%分割训练集和测试集
rng(1); % For reproducibility of the data partition
c = cvpartition(Ydata_chong,'Holdout',0.2);
trainingIdx = training(c); % Training set indices
S1Train = table_train_Caco_2_new(trainingIdx,:);
testIdx = test(c); % Test set indices
S1Test = table_train_Caco_2_new(testIdx,:);

options = struct('UseParallel',true);

%训练集成学习模型
Mdl_Caco_2 = fitcauto(S1Train,'Caco_2','HyperparameterOptimizationOptions',options,'Learners','ensemble');
%测试集精度
testAccuracy = 1 - loss(Mdl_Caco_2,S1Test,'Caco_2')
%混淆矩阵
confusionchart(S1Test.Caco_2,predict(Mdl_Caco_2,S1Test))

tem1=table_train_Caco_2_new.Caco_2;
Ystats = tem1 == categorical(1);
[~,posterior] = predict(Mdl_Caco_2,S1Test);
[fpr,tpr,~,auc] = perfcurve(Ystats(testIdx),posterior(:,1),true);
auc




%训练CYP3A4分类模型
%使用NCA选择的前20个特征变量训练模型
nca_sel=nca_sort(1:20);
table_train_CYP3A4=table_1_ir(:,nca_sel);
CYP3A4=data4{:,3};
CYP3A4=categorical(CYP3A4);
table_train_CYP3A4.CYP3A4=CYP3A4;

%对分类目标是0（对应数字1）的样本进行重采样，两组数据求平均值
d_CYP3A4=double(CYP3A4);
hang_2=find(d_CYP3A4==1);
Xdata =table_train_CYP3A4{:,1:end-1};
Ydata =d_CYP3A4;
Xdata_chong = Xdata;
Ydata_chong = Ydata;
rng(1);
for k=1:(sum(d_CYP3A4==2)-sum(d_CYP3A4==1))
    r = randi([1,length(hang_2)],1,1);
    %Xdata_chong =[Xdata_chong;mean(Xdata(hang_2(r),:))];
    Xdata_chong =[Xdata_chong;Xdata(hang_2(r),:)];
    Ydata_chong =[Ydata_chong;Ydata(hang_2(r(1)),:)];
end

table_train_CYP3A4_new=array2table(Xdata_chong);
table_train_CYP3A4_new.CYP3A4=categorical(Ydata_chong);
table_train_CYP3A4_new.Properties.VariableNames=table_train_CYP3A4.Properties.VariableNames;

%分割训练集和测试集
rng(1); % For reproducibility of the data partition
c = cvpartition(Ydata_chong,'Holdout',0.2);
trainingIdx = training(c); % Training set indices
S1Train = table_train_CYP3A4_new(trainingIdx,:);
testIdx = test(c); % Test set indices
S1Test = table_train_CYP3A4_new(testIdx,:);

options = struct('UseParallel',true);

%训练集成学习模型
Mdl_CYP3A4 = fitcauto(S1Train,'CYP3A4','HyperparameterOptimizationOptions',options,'Learners','ensemble');
%测试集精度
testAccuracy = 1 - loss(Mdl_CYP3A4,S1Test,'CYP3A4')
%混淆矩阵
confusionchart(S1Test.CYP3A4,predict(Mdl_CYP3A4,S1Test))

tem1=table_train_CYP3A4_new.CYP3A4;
Ystats = tem1 == categorical(1);
[~,posterior] = predict(Mdl_CYP3A4,S1Test);
[fpr,tpr,~,auc] = perfcurve(Ystats(testIdx),posterior(:,1),true);
auc


%训练hERG分类模型
%使用NCA选择的前20个特征变量训练模型
nca_sel=nca_sort(1:20);
table_train_hERG=table_1_ir(:,nca_sel);
hERG=data4{:,4};
hERG=categorical(hERG);
table_train_hERG.hERG=hERG;

%对分类目标是0（数字是1）的样本进行重采样，两组数据求平均值
d_hERG=double(hERG);
hang_2=find(d_hERG==1);
Xdata =table_train_hERG{:,1:end-1};
Ydata =d_hERG;
Xdata_chong = Xdata;
Ydata_chong = Ydata;
rng(1);
for k=1:(sum(d_hERG==2)-sum(d_hERG==1))
    r = randi([1,length(hang_2)],1,1);
    %Xdata_chong =[Xdata_chong;mean(Xdata(hang_2(r),:))];
    Xdata_chong =[Xdata_chong;Xdata(hang_2(r),:)];
    Ydata_chong =[Ydata_chong;Ydata(hang_2(r(1)),:)];
end

table_train_hERG_new=array2table(Xdata_chong);
table_train_hERG_new.hERG=categorical(Ydata_chong);
table_train_hERG_new.Properties.VariableNames=table_train_hERG.Properties.VariableNames;

%分割训练集和测试集
rng(1); % For reproducibility of the data partition
c = cvpartition(Ydata_chong,'Holdout',0.2);
trainingIdx = training(c); % Training set indices
S1Train = table_train_hERG_new(trainingIdx,:);
testIdx = test(c); % Test set indices
S1Test = table_train_hERG_new(testIdx,:);

options = struct('UseParallel',true);

%训练集成学习模型
Mdl_hERG = fitcauto(S1Train,'hERG','HyperparameterOptimizationOptions',options,'Learners','ensemble');
%测试集精度
testAccuracy = 1 - loss(Mdl_hERG,S1Test,'hERG')
%混淆矩阵
confusionchart(S1Test.hERG,predict(Mdl_hERG,S1Test))

tem1=table_train_hERG_new.hERG;
Ystats = tem1 == categorical(1);
[~,posterior] = predict(Mdl_hERG,S1Test);
[fpr,tpr,~,auc] = perfcurve(Ystats(testIdx),posterior(:,1),true);
auc

%训练HOB分类模型
%使用NCA选择的前20个特征变量训练模型
nca_sel=nca_sort(1:20);
table_train_HOB=table_1_ir(:,nca_sel);
HOB=data4{:,5};
HOB=categorical(HOB);
table_train_HOB.HOB=HOB;

%对分类目标是1(数字是2)的样本进行重采样，两组数据求平均值
d_HOB=double(HOB);
hang_2=find(d_HOB==2);
Xdata =table_train_HOB{:,1:end-1};
Ydata =d_HOB;
Xdata_chong = Xdata;
Ydata_chong = Ydata;
rng(1);
for k=1:(sum(d_HOB==1)-sum(d_HOB==2))
    r = randi([1,length(hang_2)],1,1);
    %Xdata_chong =[Xdata_chong;mean(Xdata(hang_2(r),:))];
    Xdata_chong =[Xdata_chong;Xdata(hang_2(r),:)];
    Ydata_chong =[Ydata_chong;Ydata(hang_2(r(1)),:)];
end

table_train_HOB_new=array2table(Xdata_chong);
table_train_HOB_new.HOB=categorical(Ydata_chong);
table_train_HOB_new.Properties.VariableNames=table_train_HOB.Properties.VariableNames;

%分割训练集和测试集
rng(1); % For reproducibility of the data partition
c = cvpartition(Ydata_chong,'Holdout',0.2);
trainingIdx = training(c); % Training set indices
S1Train = table_train_HOB_new(trainingIdx,:);
testIdx = test(c); % Test set indices
S1Test = table_train_HOB_new(testIdx,:);

options = struct('UseParallel',true);

%训练集成学习模型
Mdl_HOB = fitcauto(S1Train,'HOB','HyperparameterOptimizationOptions',options,'Learners','ensemble');
%测试集精度
testAccuracy = 1 - loss(Mdl_HOB,S1Test,'HOB')
%混淆矩阵
confusionchart(S1Test.HOB,predict(Mdl_HOB,S1Test))

tem1=table_train_HOB_new.HOB;
Ystats = tem1 == categorical(1);
[~,posterior] = predict(Mdl_HOB,S1Test);
[fpr,tpr,~,auc] = perfcurve(Ystats(testIdx),posterior(:,1),true);
auc

%训练MN分类模型
%使用NCA选择的前20个特征变量训练模型
nca_sel=nca_sort(1:20);
table_train_MN=table_1_ir(:,nca_sel);
MN=data4{:,6};
MN=categorical(MN);
table_train_MN.MN=MN;

%对分类目标是0（数字是1）的样本进行重采样，两组数据求平均值
d_MN=double(MN);
hang_2=find(d_MN==1);
Xdata =table_train_MN{:,1:end-1};
Ydata =d_MN;
Xdata_chong = Xdata;
Ydata_chong = Ydata;
rng(1);
for k=1:(sum(d_MN==2)-sum(d_MN==1))
    r = randi([1,length(hang_2)],1,1);
    %Xdata_chong =[Xdata_chong;mean(Xdata(hang_2(r),:))];
    Xdata_chong =[Xdata_chong;Xdata(hang_2(r),:)];
    Ydata_chong =[Ydata_chong;Ydata(hang_2(r(1)),:)];
end

table_train_MN_new=array2table(Xdata_chong);
table_train_MN_new.MN=categorical(Ydata_chong);
table_train_MN_new.Properties.VariableNames=table_train_MN.Properties.VariableNames;

%分割训练集和测试集
rng(1); % For reproducibility of the data partition
c = cvpartition(Ydata_chong,'Holdout',0.2);
trainingIdx = training(c); % Training set indices
S1Train = table_train_MN_new(trainingIdx,:);
testIdx = test(c); % Test set indices
S1Test = table_train_MN_new(testIdx,:);

options = struct('UseParallel',true);

%训练集成学习模型
Mdl_MN = fitcauto(S1Train,'MN','HyperparameterOptimizationOptions',options,'Learners','ensemble');
%测试集精度
testAccuracy = 1 - loss(Mdl_MN,S1Test,'MN')
%混淆矩阵
confusionchart(S1Test.MN,predict(Mdl_MN,S1Test))

tem1=table_train_MN_new.MN;
Ystats = tem1 == categorical(1);
[~,posterior] = predict(Mdl_MN,S1Test);
[fpr,tpr,~,auc] = perfcurve(Ystats(testIdx),posterior(:,1),true);
auc


%求20个变量的上下限
tem1=table_train_nca{:,1:end-1};
lb=[];
ub=[];
for i=1:size(tem1,2)
    lb=[lb,min(tem1(:,i))];
    ub=[ub,max(tem1(:,i))]; 
end

3.6 遗传算法求解分子描述符范围

可能是约束函数和目标函数的特殊性，导致在实施不能用并行运算。注意，在自定义函数中使用workspace里算出的数据时，要提前在主函数和自定义函数中都将其声明为全局变量。另外，我发现多次运行算出的最高pIC50值不同，应该和每次在ADMET分类时，随机重采样的样本不同有关。

%遗传算法
nonlcon = @NC;
fun = @pIC50_max;

options = optimoptions('ga','UseParallel', true, 'UseVectorized', true, ...
    'ConstraintTolerance',1e-6,'PlotFcn', @gaplotbestf,'MigrationFraction',0.2);


rng default % For reproducibility
[x,fval,exitflag,output,population,scores]= ga(fun,20,[],[],[],[],lb,ub,nonlcon,options)

double(predict(Mdl_Caco_2,x))...
    +double(predict(Mdl_CYP3A4,x))...
    +double(predict(Mdl_hERG,x))...
    +double(predict(Mdl_HOB,x))...
    +double(predict(Mdl_MN,x))-5

其中，

function y=pIC50_max(x)
global  Mdl_nca_pIC50_ensemble
y=-predict(Mdl_nca_pIC50_ensemble,x);
end

function [c,ceq] = NC(x)
global Mdl_Caco_2 Mdl_CYP3A4 Mdl_hERG Mdl_HOB Mdl_MN 
ceq = [];
c=3-(double(predict(Mdl_Caco_2,x))...
    +double(predict(Mdl_CYP3A4,x))...
    +double(predict(Mdl_hERG,x))...
    +double(predict(Mdl_HOB,x))...
    +double(predict(Mdl_MN,x))-5);
end

TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
揭秘时空大数据：详细介绍、真实应用场景和数据示例解析陈书予 GIS开发（时空大数据）前端大数据 python 时序数据库
时空大数据(SpatialBigData)是指利用空间环境和时间环境信息，以及数字技术，从多种来源获取的海量、动态的、多维的数据，对空间环境和时间环境进行实时监测，并基于复杂的数据分析和挖掘，获取有价值的信息。时空大数据示例：1）社会网络数据：Twitter、Facebook、Instagram等社交媒体上的海量数据，可以通过时间、空间、主题等来提取有价值的信息。2）遥感图像数据：通过遥感技术从卫
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
国外7个最佳大语言模型 (LLM) API推荐幂简集成 API新理念语言模型人工智能自然语言处理
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
Python 自动探索性数据分析库———KLib 若木胡 tools python 数据分析开发语言
Python自动探索性数据分析库——KLib一、引言在当今数据驱动的时代，数据分析师和科学家们面临着海量的数据需要处理和分析。探索性数据分析（EDA）作为数据处理流程中的关键环节，旨在帮助人们快速理解数据的特征、分布、相关性等重要信息，从而为后续的深入分析、建模以及决策提供坚实的基础。Python以其丰富的生态系统和强大的功能在数据分析领域占据着重要地位，而KLib则是其中一款专注于自动探索性数据
源码篇：python生成《蔬菜店销售数据分析报告》案例 IT小本本 python python 数据分析开发语言
本文将通过Python实现一个完整的蔬菜销售数据分析项目，涵盖数据生成、清洗、分析及可视化全流程。我们将利用模拟数据生成技术创建90天的销售记录，通过Pandas进行数据处理，结合Matplotlib和Seaborn实现多样化的可视化图表，并最终生成动态交互报告。一、数据生成：模拟真实销售场景为了模拟真实的蔬菜销售数据，我们设计了包含10种蔬菜（白菜、土豆、西红柿等）的90天销售记录。数据生成逻辑
数据分析面临的三大挑战该如何解决銨靜菂等芐紶数据挖掘大数据数据分析
转载自品略图书馆http://www.pinlue.com/article/2020/09/0712/2611202048648.html有效的分析已成为决定性因素，很明显，掌握它的人会蓬勃发展。但是，实现这一目标的过程并非没有障碍。最常见的数据分析挑战是什么？公司如何自信地应对它们？下面就来介绍一下。1、浏览预算限制数据分析领导者需要在当下采取行动，但同时也需要考虑未来。平衡这些需求要求他们在制
数据分析过程中，发现数值缺失，怎么办？学掌门大数据数据分析 IT 数据分析数据挖掘
按照数据缺失机制，数据分析过程中，我们可以将其分为以下几类：（1）完全随机缺失（MCAR）：所缺失的数据发生的概率既与已观察到的数据无关，也与未观察到的数据无关。（2）随机缺失（MAR）：假设缺失数据发生的概率与所观察到的变量是有关的，而与未观察到的数据的特征是无关的。MCAR与MAR均被称为是可忽略的缺失形式。（3）不可忽略的缺失（NIM）：亦称为非随机缺失，即如果不完全变量中，数据的缺失既依赖
Umi-OCR：一款强大而高效的文字识别工具裘心国Trent
Umi-OCR：一款强大而高效的文字识别工具Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda介绍Umi-OCR是一款基于深度学习技术的开源文字识别工具，特别适合日常办公、学术研究及数据分析等场景。它能有效解决将图像中的文字快速转化为可编辑文本的需求，极大提升工作效率。此工具依托于先进的计算机
机器学习是怎么一步一步由神经网络发展到今天的Transformer架构的？ yuanpan 机器学习神经网络 transformer
机器学习和神经网络的发展经历了一系列重要的架构和技术阶段。以下是更全面的总结，涵盖了从早期神经网络到卷积神经网络之前的架构演变：1.早期神经网络：感知机（Perceptron）时间：1950年代末至1960年代。背景：感知机由FrankRosenblatt提出，是第一个具有学习能力的神经网络模型。它由单层神经元组成，可以用于简单的二分类任务。特点：输入层和输出层之间直接连接，没有隐藏层。使用简单的
奇异值分解（SVD）文弱_书生乱七八糟神经网络人工智能
奇异值分解(SVD)介绍奇异值分解(SVD)，这是最强大的矩阵分解技术之一。SVD广泛应用于机器学习、数据科学和其他计算领域，用于降维、降噪和矩阵近似等应用。与仅适用于方阵的特征分解不同，SVD可以应用于任何矩阵，使其成为一种多功能工具。在这里煮啵将分解SVD背后的理论，通过手动计算示例进行分析，并展示如何在Python中实现SVD。在本节结束时，您将清楚地了解SVD的强大功能及其在机器学习中的应
ALO蚁狮优化算法：从背景到实战的全面解析 der丸子吱吱吱智能优化算法 ALO算法
目录引言背景2.1蚁狮优化算法的起源2.2自然启发式算法的背景2.3ALO的发展与应用原理3.1蚁狮的生物行为3.2ALO的数学建模3.3算法流程与关键步骤实战应用4.1函数优化问题4.2工程优化案例4.3组合优化与约束优化代码实现与结果分析5.1Python代码实现5.2实验设计与结果分析5.3性能评估与优化建议学习资源6.1工具推荐6.2网站与文献资源6.3ALO与AI结合的方法结论1.引言在
yum install locate出现Error: Unable to find match: locate解决方案爱编程的喵喵 Linux解决方案 linux locate yum 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了yuminstalllocate出现
GraphCube、Spark和深度学习技术赋能快消行业关键运营环节 weixin_30777913 开发语言大数据深度学习人工智能 spark
在快消品（FMCG）行业，需求计划（DemandPlanning）、库存管理（InventoryManagement）和需求供应管理（DemandSupplyManagement）是影响企业整体效率和利润水平的关键运营环节。GraphCube图多维数据集技术、Spark大数据分析处理技术和深度学习技术的结合，为这些环节提供了智能化、动态化和实时化的解决方案，显著提升业务运营效率和企业利润。一、技术
【人工智能机器学习基础篇】——深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理猿享天开人工智能数学基础专讲人工智能机器学习无监督学习降维
深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理在当今数据驱动的世界中，数据维度的增多带来了计算复杂性和存储挑战，同时也可能导致模型性能下降，这一现象被称为“维度诅咒”（CurseofDimensionality）。降维作为一种重要的特征提取和数据预处理技术，旨在通过减少数据的维度，保留其主要信息，从而简化数据处理过程，并提升模型的性能。本文将深入探讨两种广泛应用于无监督学习中的降
TK矩阵系统：高效管理与智能化操作平台 m0_74891046 矩阵
随着TikTok等社交媒体平台的快速发展，短视频创作和内容运营逐渐成为互联网行业的重要组成部分。为了帮助内容创作者、品牌运营商以及数据分析人员更高效地管理多个TikTok账号并优化运营策略，TK矩阵系统提供了一种全新的解决方案，结合了先进的软件技术与硬件设施，旨在简化操作流程，提高工作效率。TK矩阵系统概述TK矩阵系统是一款集成软件与硬件的综合平台，专为TikTok内容管理和数据采集设计。系统使用
Flink启动任务 swg321321 flink 大数据
Flink以本地运行作为解读例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Flink前言StreamExecutionEnvironmentLocalExecutorMiniClusterStreamGraph二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
拼多多根据ID取商品详情原数据API接口的开发、运用与收益前端后端运维数据挖掘api
拼多多作为中国电商市场的重要参与者，通过开放平台提供了丰富的API接口，其中根据ID取商品详情原数据的API接口尤为重要。该接口允许开发者通过编程方式获取商品的详细信息，为电商数据分析、竞品分析、价格监测、商品推荐等多个领域带来了丰富的应用场景和显著的收益。本文将深入解析拼多多根据ID取商品详情原数据API接口的开发、运用与收益，并提供相关的代码示例。一、拼多多商品详情API接口的开发拼多多开放平
【机器学习】建模流程 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能线性回归逻辑回归
1、数据获取1.1来源数据获取是机器学习建模的第一步，常见的数据来源包括数据库、API、网络爬虫等。数据库是企业内部常见的数据存储方式，例如：MySQL、Oracle等关系型数据库，以及MongoDB等非关系型数据库，它们能够存储大量的结构化和非结构化数据API（应用程序编程接口）提供了从外部获取数据的便捷方式，例如：社交媒体平台的API可以获取用户发布的内容和互动信息网络爬虫则适用于从网页中提取
基于MATLAB路径规划仿真轨迹规划，船舶轨迹跟踪控制，数学模 985计算机硕士仿真模型 matlab 开发语言
MATLAB路径规划仿真轨迹规划，船舶轨迹跟踪控制，数学模MATLAB路径规划仿真轨迹规划，船舶轨迹跟踪控制，数学模型基于两轮差速的小车模型，用PID环节对航向角进行控制，迫使小车走向目标，或用PID环节对航向角和距离进行控制，迫使小车走向目标LQR算法可自行小车起点坐标文章目录初始化环境定义PID控制函数运行仿真代码说明：代码示例代码说明：为了实现基于两轮差速模型的小车在MATLAB中的路径规划
基于Matlab_simulink仿真相关控制算法、优化算法相关帮助代做，原理讲解 985计算机硕士仿真模型 matlab 算法开发语言
Matlab/simulink仿真相关控制算法、优化算法相关帮助代做，原理讲解：1.优化算法相关：蚁群优化算法，遗传优化算法等2.控制器相关：ADRC控制，鲁棒控制，神经网络控制，MPC等3.神经网络相关：BP神经网络，RBF神经网络，LSTM神经网络等文章目录1.优化算法相关蚁群优化算法（ACO）2.控制器相关ADRC控制3.神经网络相关BP神经网络1.构建光伏系统模型1.1光伏电池模型1.2控
机器学习课堂4线性回归模型+特征缩放木尘152132 机器学习线性回归 python
一、实验2-2，线性回归模型，计算模型在训练数据集和测试数据集上的均方根误差代码：#2-2线性回归模型importpandasaspdimportnumpyasnpimportmatplotlib.pyplotasplt#参数设置iterations=3000#迭代次数learning_rate=0.0001#学习率m_train=3000#训练样本的数量flag_plot_lines=False
智见未来：多大模型协同的数据分析新范式一ge科研小菜菜人工智能大数据人工智能大数据
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言随着大语言模型（LLM）的快速发展，ChatGPT、DeepSeek、Grok等AI模型在数据分析和洞察生成方面展现出巨大潜力。利用多个LLM的协同能力，可以增强数据分析的多角度解读、减少单一模型的偏差，并优化洞察生成的深度和精准度。本文探讨如何结合多个LLM，在数据分析领域实现更可靠的洞察生成，并提供具体的策略、方法和应用场景。2.主要
Ceph数据恢复方案–分布式文件系统删除数据的恢复 San结构数据恢复数据恢复相关 ceph
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、Ceph的三种存储结构二、Ceph中删除数据的恢复提取1.本次案例情况简介：2.数据分析：2.1：BlueStore架构2.2分布式存储中元数据概述2.3提取元数据2.3.2：获取meta_data2.3.4.元数据整理2.3.5.计算数据地址3.数据恢复提取总结前言什么是分布式文件系统分布式文件系统（Distribu
【机器学习】模型拟合 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能欠拟合过拟合
1、欠拟合1.1现象欠拟合是机器学习和统计建模中的一种常见问题，表现为模型无法充分捕捉数据中的潜在规律和模式。无论是训练数据还是测试数据，模型的预测误差都居高不下。在实际应用中，欠拟合的模型往往显得过于简单和粗糙，无法对数据进行有效的拟合和描述。1.2原因模型过于简单是导致欠拟合的主要原因：例如，使用直线去拟合具有明显曲线趋势的数据，或者使用低阶多项式去拟合高阶的复杂函数关系。这种情况下，模型的表
群体智能优化算法-粒子群优化算法（Particle Swarm Optimization, PSO，含Matlab源代码） HR Zhou 算法 matlab 智能优化算法优化
摘要（Abstract）粒子群优化（PSO）是一种基于群体智能的优化算法，受鸟群觅食行为的启发。PSO通过模拟粒子（个体）在搜索空间中的运动来寻找最优解。每个粒子根据自身的历史最优位置（pBest）和全局最优位置（gBest）动态调整速度和位置，从而在全局搜索和局部搜索之间取得平衡。PSO具有收敛速度快、实现简单、计算复杂度低等优点，广泛应用于函数优化、神经网络训练、工程优化等领域。算法介绍1.主
学习Python如何高效处理CSV文件的技巧！程序员总部 python python json
在Python中，处理CSV文件是一项非常常见的任务，特别是在数据分析和数据科学领域。CSV文件的全称是Comma-SeparatedValues，顾名思义，它以逗号为分隔符来存储表格数据。这种格式简单易读，也很方便进行数据的存储和交换。接下来就让我们一起探讨一下如何在Python中读取和写入CSV文件吧！CSV模块简介Python内置了一个非常强大的库，名为csv，这个库专门用于处理各种CSV文
matlab中s-function模块局部变量的应用 0如约而至0 matlab
最近在项目中，涉及到了matlab中s-function函数的应用。需要在输出信号上加一个受地面站控制的3211激励信号。实现的过程中，遇到了s-function函数内部局部变量每次进入都会初始化置0的问题，网上查阅资料并结合模型实例，最后通过isempty函数来实现。具体的matlab实现代码如下：//functiony=fcn(act_sign,act)persistentt2ifisempt
玛哈特矫平机：引领制造业平整技术的新篇章玛哈特-小易制造校平机矫平机大数据微信公众平台
玛哈特矫平机：引领制造业平整技术的新篇章在制造业的广阔舞台上，材料的平整度是确保产品质量与精度的关键要素。玛哈特矫平机，凭借其出色的性能和前沿技术，正逐步成为推动制造业发展的重要驱动力。技术的飞跃与创新的引领玛哈特矫平机不仅代表了传统矫平技术的升级，更是一次技术的飞跃和创新的引领。它融合了先进的传感器网络、实时数据分析系统以及自动化控制平台，为材料矫平提供了智能化的解决方案。这种创新的技术组合，使
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在