jasss_7

东北大学2020级数据科学基础（Matlab）非计算机类大作业——Titanic幸存者分析

首先感谢大佬@自由散漫惯
kaggle经典题–“泰坦尼克号”–0.8275准确率–东北大学20级python大作业开源（附详细解法与全部代码以及实验报告）

本文matlab代码：
本文matlab代码

提取码：kx6m

文章目录

1 题目
2 任务分析
3 实验过程
- 3.1 数据预处理
- - 3.1.1 观察数据
  - 3.1.2 建立MAT文件
  - 3.1.3 特征规范化
  - 3.1.4 填充空缺值
  - - a 寻找空缺值
    - b 先分类再填充
    - - i KNN分类填充
      - ii 中位数填充
      - iii 众数填充
      - iiii SVM分类填充
- 3.2 探索性分析
- - 3.2.1 柱形图比较各属性下存活与死亡数据
  - 3.2.2 箱线图探索离群值
  - 3.2.3 相关系数矩阵
- 3.3 预测幸存者
- - 3.3.1 模型训练
  - 3.3.2 测试模型
4 结果反思
- 写在最后

1 题目

本次数据科学Matlab大作业需要自选数据、问题，利用课程所学，进行数据探索性分析，应用聚类、分类等方法，完成数据分析实战，并进行相应的可视化展示。

作为非计算机类的学习者，作业与计算机类的不同要求为：

数据集中记录数不低于300，属性不低于4个，不允许使用教学中用过、实验课用过的数据集；
可以使用Matlab自带的相关分析工具箱

在本次作业中，笔者选择了Kaggle数据科学平台上的入门项目——Titanic作为作业题目。

Titanic是数据科学平台kaggle上的一个入门竞赛，它为参赛者给出了test.csv、train.csv、gender_submission.csv三份数据文件，其中包含了泰坦尼克号上1309位旅客的性别、年龄、座舱等级等各种相关信息（测试集418条，训练集891条），有些数据存在空缺，有些数据存在异常，此外还存在数据不规范等问题，参赛者需要对数据进行合理的处理，可以运用描述性统计、数据可视化、分类、聚类等方法对数据进行基本的分析，再通过机器学习、决策树等方法对泰坦尼克事故的幸存者进行预测。

2 任务分析

Titanic竞赛的最终目标是给出泰坦尼克事故的幸存者预测
为了实现预测，需要用到机器学习、决策树等构建模型手段
为了构建模型，需要对所给出数据进行探索性（包括描述性、相关性）等基本的分析，尝试提前特征，并且需要用Matlab进行数据可视化
为了数据分析，需要对数据预处理，填充或删除空缺值、排除异常值、规范化不同的属性值，以Matlab的方法
在利用Matlab数据分析前，还要将数据导入至Matlab中

3 实验过程

3.1 数据预处理

3.1.1 观察数据

首先依次观察test.csv、train.csv、gender_submission.csv三份数据集。

可以看到，test.csv是测试集，而train.csv属性与test.csv基本一致，只是多了一个Survived（是否幸存）属性，gender_submission.csv则是test.csv测试集的答案。数据集总体含有以下属性：

PassengerId：乘客编号

Pclass：座舱等级

Name：乘客姓名

Sex：乘客性别

Age：乘客年龄

SibSp：兄弟姐妹和配偶数量

Parch：父母与子女数量

Ticket：票号

Fare：票价

Cabin：座位号

Embarked：出发港口

通过观察可以获得一些简单的分析思路：

PassengerId一项只是唯一标识，与幸存与否无关；
Name一项作为字符串，格式工整，家族姓氏在一定程度上可以体现身份地位，与幸存有着潜在关系；
Sex一项值为Female与male，需要进一步规范为0、1；
Ticket一项格式较乱，但票号中可以体现的的信息也应该可以从Fare、Cabin、Embarked等属性中体现出来，分析时可以与Passenger一样作为唯一标识放在一边；
Cabin一项空缺值较多，怀疑隐含着有无座位的信息，与幸存有着潜在关系，分析时可以按是否空缺进行区分；
Embarked一项与Sex一样，需要进一步规范为0、1、2；
其余项对于分析基本合适，但注意到有些属性值相较于其他属性值更大（如Fare），在建模时可能会成为主导影响因素进而影响模型准确率，需要进一步进行归一化处理；

3.1.2 建立MAT文件

.mat文件的方便之处在于，它可以连同数据的变量名一同保存下来，并且不需要控制数据的存储格式，matlab会自动保存并区分我们所储存的内容。利用load和save指令可以实现对.mat文件的读写。

为了更方便地在Matlab中对数据进行操作，且便于直接点击执行m文件，笔者先把.csv文件转换成.mat文件。

这样一来可以通过以下命令简单而快速导入数据：

load('test.mat');
load('train.mat');
load('gender.mat');

3.1.3 特征规范化

由3.1.1初步分析可知，Sex、Embarked两个属性作为离散型字符特征，为了便于进一步分析，需要规范化处理。对于Sex，令female对应0，male对应1；对于Embarked，令S对应0，C对应1，Q对应2。

代码如下：

% 特征规范化
A=test{:,4};
A=string(A);
A(A=='female')=0;
A(A=='male')=1;
A=double(A);
test.Sex=A;

A=train{:,5};
A=string(A);
A(A=='female')=0;
A(A=='male')=1;
A=double(A);
train.Sex=A;

A=test{:,11};
A=string(A);
A(A=='S')=0;
A(A=='C')=1;
A(A=='Q')=2;
A=double(A);
test.Embarked=A;

A=train{:,12};
A=string(A);
A(A=='S')=0;
A(A=='C')=1;
A(A=='Q')=2;
A=double(A);
train.Embarked=A;

3.1.4 填充空缺值

预处理数据时，应该对测试集、训练集应用相同的处理方法，但不应该合并之后一起处理。

训练模型时一定不能把测试集的信息代入，要假设测试集不存在

因此笔者并没有把训练集、测试集合并起来寻找统计数据。

a 寻找空缺值

先寻找测试集、训练集中的空缺值：

% 先去除train中Survived属性
train(:,2)=[];
miss_test=[];
for i=1:size(test,2)
    miss_test=[miss_test sum(ismissing(test(:,i)))];
end
subplot(1,2,1);
bar(miss_test);
title('miss test');
set(gca,'xTicklabel',{'PassengerId','Pclass','Name','Sex','Age','SibSp','Parch','Ticket','Fare','Cabin','Embarked'}); 
miss_train=[];
for i=1:size(train,2)
    miss_train=[miss_train sum(ismissing(train(:,i)))];
end
subplot(1,2,2);
bar(miss_train,'FaceColor','#EDB120');
title('miss train');
set(gca,'xTicklabel',{'PassengerId','Pclass','Name','Sex','Age','SibSp','Parch','Ticket','Fare','Cabin','Embarked'});

得到如下两个柱形图：

可以看到测试集、训练集中空缺值都主要集中在Age、Ticket两个属性中，除此以外Fare中有1个缺失值，Embarked中有2个缺失值。

在3.1.1观察数据时我们还看到Cabin属性中有很多""值，Matlab的ismissing()函数并没有把它算成空缺值，而笔者分析时也考虑到是否存在有座无座与幸存与否的潜在关系，故空缺值处理时不对Cabin处理。

对于Age属性，采取先分类再预测填充策略，对于Fare属性，采取中位数直接填充策略；对于Ticket属性，暂时放置不管；对于Embarked这样的离散型变量，采取众数填充。

中位数相较平均数，受噪点数据影响更小

众数是出现次数最多的数，在一定程度上反映了离散型变量的均值

b 先分类再填充

提取测试集中的Age属性非空记录，准备训练分类模型：

i KNN分类填充

通过matlab自带的分类学习器，选择交叉验证K折数为5，因变量Age，自变量Pclass、Sex、SibSp、Parch：

四个特征时，KNN准确率过低，选择Pclass、Sex两个特征再次KNN，结果依然不理想：

考虑到Age属性值范围可能从0~100，但此处的训练集只有332个，难以获得高准确度的预测模型，选择先把Age属性分成4类。

hist(test.Age,4);

边界分别是下界-19.1-38.1-57-上界

通过以下代码把test中的Age分为四类：

test15=test{:,5};
for i=1:size(test15,1)
    if ismissing(test15(i,1))
        continue
    elseif test15(i,1)<19.1
        test15(i,1)=0;
    elseif test15(i,1)<38.1
        test15(i,1)=1;
    elseif test15(i,1)<57
        test15(i,1)=2;
    else
        test15(i,1)=3;
    end
end
test15=array2table(test15);
test(:,5)=test15;

再次KNN，四特征，准确度上升至45%：

尝试修改特征、改变K值，多次KNN：

最终得到一个准确度58.7%的模型，用其填充Age空缺值。

代码如下：

Age=test{:,5};
Parch=test{:,7};
Pclass=test{:,2};
Sex=test{:,4};
SibSp=test{:,6};
filltest_Age=table(Age,Parch,Pclass,Sex,SibSp);
c=[1];
for i=1:size(filltest_Age,1)
    if ismissing(filltest_Age(i,1))
        b=filltest_Age(i,2:5);
        c=AgeKNN.predictFcn(b) ;
        c=array2table(c);
        filltest_Age(i,1)=c;
    end
end
test.Age=filltest_Age{:,1}

填充效果：

ii 中位数填充

实际上，在Age缺失值填充的过程中可以看到，利用KNN分类的效果并不是特别理想。因此，对于只有一个缺失值的Fare属性，笔者改为采取中位数填充方法。

代码：

Fare=test.Fare;
Fare(ismissing(Fare))=median(Fare);
test.Fare=Fare;

iii 众数填充

在train中，Embarked是一个有缺失值的离散型变量，笔者选择以众数填充，代码如下：

Embarked=train.Embarked;
Embarked(ismissing(Embarked))=mode(Embarked);
train.Embarked=Embarked;

iiii SVM分类填充

train中的Age同样用模型训练再填充，方法类似，先把Age分为四类然后训练模型，但此处选择了二次SVM模型，开启PCA后准确度达到58.3%，略好于KNN：

用相同方法导出模型并进行填充，代码：

Age=train{:,5};
Parch=train{:,7};
Pclass=train{:,2};
Sex=train{:,4};
SibSp=train{:,6};filltest_Age=table(Age,Parch,Pclass,Sex,SibSp);
c=[1];
for i=1:size(filltest_Age,1)
    if ismissing(filltest_Age(i,1))
            b=filltest_Age(i,2:5);
            c=AgeSVM.predictFcn(b) ;
            c=array2table(c);
            filltest_Age(i,1)=c;    
    end
end
train.Age=filltest_Age{:,1};

填充效果：

3.2 探索性分析

3.2.1 柱形图比较各属性下存活与死亡数据

先根据Survived把各记录区分开。（此处探索性分析使用的数据集为预处理后但留有Survived属性的训练集）

绘制Pclass、Sex、Age、SibSp、Parch、Fare、Cabin、Embarked共八个属性的柱形图，代码如下：

subplot(2,4,1);
x=[sum(figure_train1{:,1}==1),sum(figure_train1{:,1}==2),sum(figure_train1{:,1}==3)];y=[sum(figure_train2{:,1}==1),sum(figure_train2{:,1}==2),sum(figure_train2{:,1}==3)];
A=[x;y];
barh(A);
legend('1','2','3');
set(gca,'yTicklabel',{'survived','no survived'});
title('Pclass');
subplot(2,4,2);
x=[sum(figure_train1{:,3}==0),sum(figure_train1{:,3}==1)];y=[sum(figure_train2{:,3}==0),sum(figure_train2{:,3}==1)];
A=[x;y];
barh(A);
legend('female','male');
set(gca,'yTicklabel',{'survived','no survived'});
title('Sex');
subplot(2,4,3);
x=figure_train1.SibSp;
y=figure_train2.SibSp;histogram(x);
hold on;
histogram(y);
legend('survived','no survived');
title('SibSp');
subplot(2,4,4);
x=figure_train1.Parch;
y=figure_train2.Parch;
histogram(x);
hold on;
histogram(y);
legend('survived','no survived');
title('Parch');
subplot(2,4,5);
x=figure_train1.Fare;
y=figure_train2.Fare;
histogram(x);
hold on;
histogram(y);
legend('survived','no survived');
title('Fare');
subplot(2,4,6);
x=[sum(figure_train1{:,9}==0),sum(figure_train1{:,9}==1),sum(figure_train1{:,9}==2)];y=[sum(figure_train2{:,9}==0),sum(figure_train2{:,9}==1),sum(figure_train2{:,9}==2)];
A=[x;y];
barh(A);
legend('S','C','Q');
set(gca,'yTicklabel',{'survived','no survived'});
title('Embarked');
subplot(2,4,7);
x=figure_train1.Age;
y=figure_train2.Age;
histogram(x);
hold on;
histogram(y);
legend('survived','no survived');
set(gca,'xTicklabel',{'--19.1','19.1-38.1','38.1-57','57--'});
title('Age');
subplot(2,4,8);
x=[sum(figure_train1{:,8}==''),342-sum(figure_train1{:,8}=='')];y=[sum(figure_train2{:,8}==''),549-sum(figure_train2{:,8}=='')];
A=[x;y];
barh(A);
legend('no Cabin','Cabin');
set(gca,'yTicklabel',{'survived','no survived'});
title('Cabin');

结果：

综合以上8幅图，可以看到，一等座幸存比例大于其他座位；女性幸存者数量多于男性幸存者，并且比例也大于男性；有家人（SibSp、Parch不等于0）的人，幸存的比例大于无家人的人，可能是亲人互帮互助使生存率提升；Cabin有值的人，幸存比例也比Cabin无值的人高。

3.2.2 箱线图探索离群值

对Fare、Age两项数据范围比较大的属性进行离群值探索。

代码：

% 创建新图窗
figuresubplot(1,2,1);
boxplot(train.Fare,train.Survived);
title('Fare');
set(gca,'xTicklabel',{'no survived','survived'});
load('train.mat');
subplot(1,2,2);
boxplot(train.Age,train.Survived);
title('Age');
set(gca,'xTicklabel',{'no survived','survived'});

结果：

可以看到，Fare中大部分数值都在100以下，但幸存者的票价总体上略高于未幸存者票价；Age中，大部分年龄都在30岁上下，幸存者年龄总体上比未幸存者小一点，可见在危机关头大多数人还是把希望托付给了年轻人。

3.2.3 相关系数矩阵

利用corr()函数，求不同变量之间的相关系数，并以矩阵的形式呈现出来。代码：

train6=train1Copy{:,:};
co=corr(train6);

结果：

在相关系数的角度，变量间关系并不是非常明显。

3.3 预测幸存者

3.3.1 模型训练

由此前的分析，可知，Pclass、Sex、Age、SibSp、Parch、Cabin与Survived之间可能有着较突出的关联关系。为了预测幸存者，笔者选择使用以上变量，利用Matlab分类工具箱进行幸存者预测。

得到5个模型，其中最好的准确度80.4%来自开启PCA的中等KNN。

ROC曲线，很接近左上角。

混淆矩阵。

3.3.2 测试模型

将模型导出，利用如下代码，计算模型在测试集上的准确度：

result=FinalKNN.predictFcn(test001);
accuracy = sum(result==gendersubmission{:,2})/size(gendersubmission,1);

结果准确度为：

效果并不是很理想。

预测结果并不理想，暂不打算就此提交至Kaggle平台，回顾分析过程，自我反思还有很大的提升空间。

4 结果反思

回顾整个数据分析结果，最后模型预测准确度并不理想，个人认为在数据预处理、模型训练上还有很大的不足是导致结果的主要原因。虽然不同数据集训练的结果不同，但本次分析中处理后的数据用KNN、SVM模型训练，准确度都没能达到85%，并且最后在测试集上的结果也只有不到65%。个人总结具体原因可能有以下几点：

数据预处理不够合理。在处理数据时，没必要直接开始用模型训练来填充空缺值，因为模型训练存在很大的偶然性，用中位数直接填充或许会更加稳定合理。
模型训练方法局限。本次分析中只用到了KNN、SVM、决策树等分类工具，事实上还可以尝试聚类、神经网络等工具，并且Matlab也提供了相应的APP，在改进分析时，可以考虑用不同的方法，相互比较、从中择优预测。
模型调参不足。本次分析中无论是KNN、SVM亦或是决策树，基本都一直在使用默认参数，并且验证方法也一直是K折为5的交叉验证，如果恰当地调整参数，期望的准确度理应会上升。
探索性分析不够深入。在探索性分析这一方面，对于数据的挖掘不够深入，始终是在数据的表面徘徊，并且没有做好主成分分析等特征工程，致使后来的模型训练其实并不是很合理。
对Matlab编程技术掌握得还不够熟练。在本次分析中，切实感受到自己Matlab知识的贫瘠，尤其是关于Table型数据的读取、编辑以及矢量化编程。在数据可视化方面，也常常感受到自己的编程没法实现自己大脑中的设计。
（讲真我再做分析肯定用python不用matlab，matlab报个错我去谷歌都未必知道是怎么回事，而且matlab画的图美化起来与python相比太费劲了）
花的时间太少了。实际上这个大作业在1月5号上午11点之前一直处于新建文件夹的状态，11点开写然后到凌晨1点写完、录制完讲解视频。如果能多花点时间，肯定能把分析和代码优化得更好。（新的一年希望自己拖延症好转）

写在最后

最后必须感谢z老师。总算让我完成了一点matlab的学习，虽然很可能短期内都不会想去用matlab，但多多少少给我留下了一点印记。

东北大学2020级数据科学基础（Matlab）非计算机类大作业——Titanic幸存者分析_第26张图片

这个学期也是难忘的。假如说这学期学matlab有什么心得，那一定是，遇到matlab大佬，一定要好好珍惜！

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
matlab mle 优化,MLE+: Matlab Toolbox for Integrated Modeling, Control and Optimization for Buildings... Simon Zhong matlab mle 优化
摘要：FollowingunilateralopticnervesectioninadultPVGhoodedrat,theaxonguidancecueephrin-A2isup-regulatedincaudalbutnotrostralsuperiorcolliculus(SC)andtheEphA5receptorisdown-regulatedinaxotomisedretinalgan
如何用matlab灵活控制feko的求解 NingrLi matlab 开发语言
https://bbs.rfeda.cn/read.php?tid=3778Feko中的模型和求解设置等都可以通过editfeko进行设置，其文件存储为.pre文件，该文件可以用文本打开，因此，我们可以通过VB、VC、matlab等工具对.pre文件进行读写操作，以达到更灵活的使用feko。同样，对于.out文件，我们也可以进行读操作。熟练使用对.pre文件和.out文件的操作后，我们可以方便的计
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
matlab delsat = setdiff(1:69,unique(Eph(30,:)))；语句含义黄卷青灯77 matlab 开发语言 setdiff
这行MATLAB代码用于计算在范围1:69中不包含在Eph矩阵第30行的唯一值集合中的所有元素。具体解释如下：delsat=setdiff(1:69,unique(Eph(30,:)));解释Eph(30,:)Eph(30,:)提取矩阵Eph的第30行的所有列元素。这是一个行向量，包含了第30行的所有值。unique(Eph(30,:))unique函数返回Eph(30,:)中的唯一元素。这意味着
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n