StackChan

东北大学数据科学基础(MATLAB)-笔记

(本地用typora写的md笔记,导入图片得建一个picGo图床,嫌麻烦,所以如有需要带完整图片的笔记,参见:
课件,参见:东北大学数据科学基础MATLAB学习PPT.zip)

文章目录

一. acknowledge
- 重点:**画图**/MATLAB可视化技术
三. 数模算法章(Matlab's *optimization* *tool* *box*,优化工具箱)
- 1. 退火算法
四.课程进度
- 向量化编程&如何不使用for循环
- - [bsxfun, *arrayfun, cellfun*, spfun, structfun ](https://www.baidu.com/link?url=6FyVhkSm6MaFNpbvdK8XQcYvr3xeq_3OrtCq82UROwALdLVV2fLC4uJYk_rx5etkiYsINOJkHvBLVeTcOYW1H_&wd=&eqid=aab2da0000041f55000000036161858a)
- 数据可视化
- 数据探索性分析
- 拟合与回归
- 分类
- 聚类
- 关联规则分析

一. acknowledge

MATLAB用于编程,Typora提纲,Latex再编排(关于排版问题,github上有模板)
更多信息,吹爆:https://zhuanlan.zhihu.com/p/394139440
ipython是一个python的交互式shell，比默认的python shell好用得多，支持变量自动补全，自动缩进，支持bash shell命令，内置了许多很有用的功能和函数。"i"指interactive,

MATLAB运算汇总设计到的运算

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pCfoHbLD-1651042249324)(data:,)]

(要求:理解数学背景和算法原理,能利用它解决应用问题)

a=b’行列转换;a=1:5;b=1:2:10;生成向量linspace,数值的等间隔;logspace指数等间隔
广播,向量与矩阵相加
abs(),sqart(),exp(),reminder()
.mat文件的生成(内存变量文件)
矩阵:列优先
x = 1:5;等价于x=linespace(1,5,5)
单元矩阵:用大括号括起来:非单位矩阵
D = sub2ind(size(A),[1,2,2,2,],[1,1;3,2])与[i,j] = ind2sub([3,3],[1,3,5])
置空矩阵=删除元素;
reshape(x,3,4)
B= A(,将A元素堆叠起来,成为一个列向量’‘’''等价于reshape(A,6,1)
右除/,\左除(原矩阵有乘法,且乘法不具有交换律,有逆运算,与此处除法? )
A^2
abs(‘MATLAB’)和double(‘MATLAB’)
1、.m文件：.m文件是保存一段代码的文件，类似于C语言中的一个函数体；这也是MATLAB中最常见的文件保存格式之一。

2、.mat文件：.mat文件是MATLAB的数据存储的标准格式。也就是操作产生的数据的一个集合包，可以把一次处理的结果保存，供下一次使用。
MATLAB中两种类型的数据:
- 数值型数据
- 字符型数据(使用上用特殊性)

字符串:

>>xm='I''m a teacher.'//如果有
>>subch=ch(1:5)
subch =
I'm a

%取倒序字符串
>>revch=ch(end:-1:1)
revch =
.rehcaet a m'I

%小写变大写
>>k=find(ch>='a'&ch<='z')
k = 
3 5 7 8 9 10 11 12 13 14
>>ch(k)=ch(k)-('a'-'A')%{或者用32%}
ch =
I'M A TEACHER.

%统计字符串中共小写字母的个数
length(k)

练习中明显发现了MATLAB语言更接近自然语言,其内置大量数以千计的函数,相当于让程序员帮我们完成了很多工作,其简洁性是以语言底层事先的冗余性为代价的;且更接近自然语言,决定了它相对运行效率低,有着同python等脚本语言,解释型语言类似的语言规则随意性,故而其很多操作语句逻辑性不强,隐藏了极其复杂的底层实现;却新手友好!没有指针,引用,内存分配,平台无关

MATLAB 是一个模型设计仿真工具，验证了模型之后，会再去用其它语言实现，这是一直以来 MATLAB 的工作模式;它缺少良好的软件工程文化,针对没有太多选择,且需要快速上手解决具体工程问题的非CS工科学生来说,是不得已也最完美的选择;但python也极其完美

在学习C,C++,Java之后,深刻明白了它们在工程领域的优越性!确实,越底层,学习曲线越陡峭,但越强大越可自定义.而MATLAB的便利性,这些偏底层的语言也已经通过各种软件工程方法(如特定的框架,易于引用的外部方法库和jar包,智能IDE)

为了弥补这种解释型语言(写一句执行一句,一旦错了,就要全部重敲,还不能保存,且每次执行一个任务时敲入长长的命令序列是很烦人的。)有两种方法可以使MATLAB的力量得到扩展——脚本和函数。这两种方法都用像emacs一样的文本编辑器中编写的.m文件。m文件的好处在于它可以保存命令，还可以轻易地修改命令而无需重新敲入整个命令行。

MATLAB中三种注释方法

%该行被注释,不执行


%%
此部分作为自定义程序块,非常方便阅读
%%



%{
这
是
块注释
%}

">>"代表命令行提示符后面还有.m文件,一次性运行
syms可以定义一些符号,用来进行符号运算,如:syms a=1/2,可以避免把a由1/2–>0.5;
syms是定义符号变量

sym是将字符或者数字转换为字符

比如

syms x y %就是定了符号变量x y以后x y就可以直接使用了，有他们运算出来的结果也是符号变量

当然上面的也可以x=sym(‘x’),y=sym(‘y’)

sys(‘a+b’)%就是将a+b转化为符号表达式

理解:syms S;

S=sum(sym(2).¹)

syms与sym的选用,以得到S的精确值而非对数表示

%当然,S=sum(sym(2).²)也可以,因为右边运算的结果也是符号表达,S类型自然也会被MATLAB分配为符号变量.

%MATLAB真是门不严谨的语言啊,没有逻辑可言,全凭撸起袖子干

重点:画图/MATLAB可视化技术

本章在数学建模中的美化,形象描述数据上具有重大作用!

(上课课件PPT(全面))[http://neucsecg.neu.edu.cn/userfiles/file/2020/1604300417168078858.pdf]

clear;clc; 清空工作区,并清屏
绘制
- plot(x,y1,‘-b’,x,y2,‘-r’); 绘制二维直角坐标 plot(x,y,z) 绘制三维直角坐标
- 极坐标polar(x,y,‘-*’); 极坐标
- [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IgBhUXRe-1651042249325)(C:\Users\31219\Documents\Typora Markdown\杂项\数据分析-MATLAB.assets\image-20210919095423142.png)]
- mesh,surf绘制立体曲面
  
  clear;clc;
  
  [X,Y]=meshgrid(-4:0.1:4,-4:0.1:4);
  Z=cos(X).*sin(Y);
  surf(X,Y,Z) or mesh(X,Y,Z)
  
  xlabel(‘x’);
  ylabel(‘Y’)
  zlabel(‘T’)
- 其他必知的操作:
  
  [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iMZHY1nB-1651042249326)(C:\Users\31219\Documents\Typora Markdown\杂项\数据分析-MATLAB.assets\image-20210919101501175.png)]
- 在matlab figure界面中,可以找到tool,属性选择器,可以对camera,刻度等属性进行选择,该界面还可以生成代码
  
  这些属性通过plot的各项属性(property)一样能实现
- figure界面参数:
  
  [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FoQwqReW-1651042249327)(数据分析-MATLAB.assets/image-20211014193324692.png)]
- 线性,描点类型,颜色参数
- 分隔:(当然,属性选择器中分隔属性选择后,生成代码即可)
  - 1. subplot绘制分隔
  - 1. axes绘制分隔
- 叠加绘图
  
   hold on: 开启保持，之后的绘图将叠加显示
  
   hold off: 关闭保持，之后的绘图将覆盖显示
- 点线式基本命令
- 函数绘图:
  
  输入函数,写明定义域即可,自动对函数变化密集处密集取点,相当智能
```
fplot(@(x)sin(1./x),[0 0.1]);
```
- 特殊二维图形:
  
  [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NwaAOTug-1651042249327)(数据分析-MATLAB.assets/image-20211021184642776.png)]
- 平面化绘图建议:
- [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Z4TQdvt3-1651042249328)(数据分析-MATLAB.assets/image-20211014201001719.png)]
wordcloud技术:分析文件中各字符出现次数:中英文词频统计（MATLAB）
先学matlab，入门简单，处理直观，程序不复杂，没有python那么多条条框框。单纯从问题描述里说的各种数据处理，matlab的方便之处就无可替代。

缺点一就是文本处理始终没有python方便。这里指的是纯汉字或者英语那种，文件里都是数字或者excel文件的话读取和输出还是很方便的。

缺点二是想运行程序必须安装有matlab，动则10G。如果只是在一台电脑上运行，那就没什么问题。

等到有一定的熟练度以后，可以再学python。python门槛确实高于matlab，毕竟想要创建一个矩阵还要先导入numpy，画个图导入matplotlib，诸如此类等等，新手可能完全不懂，会陷入复杂的细节漩涡。所以才建议matlab学会后再入手，起码有个基础。

python优点在于用途广泛，免费。matlab能干的事python大部分也能干，无非就是略微复杂点。python能干的matlab也不一定能干，就是文本、文件处理方面。拓展性也更强。但是python的版本问题，以及各种数值类型等的bug确实也让人头疼，不建议纯新手学。

如果只学一个，那肯定是matlab。

如果想循序渐进，先matlab，再python是最好的选择。这个过程可以花几年的时间慢慢过渡，毕竟不管matlab还是python只是一个工具，当你的编程能力逐渐应付不了需求的时候，会自然而然学习更好的工具。
20210919,学会了如何应用MATLAB自带工具箱中的退火算法进行求解最小值(最大值) 模仿视频
矩阵范数

针对数组,自定义函数:

%???????????0
sp=0
%????mc_pi????pi
n=input('input:');
sp=mc_pi(n);


%???????sp
disp(sp)

%??????????????(??)
matrix=[0];
if n>100
    for x=(n-100):5:n
    z=mc_pi(x);
    cat(1,matrix,z);
    end
    disp(matrix);
    sp1=std(matrix);
    disp('std=');
    disp(sp1);
end


function p=mc_pi(n)   %??n????????p?????pi?
%????????????pi
s=0;
for k=1:n
    x=rand(1);
    y=rand(1);
    if (x^2+y^2)<=1
        s=s+1;
    end
end
p=s/n*4;
end

由于y=z=mc_pi(x);其值不能为向量,含恨!!!

%???????????0
sp=0
%????mc_pi????pi
n=input('input:');
sp=mc_pi(n);


%???????sp
disp(sp)

%??????????????(??)
matrix=[];
if n>100
    for x=(n-100):5:n
    z=[mc_pi(x)];
    cat(2,matrix,z);
    end
    disp(matrix);
    sp1=std(matrix);
    disp('std=');
    disp(sp1);
end


function p=mc_pi(n)   %??n????????p?????pi?
%????????????pi
s=0;
for k=1:n
    x=rand(1);
    y=rand(1);
    if (x^2+y^2)<=1
        s=s+1;
    end
end
p=s/n*4;
end

pseudoinverse 伪逆—>pinv

inverse逆—>inv

>> A[4,:]=[]

错误: 表达式无效。调用函数或对变量进行索引时，请使用圆括号。否
则，请检查不匹配的分隔符。

WA!

>> A(4,:)=[]

AC!

>> A([1 2],:)=A([2 1,:]) %换行操作%
左除与右除

>> A/B*B %A右除B右乘B=A%

ans =

12.0000 34.0000 -4.0000
34.0000 7.0000 87.0000
3.0000 65.0000 7.0000

>> B*(B\A) % B左乘(A左除B)=A%

ans =

12.0000 34.0000 -4.0000
34.0000 7.0000 87.0000
3.0000 65.0000 7.0000

对于.m文件,

A=[1,2,3;4,5,6];
B=[1,2,3;4,5,6]';
%有分号时无输出,无分号时有输出
C=A*B

MATLAB支持

function [x,y]= fun(y,x)
end

但是

function [x,y]= fun(x,y)
x=y;
y=x;
end
%两个x无法区分

交换两行(列)
使用
```
a([n m],:)=a([m n],:)
1
```
其中m,n是需要交换的两行，列也同理
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AiX7QaDZ-1651042249329)(C:\Users\31219\Documents\Typora Markdown\杂项\数据分析-MATLAB.assets\image-20211011204548821.png)]

(矩阵任意两个元素则不可交换位置,只能利用temp第三方,直接进行元素赋值来达成)

以及数组A 第k和k+1个元素交换位置:
```
A([k,k+1])=A([k+1,k]);
```
.mat文件：.mat文件是matlab的数据存储的标准格式。也就是操作产生的数据的一个集合包，可以把一次处理的结果保存，供下一次使用。与.m(既可以是脚本文件也可以是函数文件)不同: 也与.mlx(实时代码or实时脚本文件)
for的循环体为矩阵时:
```
s=0;
a=[2,3,4;5,6,7;8,9,10];
for k=a
    s=s+k;
end
disp(s)
```
运行结果(自己跑)证明是一列运行一次,就和运行向量(1*n矩阵)一样
if的条件为一个完全非0的矩阵时,条件成立

三. 数模算法章(Matlab’s optimization tool box,优化工具箱)

自带工具箱可直接通过app图形化界面调用

非自带工具箱
非自带工具箱，需另外下载，然后按照一定的步骤导入，导入后一般不能像上面工具箱一样，通过界面操作，一般都通过函数使用。由于工具箱的导入有几个小的细节需要注意，所以在我的其他经验中，关于如何导入工具箱，我也进行了详细的介绍

MATLAB绘图:

1. 退火算法

算法特点
• 与遗传算法、粒子群优化算法和蚁群算法等不同，模拟退火算法不属于群优化算法，不需要初始化种群操作。

• 收敛速度较慢。因为1）它初始温度一般设定得很高，而终止温度设定得低，这样才符合物体规律，认为物质处于最低能量平衡点；2）它接受恶化解，并不是全程都在收敛的过程中。这一点可以类比GA中的变异，使得它不是持续在收敛的，所以耗时更多一些。

• 温度管理（起始、终止温度）、退火速度（衰减函数）等对寻优结果均有影响。比如T的衰减速度如果太快，就会导致可能寻找不到全局最优解。

SA算法的Metropolis准则允许接受一定的恶化解，具体来讲，是以一定概率来接受非最优解。举个例子，相当于保留一些“潜力股”，使解空间里有更多的可能性。对比轮盘赌法，从概率论来讲，它是对非最优解给予概率0，即全部抛弃。

四.课程进度

向量化编程&如何不使用for循环

1.求完数:除了本身外所有因数相加和为本身

m=100;
for k=2:m
    cout=-k;
    for l=1:sqrt(k)
        if mod(k,l)==0
            cout=cout+l+k/l;
        end
    end
    if(cout==k)
        disp('完数是:');
        disp(k);
    end
end

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-w5rdjW0C-1651042249336)(C:\Users\31219\Documents\Typora Markdown\杂项\数据分析-MATLAB.assets\image-20211009093742132.png)]

转换为向量化编程,关键在于累加

sum之累加是针对一个已有的向量而言的,然而这个向量还不存在,需要靠if ,for得到,而非一个已有的向量,如此,不还是要借助for循环吗?

敲代码寻方案

不用for的写法:

求pi值

syms k;
%因为和式含参数,而非一个向量,所以要用symsum,不能用sum
symsum((-1)^(k+1)/(2*k-1),1,inf)

可惜由于运算限制,得到了一个超几何函数!只能弃用这种方法

向量化编程:

n=input('input:');
k=1:n;
sum((-1).^(k+1)/(2.*k-1))*4

判断一个数是否为素数

一般思路:

m=input('input:');
%法一
~sum(rem(m,2:sqrt(m)))
%法二
isempty(rem(m,2:sqrt(m))
%法三
all(rem(m,2:sqrt(m))

如何将数组倒过来

行向量就用fliplr函数列向量就用flipud函数

用fliplr,如
　　x=[1 2 3 4 5];
　　fliplr(x)
　　ans =54321

Lab2A:寻找二进制字符串中最长的“1”序列

%此处代码不可修改
s=input('请输入仅有0和1组成的二进制字符串','s');

%填写代码计算最长的1序列，即连续的1的长度
% 不能使用循环，结果存入y
strs = split(s, '0');
%cellfun函数能对每一个元胞元素进行相同的操作,取每一个元胞元素的长度,并用max求最大值
y=max(cellfun(@length, strs));

disp(y);  %显示结果y

n=input('请输入矩阵阶n');
A=fix(1000*rand(n));
%计算对角线上的连续素数个数
% 不使用循环，结果存入y
B=diag(A)'
bo=[0 isprime(B) 0];    %让起始和最后的元素与中间的操作统一
pos=find(bo==0);
jian=diff(pos)
y=max(jian-1);
disp(y)

fun系列:

bsxfun, arrayfun, cellfun, spfun, structfun

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-APHSm0Vz-1651042249337)(C:\Users\31219\Documents\Typora Markdown\杂项\数据分析-MATLAB.assets\image-20211009211215835.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pGYsjuVU-1651042249338)(C:\Users\31219\Documents\Typora Markdown\杂项\数据分析-MATLAB.assets\image-20211009211309006.png)]

向量化编程技巧:
1. 将向量视为基本单位,对于’. + 运算符’能解决的问题,可以直接解决,这是最简单的一类:输入n个数,输出n个数
```
%%
for n=1:10
   n*5
end
%%


n=1:10;
n.*5
```
2. 需要涉及向量间元素的运算,这类问题往往需要借助 MATLAB现成函数来解决,这是较简单的一类:输入n个数,未必输出n个数
```
%%
s=0;
for k=1:10
   s=1+k;
end
%%

n=1:10;
sum(n)
```
1. 需要对向量单个元素进行判断的问题,这种问题中应用的技巧被称为masking,用矩阵切片代替判断
```
%%
s=0;
for k=1:10
   if mod(k,2)==0;
   s=s+k;
end
%%

%利用masking判断
n=1:10;
n=n(mod(n,2)==0)
```
2. 需要对矩阵元素进行某种函数运算,且该函数支持输入向量,那直接上就行,这是最简单的情况
```
%%
judgement=[];
for k=1:10
   judgement=[judgement,isprime(k)];
end
%%
   
%若该函数支持输入向量

judgement=[isprime(1:10)];
```
3. 若该函数不支持输入向量(因为该函数的实现环节中有不支持向量的运算),则使用
```
%%
%如果用strs=['1','2','3'],那strs将是字符串'123',而非 字符串组:'1','2','3'
strs={'1','2','3'}
%cell元胞数组的每个元素都是cell,可以存放不同类型的数据,取cell元胞数组的元素,可以用strs{1,2}
for k=1:length(strs)
   length(strs(k))
end
%%

%利用fun系列函数cellfun来实现该功能
strs={'1','2','3'}
cellfun(@length,strs);
```
  fun系列函数:
  
  bsxfun, arrayfun, cellfun, spfun, structfun
  
  对自定义函数,如:f=@(x,y) x^2+y2;
  
  arrayfun(f,n)而不能用arrayfun(@f,n),否则无法识别f
  
  对MATLAB现成函数,则带@

lab2A:寻找最长1序列

利用split切割连续的1序列,
再用cellfun对元胞元素进行求length操作,
用max求1序列长度最大值

元胞数组不能比较数组元素是否相等,但我们可以用strcmp(A, B)!

完整代码:

Lab2A:寻找二进制字符串中最长的“1”序列

%此处代码不可修改
s=input('请输入仅有0和1组成的二进制字符串','s');

%填写代码计算最长的1序列，即连续的1的长度
% 不能使用循环，结果存入y
strs = split(s, '0');
%cellfun函数能对每一个元胞元素进行相同的操作,取每一个元胞元素的长度,并用max求最大值
y=max(cellfun(@length, strs));

disp(y);  %显示结果y

lab2B:找到n阶方阵中对角线上的连续素数个数

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-A2ygy7Hz-1651042249340)(http://neucsecg.neu.edu.cn/userfiles/client/image/2021/1633951565047087249.png)]

说明:详见代码:

Lab2B:找到n阶方阵中对角线上的连续素数个数

%此处代码不可修改
n=input('请输入矩阵阶n');
A=fix(1000*rand(n));

%计算对角线上的连续素数个数
% 不能使用循环，结果存入y

%求对角线,并转置
B=diag(A)'
s=isprime(B)
%将求得的10101...数组转换为字符数组
s=num2str(s);
%将s字符数组中的空格进行替换为空
s=strrep(s,' ','');

%对字符数组进行分割
s=split(s,'0');
%cellfun函数能对每一个元胞元素进行相同的操作,取每一个元胞元素的长度,并用max求最大值
y=max(cellfun(@length, s));

%此处代码不可修改
disp(y);

Lab2C:判定n是否为完数，并找到小于n的所有完数

运行结果:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iitNhD1G-1651042249340)(http://neucsecg.neu.edu.cn/userfiles/client/image/2021/1633951907712062769.png)]

代码:(说明见注释)

Lab2C:判定n是否为完数，并找到小于n的所有完数

%此处代码不可修改
n=input('请输入整数n');

% 判定n是否为完数
% 不能使用循环，结果存入s(保存logical值即可)
n1=1:n-1;
n1=n1(mod(n,n1)==0);
if sum(n1)==n
    s=true;
else 
    s=false;
end


% 找到n以下的所有完数
% 不能使用循环，结果存入y
f=@(x)sum(divisors(x));
solvePerfectNumber=@(x)arrayfun(f,x);
%n以下,理解从1到n-1
n2=1:n-1;
y=n2(solvePerfectNumber(n2)==2*n2);

%此处代码不可修改
disp(s)
disp(y)

附加说明:

第一问判断n是否为完数时,也可用sum(divisors(x))直接求,但我采用了masking切片的方法(收qq群大佬启发)

在求0到100所以完数过程中, 由于

f=@(x)sum(divisors(x));

不支持直接输入数组进行运算,(由divisors源码得知,divisors函数只支持标量运算)

所以此处使用了arrayfun,以此对数组元素进行操作

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AmpNf6vb-1651042249341)(C:\Users\31219\Documents\Typora Markdown\杂项\数据分析-MATLAB.assets\image-20211011201138338.png)]

这个求完数的方法,太妙了!divisors难以用在数组上,而这种主动sum(find(rem(k)==0))自己找因数,比我强太多,这就是基础啊

他妙在自定义函数f只对单个数进行处理,这样比对多个数进行处理棒多了

常规思路

f=@(x)sum(find(rem(x,1:x-1)==0));   //求所有因数的和
n=1:1000;
n=n(f(n)==n)//矩阵切片判断 代替 for循环if判断

但会报错:

错误使用 rem
矩阵维度必须一致。

出错 @(x)sum(find(rem(x,1:x-1)==0))

因为f的实现决定了它不支持向量(或者叫一阶矩阵)的运算

于是引用arrayfun函数来处理

f=@(x)sum(find(rem(x,1:x-1)==0));
n=1:1000;
n=n(arrayfun(f,n)==n)  //arrayfun(f,n)代替f(n)

f=@(x)sum(find(rem(x,1:x-1)==0))==x;
n=1:1000;
a=find(arrayfun(f,n)==1)

f=@(x)sum(find(rem(x,1:x-1)==0));
n=1:1000;
n=n(arrayfun(f,n)==n)

数据可视化


实验1.分区绘图
load carsmall
subplot(2,2,1);
histogram(MPG,Model_Year)
subplot(2,2,3);
boxplot(MPG,Model_Year)
subplot(1,2,2);
scatter(MPG,Model_Year,'k')选用了carmall的数组,绘制了MPG与Model_Year的关系
实验2：绘图标注
figure1 = figure;
axes1 = axes('Parent',figure1,...
   'Position',[0.126057529610829 0.190058479532164 0.778942470389171 0.734941520467838]);
xlim(axes1,[-43.206190624563 44.6398093754371]);
ylim(axes1,[-130.488472719394 133.049527280606]);
hold(axes1,'on');
x=linspace(-30,30);
plot(x,x.*exp(sin(x)));
annotation(figure1,'textarrow',[0.455160744500846 0.456006768189509],...
   [0.645153846153846 0.523076923076923],'String',{'y=x*exp(sin(x))'});


实验3:surf和mesh绘图surf:
[x,y]=meshgrid(-0.25:0.01:0.25,-0.25:0.01:0.25);
%以0.1为步长建立平面数据网格
r1=1./sqrt((x-0.3).^2+y.^2);
r2=1./sqrt((x+0.3).^2+y.^2);
V=1./(4*pi)/(8.854*10.^-12)*2*10^-10*(2./r1+4./r2);
surf(x,y,V)mesh:t = linspace(0,2*pi,20);
X = sin(t);
Y = cos(t);
Z = cos(2.*t);
surf(X,Y,Z);实验4三维点线图（含视角调整）

实验4三维点线图（含视角调整）
t = linspace(0,2*pi,20);
h = linspace(0,2, 20)';
X = sin(t);
Y = cos(t);
Z = cos(2.*t);
plot3(X,Y,Z);
view(-37.5,30);

实验5:实验动画绘图:
t = 0:0.005:6;
y=sin(2*pi*t);
plot(t,y)
hold on
index = 1;
scatter(t(index),y(index),'Marker','o','MarkerEdgeColor','blue');
for index=2:length(t)
   hold on;
   plot(t,y,'Color','blue')
   pause(0.05);
   scatter(t(index-1),y(index-1),'Marker','o','MarkerEdgeColor','white');
   scatter(t(index),y(index),'Marker','o','MarkerEdgeColor','blue');
end

数据探索性分析

集中趋势&离中趋势
分布分析&频度分析
频度分析(周期性分析)
对比分析
相对数分析
相对数对比
数据变换(简单函数变换,规范化)
相关性分析(绘制散点图矩阵)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RZnjTkTi-1651042249342)(数据分析-MATLAB.assets/image-20211105190105803.png)]

[m n]=size(gt.m1)

mt=[ones(m,n) gt.m1; 2.*ones(m,n) gt.m2; 3.*ones(m,n) gt.m3]

histogram2(mt(:,1),mt(:,2))

解释:

for i=2:1:6

cor = corrcoef(data(:,i),data(:,1)); >> corr(i) = cor(1,2); >> disp(['corrcoef of active power and data index ’ num2str(i) ‘ is ’ num2str(corr(i))]); >> end >>[m,index]=max(corr); >> disp(['the max corr is ’ num2str(index) ’ ’ num2str(m)]);

lab4:

1.housing数据导入工作区

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RTXQ1CzT-1651042249342)(数据分析-MATLAB.assets/image-20211106142246487.png)]

2.人口相关数据显示

disp(['The maximum of population is ' num2str(max(housing.population))]);
disp(['The minimum of population is ' num2str(min(housing.population))]);
disp(['The mean of population is ' num2str(mean(housing.population))]);

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kkJejt33-1651042249343)(数据分析-MATLAB.assets/image-20211106084820595.png)]

3.人口直方图,50柱块

histogram(housing.population,50)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kgyCesLn-1651042249343)(数据分析-MATLAB.assets/image-20211106142012167.png)]

4.查看地理位置(使用了地理气泡图)

histogram(housing.population,50)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-q3BoLbYI-1651042249344)(数据分析-MATLAB.assets/image-20211106085125630.png)]

5.查看total_bedrooms属性,将缺失值用中位数替代,并计算平均值

temp = housing.total_bedrooms; %用temp拷贝total_bedrooms
temp(isnan(temp(:,1)))=[]; %去掉temp中NaN数据
md=median(temp); %计算去掉无效数据后的中位数
housing.total_bedrooms(isnan(housing.total_bedrooms(:,1)))=md;  %将total_bedrooms中的无效数据用该中位数替代
mean(housing.total_bedrooms) %计算替代缺失值后的平均值

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HeT8d4kD-1651042249345)(数据分析-MATLAB.assets/image-20211106085713306.png)]

6…数据集里有9 个属性都是数值类数据，请计算出median_house_value 和其他8 种属性的相关系数，然后根据结果指出和房价最为相关的属性是什么？

data = table2array(housing); %表转换为矩阵,这样进行协方差处理时才不会出错
for i=1:1:8 %比较除median_house_value外的八个数据与median_house_value的关系
cor = corrcoef(data(:,i),data(:,9));
corr(i) = cor(1,2);
disp(['corrcoef of housing property and data index ' num2str(i) ‘ is ' num2str(corr(i))]);
end
[m,index]=max(corr);
disp(['the max corr is ' num2str(index) ' ' num2str(m)]);

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iNOpY5LQ-1651042249346)(数据分析-MATLAB.assets/image-20211106142055824.png)]

data index 8对应的属性是median_income,说明median_income与median_house_value最相关,也符合生活常识

MOOC作业:

1.对数据集进行离群值检测。

for k=1:1:3
    subplot(2,2,k);
    boxplot(table2array(car(:,k)));
    
end
subplot(2,2,4)
boxplot(table2array(car(:,5)));

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Y3vo1hxj-1651042249347)(数据分析-MATLAB.assets/image-20211109003047203.png)]

2.鸢尾花数据集处理:

鸢尾花数据集是Matlab软件中自带的一个经典数据集。数据集中包含不同品种的花的四个形状指标：萼片长度、萼片宽度、花瓣长度、花瓣宽度。在Matlab 中使用load fisheriris命令加载数据集后，编写程序计算如下问题：

‏

‏1）按species分离不同类别的样本；

‏

‏2）计算各类别中4个指标的均值、方差、标准差、偏度、峰度等；

‏

‏3）作出个指标数据直方图并检验该数据是否服从正态分布。

第(1)(2)问:

已经问过老师,第(1)(2)是一起的,按species分离不同类别的样本 指 运用向量化编程分别处理不同类别样本 :

代码:

for k=1:4

    disp(['setosa类别中第' num2str(k) '个指标的均值、方差、标准差、偏度、峰度 :']);

    f(meas(1:50,k));

    disp('         ');

end



for k=1:4

    disp(['versicolor类别中第' num2str(k) '个指标的均值、方差、标准差、偏度、峰度 :']);

    f(meas(51:100,k));

    disp('         ');

end



for k=1:4

    disp(['virginica类别中第' num2str(k) '个指标的均值、方差、标准差、偏度、峰度 :']);

    f(meas(101:150,k));

    disp('         ');

end



运行结果:

setosa类别中第1个指标的均值、方差、标准差、偏度、峰度 :

均值是 5.006

方差是 0.12425

标准差是 0.35249

偏度是 0.11645

峰度是 2.6542

         

setosa类别中第2个指标的均值、方差、标准差、偏度、峰度 :

均值是 3.428

方差是 0.14369

标准差是 0.37906

偏度是 0.039921

峰度是 3.7442

         

setosa类别中第3个指标的均值、方差、标准差、偏度、峰度 :

均值是 1.462

方差是 0.030159

标准差是 0.17366

偏度是 0.10318

峰度是 3.8046

         

setosa类别中第4个指标的均值、方差、标准差、偏度、峰度 :

均值是 0.246

方差是 0.011106

标准差是 0.10539

偏度是 1.2159

峰度是 4.4343

         

versicolor类别中第1个指标的均值、方差、标准差、偏度、峰度 :

均值是 5.936

方差是 0.26643

标准差是 0.51617

偏度是 0.10219

峰度是 2.4012

         

versicolor类别中第2个指标的均值、方差、标准差、偏度、峰度 :

均值是 2.77

方差是 0.098469

标准差是 0.3138

偏度是 -0.35187

峰度是 2.5517

         

versicolor类别中第3个指标的均值、方差、标准差、偏度、峰度 :

均值是 4.26

方差是 0.22082

标准差是 0.46991

偏度是 -0.58816

峰度是 2.9256

         

versicolor类别中第4个指标的均值、方差、标准差、偏度、峰度 :

均值是 1.326

方差是 0.039106

标准差是 0.19775

偏度是 -0.030236

峰度是 2.5122

         

virginica类别中第1个指标的均值、方差、标准差、偏度、峰度 :

均值是 6.588

方差是 0.40434

标准差是 0.63588

偏度是 0.11444

峰度是 2.9121

         

virginica类别中第2个指标的均值、方差、标准差、偏度、峰度 :

均值是 2.974

方差是 0.104

标准差是 0.3225

偏度是 0.35488

峰度是 3.5198

         

virginica类别中第3个指标的均值、方差、标准差、偏度、峰度 :

均值是 5.552

方差是 0.30459

标准差是 0.55189

偏度是 0.53282

峰度是 2.7435

         

virginica类别中第4个指标的均值、方差、标准差、偏度、峰度 :

均值是 2.026

方差是 0.075433

标准差是 0.27465

偏度是 -0.12556

峰度是 2.3387



------

第(3)问:(共计4个指标,无需按鸢尾花的种类分类):

subplot(2,2,1);
histogram(meas(:,1))
subplot(2,2,2)
histogram(meas(:,2))
subplot(2,2,3);
histogram(meas(:,3))
subplot(2,2,4);
histogram(meas(:,4))

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Jza3UIA6-1651042249348)(数据分析-MATLAB.assets/image-20211109003639346.png)]

拟合与回归

重点:线性回归的学习(课件也不错)

regression learner APP:首选,
1. 可以选用线性简单回归模型,及精细树,高斯回归等高级回归模型,可解决当前遇到的一切拟合问题,
2. 得到的拟合模型(可导出查看) 中蕴含了你想要的各系数的信息.
3. 得到模型后导出代码,可在其基础上继续编程进行数据处理(如调用trainedModel.Residuals属性查看残差,使用find去除残差过大点),完成包括异常点数据去除等系列问题
4. 如此,构成了一套完整简便的回归分析处理方案
5. (优势:相比于直接代码编程,省去了记忆线性回归代码流程及各种非线性回归模型拟合函数的麻烦)
直接根据课件进行代码编程(毫无疑问,工具箱生成代码相对你的编程要更为复杂,进行的处理更多,考虑的细节也更多;所以为了代码的简洁,交作业时,还是照样用代码直接编程吧,也不难),且这样能得到极为简洁的线性回归模型,如以下:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ltH9qGRk-1651042249348)(数据分析-MATLAB.assets/image-20211113152701011.png)]

==重点:==拟合的学习:

curvefit APP确实强大,能选择多种曲线进行拟合,但多数模型似乎都是不能生成函数的,只能生成模型(这些模型中包含各种系数),但对于解题而言,这大概也够了!

但其最多只能处理三元,
对于figure图床,其也能进行基本的拟合功能,直接生成曲线,但遗憾不能导出函数

问题:

训练完成后导出trainedModel,但是无法找到其函数知识
很多使用盲区,是否应该首先去其说明文档查找

Lab6a:酒精含量回归预测

（1）请先对数据绘制其血液中酒精含量与酒后时间的散点图

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-W2IDfPmj-1651042249349)(数据分析-MATLAB.assets/image-20211112183545920.png)]

（2）选择多项式函数进行广义线性回归分析，并建立人体血液酒精含量与酒后时间的函数关系。(我采用了六次多项式函数来进行拟合,当然次数越高拟合效果越好,但实验多次后发现六次已经能取得较好拟合效果)
```
x=Lab6aData.VarName1,y=Lab6aData.VarName2;

p = polyfit(x,y,6);
%使用 polyval 计算可能未包含在原始数据中的其他点处的多项式
x2 = 0:.1:16;
y2 = polyval(p,x2);
plot(x,y,'o',x2,y2)
grid on
s = sprintf('y = (%.1f) x^3 + (%.1f) x^2 + (%.1f) x + (%.1f)',p(1),p(2),p(3),p(4));
text(2,400,s)
```
Lab6b：销售额回归模型（含异常值）

问题描述:

请你帮助公司管理人员根据这些数据找到销售额与其他三个变量之间的关系，以便进行销售额预测，并从中发现是否存在异常点，如果有异常点，请做必要的处理并重新进行回归分析。要求保存各步骤至实验报告，并提交。

首先导入数据,然后开始依次进行:回归–>诊断–>剔除异常值–>重新回归分析
```
%回归
X = [Lab6bData.VarName2,Lab6bData.VarName3,Lab6bData.VarName4];
mdl = fitlm(X, Lab6bData.VarName5)

figure;
mdl.plot;
```
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BWSPsjgH-1651042249350)(数据分析-MATLAB.assets/image-20211113153435356.png)]
```
%诊断
Res = mdl.Residuals;
Res_stan = Res.Standardized; %标准化残差
figure;
plot(Res_stan, 'kx');
refline(0, 1.3);
refline(0, -1.3);
```
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Zt8IxDYr-1651042249350)(数据分析-MATLAB.assets/image-20211113153440697.png)]
```
%剔除异常值
id = find(abs(Res_stan)>1.3);
```
```
%重新回归分析
mdl2 = fitlm(X, Lab6bData.VarName5, 'Exclude', id);
figure;
mdl2.plot;
```
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xu4kiFeq-1651042249351)(数据分析-MATLAB.assets/image-20211113153500361.png)]

使用MATLAB自带的fisheriris数据集，编程实现如下要求。

‎

（1）去除setosa类别数据，保留virginica和versicolor两类数据。

‎

（2）将两类数据，共100个样本拆分成训练集和测试集，拆分比例为8:2，即80个样本用于训练，20个样本用于测试。（提示：不同类别的样本分别拆分）

‎

（3）使用训练集数据建立SVM分类器模型，并应用测试集数据进行测试。输出准确率。（注意：答案不唯一，算法流程正确即可）

load fisheriris
%去除setosa类别数据
X = meas(51:150,:); % Use all data for fitting
Y = species(51:150,:); % Response data

%将两类数据，共100个样本拆分成训练集和测试集，拆分比例为8:2
TrainX1 = X(1:40,:);
TrainY1 = Y(1:40,:);

TestX1 = X(41:50,:);
TestY1 = Y(41:50,:);

TrainX2 = X(51:90,:);
TrainY2 = Y(51:90,:);

TestX2 = X(91:100,:);
TestY2 = Y(91:100,:);

trainX = [TrainX1;TrainX2];
testX = [TestX1;TestX2];
trainY = [TrainY1;TrainY2];
testY = [TestY1;TestY2];

%训练
svmmodel = fitcsvm(trainX,trainY, 'Standardize', true);
%预测
result = predict(svmmodel, testX);

%评估
accuracy = sum(strcmp(testY,result))/20

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2dir1FvO-1651042249352)(数据分析-MATLAB.assets/image-20211113205515392.png)]

分类

完整流程(划分测试集,训练,计算准确率accuracy):以鸢尾花为例

知识点

KNN算法(最近邻算法)
SVM(支持向量机,属于逻辑回归):最常用,找到使间隔最大化的平面
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kD4SMZGV-1651042249353)(数据分析-MATLAB.assets/image-20211111200840854.png)]

lab1. 对数据集进行合理分割，选取KNN方法进行分类模型训练，并通过调整不同K值分析K取值对模型评价指标（具体指标可自行选择）的影响。

%将数据进行处理,分别得到属性数据 & 标签
X = [Lab5adata.Fe,Lab5adata.Co,Lab5adata.Zn;Lab5adata.Fe1,Lab5adata.Co,Lab5adata.Zn1];
Y = [Lab5adata.VarName2;Lab5adata.VarName7];
[size_r,size_c]=size(X);

%合理分隔为测试集和训练集
TrainX= X(1:size_r*0.75,:);
TrainY= Y(1:size_r*0.75,:);
TestX = X(size_r*0.75+1:size_r,:);
TestY = Y(size_r*0.75+1:size_r,:);


for K=1:5
    %训练
    knnmodel = fitcknn(TrainX,TrainY,'NumNeighbors',K);
    %预测
    [predict_trainY] = predict(knnmodel,TrainX);
    [predict_testY] = predict(knnmodel,TestX);
    
    %计算并打印训练集和测试集准确率
    compare_train = TrainY==predict_trainY;
    accuracy_train = sum(compare_train)/size(TrainX,1)*100;
    fprintf('K值为%d时训练集准确率：%f\n',K,accuracy_train);
    
    compare_test = TestY==predict_testY;
    accuracy_test = sum(compare_test)/size(TestX,1)*100;
    fprintf('K值为%d时测试集准确率：%f\n\n',K,accuracy_test);
end

运行结果:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GlboJSCE-1651042249354)(数据分析-MATLAB.assets/image-20211122183316327.png)]

(改图是原来错误代码的运行结果,全都是训练集准确率,没有测试集准确率)

根据运行结果可以初步推测:K较小时,准确率应该会更高

lab2:给出了60位就诊患者的化验指标，其中1 ~ 30号病例是已经确诊为肾炎病人的化验结果；31~60号是正常健康人的结果。请使用SVM算法建立肾炎患者识别模型，并通过选取交叉验证过程中不同的折数，分析对比在不同折数的情况下对模型评价指标（具体指标可自行选择）的影响。

编写f.m函数,函数功能:输入k(交叉验证折数)和data(进行处理后的表格数据),可以进行svm分类,并输出k折时训练集和测试集平均准确率
对表格数据进行数据处理后,使用f.m函数,输出5到15折下,训练集准确率

f.m代码:

function f(K,data)
lable={'yes';'yes';'yes';'yes';'yes';'yes';'yes';'yes';'yes';'yes';
        'yes';'yes';'yes';'yes';'yes';'yes';'yes';'yes';'yes';'yes';
        'yes';'yes';'yes';'yes';'yes';'yes';'yes';'yes';'yes';'yes';
        'no';'no';'no';'no';'no';'no';'no';'no';'no';'no';
        'no';'no';'no';'no';'no';'no';'no';'no';'no';'no';
        'no';'no';'no';'no';'no';'no';'no';'no';'no';'no'};

[data_r,~] = size(data);

%将数据样本随机分割为K部分
indices = crossvalind('Kfold', data_r, K);


accuracy_train_sum=0;
accuracy_test_sum=0;
for i = 1 : K
    
    % 获取第i份测试数据的索引逻辑值
    
    test = (indices == i);
    
    % 取反，获取第i份训练数据的索引逻辑值
    
    train = ~test;
    
    %1份测试，其余训练
    
    testX = data(test,:);
    testY = lable(test,:);
    
    trainX = data(train,:);
    trainY = lable(train, :);
    
    % 拟合
    svmmodel=fitcsvm(trainX,trainY);
    
    %SVM预测
    [predict_trainY] = predict(svmmodel,trainX);
    [predict_testY] = predict(svmmodel,testX);
    
    % 计算单此预测准确率 并加和
    compare_train = strcmp(trainY,predict_trainY);
    accuracy_train = sum(compare_train)/size(trainX,1)*100;
    accuracy_train_sum=accuracy_train_sum+accuracy_train;
    
    compare_test = strcmp(testY,predict_testY);
    accuracy_test = sum(compare_test)/size(testX,1)*100;
    accuracy_test_sum=accuracy_test_sum+accuracy_test;
    
end
fprintf('%d折时训练集平均准确率：%f\n',K,accuracy_train_sum/K);
fprintf('测试集平均准确率：%f\n\n',accuracy_test_sum/K);

调用f.m输出结果:

%数据预处理
data = [Lab5bdata.Zn,Lab5bdata.Cu,Lab5bdata.Fe ,Lab5bdata.Ca,Lab5bdata.Mg,Lab5bdata.K,Lab5bdata.Na];
data(1,:)=[];
%调用f.m输出结果
for k=5:15
    f(k,data);
end

运行结果:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cQZ9uHBq-1651042249354)(数据分析-MATLAB.assets/image-20211122181505636.png)]

聚类

要求:把握
- 三个关键概念
  - 样本间距离
  - 变量间的相似系数
  - 类间距离
- 谱系聚类
  
  谱系聚类首先将各样品自成一类，然后把最相似(距离最近或相似系数最大)的样品聚为小类，再将已聚合的小类按各类之间的相似性(用类间距离度量)进行再聚合，随着相似性的减弱，最后将一切子类都聚为一大类，从而得到一个按相似性大小聚结起来的一个谱系图
  
  [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sJZaFBIv-1651042249355)(数据分析-MATLAB.assets/image-20211125194147524.png)]
- K均值(K-Means)聚类
  
  K-Means算法是典型的基于距离的非层次聚类 算法，在最小化误差函数的基础上将数据划分为预定的类数K，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。 K-Means聚类算法中，一般需要度量样本之间的距离、样本与簇之间的距离以及簇与簇之间的距离
  
  [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-T0xN4VQi-1651042249355)(数据分析-MATLAB.assets/image-20211125194823020.png)]

课程中的源代码:

谱系聚类:

z1=linkage(d, 'single'); %最短距离
H1= dendrogram(z1) %谱系图
T1=cluster(z1,3);
figure
z2=linkage(d,'centroid'); %重心距离
H2= dendrogram(z2) %谱系图
T2=cluster(z2,3);

%根据z2(可以在实时脚本界面查看其数据)orT2?是极其容易绘图的,dendrogram(z2) 只是绘图的方法之一

对于谱系聚类,常用指标:1. ^2统计量 2. 伪F统计量

1.^2统计量

Tm=sum(kmax*var(x));
bm=Tm-pm;
R=bm./Tm;
plot((2:20),R(2:20),'*'); xlabel('分类数'); ylabel('R2值');

2.伪F统计量

F=zeros(kmax,1);
for kk=2:kmax
F(kk)=bm(kk)/pm(kk)*(n-kk)/(kk-1);
end
plot((2:20),F(2:20),'*') ; xlabel('分类数'); ylabel('F值');

K-Means聚类:

% 参数初始化
k = 3; % 聚类的类别
iteration =500 ; % 聚类最大循环次数
distance = 'sqEuclidean'; % 距离函数
%% 数据标准化
X = zscore(data);
scatter3(X(:,1),X(:,2),X(:,3),'k.')
%% 调用kmeans算法
opts = statset('MaxIter',iteration);
[IDX,C,~,D] = kmeans(X,k,'distance',distance,'Options',opts);

%而根据IDX(可以在实时脚本界面查看其数据)是极容易进行绘图的,下面的Lab7,其绘图代码就是我自己写的!
figure;
scatter3(X(IDX==1,1),X(IDX==1,2),X(IDX==1,3),'r.')
hold on
scatter3(X(IDX==2,1),X(IDX==2,2),X(IDX==2,3),'m.')
scatter3(X(IDX==3,1),X(IDX==3,2),X(IDX==3,3),'c.')
plot3(C(:,1),C(:,2),C(:,3),'ko','MarkerSize',4,'LineWidth',1.5)
legend('Cluster 1','Cluster 2','Cluster 3','Centroids',...
'Location','NW')

对于K-means聚类,常用指标:(,)(来源PPT,具体是啥不知道,没查到,反正不是伪F统计量)

q=2:12;
for i=1:length(q)
[IDX,C,sumd,D]=kmeans(X,q(i));
m=mean(X);
a(i)=sum(dist(C,m'));
b(i)=(sumd(i)).^0.5;
end
F=abs(a./b-1);
plot(q,F,'-*');

Lab7

为我国部分省市的城镇居民人均可支配收入来源（单位：元/人），利用该表数据，尝试聚类并回答下面的问题。

计算各样品间的欧氏距离、马氏距离和加权平方距离。

运用谱系聚类法进行聚类，包括确定最优聚类数，选择合适的类间距离，同时做出谱系图。

运用K-Means聚类法进行聚类，并建立最佳聚类数公式。

【选做】，在Matlab中还有一种聚类方法称为模糊C均值聚类(fcm)，自行查阅资料，学习该聚类方法的使用，并以步骤3确定的最佳聚类数进行模糊C均值聚类。

综合分析以上不同的聚类法所得的聚类结果，给出你的对比分析结论。

计算各样品间的欧氏距离、马氏距离和加权平方距离。
```
x= [Lab7Data.VarName2,Lab7Data.VarName3,Lab7Data.VarName4,Lab7Data.VarName5]

% Step1:计算距离
distance1 =pdist(x,'euclidean') % 欧氏距离；
distance2 =pdist(x,'mahalanobis') % 马氏距离
distance3 =pdist(x,'seuclidean') % 方差加权距离
```
结果:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Hgk0NjQj-1651042249356)(数据分析-MATLAB.assets/image-20211126195031973.png)]
运用谱系聚类法进行聚类，包括确定最优聚类数，选择合适的类间距离，同时做出谱系图。

% Step2:谱系聚类，选择合适的类间距离

[n,p]=size(x);
kmax=n-1;
pm=zeros(kmax,1);
pm(1)=1;

d=pdist(x);
z1=linkage(d, 'single'); %最短距离
z2=linkage(d,'complete'); %最长距离
z3=linkage(d,'average'); %类平均距离
z4=linkage(d,'centroid'); %重心距离
z5=linkage(d,'ward'); %离差平方和距离
R=[cophenet(z1,d),cophenet(z2,d),cophenet(z3,d),cophenet(z4,d),cophenet(z5,d)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Buc9jXgs-1651042249356)(数据分析-MATLAB.assets/image-20211126201742440.png)]

所以我们选择平均距离.

%根据R方统计量,确定最优聚类数
for k=2:kmax
    z1=linkage(d,'average');  %按照平均类间距离创建谱系聚类树
    c=cluster(z1,k); %聚类结果
    for t=1:k
        index_t=find(c==t);
        size_t=length(index_t);
        a=x(index_t,:);
        pm(k)=sum((size_t-1)*var(a))+pm(k);
    end
end


Tm=sum(kmax*var(x));
bm=Tm-pm;
R=bm./Tm;
plot((2:30),R(2:30),'*'); xlabel('分类数'); ylabel('R2值')

R方统计量结果:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zOtg3sJI-1651042249357)(数据分析-MATLAB.assets/image-20211126202014768.png)]可以看到,分类数达到5后,统计量增加不再明显,所以可以选择5作为最优聚类数.

x= [Lab7Data.VarName2,Lab7Data.VarName3,Lab7Data.VarName4,Lab7Data.VarName5];
d=pdist(x);
z1=linkage(d,'average');  %按照平均类间距离创建谱系聚类树
c=cluster(z1,5); %聚类结果
% 做出聚类数为5时的谱系图
H1= dendrogram(z1); %绘制谱系聚类树(即谱系图)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mi893QW2-1651042249358)(数据分析-MATLAB.assets/image-20211127145635898.png)]

运用K-Means聚类法进行聚类，并建立最佳聚类数公式。

%% 数据标准化
data = [Lab7Data.VarName2,Lab7Data.VarName3,Lab7Data.VarName4,Lab7Data.VarName5];
X = zscore(data);

%一般我们在2-12之间选择分类数
q=2:12;
for i=1:length(q)
    %% 调用kmeans算法
    [IDX,C,sumd,D]=kmeans(X,q(i));
    m=mean(X);
    a(i)=sum(dist(C,m'));
    b(i)=(sumd(i)).^0.5;
end
F=abs(a./b-1);

%画出伪F统计量随分类数变化图
plot(q,F,'-*');

结果图:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Yl1oLY2W-1651042249358)(数据分析-MATLAB.assets/image-20211127104744407.png)]

所以我们选择6作为最佳聚类数

% 参数初始化
k = 6; % 聚类的类别
iteration =500 ; % 聚类最大循环次数
distance = 'sqEuclidean'; % 距离函数
%% 数据标准化
data = [Lab7Data.VarName2,Lab7Data.VarName3,Lab7Data.VarName4,Lab7Data.VarName5];
X = zscore(data);
Label=categorical(Lab7Data.VarName1);

%% 调用kmeans算法
opts = statset('MaxIter',iteration);
[IDX,C,~,D] = kmeans(X,k,'distance',distance,'Options',opts);

%聚类结果可视化
figure;
plot(1,Label(IDX==1),'r.')
hold on
plot(2,Label(IDX==2),'g.')
plot(3,Label(IDX==3),'b.')
plot(4,Label(IDX==4),'y.')
plot(5,Label(IDX==5),'m.')
plot(6,Label(IDX==6),'c.')
% % plot3(C(:,1),C(:,2),C(:,3),'ko','MarkerSize',4,'LineWidth',1.5)

由于老师给出的数据有4个指标,不像PPT中的只有三个指标,不能利用scatter3画出4维指标的聚类结果,

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RyJYD3tv-1651042249359)(数据分析-MATLAB.assets/image-20211127115734537.png)]

(1表示聚类1,2表示聚类2…6表示聚类6,相同颜色的点代表同一个省份)

由图可以看出,青海,陕西,贵州,重庆等西部欠发达省份在聚类一,

广东,山东等较发达省份在聚类二,

北京,上海等高度发达省份在聚类三,

…

总体而言,分类还是较为符合实际的.

综合分析以上不同的聚类法所得的聚类结果，给出你的对比分析结论。

当聚类数较多时,二者均可取得较好的统计量观测结果

最佳类别数是导致聚类的有效性的核心.

Category ,String ,Cell的转化?呵呵,别做梦了吧!简直要崩溃了!这些方面都完不成,事实无不证明,他们只是在浪费你本就不多的时间!

MOOC单元作业八:

‌附件为MovieLens提供的电影评分数据集，在数据集中，ratings.csv文件中包含了用户对电影的评分，用户和电影都以各自的ID来表示。假定对影片评分相近作为用户之间的相似度衡量标准，请对数据做必要的预处理构造用户-影片的评分矩阵，并计算用户的相似度。之后根据用户相似度对用户做聚类分析，并对结果做出合理解释。（解释结果可参考数据集中其他数据文件）

构造用户-影片的评分矩阵

相当于用户是分类对象,由于影片数过多,两个用户评到同一部影片几率过小,我们取一个用户影片所评价过的所有影片评分平均值作为分类指标

聚类分析:

data=[ratings.userId,ratings.rating];

%%构造用户-影片的评分矩阵

%初始化评分矩阵
x = zeros(610,1);

for k=1:610
    %计算每个用户的影片评分平均分,为用户赋值
    x(k,1)=(mean(data(data(:,1)==k,2)));
end

% 参数初始化
k = 3; % 聚类的类别
iteration =500 ; % 聚类最大循环次数
distance = 'sqEuclidean'; % 距离函数
%% 数据标准化
X = zscore(x);
% scatter(X(:,1),X(:,2),X(:,3),'k.')
%% 调用kmeans算法
opts = statset('MaxIter',iteration);
[IDX,C,~,D] = kmeans(X,k,'distance',distance,'Options',opts);


%聚类结果可视化
figure;
UserId = 1:610;
figure;
scatter(UserId(IDX==1),x(IDX==1),'r.')
hold on
scatter(UserId(IDX==2),x(IDX==2),'m.')
scatter(UserId(IDX==3),x(IDX==3),'c.')
legend('Cluster 1','Cluster 2','Cluster 3','Centroids',...
'Location','NW')
xlabel('用户Id'); ylabel('用户平均电影评分')

运行结果:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2EayB5iM-1651042249359)(数据分析-MATLAB.assets/image-20211127221219588.png)]

关联规则分析

支持度,置信度,提升度

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EI5gIt55-1651042249360)(数据分析-MATLAB.assets/image-20211202185351303.png)]

{啤酒}→{尿布}的支持度： 1/
4
{尿布}→{啤酒}的支持度： 1/
4

{啤酒}→{尿布}的置信度： 1/
2
{尿布}→{啤酒}的置信度： 1/
3

{啤酒}→{尿布}的提升度： (1/2)/
(3/4)
{尿布}→{啤酒}的提升度： (1/3)
(2/4)

先购买A对购买B的概率的提升作用，即

置信度(1/3)/后者在总销售记录中的比例(2/4) 的比值

关联规则算法:

目的:以超市销售数据为例，提取关联规则的最大困
难在于当存在很多商品时，可能的商品的组合
（规则的前项与后项）的数目会达到一种令人
望而却步的程度。因而各种关联规则分析的算
法从不同方面入手减小可能的搜索空间的大小
以及减小扫描数据的次数。
- Apriori
   关联规则最常用也是最经典的挖掘频繁项集的算法，
  其核心思想是通过连接产生候选项及其支持度然后
  通过剪枝生成频繁项集
  
  在频繁项集1 、 2和3的基础上，计算置信度，
  得到相应的关联规则
  
  [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LoK9rx7t-1651042249360)(数据分析-MATLAB.assets/image-20211202190208259.png)]
  
  [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vMikD4Qc-1651042249361)(数据分析-MATLAB.assets/image-20211202190331660.png)]
  
  只有>50%的才是有效规则!因为置信度阈值设置为了50%
- FP-Tree
   针对Apriori算法的固有的多次扫描事务数据集的
  缺陷，提出的不产生候选频繁项集的方法。
  Apriori和FP-Tree都是寻找频繁项集的算法
案例:教材只给出了Apriori算法的案例实现
- 步骤:
  1. loadData 加载数据并初始化
    2. findFreqItemsets 查找频繁项集
    3. generateRules 生成关联规则

商品：评分为5的电影的movieId(因为评分为5的电影也有很多,有极大的可筛选空间)
一个购物篮：每个用户所查看的movie放在同一个购物篮,但老师提供的源数据并非这种形式,所以我们要进行数据处理

Step1:数据处理并把处理后的数据写入index.file,

源数据:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8PqqolFr-1651042249362)(数据分析-MATLAB.assets/image-20211209191007710.png)]

%数据处理并把处理后的数据写入index.file,以电影ID
userId = ratings.userId;
movieId = ratings.movieId;
rating = ratings.rating;

fid=fopen('input.txt','w');
for k = 1:610
    %同一用户ID,且评分大于5的电影,在同一行
    index = userId==k & rating==5;
    
    %[m,n] = size(find(index));if(m>0)是为了杜绝空行输入input.txt
    [m,n] = size(find(index));
    if(m>0)
       fprintf(fid,'%d,',movieId(index));
       fprintf(fid,'\n'); 
    end
    
end
fclose(fid);

处理结果(共计五百多行(去除了610行里的空行),仅截取部分):

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BSvx8zqM-1651042249362)(数据分析-MATLAB.assets/image-20211202214721314.png)]

Step2:使用Apriori算法(调用相关函数,函数在报告最下面)挖掘关联规则(由于样本太过稀疏,我们支持度阈值可以低一些,minSup = 0.05; % 最小支持度;minConf = 0.5;% 最小置信度)

%% 使用Apriori算法挖掘关联规则
clear;
% 参数初始化
inputfile = 'input.txt'; % 属性数据
outputfile='as.txt';% 输出转换后0,1矩阵文件
minSup = 0.05; % 最小支持度
minConf = 0.5;% 最小置信度
nRules = 1000;% 输出最大规则数
sortFlag = 1;% 按照支持度排序
rulefile = 'rules.txt'; % 规则输出文件

%% 调用转换程序 ，把数据转换为0,1矩阵，自定义函数
[transactions,code] = trans2matrix(inputfile,outputfile,','); 

%% 调用Apriori关联规则算法，自定义函数
[Rules,FreqItemsets] = findRules(transactions, minSup, minConf, nRules, sortFlag, code, rulefile);

disp('Apriori算法挖掘数据关联规则完成！');

输出结果截取(共计256条规则,):

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2yrdMA2L-1651042249363)(数据分析-MATLAB.assets/image-20211202214855837.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BpxxXK5k-1651042249364)(数据分析-MATLAB.assets/image-20211202214212052.png)]

(仅从规则中截取部分)

从10万条数据中得到了256条规则,可以看到,整体效果较好

调用函数:

trans2matrix: txt文件转矩阵

function [ output,code] = trans2matrix( inputfile,outputfile,splitter )
%% 把输入事务转换为0、1矩阵；每行代表一个事务

% 输入参数：
% inputfile：输入文件，空格分隔每个项目；
% outputfile：输出文件，转换后的0,1矩阵文件；
% splitter: 输入文件项目的间隔符,默认为空格

% 输出参数：
% output : 转换后的0,1 矩阵
% code：编码规则；

if nargin<3
   splitter=' '; 
end

%% 读入文件, 获得编码规则
code={};
fid= fopen(inputfile);
tline = fgetl(fid);
lines=0;
while ischar(tline)
    lines=lines+1; % 记录行数
    tline = deblank(tline);
    tline = regexp(tline,splitter,'split');
    code=[code tline]; % 合并 
    code = unique(code); % 去除重复记录
%     disp(code)
    tline = fgetl(fid);
end
disp('编码规则为：')
disp(num2str(1:size(code,2)))
disp( code);
fclose(fid); % 关闭文档

%% 读取文件，根据编码规则对原始数据进行转换
itemsnum= size(code,2);
output=zeros(lines,itemsnum);
fid= fopen(inputfile);
tline = fgetl(fid);
lines=0;
while ischar(tline)
    lines=lines+1; % 记录行数
    tline = deblank(tline);
    tline = regexp(tline,splitter,'split');
    [~,icode,~] = intersect(code,tline);% 寻找下标
    output(lines,icode')=1;
    %disp(output(lines,:))
    tline = fgetl(fid);
end
fclose(fid);

%% 把转换后的矩阵写入文件
fid = fopen(outputfile, 'w');
for i=1:lines
   fprintf(fid,'%s\n',num2str(output(i,:))); 
end
fclose(fid);
end

findRules: 算法核心,找出关联规则

function [Rules,FreqItemsets] = findRules(transactions, minSup, minConf, nRules, sortFlag, code, rulesfile)
%
% This function performs Association Analysis (Apriori Algorithm):  Given a set of transactions,
% find rules that will predict  the occurrence of an item based on the occurrences of other
% items in the transaction
% 
% Rules are of the form  A-> B (e.g., {milk, diaper} - > {Coke}), where
% support = minSup (minimum support threshold)
% confidence = minConf (minimum confidence threshold)
% 
% Support is the fraction of transactions that contain both A and B:
% Support(A,B) = P(A,B)
% 
% Confidence is the fraction of transactions where items in B appear in transactions  that contain A:
% Confidence(A,B) = P(B|A)
%
%
% INPUT:
%          transactions:  M x N matrix of binary transactions, where each row
%                                  represents one transaction and each column represents
%                                  one attribute/item
%          minSup:          scalar value that represents the minimum
%                                  threshold for support for each rule
%          minConf:        scalar value that represents the minimum
%                                  threshold for confidence of each rule
%          nRules:           scalar value indicating the number of rules
%                                  the user wants to find
%          sortFlag:         binary value indicating if the rules should be
%                                  sorted by support level or confidence level
%                                  1: sort by rule support level
%                                  2: sort by rule confidence level
%          code (labels): 编码规则            optional parameter that provides labels for
%                                  each attribute (columns of transactions),
%                                  by default attributes are represented
%                                  with increasing numerical values 1:N
%           
%          fname:            optional file name where rules are saved
%
% OUTPUT:
%          Rules:             2 x 1 cell array, where the first cell (Rules{1}{:})
%                                 contains the itemsets in the left side of the rule and second
%                                 cell (Rules{2}{:}) contains the itemsets
%                                 in the right side of the rule (e.g., if
%                                 the first rule is {1, 2} -> 3,
%                                 Rules{1}{1} = [1,2], Rules{2}{1} = [3])
%         FreqItemsets: A cell array of frequent itemsets of size 1, 2,
%                                 etc., with itemset support >= minSup,
%                                 where FreqItemSets{1} represents itemsets
%                                 of size 1, FreqItemSets{2} itemsets of
%                                 size 2, etc.
%         fname.txt:      The code creates a text file and stores all the
%                                 rules in the form left_side -> right_side.
%
% author: Narine Manukyan 07/08/2013

% Number of transactions in the dataset
M = size(transactions,1);
% Number of attributes in the dataset
N = size(transactions,2);

if nargin < 7
    fname = 'default';
end

if nargin < 6
    labels = cellfun(@(x){num2str(x)}, num2cell(1:N));
end

if nargin < 5
    sortFlag = 1;
end

if nargin < 4
    nRules = 100;
end

if nargin < 3
    minConf = 0.5;
end

if nargin < 2
    minSup = 0.5;
end

if nargin == 0
    error('No input arguments were supplied.  At least one is expected.');
end

% Preallocate memory for Rules and FreqItemsets
maxSize = 10^2;
Rules = cell(2,1);
Rules{1} = cell(nRules,1);
Rules{2} = cell(nRules,1);
FreqItemsets = cell(maxSize);
RuleConf = zeros(nRules,1);
RuleSup = zeros(nRules,1);
ct = 1;

% Find frequent item sets of size one (list of all items with minSup)
T = [];
for i = 1:N
    S = sum(transactions(:,i))/M;
    if S >= minSup
        T = [T; i];
    end
end
FreqItemsets{1} = T;

%Find frequent item sets of size >=2 and from those identify rules with minConf

for steps = 2:N

    % If there aren't at least two items  with minSup terminate
    U = unique(T);
    if isempty(U) || size(U,1) == 1
        Rules{1}(ct:end) = [];
        Rules{2}(ct:end) = [];
        FreqItemsets(steps-1:end) = [];
        break
    end

    % Generate all combinations of items that are in frequent itemset
    Combinations = nchoosek(U',steps);
    TOld = T;
    T = [];

    for j = 1:size(Combinations,1)
        if ct > nRules
            break;
        else
            % Apriori rule: if any subset of items are not in frequent itemset do not
            % consider the superset (e.g., if {A, B} does not have minSup do not consider {A,B,*})
            if sum(ismember(nchoosek(Combinations(j,:),steps-1),TOld,'rows')) - steps+1>0

                % Calculate the support for the new itemset
                S = mean((sum(transactions(:,Combinations(j,:)),2)-steps)>=0);
                if S >= minSup
                    T = [T; Combinations(j,:)];

                    % Generate potential rules and check for minConf
                    for depth = 1:steps-1
                        R = nchoosek(Combinations(j,:),depth);
                        for r = 1:size(R,1)
                            if ct > nRules
                                break;
                            else
                                % Calculate the confidence of the rule
                                Ctemp = S/mean((sum(transactions(:,R(r,:)),2)-depth)==0);
                                if Ctemp > minConf

                                    % Store the rules that have minSup and minConf
                                    Rules{1}{ct} = R(r,:);
                                    Rules{2}{ct} = setdiff(Combinations(j,:),R(r,:));
                                    RuleConf(ct) = Ctemp;
                                    RuleSup(ct) = S;
                                    ct = ct+1;
                                end
                            end
                        end
                    end
                end
            end
        end
    end

    % Store the freqent itemsets
    FreqItemsets{steps} = T;
end

% Get rid of unnecessary rows due to preallocation (helps with speed)
FreqItemsets(steps-1:end) = [];
RuleConf = RuleConf(1:ct-1);
RuleSup = RuleSup(1:ct-1);

% Sort the rules in descending order based on the confidence or support level
switch sortFlag
    case 1 % Sort by Support level
        [V,ind] = sort(RuleSup,'descend');
    case 2 % Sort by Confidence level
        [V,ind] = sort(RuleConf,'descend');
end

RuleConf = RuleConf(ind);
RuleSup = RuleSup(ind);

for i = 1:2
    temp = Rules{i,1};
    temp = temp(ind);
    Rules{i,1} = temp;
end

disp(['关联规则算法完成,规则数为：' num2str(size(RuleSup,1))]);

% Save the rule in a text file and print them on display
fid = fopen(rulesfile, 'w');
fprintf(fid, '%s   (%s, %s) \n', 'Rule', 'Support', 'Confidence');

for i = 1:size(Rules{1},1)
    s1 = '';
    s2 = '';
    for j = 1:size(Rules{1}{i},2)
        if j == size(Rules{1}{i},2)
            s1 = [s1 code{Rules{1}{i}(j)}];
        else
            s1 = [s1 code{Rules{1}{i}(j)} ','];
        end
    end
    for k = 1:size(Rules{2}{i},2)
        if k == size(Rules{2}{i},2)
            s2 = [s2 code{Rules{2}{i}(k)}];
        else
            s2 = [s2 code{Rules{2}{i}(k)} ','];
        end
    end
    s3 = num2str(RuleSup(i)*100);
    s4 = num2str(RuleConf(i)*100);
    fprintf(fid, '%s -> %s  (%s%%, %s%%)\n', s1, s2, s3, s4);
end
fclose(fid);
disp(['存储规则到文件‘' rulesfile '’完成'])
end

MOOC作业九:

%数据处理并把处理后的数据写入input.file
%导入表格前信息做了排序,1:22063为0,即女,20264:43386为1,即男

fid=fopen('input1.txt','w');
for k = 1:20263
    %将所有女性用户中买过的商品所在列的下标打印,(前两列为性别,时间,所以下标从第三列开始.我们最终根据下标就能判断商品种类)
    fprintf(fid,'%d,',find(Untitled(k,:)==1));
    fprintf(fid,'\n');
end
fclose(fid);

fid=fopen('input2.txt','w');
for k = 20264:43386
    %将所有男性用户中买过的商品所在列的下标打印,(前两列为性别,时间,所以下标从第三列开始.我们最终根据下标就能判断商品种类)
    fprintf(fid,'%d,',find(Untitled(k,3:)==1));
    fprintf(fid,'\n');
end
fclose(fid);

%% 使用Apriori算法挖掘关联规则
clear;
% 参数初始化
inputfile = 'input1.txt'; % 属性数据
outputfile='as.txt';% 输出转换后0,1矩阵文件
minSup = 0.05; % 最小支持度
minConf = 0.5;% 最小置信度
nRules = 1000;% 输出最大规则数
sortFlag = 1;% 按照支持度排序
rulefile1 = 'rules1.txt'; % 规则输出文件
rulefile2 = 'rules2.txt'; % 规则输出文件

%% 调用转换程序 ，把数据转换为0,1矩阵，自定义函数
[transactions,code] = trans2matrix(inputfile,outputfile,','); 

%% 调用Apriori关联规则算法，自定义函数
[Rules,FreqItemsets] = findRules(transactions, minSup, minConf, nRules, sortFlag, code, rulefile);

disp('Apriori算法挖掘数据关联规则完成！');
%%调用的相关函数可在matlab官网找到,代码较长,不再附上

运行结果:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GGSDFV7x-1651042249364)(数据分析-MATLAB.assets/image-20211209204723226.png)]

得到的部分关联规则:

女性:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jDTYX0O6-1651042249365)(数据分析-MATLAB.assets/image-20211209194423415.png)]

由此可见,对女性而言,购买:

133:431066:DINING 餐具

29:102018: CHINESE DESSERT中式甜点

41:102056:VENDOR BREAD供应商自制面包

后,往往会购买:

47:103116:FRESH SOY/FLOUR/RICE PRODUCTS新鲜豆制品/米面制品

得到的部分男性关联规则:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-S23p5Y5l-1651042249365)(数据分析-MATLAB.assets/image-20211209205230273.png)]

由此可见,对于男性而言,购买:

3:101001:BEVERAGE饮料

103005:CANNED FOOD罐头食品

118:328041:MANS WEAR 男装

往往会购买:

48:213018:LIQUOR酒类

由此可见,这些关联规则还是比较符合实际的

**LAB 9:**综合分析(实则就是数据处理+最常见的聚类)

构造各项指标,并进行一定处理:

%提取构造LRFMC指标，具体构造过程为：
L=airdata.LOAD_TIME-airdata.FFP_DATE;
R=airdata.LAST_TO_END;
F=airdata.FLIGHT_COUNT;
M=airdata.SEG_KM_SUM;
C=airdata.avg_discount;


%寻找异常值
find(L<=0)
find(L<=0)
find(F<=0)
find(M<=0)
%寻找avg_discount平均折扣率<0或>1的异常情况
find(C>1 | C<0)

结果如下:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aDMdVfZm-1651042249366)(数据分析-MATLAB.assets/image-20211209215924564.png)]

说明存在avg_discount平均折扣率<0或>1的异常情况,去除这些数据;并进行数据标准化

%去掉avg_discount平均折扣率<0或>1的异常情况
index=find(C>1 | C<0);
L(index)=[];
R(index)=[];
F(index)=[];
M(index)=[];
C(index)=[];


%处理后的数据,利用zscore函数进行标准差标准化后
data=[L,R,F,M,C];
data=zscore(data);

聚类:将客户分成五个级别:

%%选择5作为聚类数,进行聚类
% 参数初始化
k = 5; % 聚类的类别
iteration =500 ; % 聚类最大循环次数
distance = 'sqEuclidean'; % 距离函数
% 调用kmeans算法
opts = statset('MaxIter',iteration);
[IDX,C,sumd,D] = kmeans(data,k,'distance',distance,'Options',opts);

统计各类中的客户数分布:

 histogram(IDX)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7rlvAR4O-1651042249367)(数据分析-MATLAB.assets/image-20211210172126145.png)]

以及各类的LRFMC指标对应的概率密度:

(五种颜色的曲线对应五种类,legend见右上)

L：会员入会时间距观测窗口结束的月数,

hold on;
%做L指标的概率分布图
for t=1:5 
    cdfplot(L(find(IDX==t)));
end
legend('Cluster 1','Cluster 2','Cluster 3','Cluster 4','Cluster 5')

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oXOqMelR-1651042249367)(数据分析-MATLAB.assets/image-20211210192952030.png[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GZ1gi6M5-1651042253118)(数据分析-MATLAB.assets/image-20211210195338159.png)]]

R,F,M,C 频率分布图:

hold on;
%依次做RFMC指标的概率分布图
for t=1:5    
    cdfplot(R(find(IDX==t)));//F,M,C的代码同,不再赘述
end
legend('Cluster 1','Cluster 2','Cluster 3','Cluster 4','Cluster 5')

R:客户最近一次乘坐公司飞机距观测窗口结束的月数；

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tkyb08mz-1651042249368)(数据分析-MATLAB.assets/image-20211210191518507.png)]

F:客户在观测窗口内乘坐公司飞机的次数；

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4aiJkwpl-1651042249368)(数据分析-MATLAB.assets/image-20211210190647721.png)]

M:客户在观测窗口内乘坐公司飞机的总里程；

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-beiezvi2-1651042249369)(数据分析-MATLAB.assets/image-20211210191555694.png)]

C:客户在观测窗口内乘坐舱位所对应的折扣系数的平均值。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JkJtEDxI-1651042249369)(数据分析-MATLAB.assets/image-20211210192128799.png)]

并分析类标号（1_{5）与聚类目标（A}E）的对应关系:

重要保持客户（A）、重要发展客户（B）、重要挽留客户（C）、一般客户（D）、低价值客户（E）

L：会员入会时间距观测窗口结束的月数；

R：客户最近一次乘坐公司飞机距观测窗口结束的月数；

F：客户在观测窗口内乘坐公司飞机的次数；

M：客户在观测窗口内乘坐公司飞机的总里程；

C：客户在观测窗口内乘坐舱位所对应的折扣系数的平均值。

L越长,R越小(该指标受观测窗口时间印象,仅具有一定参考价值),F越大,M越大,C越小,用户价值越高

根据各主要指标:(>表示更具价值)

人数比例:1:2:3:4:5 = 3:2:1:4:2

L:1>3>5>2>4 反应客户新老度,忠诚度

R:3>4>1>2>5 一定程度上能反应近期客户乘机频率(只具有一定参考价值)

F:4>>2≈5>3>1 反应客户乘机次数

M:3>>4≈1>2>5 反应客户乘机里程

C:2>>1≈3≈4≈5 反应客户乘机舱位层次高低,折扣系数越小,舱位越高级,可攫取利润越高

由此,可得以下关系:,

重要保持客户（A） cluster2:舱位层次高,乘机相对频繁

重要发展客户（B）cluster4:乘机次数和近期乘机次数高,且用户较新,具备发展潜力

重要挽留客户（C）cluster3:乘机里程和近期乘机次数较高,且用户较老,总量最大,需重点挽留

一般客户（D）cluster1:总量相对较大,乘机里程一般,乘机舱位普通,老用户,乘机次数较少

低价值客户（E）cluster5,注册相对较久,但乘机次数较少,乘机里程最少,舱位普通

【非计算机专业学生选做】评估聚类质量(本人非计算机专业)

3.根据你所选择的K-means聚类方法，选择F统计量作为评价指标，对聚类效果进行分析。

指标选用来自PPT:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kF33l4P9-1651042249370)(数据分析-MATLAB.assets/image-20211210203347545.png)]

m=mean(data);
a=sum(dist(C,m'));
b=(sumd).^0.5;
F=abs(a./b-1)

结果:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vFca7n3O-1651042249370)(数据分析-MATLAB.assets/image-20211210203343629.png)]

该聚类方案 LRFMC五大指标的F统计量都接近于1,聚类效果较好.但毫无疑问的是,LRFMC五大指标各有侧重点,反应用户了用户忠诚度(新老用户),乘机频率,乘机舱位高低等不同价值,在重要度上也理应占有不同权值,更具有着不同的评估意义.所以执着于聚类数据上的效果而忽略了实际效果,是没有意义的.

0:63 ↩︎
0:63 ↩︎

你可能感兴趣的:(matlab,数据挖掘)

含光热电站、有机有机朗肯循环、P2G的综合能源优化调度（Matlab代码实现）创新优化代码学习能源 matlab 前端
‍个人主页欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述含光热电站、有机朗肯循环与P2G的综合能源优化调度研究一、技术基础与系统作用二、多技术协同机制三、优化调度模型构建四、典型案例与仿真分析五、未来研究方向结论2运行结果3参考文献4Matlab代码实现1概述光热发电(concentratingsolarp
书籍-《控制理论的数学导论（第三版）》机器人数学
书籍：AMathematicalIntroductiontoControlTheory作者：ShlomoEngelberg出版：WorldScientificPublishingCompany编辑：陈萍萍的公主@一点人工一点智能下载：《控制理论的数学导论（第三版）》01书籍介绍本书在数学严谨性和工程应用之间达到了完美的平衡，有助于学生全面理解控制理论的数学和工程层面。本书不仅有效运用了MATLAB
Matlab 基于最小二乘向量机 LSSVM + NSGAII 多目标优化算法的工艺参数优化前程算法屋私信获取源码工艺参数优化 matlab 算法多目标优化
Matlab基于最小二乘向量机LSSVM+NSGAII多目标优化算法的工艺参数优化一、引言1.1研究背景与意义在现代工业生产中，工艺参数优化占据着举足轻重的地位。它犹如工业生产的核心引擎，直接影响着企业的生产效率、产品质量以及成本控制。从生产效率角度看，优化工艺参数能够显著提升生产速度。合理的参数设置可使生产设备处于最佳运行状态，减少不必要的停机与等待时间，让生产流程更加顺畅。以汽车制造业为例，通
Matlab基于BP神经网络与NSGA-II的多目标工艺参数优化方法天天酷科研工艺参数优化 matlab 神经网络工艺参数优化
Matlab基于BP神经网络与NSGA-II的多目标工艺参数优化方法一、方法原理与框架BP神经网络的作用BP神经网络通过建立工艺参数与目标性能（如翘曲变形、收缩率、硬度等）之间的非线性映射关系，作为代理模型替代复杂的物理仿真或实验。其优势在于：能够处理多输入-多输出的复杂非线性关系，例如激光功率、扫描速度与熔覆层性能的关联。在注塑成型中，预测体积收缩率和翘曲变形的相对误差可控制在5%以内。通过正交
Python 生成数据(使用Pygal模拟掷骰子) 钢铁男儿 Python 从入门到精通 python 开发语言
数据可视化指的是通过可视化表示来探索数据，它与数据挖掘紧密相关，而数据挖掘指的是使用代码来探索数据集的规律和关联。数据集可以是用一行代码就能表示的小型数字列表，也可以是数以吉字节的数据。使用Pygal模拟掷骰子在本节中，我们将使用Python可视化包Pygal来生成可缩放的矢量图形文件。对于需要在尺寸不同的屏幕上显示的图表，这很有用，因为它们将自动缩放，以适合观看者的屏幕。如果你打算以在线方式使用
推特关键词爬虫Python实现最新版（2025.2.20）才华是浅浅的耐心爬虫 python 开发语言
引言随着各类自媒体平台的兴起，数据挖掘和分析变得尤为重要。推特作为全球最大的自媒体平台，越来越来越多的人需要通过爬取其内容进行分析。然后自从马斯克接手推特之后，推特api不可再用，推特的反爬力度也在逐渐增强。今天小编就分享一个推特爬虫的教程。描述这篇文章主要通过关键词爬取帖子内容信息以及帖子作者主页相关信息，用户也可根据自己需要的时间段进行筛选。推特可支持筛选多种语言，我这里先展示中文和英文的。字
【FPGA教程案例31】通信案例1——基于FPGA的ASK调制信号产生 fpga和matlab ★教程2:fpga入门100例 fpga开发 FPGA教程 ASK调制 verilog
FPGA教程目录MATLAB教程目录---------------------------------------------------------------------------------------目录1.软件版本2.ASK调制原理3.ASK调制过程的FPGA实现4.操作步骤与仿真结论5.参考文献1.软件版本vivado2019.22.ASK调制原理幅度键控（Amplitude-Shi
matlab数据处理：创建网络数据见你背影 matlab
%创建网格数据[X,Y]=meshgrid(x_data,y_data);如x_data=[1234]X=1234123412341234XY_data=[X(:),Y(:)];%将X和Y合并成一个向量X(:)表示将矩阵排成一列XY_data=1111222233334444
用户行为路径分析（Google Analytics数据挖掘）闲人编程 Python数据分析实战精要数据挖掘人工智能用户行为路径分析 Analytics 数据分析用户习惯
目录用户行为路径分析（GoogleAnalytics数据挖掘）1.引言2.项目背景与意义2.1用户行为路径的重要性2.2GoogleAnalytics数据概述2.3数据规模与挑战3.数据集生成与介绍4.数据预处理与GPU加速5.用户行为路径分析方法5.1用户行为路径构建5.2行为路径挖掘与模式分析5.3常用指标计算6.数据可视化与指标展示7.PyQtGUI设计与实现8.GPU加速与性能优化9.系统
【优化选址】基于多目标遗传NSGAII、多目标免疫遗传算法求解考虑成本、救援时间和可靠性的海上救援选址多目标优化问题研究（Matlab代码实现）荔枝科研社 matlab 数据结构算法
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️赠与读者1概述基于多目标遗传NSGAII、多目标免疫遗传算法求解考虑成本、救援时间和可靠性的海上救援选址多目标优化问题研究一、引言二、海上救援选址多目标优化问题分析（一）成本因素（二）救援时间因素（三）可靠性因素三、多目标遗传NSGAII算法（一）算法原理（二）在
光伏储能直流系统MATLAB仿真（PV光伏阵列+Boost DCDC变换器+负载+双向DCDC变换器+锂离子电池系统） yyds_2201 matlab 开发语言
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述光伏储能直流系统MATLAB仿真研究一、引言二、光伏储能直流系统的基本构成（一）PV光伏阵列（二）BoostDC/DC变换器（三）负载（四）双向DC/DC变换器（五）锂离子电池系统（六）控制模块（七）观测模块三、MATLAB仿真模型建立（一）光伏阵列模型（二）B
【教程4＞第2章＞第30节】本章整体思维导图与学习总结 fpga和matlab #第3章·通信—高阶调制解调 FPGA 教程4 学习总结高阶调制解调
教程4.目录.目录1.本章节目录2.本章节思维导图3.本章节学习案例与实际应用欢迎订阅FPGA/MATLAB/Simulink系列教程《★教程1:matlab入门100例》《★教程2:fpga入门100例》《★教程3:simulink入
基于MATLAB的遗传算法优化BP神经网络航空发动机寿命预测默默科研仔发动机寿命预测 matlab 神经网络发动机寿命预测
基于MATLAB的遗传算法优化BP神经网络航空发动机寿命预测一、基本原理与优化框架遗传算法（GA）与BP神经网络的结合（GA-BP）主要通过全局搜索优化BP神经网络的初始权值和阈值，解决传统BP易陷入局部最优、收敛速度慢的问题。具体优化形式包括：初始参数优化：GA仅优化初始参数，后续仍依赖BP反向传播微调。全局参数优化：GA直接优化全部网络参数，无需BP参与。混合优化：GA优化初始参数后，再通过B
Matlab绘图(一)——设置坐标轴标签指定中英文字体和字体大小加点油。。。。 Matlab绘图 matlab matplotlib
❤️代码1%设置x轴和y轴标签，分别指定中文和英文的字体xlabel(['\fontname{宋体}数据1\fontname{TimesNewRoman}(Data1)'],...'FontSize',10.5,'Interpreter','tex');ylabel(['\fontname{宋体}数据2\fontname{TimesNewRoman}(%)'],...'FontSize',10.5
基于MATLAB的齿轮箱振动信号分析代码编织匠人 matlab 开发语言数学建模
基于MATLAB的齿轮箱振动信号分析齿轮传动是工业生产中常见的机械传动方式，但是在长期运转过程中会产生振动现象，这种振动会影响齿轮传动的精度、寿命以及稳定性。因此，对齿轮箱振动信号的分析就显得非常重要。MATLAB是一款功能强大的数学软件，可以用于对齿轮箱振动信号进行分析和处理。本文就将介绍如何利用MATLAB对齿轮箱振动信号进行分析。一、齿轮箱振动信号获取首先，我们需要获取齿轮箱振动信号。通常可
MATLAB 控制系统设计与仿真 - 28 东雁西飞 MATLAB 控制系统设计与仿真 matlab 算法开发语言机器人自动控制 AI算法
MATLAB状态空间控制系统分析-极点配置就受控系统的控制律的设计而言，由状态反馈极点配置和输出反馈极点配置。状态反馈极点配置问题就是：通过状态反馈矩阵K的选取，使闭环系统的极点，即(A-BK)的特征值恰好处于所希望的一组给定闭环极点的位置。另外，线性定常系统可以用状态反馈任意配置极点的充分必要条件是：该系统必须是完全能控的。所以，在实现极点的任意配置前，必须判别受控系统的能控性。下面结合例子介绍
基于改进ISODATA算法的负荷场景曲线聚类（matlab代码）电力程序小学童聚类 matlab ISODATA算法风电光伏
目录1主要内容聚类中心选取步骤核方法2部分代码3程序结果4程序链接1主要内容程序复现文献《基于机器学习的短期电力负荷预测和负荷曲线聚类研究》第三章《基于改进ISODATA算法的负荷场景曲线聚类》模型，该方法不止适用于负荷聚类，同样适用于风光等可再生能源聚类，只需要改变聚类的数据即可，该方法的通用性和可创新性强。该代码实现一种基于改进ISODATA算法的负荷场景曲线聚类方法，代码中，主要做了四种聚类
Matlab 汽车半主动悬架振动模糊pid控制 studyer_爱啃鸡爪的小米 Matlab系列案例汽车
1、内容简介Matlab178-汽车半主动悬架振动模糊pid控制可以交流、咨询、答疑2、内容说明略摘要：以某微型客车悬架的液压减振器为研究对象，依据汽车动力学理论建立了１／４汽车半主动悬架控制系统的动力学模型，并应用ＭＡＴＬＡＢ／Ｓｉｍｕｌｉｎｋ软件及模糊控制理论模拟仿真了客车在Ｃ级路面以不同速度行驶时的振动特性。研究结果表明：模糊控制器可以进一步提高客车的乘坐舒适性和操纵稳定性，同时验证了其具有
数据挖掘：第二章、认识数据 initial- - - 数据挖掘数据挖掘人工智能
第二章认识数据2.1数据类型与统计汇总数据集与数据对象一个数据集由多个数据对象组成，每个数据对象代表一个实体。例如，在销售数据库中，数据对象可以是客户、商品、销售额等；在医疗数据库中，数据对象可以是患者、治疗信息等；在大学数据库中，数据对象可以是学生、教授、课程信息等。数据对象也被称为样品、示例、实例、数据点、对象、元组。数据对象所描述的属性即数据集中的列，而数据对象则是数据库中的行。属性属性是数
数据挖掘导论——第七章：聚类 Wis4e 数据挖掘聚类人工智能
什么是聚类？数据间的相似性和距离的测量方式有哪些？数据标准化如何进行距离计算？层次聚类的思想和流程？K-均值聚类的思想和流程？距离的计算方式如何影响聚类结果？聚类的要素，包括数据，差异性/相似性测量方式，聚类算法（标准化执行程序或流程）理解相似性和差异性的度量（p40）。Jaccard和余弦相似性度量。以下内容由AI生成：余弦相似度（CosineSimilarity）是一种衡量两个向量在方向上相似
数据挖掘中的数据预处理：填充与主成分分析阿什么名字不会重复呢数据挖掘人工智能
数据挖掘中的数据预处理：填充与主成分分析在数据挖掘中，数据预处理是非常重要的一步。现实世界中的数据通常是不完整的，包含噪声、缺失值或异常值，因此在进行模型训练或分析前，我们需要对数据进行清理和转换。本文将介绍数据预处理中的两种常见填充方法（01填充和均值填充），以及一种用于降维的技术——主成分分析（PCA）。一、数据填充数据填充是处理缺失值的常见方法。在实际场景中，数据集可能会因为各种原因出现缺失
锂电池剩余寿命预测 | 基于CNN-BiLSTM的锂电池剩余寿命预测研究附Matlab参考代码默默科研仔锂电池寿命预测 cnn matlab 人工智能
基于CNN-BiLSTM的锂电池剩余寿命预测研究附Matlab参考代码一、引言1.1、研究背景和意义锂电池因其高能量密度和长循环寿命，在移动设备、电动汽车和储能系统等领域得到广泛应用。准确预测锂电池的剩余寿命（RemainingUsefulLife,RUL）对于优化电池使用、维护和管理具有重要意义，可以有效减少运营成本，提高设备的安全性和可靠性。随着锂电池应用领域的扩展，对其性能和寿命的预测需求日
群体智能优化算法-GOOSE优化算法（含Matlab源代码） HR Zhou 算法 matlab 开发语言群体智能优化优化
摘要GOOSE（GooseOptimizationAlgorithm）是一种基于大雁（Goose）在自然界中觅食与捕猎行为所启发的元启发式算法。它借助大雁的飞行速度、加速度、随机跳跃等策略，以实现对搜索空间进行全局探索和局部开发。通过设置自由落体速度（FreeFallSpeed）、声音传播距离（SoundDistance）与时间平均（TimeAverage）等多种机制，GOOSE在处理复杂的高维非
群体智能优化算法-澳洲野狗优化算法（含Matlab源代码） HR Zhou 算法 matlab 开发语言群体智能优化优化
DingoOptimizationAlgorithm(DOA)sourcecodeDevelopedinMATLAB9.4.0.813654(R2018a)Author:Dr.HernanPeraza-VazquezMTA.GustavoEchavarria-Castilloe-mail:[email protected]@alumno.ipn.mxProgrammer:
群体智能优化算法-旗鱼优化算法 (Sailfish Optimizer, SFO，含Matlab源代码） HR Zhou 算法 matlab 开发语言群体智能优化优化
摘要旗鱼优化算法（SailfishOptimizer,SFO）是一种模拟旗鱼（Sailfish）和沙丁鱼（Sardine）之间捕食关系的新型元启发式算法。通过在搜索过程中模拟旗鱼对沙丁鱼的捕食行为，以及沙丁鱼群的逃逸与防御机制，SFO平衡了全局探索与局部开发，在处理复杂优化问题时具有良好的收敛性能。本文提供了SFO的核心思路并提供了完整MATLAB代码及详细中文注释，以帮助读者快速理解并应用该算法
如何使用MATLAB进行高效的GPU加速深度学习模型训练？百态老人 matlab 深度学习开发语言
要使用MATLAB进行高效的GPU加速深度学习模型训练，可以遵循以下步骤和策略：选择合适的GPU硬件：首先，确保您的计算机配备有支持CUDA的NVIDIAGPU，并且其计算能力至少为3.0或以上。可以通过gpuDevice命令检查GPU是否具备加速功能。安装必要的工具箱：确保安装了MATLAB的DeepLearningToolbox和ParallelComputingToolbox，这些工具箱提供
matlab怎么将代码在gpu上运行,使用GPU加速MATLAB代码？如果有片海
使用GPU加速MATLAB代码？AccelerEyes于2012年12月宣布，它将与Mathworks在GPU代码上合作，并已停止使用MATLAB的产品Jacket：http://blog.accelereyes.com/blog/2012/12/12/exciting-updates-from-accelereyes/不幸的是，他们不再销售Jacket许可证。据我所知，基于ArrayFire的J
Matlab GPU加速技术算法工程师y matlab 开发语言
1.GPU加速简介（1）为什么使用GPU加速？CPU擅长处理逻辑复杂的串行任务，而GPU拥有数千个流处理器，专为并行计算设计。对于大规模矩阵运算、深度学习训练或科学计算等任务，GPU加速可将计算速度提升数十至数百倍。（2）Matlab的GPU支持功能依赖：需安装ParallelComputingToolbox（并行计算工具箱）。硬件要求：支持CUDA的NVIDIAGPU（如Tesla、GeForc
matlab从无到有系列（二）：矩阵运算基础左手の明天 Matlab matlab 矩阵线性代数
目录矩阵运算典例各种矩阵的生成全一矩阵、全零矩阵和单位矩阵随机矩阵特殊矩阵矩阵的范式矩阵旋转和矩阵变维矩阵运算典例2.1在MATLAB中如何建立矩阵，并将其赋予变量a？>> a=[573;491]2.2有几种建立矩阵的方法？各有什么优点？
matlab 矩阵的数组平方和,MATLAB中的矩阵和数组跟英语死磕到底 matlab 矩阵的数组平方和
本文概述MATLAB一次处理整个矩阵和数组。所有类型的数据变量都存储为多维数组,可以是字符,字符串或数字。二维数组称为矩阵,通常用于线性代数。在MATLAB中创建数组我们可以在MATLAB中以多种方式创建数组：通过在元素之间使用空格：此命令创建一个具有一行四列的数组变量”A”。存储在工作空间中的’A’变量和输出将在命令窗口中显示为：通过在元素之间使用逗号：此命令将创建一个具有一行四列的数组变量”a
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin

东北大学数据科学基础(MATLAB)-笔记

文章目录

一. acknowledge

重点:画图/MATLAB可视化技术

三. 数模算法章(Matlab’s optimization tool box,优化工具箱)

1. 退火算法

四.课程进度

向量化编程&如何不使用for循环

bsxfun, arrayfun, cellfun, spfun, structfun

数据可视化

数据探索性分析

拟合与回归

分类

聚类

关联规则分析

你可能感兴趣的:(matlab,数据挖掘)