(2021年11月更新:1根据评论区gygwxj的建议,增加了第二种方法的颜色深浅的物理含义。2补充了matlab在2017版本新加入的binscatter()函数)
热力图是一种有效的可视化手段,利用颜色的变化、深浅,配合不同的底图(网页、地图等),可以将离散的数据,通过密度云图的方式形象的呈现出来。
所以如何利用离散数据构建密度云图便成为算法的关键之一。
下面主要以两种方式构建热力图。
参考算法:HeatMap(热图)的原理和实现
https://www.tuicool.com/articles/6jiQBn
有些地方还加入了权重、聚类算法等其他算法,优化热力图。这里,我只是尝试用比较简单的方式尝试一下。
这里的主要思路是控制每个点影响的半径。比如下图为2个点的半径由大到小的变化过程。
除了半径大小,还有分布的方式。这里我选择的是高斯分布。
之后,两个圆的叠加方式,我选择的是概率密度的叠加。
Z = 1 − ( 1 − x 1 ) ( 1 − x 2 ) , . Z = 1-(1-x_1)(1-x_2),. Z=1−(1−x1)(1−x2),.
matlab代码如下:
t=[0:0.01:1].^1.0;
x=0.5*(t.^2).*cos(5*pi*t.^2)+0.5;
y=0.5*(t.^2).*sin(5*pi*t.^2)+0.5;
%构建绘图网格
[X,Y]=meshgrid(0:0.001:1,0:0.001:1);
sigma=0.05;%影响半径
%初始化
Z=zeros(size(X));
Zsum=Z;
%逐个点叠加
for j=1:length(x)
Z=Gauss2D(X,Y,sigma,x(j),y(j));
Zsum=Heatsum(Zsum,Z);
end
%绘图
hold on
pcolor(X,Y,Zsum);shading interp
plot(x,y,'o')
hold off
axis off
function Z=Gauss2D(X,Y,sigma,a,b)
%XY是网格坐标
%sigma是高斯分布的宽度
%ab是中心点坐标
Z=0.5*exp(-((X-a).^2+(Y-b).^2)./sigma.^2);
end
function B=Heatsum(A1,A2)
%两个点之间叠加
B=1-(1-A1).*(1-A2);
end
这里用的是直方图统计的思想,构建热力图。
原理思路为:
1划分区域,统计不同区域内点的数量。
2利用1中得到的二维数组,绘制等值线图或其它云图
原理本身很简单,就不多说了。代码如下:
clear
%定义初始点
X=randn(8000,1);
Y=randn(8000,1);
Xmin=min(X);Xmax=max(X);
Ymin=min(Y);Ymax=max(Y);
%分割区域大小
Nx=40;
Ny=40;
%分割的边
Xedge=linspace(Xmin,Xmax,Nx);
Yedge=linspace(Ymin,Ymax,Ny);
%统计每个区域的点个数(N的xy定义是转置的)
[N,~,~,binX,binY] = histcounts2(X,Y,[-inf,Xedge(2:end-1),inf],[-inf,Yedge(2:end-1),inf]);
XedgeM=movsum(Xedge,2)/2;
YedgeM=movsum(Yedge,2)/2;
%构建绘图网格
[Xedgemesh,Yedgemesh]=meshgrid(XedgeM(2:end),YedgeM(2:end));
%绘制pcolor图
figure(1)
pcolor(Xedgemesh,Yedgemesh,N');shading interp
%根据pcolor图的颜色绘制散点图颜色
ind = sub2ind(size(N),binX,binY);
col = N(ind);
figure(2)
plot(X,Y,'x')
%绘制散点图
figure(3)
scatter(X,Y,20,col,'filled');
生成的热力云图如下:
根据云图生成的散点图如下:
可以看到有些不自然,生成的热力图有些网格在里面。
这是因为根据直方图划分区间,如果划分的少了就很难把细节显示出来,划分的多了就会被每个点的细节所干扰看不清全貌。
如果要想避免这个现象,目前我的思路是划分较密的区间,然后参考之前的方法,利用高斯滤波将每个点影响半径扩大。
代码如下:
clear
X=randn(8000,1);
Y=randn(8000,1);
Xmin=min(X);Xmax=max(X);
Ymin=min(Y);Ymax=max(Y);
% t=[0:0.001:1].^1.0;
% X=0.5*(t).*cos(618*pi*t)+0.5;
% Y=0.5*(t).*sin(618*pi*t)+0.5;
% Xmin=0;Xmax=1;Ymin=0;Ymax=1;
%加密划分区间
Nx=500;
Ny=500;
Xedge=linspace(Xmin,Xmax,Nx);
Yedge=linspace(Ymin,Ymax,Ny);
%N的xy定义是转置的
[N,~,~,binX,binY] = histcounts2(X,Y,[-inf,Xedge(2:end-1),inf],[-inf,Yedge(2:end-1),inf]);
XedgeM=movsum(Xedge,2)/2;
YedgeM=movsum(Yedge,2)/2;
[Xedgemesh,Yedgemesh]=meshgrid(XedgeM(2:end),YedgeM(2:end));
%绘制pcolor图
figure(1)
pcolor(Xedgemesh,Yedgemesh,N');shading interp
%滤波平滑
%h=ones(round(Nx/20));
%h=fspecial('disk',round(Nx/40));
h = fspecial('gaussian',round(Nx/20),6);%最终选用高斯滤波
N2=imfilter(N,h);
figure(2)
pcolor(Xedgemesh,Yedgemesh,N2');shading interp
ind = sub2ind(size(N2),binX,binY);
col = N2(ind);
figure(3)
scatter(X,Y,20,col,'filled');
没有滤波时云图如下所示:
滤波后的密度图:
不过matlab绘制云图后,并不能很方便的叠加到原来的图像上去。
这里的颜色刻度,代表histcounts2区间所定义的每一个区间,所包含的点的数量。把下面这个云图所有值相加,即sum(sum(N2)),得到的数为8000左右,就是所有数据点的数量。(有误差,实际计算出来应该小于8000,这是高斯滤波的滤波方阵总和小于1造成的)
这个函数是matlab2017官方新增加的一个函数
具体用法如下:
X=randn(8000,1);
Y=randn(8000,1);
binscatter(X,Y,50);
xlim([-5,5]);ylim([-5,5])
不过实际看来,原理就是我上面用到的histcounts2统计,但是它改变了一些细节,比如区间的选取之类的。
下图是我用第三章节的程序稍加改动,和matlab官方结果进行的对比,可以看到效果几乎一模一样。
下面为对比用的代码:
clear
clc
close all
X=randn(8000,1);
Y=randn(8000,1);
Xmin=min(X);Xmax=max(X);
Ymin=min(Y);Ymax=max(Y);
%划分区间
Nx=40;
Ny=40;
Xedge=linspace(Xmin,Xmax,Nx);
Yedge=linspace(Ymin,Ymax,Ny);
%N的xy定义是转置的
[N,~,~,binX,binY] = histcounts2(X,Y,[-inf,Xedge(2:end-1),inf],[-inf,Yedge(2:end-1),inf]);
XedgeM=movsum(Xedge,2)/2;
YedgeM=movsum(Yedge,2)/2;
[Xedgemesh,Yedgemesh]=meshgrid(XedgeM(2:end),YedgeM(2:end));
%绘制pcolor图
figure(1)
subplot(1,2,1)
pcolor(Xedgemesh,Yedgemesh,N');shading flat
cmp=[linspace(229,0,64)',linspace(241,114,64)',linspace(248,189,64)']/255;
colormap([[1,1,1];cmp])
xlim([-5,5]);ylim([-5,5])
colorbar()
subplot(1,2,2)
h=binscatter(X,Y,50);%定义的是50个区间,但是实际上输出只有40个区间
xlim([-5,5]);ylim([-5,5])
h.Values;