数据描述与可视化

标准化

数据描述与可视化_第1张图片

数据描述与可视化_第2张图片


注:均值的意义不是很大,容易受到特别大或特别小的数的严重影响。使得得出的结果没有代表性,不够准确


Data Description

数据描述与可视化_第3张图片


数据描述与可视化_第4张图片


χ2的测试

下象棋与不下象棋的人数之比为1:4,下图红色代表假设下象棋与喜欢科幻小说不相关,这时相应的人数之比也应该是1:4

数据描述与可视化_第5张图片


数据的可视化(Data Visualization)

数据描述与可视化_第6张图片

数据描述与可视化_第7张图片

数据描述与可视化_第8张图片


高维数据的处理——Box Plots

数据描述与可视化_第9张图片

高维数据的处理——Parallel Coordinates

数据描述与可视化_第10张图片


文献的可视化——CiteSpace

数据描述与可视化_第11张图片


Gephi

Gephi是一款开源免费跨平台基于JVM的复杂网络分析软件, 其主要用于各种网络和复杂系统,动态和分层图的交互可视化与探测开源工具。可用作:探索性数据分析,链接分析社交网络分析,生物网络分析等。

gephi是一款信息数据可视化利器。

数据描述与可视化_第12张图片


数据描述与可视化_第13张图片


数据描述与可视化_第14张图片

注:r=0 说明X和Y线性不相关,但不一定不相关。


箱形图(Box Plots)

箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在各种领域也经常被使用,常见于品质管理。它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。箱线图的绘制方法是:先找出一组数据的最大值最小值中位数两个四分位数;然后, 连接两个四分位数画出箱子;再将最大值和最小值与箱子相连接,中位数在箱子中间。

作用:能提供有关数据位置和分散情况的关键信息,尤其在比较不同的母体数据时更可表现其差异。

          显示数据的离散的分布情况效果不错

数据描述与可视化_第15张图片

数据描述与可视化_第16张图片


数据描述与可视化_第17张图片


数据描述与可视化_第18张图片


两个可视化软件的名字:CiteSpace、Gephi

你可能感兴趣的:(数据挖掘,数据描述与可视化)