用python对数据进行主成分分析、类概念描述及特征化分析-用户手册

数据挖掘课程的期中实验,仅供参考。完成时间:2022.10.29
基本要求:利用python对数据集中的数据进行主成分分析、类概念描述及特征化分析。要有相关结果的可视化结果。比如数据的分布情况。
数据源是TCGA。
数据源及代码:
链接:https://pan.baidu.com/s/11CpKznSP66EAbPzMspRShA
提取码:sovc

相关文章:https://blog.csdn.net/Coral__/article/details/128482614

0.实验环境

操作系统:windows10

语言:python3.7.0

编译器:Visual Studio Code

配置要求:在电脑上任意编译器配好python环境即可,无特殊要求

我们需要将重点放在“源代码及数据集-赖紫馨-202008010204”中的“shujuwajue"文件夹。

1.data

此文件夹中有"BLCA"、“BRCA”、“KIRC”、“LUAD”、"PAAD"五个文件夹,其中的“rna.csv"文件是对应癌症的数据文件。

2.PCA.py(code文件夹中)

此代码对应的是主成分分析。

需要运行对应数据时,只需要修改下图横线的路径名称,然后直接运行就可以生成前两个主成分的散点图。

用python对数据进行主成分分析、类概念描述及特征化分析-用户手册_第1张图片
用python对数据进行主成分分析、类概念描述及特征化分析-用户手册_第2张图片

需要生成其他图时,可以将对应代码的注释取消掉。

图1

用python对数据进行主成分分析、类概念描述及特征化分析-用户手册_第3张图片
用python对数据进行主成分分析、类概念描述及特征化分析-用户手册_第4张图片

图2

用python对数据进行主成分分析、类概念描述及特征化分析-用户手册_第5张图片
用python对数据进行主成分分析、类概念描述及特征化分析-用户手册_第6张图片

图3

用python对数据进行主成分分析、类概念描述及特征化分析-用户手册_第7张图片
用python对数据进行主成分分析、类概念描述及特征化分析-用户手册_第8张图片

图4

用python对数据进行主成分分析、类概念描述及特征化分析-用户手册_第9张图片
用python对数据进行主成分分析、类概念描述及特征化分析-用户手册_第10张图片

3.characterization.py(code文件夹中)

这个代码对应的是类特征化分析,直接运行即可生成对应图。

我的类特征化分析依然依赖于主成分分析,将前三个主成分通过K-means聚类后,画出三维彩色散点图。(如下图)
用python对数据进行主成分分析、类概念描述及特征化分析-用户手册_第11张图片

需要运行其他数据时,只需要修改下图横线的路径名称。

用python对数据进行主成分分析、类概念描述及特征化分析-用户手册_第12张图片

4.compare.py(code文件夹中)

此代码对应的是类对比分析,直接运行即可生成对应图。

我的想法是每种癌症类型选了10个样本,前15个基因,通过折线图的方式,判断同一癌症的不同患者基因表达是否具有相似性。

结果显示是有相似性的。

用python对数据进行主成分分析、类概念描述及特征化分析-用户手册_第13张图片

需要运行其他数据时,只需要修改下图横线的路径名称。

用python对数据进行主成分分析、类概念描述及特征化分析-用户手册_第14张图片

5.shang.py(code文件夹中)

此代码对应的是信息增益和属性相关分析,直接运行即可得到对应文件中,两个基因数据之间的数据增益。

默认代码是分析“BLCA”中“A2BP1|54715”和“A2ML1|144568”两个基因数据的数据增益。

用python对数据进行主成分分析、类概念描述及特征化分析-用户手册_第15张图片

需要运行其他数据时,需要修改下图横线的路径名称及想要分析的基因名称。

用python对数据进行主成分分析、类概念描述及特征化分析-用户手册_第16张图片

你可能感兴趣的:(数据挖掘,python,数据挖掘,数据分析)