甘晴void

HNU-数据挖掘-实验2-数据降维与可视化

数据挖掘课程实验
实验2 数据降维与可视化

计科210X 甘晴void 202108010XXX

文章目录

数据挖掘课程实验
实验2 数据降维与可视化
- 实验背景
- 实验目标
- 实验数据集说明
- 实验参考步骤
- 实验过程
- - 1.对数据进行初步降维
  - 2.使用无监督数据降维方法，比如PCA，ICA、UMap等进行降维
  - - （1）主成分分析（PCA）降维
    - - ①基础知识
      - ②评价指标
      - ③可视化
      - ★问题探究：改变n_components，PCA主成分并没有变化？
    - （2）独立成分分析（ICA）降维
    - - ①基础知识
      - ②评价指标
      - ③维度选择与可视化
    - （3）Umap降维
    - - ①基础知识
      - ②重要参数
      - ③可视化
  - 3.使用t-SNE进行可视化
  - - ①基础知识
    - ②可视化
- 附录：中间过程csv文件的解释
- 附录：代码
- - 1、特征选择降维（预处理）代码
  - 2、PCA基础代码
  - 3、PCA绘制二维图像与计算相关参数
  - 4、PCA绘制三维图像
  - 5、ICA绘制二维图像
  - 6、ICA绘制三维图像
  - 7、UMAP绘制二维图像
  - 8、UMAP绘制三维图像
  - 9、t-SNE绘制二维图像
  - 10、t-SNE绘制三维图像

实验背景

数据降维是指将高维数据映射到低维空间的过程。在现实生活中，很多数据集都是高维的，每个样本包含着大量特征。然而，高维数据不仅对计算资源要求较高，而且容易造成“维数灾难”，即在高维空间中，数据样本的稀疏性和分布规律难以理解。数据降维的目的是保留数据集的主要结构和信息，同时减少特征的维数，从而更好地进行数据分析和可视化。

实验目标

利用给定数据练习数据降维
熟悉基本的数据预处理方法
熟练掌握无监督数据降维方法
数据分布分析及可视化比较

实验数据集说明

数据集大小：(13627, 65)

行：基因。
列：第一列为基因名。

其余64列为数据。对应的列命名方式为：“A：B”。其中，A为数据来源，B为数据类别。这64列所有的列名如下：

‘MF: KIRC’, ‘MF: BRCA’, ‘MF: READ’, ‘MF: PRAD’, ‘MF: STAD’, ‘MF: HNSC’,

‘MF: LUAD’, ‘MF: THCA’, ‘MF: BLCA’, ‘MF: ESCA’, ‘MF: LIHC’, ‘MF: UCEC’,

‘MF: COAD’, ‘MF: LUSC’, ‘MF: CESC’, ‘MF: KIRP’, ‘METH: KIRC’,

‘METH: BRCA’, ‘METH: READ’, ‘METH: PRAD’, ‘METH: STAD’, ‘METH: HNSC’,

‘METH: LUAD’, ‘METH: THCA’, ‘METH: BLCA’, ‘METH: ESCA’, ‘METH: LIHC’,

‘METH: UCEC’, ‘METH: COAD’, ‘METH: LUSC’, ‘METH: CESC’, ‘METH: KIRP’,

‘GE: KIRC’, ‘GE: BRCA’, ‘GE: READ’, ‘GE: PRAD’, ‘GE: STAD’, ‘GE: HNSC’,

‘GE: LUAD’, ‘GE: THCA’, ‘GE: BLCA’, ‘GE: ESCA’, ‘GE: LIHC’, ‘GE: UCEC’,

‘GE: COAD’, ‘GE: LUSC’, ‘GE: CESC’, ‘GE: KIRP’, ‘CNA: KIRC’,

‘CNA: BRCA’, ‘CNA: READ’, ‘CNA: PRAD’, ‘CNA: STAD’, ‘CNA: HNSC’,

‘CNA: LUAD’, ‘CNA: THCA’, ‘CNA: BLCA’, ‘CNA: ESCA’, ‘CNA: LIHC’,

‘CNA: UCEC’, ‘CNA: COAD’, ‘CNA: LUSC’, ‘CNA: CESC’, ‘CNA: KIRP’

实验参考步骤

熟悉基本的数据预处理方法，对数据进行初步降维，降维到500-1000之内，降维方法可以自由选择。
熟练掌握无监督数据降维方法，比如PCA，ICA、UMap等
在不同的维度下面对数据进行数据分布分析及可视化比较。
实现数据的可视化，并进行适当的对比分析。

实验过程

在Linux平台下emogi环境中，进行数据降维与可视化。具体如下：

1.对数据进行初步降维

这里要注意结合题目要求，提供数据的列为样本，行为特征，这是一个与一般情况不同从而要小心的地方。但是一般我们把列作为数据特征，行作为数据样本。因此

使用方差阈值特征选择来进行降维，这样可以简单地剔除一些变化不大的数据。

方差阈值	结果维度
0.07	23
0.05	176
0.04	446
0.035	678
0.03	1039
0.01	6658

经过一些尝试，我发现方差阈值设定为0.035是比较好的，这样出来的结果维度为678维，处于要求的500-1000范围内。

这一部分的代码如下：

import pandas as pd
from sklearn.feature_selection import VarianceThreshold

# 读取数据集
data = pd.read_csv('实验二数据集.tsv', delimiter='\t', index_col=0)

# 转置数据以使样本在行上，特征在列上
data = data.T

# 1. 方差阈值特征选择
variance_threshold = VarianceThreshold(threshold=0.035)  # 调整阈值
data_variance_selected = variance_threshold.fit_transform(data)

# 获取选择的列索引
selected_columns = data.columns[variance_threshold.get_support()]

# 保存选择的列名到CSV文件，以逗号分隔
selected_columns_text = ','.join(selected_columns)
with open('selected_columns.csv', 'w') as file:
    file.write(selected_columns_text)

# 输出选择的列名
print("选择的列名：")
print(selected_columns)

# 输出降维后的维度
reduced_dimension = data_variance_selected.shape[1]
print(f"降维后的维度：{reduced_dimension}")

# 保存特征选择后的数据
selected_data = pd.DataFrame(data_variance_selected, columns=selected_columns)
selected_data.to_csv('selected_data.csv', index=False)

筛选结果如下（以下为678个）：

EGFR,PIK3CA,PTEN,TP53,SCO2,BIRC5,SFN,TPX2,POU4F2,RUNX1,CTSK,SERPINB13,SMAD4,TNFRSF10D,GRIA2,TFB2M,SBF1,HRG,NLRP3,GLP2R,FSHB,GLI2,KCNJ16,TAC1,NCAM1,CD300E,CD300LB,GRAP2,IL18,KNG1,S100A8,ID1,CASP8,MYC,SIRPG,PTK6,JAM3,ANGPT2,GAD2,HTR3C,MASP1,CSF2,ITGA8,CIDEC,C6,PAX3,APC,CDKN2A,SETDB1,PGLYRP4,PGLYRP3,ANK1,CHL1,ROBO2,CFTR,CD1B,CD1C,SDHA,ARNT,PITX2,NRG1,TNFRSF10C,DOK2,DOCK2,SLC6A3,IL1A,WT1,FLT4,EXOC3,MYOCD,MUC20,IRF4,BCL2L1,NRG3,NFATC1,CNGB3,MAPK12,TERT,NR0B2,MCL1,RB1,SKIL,LEP,ITK,FCRL3,GHSR,DAPP1,MAP2K4,NSD1,CRP,MAGEA1,KRT17,PRKCI,HOXA9,SOX1,CLIP3,LILRA4,APCS,MAPK11,LNX1,INA,ZBTB16,ACTN2,FCN1,GPRASP1,KRT16,SERPINB5,SERPINB3,MYH1,CCL14,ACTA1,CARD6,SDCCAG8,RUSC1,SPARC,AKT3,LTC4S,MUC16,ALX1,ARHGAP32,KRT6B,LILRB4,SPRR2A,KRT15,MAP1LC3A,OTX2,LGALS8,OLIG3,HNRNPU,MYLK2,DRD4,ADAMTSL1,ESRRG,PARD6G,NID2,S100A12,AJAP1,CCL8,H2AFY,RGS7,SERPINB12,MAPK8IP2,SOX11,SPERT,ANXA9,TCP10,MMP13,PHF19,VHL,MAP1LC3C,SHANK3,SKOR2,FCER1A,AHCTF1,KHDRBS2,KCNA4,DCD,DUSP15,PITX1,HOXC6,AIM2,PTGDR,DPP6,SOX17,PPP6R2,TCEAL2,VIPR2,DES,CRELD2,ADSS,SPRR2G,ZFP42,TAGLN,IRX1,CEP72,GNG4,ADH1B,SCTR,ALDOB,TRIP13,HAVCR2,KRT6A,SPRR1A,TK1,KRTAP11-1,KRTAP6-2,TBX15,APOBEC1,CCL11,USP6,TBX18,SUB1,SERTM1,SCGB3A1,SLC7A14,SLC32A1,GCM2,PCDHGA9,FAT1,VAX1,KRTAP8-1,GGT6,PDCD6,MKRN3,ZNF835,KRTAP13-3,SLC30A8,REG1B,NPM2,KRTAP26-1,GRXCR1,CRMP1,NCAPH2,TTN,TMCO5A,ASPA,KPRP,PAX7,GYPC,PLP1,BOLL,TMPRSS4,MEOX2,CRYAB,PRDM14,CDX2,AQP2,LAMP3,LCE4A,LCE2B,PQLC1,RYR2,ZSCAN12,GSTM5,LCE1A,LCE1B,FOXI1,ZNF496,FERD3L,LCE1D,SOX2,ZNF124,HRH1,DLC1,TLX3,AGR2,ZIC1,CA4,DNASE1L3,KCNA1,CLDN11,KRTAP19-1,FH,SLC26A3,SNTB1,ACTC1,DNAH8,NXPE2,ZNF670,UGT1A6,LIME1,SOX10,SLC9A3,ARSA,CERS2,PLN,CACNG7,KCNA6,BARHL2,C11orf87,LAYN,MYH11,TRH,KCNIP4,COX20,CLVS2,FHL5,KRT5,PTPRN,CTXN3,ZBTB18,KRT4,CNTN4,HBG2,HAND2,SYT6,SPRR3,RPRD2,GAS7,CEP170,FRG1,CLDN8,MAGI2,ECM1,NEFM,AICDA,TM4SF19,SPP1,SYCE3,LCE1C,ADRA1A,LCE2D,LAIR2,SSTR2,PDRG1,LCE2A,SPARCL1,GREM1,SLC12A7,TBX5,BRD1,SLC35F1,APOH,ADCYAP1,HM13,SFTPC,KRT80,NRIP2,CMTM2,C14orf180,TRIM29,KRTAP23-1,EPHA7,PEBP4,KRTAP7-1,RBFA,SOX3,CA3,SPDYA,ZSCAN23,PPP1R16B,TPPP,NKX2-6,FUT9,PAX9,VWC2,HOXD12,RXFP3,HIST1H4F,MLC1,SEC62,HDAC10,MYNN,NKD2,TRDN,SMYD3,FCRL4,HTR1B,APOA4,SCG5,HTR1A,ZNF626,ACOT12,QRFPR,RHOBTB2,CD300LG,ZNF135,PLXNB2,GDNF,ZNF692,ZBED4,DNTT,FAM107A,KCNA3,ZDHHC11,RIPPLY2,SCARA5,SPANXD,REC8,TMC6,CKMT2,ZNF334,LPAR6,RHCG,HRNR,NEUROD6,SLC13A5,CNST,CTDP1,NPBWR1,FGD5,EVX2,TXNL4A,EXO1,TMX3,GC,LGI3,IFNL1,ENSA,CCDC105,PI16,FRG2,ADHFE1,CASQ2,PENK,LCE3D,GJA10,MSC,RAB25,DPPA2,CARTPT,AVPR1A,BPIFA1,UBD,FAM83D,MBP,ADAMTS12,AQP8,ZNF695,LOXL2,ZNF669,BARX1,HOXD9,GABPB2,EYA4,NFIA,CNTNAP2,MYH8,SIX3,GRIA4,CA9,PTPRD,MFAP4,SPOCK1,FCRL2,POU3F3,HSPB6,PABPC5,LMF2,BLID,LYPD5,CA1,MYH13,MYOC,NOVA1,KCNN2,GP2,SNAP91,GOLPH3L,ANGPTL7,COX4I2,ADAM28,SYCP1,DEFB121,HORMAD2,TCF24,PEX5L,ACTG2,SPATA16,C1orf116,SPHKAP,COL10A1,CDO1,ASCC1,TGIF2LX,ZFP28,GLYAT,SEMG1,FGF10,IFFO1,KCNAB3,ZNF804B,IRX4,ZSCAN1,ZIK1,LEFTY2,KIF26B,EID3,CDC42SE1,PIK3R6,PIWIL2,CPB2,SLITRK5,NPY,SALL1,CCDC181,TMPRSS11F,GATA5,CRNN,ST8SIA5,KIF2B,IVL,CCL15,CHRM2,SLC18A3,HOXD10,FOXG1,OLIG2,SLAMF7,PCSK1,TCHH,PIM3,CTNNA2,KRTAP13-4,ZNF292,UTF1,GRIK5,CDH4,ZNF671,NR2E1,GPR87,FOXS1,CLCA4,C1orf56,CCR6,GFRA1,SETMAR,PCDHA7,IFNA8,SUMF1,SLC27A6,SYT9,PRSS1,F11,CMA1,CDH7,DPT,GRIN3A,SCN2B,CHRNA2,NID1,SLCO1A2,CST7,REG1A,REG3A,CSTA,GABRB2,GABRG3,SYN2,KCNJ1,DRD5,REM1,BNIPL,CTSS,HOXB4,CD5L,CHML,SCN10A,ADCY8,PHOX2A,GSTM1,CDH19,AHRR,GRIK2,PI3,HAVCR1,PGM5,C7,CBLN1,CP,FCAR,GABRB3,SPAG6,LAMB3,CST5,ZP4,GALNT13,GRM7,GRM6,MYH4,PCDHA6,GRP,BCHE,PTF1A,GPR26,KCNQ5,KCNK9,SLC5A7,RAX,BST1,CHRDL1,SIX6,PAX1,GREM2,CD300LF,TPO,ZNF382,DLK1,CHAD,CBLN4,KCNG2,ACR,SIM1,EDN3,CD1E,TYR,TBX20,ZC3H12D,HBG1,PYHIN1,ZNF516,C10orf90,PCDHGA11,TARS2,GFRA2,SALL3,FBLL1,GPR142,TYMP,TUBGCP6,BHMT2,DIO3,ZNF454,ZNF625,ZFP82,ZNF716,OR7G3,CHKB,PLA2G4F,ALG12,AGXT2,ST6GALNAC1,TRIM71,FEZF2,KRTAP13-1,ZNF471,HORMAD1,HTR1E,NXPH2,GPM6A,MAP1LC3B2,OGN,VSIG2,EMILIN3,ST6GALNAC5,SERPINB7,OR51E2,SCCPDH,SERPINB11,S100A7A,ZACN,LIPH,DNAI2,FABP7,RTL1,TBX4,SLCO4C1,ZSCAN5A,PCDHB15,FOXE1,FOXI2,NELL1,ZIC5,NKX1-1,OR2W3,PCDHA12,PCDHA3,PCDHGB5,PCDHGB4,PCDHGA5,PCDHGB3,PCDHGC4,CST1,PCDHGA7,HS3ST2,GABRA6,SLC39A12,ZNF732,RFTN2,SPATA19,PCDHGA12,MICU3,LRRN1,SIRPD,TTLL9,DEFB104B,SLCO1B1,KMO,ZNF672,BPIFB1,TMEM40,SORCS1,SPRR1B,KIF19,OR51B6,CSH1,ADIG,CSMD1

2.使用无监督数据降维方法，比如PCA，ICA、UMap等进行降维

在刚刚筛选出结果特征的基础上进行进一步降维，这一步使用无监督数据降维方法。

（1）主成分分析（PCA）降维

使用主成分分析（Principal Component Analysis，PCA）进行降维。

①基础知识

协方差矩阵：首先，PCA计算数据的协方差矩阵，该矩阵描述了数据中各特征之间的相关性。协方差矩阵的对角线元素是每个特征的方差，非对角线元素表示不同特征之间的协方差。
特征值分解：PCA通过对协方差矩阵进行特征值分解，得到特征值和特征向量。特征向量是与协方差矩阵特征值对应的向量，它们描述了数据中的主要方向。
选择主成分：特征向量按照对应特征值的大小排序，选择前k个特征向量作为主成分，其中k通常小于或等于原始数据的维度。这些主成分代表了数据中的主要变化方向。
投影：将原始数据投影到所选的主成分上，得到新的数据集。这个过程将数据从高维空间投影到低维空间，从而减少了维度。
重建：如果需要，可以使用投影后的数据和所选的主成分来重建原始数据，虽然这不是PCA的主要目标，但在某些应用中可能有用。

②评价指标

使用累计方差解释比例（Cumulative Variance Explained）刻画PCA降维结果维度方差对于总方差的贡献，也就是降维结果的主成分包含原数据信息的程度。

下面解释这个概念。

方差解释比例（Variance Explained Ratio）：每个主成分都能够解释原始数据中的一定比例方差。这个比例通常以百分比表示，例如，第一个主成分可能能够解释数据总方差的30%，第二个主成分能够解释15%，以此类推。
累计方差解释比例（Cumulative Variance Explained Ratio）：累计方差解释比例是指前n个主成分（或因子）的方差解释比例之和。它告诉我们，在保留了这些主成分的情况下，原始数据中的总方差的多少被解释了。通常，我们希望保留足够多的主成分，以使累积方差解释比例达到某个预定的阈值，以确保保留了足够的信息，同时降低数据维度。
选择主成分数量：根据累积方差解释比例，可以决定保留多少主成分。一般来说，当累积方差解释比例达到一个满意的水平（通常在70%到95%之间）时，可以考虑停止增加主成分的数量，因为这足够解释大部分数据的方差。

下面是指定不同降维维度后该参数的结果。

目标维度（n_components）	累计方差解释比例（Cumulative Variance Explained）
64	100%(未开始降维)
50	99.63%
40	97.94%
30	94.11%
20	87.13%
15	82.25%
14	81.12%
13	79.88%
10	75.32%
5	62.69%
1	36.66%

一般来说，累计方差解释比例低于50%是不可信的。在50%到80%时一般可信。在80%以上则称为可信。

按照这种观点来看，我们可以选择14维作为目标维度，使用PCA进行降维，并利用降维的结果绘制部分主成分之间的三点关系图。

这里我们考虑到数据的“数据来源”与“数据类别”两个标签，其中“数据类别”有16种，不太适合分组呈现，故我这里就“数据来源”的不同取值“MF”，“METH”，“GE”，“CNA”进行分组分颜色显示。

③可视化

首先获取最大的两个主成分PC1和PC2的散点关系图，可以发现MF的聚类情况表现地较明显，即MF来源的数据相似情况较大。

接下来查看前5个PCA主成分之间的相互散点关系图

可以发现，仅使用PC1与PC2主成分已经能够较为完美地完成相似数据的分类任务。

进一步，我们可以在三维图视下查看前三个主成分的互相关系。

★问题探究：改变n_components，PCA主成分并没有变化？

这里具体执行会遇到一个小问题，即n_components，看上去PC的值并没有改变。实际上这里是因为变化过于微小导致看上去并没有变化，如果我们将小数位数放多一些，实际上还是有明显的变化的。

Explained Variance Ratio for PC1: 36.66%
Explained Variance Ratio for PC2: 9.68%
Explained Variance Ratio for PC3: 6.56%
Explained Variance Ratio for PC4: 5.64%
Explained Variance Ratio for PC5: 4.14%
Explained Variance Ratio for PC6: 3.35%
Explained Variance Ratio for PC7: 2.84%
Explained Variance Ratio for PC8: 2.49%
Explained Variance Ratio for PC9: 2.05%
Explained Variance Ratio for PC10: 1.90%
Explained Variance Ratio for PC11: 1.68%
Explained Variance Ratio for PC12: 1.51%
Explained Variance Ratio for PC13: 1.37%
Explained Variance Ratio for PC14: 1.24%
Cumulative Variance Explained by 14 Principal Components: 81.12%

我们将小数位数放到10位。

n_components = 5

Explained Variance Ratio for PC1: 36.6633189992%
Explained Variance Ratio for PC2: 9.6806797212%
Explained Variance Ratio for PC3: 6.5627968456%
Explained Variance Ratio for PC4: 5.6423145826%
Explained Variance Ratio for PC5: 4.1373794292%
Cumulative Variance Explained by 5 Principal Components: 62.69%

n_components = 14

Explained Variance Ratio for PC1: 36.6633189992%
Explained Variance Ratio for PC2: 9.6806797201%
Explained Variance Ratio for PC3: 6.5627968242%
Explained Variance Ratio for PC4: 5.6423145516%
Explained Variance Ratio for PC5: 4.1373791936%
Explained Variance Ratio for PC6: 3.3504752123%
Explained Variance Ratio for PC7: 2.8403813497%
Explained Variance Ratio for PC8: 2.4943752057%
Explained Variance Ratio for PC9: 2.0477662556%
Explained Variance Ratio for PC10: 1.9012579517%
Explained Variance Ratio for PC11: 1.6803878986%
Explained Variance Ratio for PC12: 1.5090011367%
Explained Variance Ratio for PC13: 1.3680188469%
Explained Variance Ratio for PC14: 1.2435843400%
Cumulative Variance Explained by 14 Principal Components: 81.12%

可见数据还是改变了。

原因可能在于数据中的特征之间没有足够的差异，或者特征之间的相关性非常高，导致 PCA 的主成分没有多大变化，初步判定应该是数据本身的问题，主成分的方法没有太大的问题。

（2）独立成分分析（ICA）降维

使用独立成分分析（Independent Component Analysis，ICA）进行降维。

①基础知识

数据收集：首先，收集需要进行ICA处理的混合信号数据集。这些混合信号可以是音频、图像、生物信号（如脑电图或心电图）、金融时间序列等。
数据预处理：在开始ICA之前，通常需要对数据进行一些预处理，以确保信号的均值为零，并可能对数据进行缩放，以便处理过程更有效。这通常包括中心化和标准化。
建立混合模型：定义混合模型，假设混合信号是独立成分的线性组合。这个模型通常表示为X = AS，其中：
- X 是观测到的混合信号矩阵，每一列代表一个观测时间点或传感器通道。
- A 是混合矩阵，包含了混合系数，表示混合成分与观测信号之间的关系。
- S 是独立成分矩阵，包含了独立成分的时间序列或通道。
ICA估计：在这一步，估计混合矩阵 A 和独立成分矩阵 S。这通常涉及到最大独立性估计（maximum likelihood estimation for independent sources, maximum entropy ICA）等方法。ICA算法的目标是找到A和S，使得S中的各行（独立成分）是统计上不相关的。
成分排序和解释：ICA通常无法确定成分的顺序，所以需要进一步的分析来解释这些成分。这包括对成分的统计性质的研究，如成分的概率密度函数、峰度和偏度等。此外，领域专业知识也有助于解释和排序成分。
可视化和应用：最后，得到的独立成分可以用于各种应用，如信号分离、特征提取、数据降维、噪音过滤等。可视化工具和技术可以帮助理解和验证ICA的结果。

②评价指标

在独立成分分析（ICA）模型中，信噪比（SNR，Signal-to-Noise Ratio）和互信息（MI，Mutual Information）是两种评价指标，用于评估ICA分离的成分的质量。这些指标有助于确定分离的成分是否保留了原始信号的相关信息，同时也可以用于比较不同ICA模型的性能。

SNR（信噪比）：

定义：SNR用于衡量ICA分离的信号成分与噪声之间的相对强度。在ICA的背景下，这意味着SNR用于度量独立成分的清晰度，即成分中信号与噪声的比例。
计算方式：SNR的计算通常涉及以下步骤：
1. 选择一个ICA分离的成分。
2. 计算该成分的功率或能量。
3. 计算该成分中的噪声的功率或能量。
4. 使用下述公式计算SNR：SNR(dB) = 10 * log10(信号功率 / 噪声功率)
应用：SNR可用于衡量每个ICA成分中信号和噪声的相对强度。更高的SNR表示信号更容易识别，而更低的SNR可能意味着成分中有更多的噪声干扰。

MI（互信息）：

定义：互信息是一种度量，用于衡量ICA分离的成分与原始信号之间的信息传输量。它可以帮助确定分离的成分是否包含原始信号的信息。
计算方式：计算互信息通常需要以下步骤：
1. 计算原始信号与ICA成分之间的联合分布。
2. 计算原始信号的边缘分布和ICA成分的边缘分布。
3. 使用这些分布计算互信息，通常使用互信息的定义：MI(X, Y) = ∫∫ p(x, y) * log(p(x, y) / (p(x) * p(y))) dx dy，其中 X 表示原始信号，Y 表示ICA成分。
应用：互信息可用于衡量ICA成分与原始信号之间的相关性。较高的互信息表示成分保留了更多原始信号的信息。

峰度（Kurtosis）：

定义：峰度是用于描述概率分布尾部（尤其是高阶短尾或长尾）相对于正态分布的“尖锐度”或“平缓度”的统计量。它用于度量分布中数据点分布的尖峰程度。
计算方式：峰度通常计算为数据集中数据点的四次方的期望值与方差的四次方之比。具体计算方式取决于不同的定义，其中一种常见的方式是使用以下公式：Kurt(X) = E[(X - μ)^4] / (σ^4)，其中 X 是数据集，μ 是均值，σ 是标准差。
应用：在ICA中，峰度可以用于评价分离的成分是否服从非高斯分布。高峰度值可能表示成分具有尖峰或重尾，这与高斯分布不同。

偏度（Skewness）：

定义：偏度用于描述数据分布的不对称性，即数据在分布中的偏向。正偏度表示数据右偏，负偏度表示数据左偏，零偏度表示分布对称。
计算方式：偏度通常计算为数据集中数据点与均值的三次方的期望值与方差的三次方之比。常见的计算方式是：Skew(X) = E[(X - μ)^3] / (σ^3)，其中 X 是数据集，μ 是均值，σ 是标准差。
应用：在ICA中，偏度可以用于检测成分是否具有非对称性，即是否存在明显的左偏或右偏特征。非对称性可能表明成分不是高斯分布。

这里我们可以尝试不同的目标降维维度并获取它们的SNR、MI、峰度和偏度值来判断ICA模型的好坏。

简单来说，相同情况下，SNR与MI较大会更好一些，峰度和偏度也是较大会更好一些。

③维度选择与可视化

尝试改变n_components 并探究这四个参数的变化。

当n_components =3时，相关参数如下

Signal-to-Noise Ratio (SNR): 53.28
Mutual Information (MI) with True Signal: 3.6379
  Component  Kurtosis  Skewness
0       IC1  1.811055 -1.561985
1       IC2  0.604004  0.946129
2       IC3 -1.067555  0.467046

在IC1与IC2方向上所得散点图如下

由于这里只有三个IC值，IC1,IC2,IC3三个，挑选它们并以这三个独立成分为轴绘制三维图如下

当n_components =10时，相关参数如下

Signal-to-Noise Ratio (SNR): 2.57
Mutual Information (MI) with True Signal: 3.6379
  Component   Kurtosis  Skewness
0       IC1  -0.798939 -0.287743
1       IC2   0.744784 -0.457725
2       IC3   5.696764  2.139519
3       IC4  20.054037 -3.384852
4       IC5  40.362070 -6.036482
5       IC6  41.987941  6.188286
6       IC7  20.493603 -4.103255
7       IC8  26.287692 -4.377644
8       IC9  14.829184 -3.959355
9      IC10  15.423052  3.054299

挑选峰值较大的三个IC值，IC4,IC5,IC7三个，并以这三个独立成分为轴绘制三维图如下

可以发现效果还是不错的。

（3）Umap降维

①基础知识

UMAP（Uniform Manifold Approximation and Projection）是一种非线性降维技术，用于将高维数据映射到低维空间以进行数据可视化、聚类和降维分析。UMAP是一种基于流形学习的方法，旨在保留数据中的局部结构和全局结构，并在降维后尽量保持数据点之间的拓扑关系。

主要步骤如下：

高维数据表示：UMAP从高维数据集开始，通常以N×D的形式表示，其中N是样本数量，D是特征维度。
构建连通图：UMAP首先构建一个表示数据点之间连接的权重图。这一步骤包括以下子步骤：
- 确定邻近性：对于每个数据点，UMAP确定其在高维空间中的k个最近邻居。这是通过计算数据点之间的距离来完成的。
- 权重计算：UMAP计算每对邻近数据点之间的权重，反映它们之间的连接强度。UMAP使用距离度量来计算权重，通常采用高斯核函数来赋予邻近点更高的权重，而远离点较低的权重。
优化连通图：UMAP使用拓扑优化技术，如随机梯度下降，来最小化在低维空间的连通图与高维连通图之间的拓扑误差。这有助于保留数据的全局结构。
低维嵌入：UMAP将优化后的高维连通图映射到低维空间。通常，UMAP将数据映射到2D或3D空间以进行可视化。映射是通过优化低维坐标以最小化高维图与低维图之间的拓扑误差来实现的。

②重要参数

UMAP两个重要的参数

n_neighbors：最重要的参数是n_neighbors，用于构造初始高维图的近似最近邻的数量。它有效地控制UMAP如何平衡局部结构与全局结构：较小的值将通过限制在分析高维数据时考虑的相邻点的数量来推动UMAP更多地关注局部结构，而较大的值将推动UMAP代表全局结构，同时失去了细节。
min_dist：第二个参数是 min_dist，即低维空间中点之间的最小距离。此参数控制UMAP将点聚集在一起的紧密程度，较低的值会导致嵌入更紧密。较大的 min_dist值将使UMAP将点更松散地打包在一起，而是专注于保留广泛的拓扑结构。

③可视化

使用umap的二维可视化

使用umap的三维可视化

可以看到，基本能够完成对于数据的降维与分步分析的功能。

3.使用t-SNE进行可视化

①基础知识

t-SNE（t-Distributed Stochastic Neighbor Embedding）是一种非线性降维技术，用于将高维数据映射到低维空间，以便进行可视化和数据分析。它是一种流形学习方法，旨在保持数据点之间的相似性关系，特别是在局部结构上。t-SNE的核心思想是将高维数据点映射到低维空间，以便在低维空间中更好地表示相似性关系。

主要特点：

非线性映射：t-SNE采用非线性映射，因此能够捕获数据中的复杂结构和非线性关系。
局部保持：t-SNE着重于保持数据点之间的局部相似性关系，这使得它在可视化和聚类分析中特别有用。
概率建模：t-SNE使用概率分布来建模数据点之间的相似性，其中高维和低维空间中的点之间的相似性关系通过概率分布来表示。
参数设置：t-SNE有一些参数，包括困惑度（perplexity）和学习率（learning rate），可以用来控制嵌入的特性。

计算过程：

相似性矩阵：首先，计算高维数据点之间的相似性矩阵，通常使用高斯核函数计算数据点之间的条件概率分布。这个相似性矩阵表示了每对数据点之间的相似性。
低维概率分布：t-SNE使用概率分布来表示数据点在低维空间中的位置。这个分布是在低维空间中为每个数据点定义的。
目标函数：t-SNE通过优化一个目标函数来确定低维空间中的数据点位置，使得高维和低维空间中的相似性分布尽可能匹配。这个目标函数通常是一个KL散度，用来测量高维和低维概率分布之间的差异。
梯度下降：通过梯度下降等优化技术，调整低维空间中的数据点位置，以最小化KL散度。

t-SNE的优点包括在可视化中捕获局部结构，适用于高维数据和非线性关系的数据集。然而，t-SNE也有一些挑战，如困惑度的选择对结果的影响，以及计算复杂性的增加。在实践中，通常需要不同的参数设置和实验来获取最佳的嵌入结果。

②可视化

在第一步PCA降维到14维的基础上进一步进行降维，读取PCA的14维结果进行进一步降维，最终降到2或3维。

选定超参数random_state=7，实际上这是一个随机化的过程，指定超参数可以增强可重复性，相当于规定了这个条件。

二维可视化

三维可视化

附录：中间过程csv文件的解释

pca_processed.csv（经过PCA降维后的数据，用于t-SNE处理）
selected_columns.csv（经过特征选择降维之后的数据特征名）
selected_data.csv（经过特征选择降维之后的数据）

附录：代码

1、特征选择降维（预处理）代码

import pandas as pd
from sklearn.feature_selection import VarianceThreshold

# 读取数据集
data = pd.read_csv('实验二数据集.tsv', delimiter='\t', index_col=0)

# 转置数据以使样本在行上，特征在列上
data = data.T

# 1. 方差阈值特征选择
variance_threshold = VarianceThreshold(threshold=0.035)  # 调整阈值
data_variance_selected = variance_threshold.fit_transform(data)

# 获取选择的列索引
selected_columns = data.columns[variance_threshold.get_support()]

# 保存选择的列名到CSV文件，以逗号分隔
selected_columns_text = ','.join(selected_columns)
with open('selected_columns.csv', 'w') as file:
    file.write(selected_columns_text)

# 输出选择的列名
print("选择的列名：")
print(selected_columns)

# 输出降维后的维度
reduced_dimension = data_variance_selected.shape[1]
print(f"降维后的维度：{reduced_dimension}")

# 保存特征选择后的数据
selected_data = pd.DataFrame(data_variance_selected, columns=selected_columns)
selected_data.to_csv('selected_data.csv', index=False)

2、PCA基础代码

import pandas as pd
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt
import seaborn as sns

# 读取CSV文件，header=None表示没有列标签
data = pd.read_csv('selected_data.csv', header=0)

# 提取特征（所有列）
features = data.iloc[:, :]

# 对特征进行标准化
scaler = StandardScaler()
scaled_features = scaler.fit_transform(features)

# 指定降维后的维度
n_components = 14  # 降维后的维度

# 创建PCA模型并进行降维
# 若n_samples >= n_features,则可以调用最大似然估计法自动选择超参数
# pca = PCA(n_components="mle")
# pca_f = PCA(n_components=0.97, svd_solver="full")可以按信息量占比自动选择超参数
pca = PCA(n_components=n_components)
pca_result = pca.fit_transform(scaled_features)

# 将降维后的结果转换为DataFrame
pca_df = pd.DataFrame(data=pca_result, columns=[f'PC{i}' for i in range(1, n_components + 1)])



# 输出前N个主成分的累计方差解释比例
cumulative_variance_ratio = sum(pca.explained_variance_ratio_[:n_components])
print(f'Cumulative Variance Explained by {n_components} Principal Components: {cumulative_variance_ratio:.2%}')

# 指定要绘制的主成分
selected_components = ['PC1', 'PC2']

# 可视化降维后的数据
plt.figure(figsize=(8, 6))
plt.scatter(pca_df[selected_components[0]], pca_df[selected_components[1]], alpha=0.5)
plt.xlabel(selected_components[0])
plt.ylabel(selected_components[1])
plt.title('PCA Visualization')
plt.show()

# 选择前m个主成分
m = 3  # 选择前5个主成分
selected_pca_df = pca_df.iloc[:, :m]
# 计算相关系数矩阵
correlation_matrix = selected_pca_df.corr()
# 绘制相关系数热力图
plt.figure(figsize=(8, 6))
sns.heatmap(correlation_matrix, annot=True, cmap="coolwarm", fmt=".2f")
plt.title(f'Correlation Heatmap of the First {m} Principal Components')
plt.show()

# 绘制前m个主成分之间的散点关系图
sns.pairplot(selected_pca_df)
plt.suptitle(f'Scatter Plot of the First {m} Principal Components')
plt.show()

3、PCA绘制二维图像与计算相关参数

import pandas as pd
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt
import seaborn as sns


# 读取CSV文件，header=None表示没有列标签
data = pd.read_csv('selected_data.csv', header=0)

# 提取特征（所有列）
features = data.iloc[:, :]

# 对特征进行标准化
scaler = StandardScaler()
scaled_features = scaler.fit_transform(features)

# 指定降维后的维度
n_components = 14  # 降维后的维度

# 创建PCA模型并进行降维
pca = PCA(n_components=n_components)
pca_result = pca.fit_transform(scaled_features)

# 将降维后的结果转换为DataFrame
pca_df = pd.DataFrame(data=pca_result, columns=[f'PC{i}' for i in range(1, n_components + 1)])

# 输出每一个主成分的方差解释比例
explained_variance_ratios = pca.explained_variance_ratio_
for i, explained_variance_ratio in enumerate(explained_variance_ratios, 1):
    print(f'Explained Variance Ratio for PC{i}: {explained_variance_ratio:.10%}')

# 输出前N个主成分的累计方差解释比例
cumulative_variance_ratio = sum(pca.explained_variance_ratio_[:n_components])
print(f'Cumulative Variance Explained by {n_components} Principal Components: {cumulative_variance_ratio:.2%}')

# 指定要绘制的主成分
selected_components = ['PC1', 'PC2']

# 创建一个新列，用于标识数据行所属的部分
pca_df['Group'] = None
pca_df.loc[0:16, 'Group'] = 'MF'  # 第一部分
pca_df.loc[16:32, 'Group'] = 'METH'  # 第二部分
pca_df.loc[32:48, 'Group'] = 'GE'  # 第三部分
pca_df.loc[48:64, 'Group'] = 'CNA'  # 第四部分

# 定义颜色映射
colors = {'MF': 'red', 'METH': 'blue', 'GE': 'green', 'CNA': 'purple'}

# 根据分组使用不同颜色绘制点
plt.figure(figsize=(8, 6))
for group, color in colors.items():
    group_data = pca_df[pca_df['Group'] == group]
    plt.scatter(group_data[selected_components[0]], group_data[selected_components[1]], c=color, label=group, alpha=0.5)

plt.xlabel(selected_components[0])
plt.ylabel(selected_components[1])
plt.title('PCA Visualization with Grouping')
plt.legend()
plt.show()

# 选择前m个主成分
m = 5
selected_pca_df = pca_df.iloc[:, :m]
selected_pca_df['Group'] = pca_df['Group']  # 包含 'Group' 列

"""# 绘制相关系数热力图
# 计算相关系数矩阵
correlation_matrix = selected_pca_df.corr()
plt.figure(figsize=(8, 6))
sns.heatmap(correlation_matrix, annot=True, cmap="coolwarm", fmt=".2f")
plt.title(f'Correlation Heatmap of the First {m} Principal Components')
plt.show()"""

# 绘制前m个主成分之间的散点关系图，并按组分配不同颜色
sns.pairplot(selected_pca_df, hue='Group', palette=colors)
plt.suptitle(f'Scatter Plot of the First {m} Principal Components')
plt.show()

#将PCA降维的结果保存，以便后续t-SNE的操作
# 将降维后的结果转换为DataFrame
pca_df = pd.DataFrame(data=pca_result, columns=[f'PC{i}' for i in range(1, n_components + 1)])
# 保存PCA降维后的数据到CSV文件
pca_df.to_csv('pca_processed.csv', index=False)

4、PCA绘制三维图像

import pandas as pd
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt
import seaborn as sns
from mpl_toolkits.mplot3d import Axes3D

# 读取CSV文件，header=0表示有列标签
data = pd.read_csv('selected_data.csv', header=0)

# 提取特征（所有列）
features = data.iloc[:, :]

# 对特征进行标准化
scaler = StandardScaler()
scaled_features = scaler.fit_transform(features)

# 指定主成分的数量
n_components = 3  # 3D图

# 创建PCA模型并进行降维
pca = PCA(n_components=n_components)
pca_result = pca.fit_transform(scaled_features)

# 将降维后的数据转换为DataFrame
pca_df = pd.DataFrame(data=pca_result, columns=[f'PC{i}' for i in range(1, n_components + 1)])

# 输出前三个主成分的方差解释比例
explained_variance_ratios = pca.explained_variance_ratio_
for i, explained_variance_ratio in enumerate(explained_variance_ratios, 1):
    print(f'主成分{i}的方差解释比例: {explained_variance_ratio:.10%}')

# 输出前三个主成分的累积方差解释比例
cumulative_variance_ratio = sum(pca.explained_variance_ratio_[:n_components])
print(f'前{cumulative_variance_ratio:.2%}的主成分累积方差解释比例')

# 创建一个新列，用于标识数据行所属的部分
pca_df['Group'] = None
pca_df.loc[0:16, 'Group'] = 'MF'  # 第一部分
pca_df.loc[16:32, 'Group'] = 'METH'  # 第二部分
pca_df.loc[32:48, 'Group'] = 'GE'  # 第三部分
pca_df.loc[48:64, 'Group'] = 'CNA'  # 第四部分

# 定义颜色映射
colors = {'MF': 'red', 'METH': 'blue', 'GE': 'green', 'CNA': 'purple'}

# 指定用于三维图的主成分
selected_components = ['PC1', 'PC2', 'PC3']

# 创建一个三维散点图
fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')

# 根据“Group”分配不同颜色的数据点
for group, color in colors.items():
    group_data = pca_df[pca_df['Group'] == group]
    ax.scatter(group_data[selected_components[0]], group_data[selected_components[1]], group_data[selected_components[2]], c=color, label=group, alpha=0.5)

ax.set_xlabel(selected_components[0])
ax.set_ylabel(selected_components[1])
ax.set_zlabel(selected_components[2])
ax.set_title('PCA可视化三维图')
ax.legend(loc='upper left', bbox_to_anchor=(1.0, 1.0))  #调整图例位置
ax.legend()
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.show()

5、ICA绘制二维图像

import pandas as pd
from sklearn.decomposition import FastICA
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mutual_info_score
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from scipy.stats import kurtosis, skew  # 导入峰度和偏度函数

# 读取CSV文件，header=None表示没有列标签
data = pd.read_csv('selected_data.csv', header=0)

# 提取特征（所有列）
features = data.iloc[:, :]

# 对特征进行标准化
scaler = StandardScaler()
scaled_features = scaler.fit_transform(features)

# 指定降维后的维度
n_components = 3  # 降维后的维度

# 创建ICA模型并进行降维
ica = FastICA(n_components=n_components)
ica_result = ica.fit_transform(scaled_features)

# 将降维后的结果转换为DataFrame
ica_df = pd.DataFrame(data=ica_result, columns=[f'IC{i}' for i in range(1, n_components + 1)])

# 计算信噪比（SNR）
# 假设第一个独立成分是信号，剩下的成分是噪声
signal_component = ica_result[:, 0]
noise_components = ica_result[:, 1:]
snr = np.mean(np.abs(signal_component) / np.std(noise_components, axis=1))
print(f'Signal-to-Noise Ratio (SNR): {snr:.2f}')

# 指定要绘制的独立成分
selected_components = ['IC1', 'IC2']
# 创建一个新列，用于标识数据行所属的部分
ica_df['Group'] = None
ica_df.loc[0:16, 'Group'] = 'MF'  # 第一部分
ica_df.loc[16:32, 'Group'] = 'METH'  # 第二部分
ica_df.loc[32:48, 'Group'] = 'GE'  # 第三部分
ica_df.loc[48:64, 'Group'] = 'CNA'  # 第四部分
# 定义颜色映射
colors = {'MF': 'red', 'METH': 'blue', 'GE': 'green', 'CNA': 'purple'}
# 根据分组使用不同颜色绘制点
plt.figure(figsize=(8, 6))
for group, color in colors.items():
    group_data = ica_df[ica_df['Group'] == group]
    plt.scatter(group_data[selected_components[0]], group_data[selected_components[1]], c=color, label=group, alpha=0.5)
plt.xlabel(selected_components[0])
plt.ylabel(selected_components[1])
plt.title('ICA Visualization with Grouping')
plt.legend()
plt.show()

"""# 选择前m个独立成分
m = 5
selected_ica_df = ica_df.iloc[:, :m]
selected_ica_df['Group'] = ica_df['Group']  # 包含 'Group' 列
# 绘制前m个独立成分之间的散点关系图，并按组分配不同颜色
sns.pairplot(selected_ica_df, hue='Group', palette=colors)
plt.suptitle(f'Scatter Plot of the First {m} Independent Components')
plt.show()"""


# 计算互信息（Mutual Information）
# 假设第一个独立成分是信号，原始信号是真实信号
true_signal = scaled_features[:, 0]
mi = mutual_info_score(true_signal, signal_component)
print(f'Mutual Information (MI) with True Signal: {mi:.4f}')

# 计算峰度和偏度
kurtosis_values = kurtosis(ica_result, axis=0)
skewness_values = skew(ica_result, axis=0)

# 创建一个DataFrame来存储结果
result_df = pd.DataFrame({'Component': ica_df.columns[:-1], 'Kurtosis': kurtosis_values, 'Skewness': skewness_values})

# 打印结果
print(result_df)

6、ICA绘制三维图像

from mpl_toolkits.mplot3d import Axes3D  # 导入3D绘图库
import pandas as pd
from sklearn.decomposition import FastICA
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt


# 读取CSV文件，header=None表示没有列标签
data = pd.read_csv('selected_data.csv', header=0)

# 提取特征（所有列）
features = data.iloc[:, :]

# 对特征进行标准化
scaler = StandardScaler()
scaled_features = scaler.fit_transform(features)

# 指定降维后的维度
n_components = 3  # 降维后的维度

# 创建ICA模型并进行降维
ica = FastICA(n_components=n_components)
ica_result = ica.fit_transform(scaled_features)

# 将降维后的结果转换为DataFrame
ica_df = pd.DataFrame(data=ica_result, columns=[f'IC{i}' for i in range(1, n_components + 1)])

# 创建一个新列，用于标识数据行所属的部分
ica_df['Group'] = None
ica_df.loc[0:16, 'Group'] = 'MF'  # 第一部分
ica_df.loc[16:32, 'Group'] = 'METH'  # 第二部分
ica_df.loc[32:48, 'Group'] = 'GE'  # 第三部分
ica_df.loc[48:64, 'Group'] = 'CNA'  # 第四部分

# 定义颜色映射
colors = {'MF': 'red', 'METH': 'blue', 'GE': 'green', 'CNA': 'purple'}

# 选择要绘制的独立成分
selected_components = ['IC1', 'IC2', 'IC3']

# 创建一个新的三维图
fig = plt.figure(figsize=(10, 8))
ax = fig.add_subplot(111, projection='3d')

# 根据分组使用不同颜色绘制点
for group, color in colors.items():
    group_data = ica_df[ica_df['Group'] == group]
    ax.scatter(group_data[selected_components[0]], group_data[selected_components[1]], group_data[selected_components[2]], c=color, label=group, alpha=0.5)

ax.set_xlabel(selected_components[0])
ax.set_ylabel(selected_components[1])
ax.set_zlabel(selected_components[2])
ax.set_title('ICA 3D Visualization with Grouping')
ax.legend()

plt.show()

7、UMAP绘制二维图像

import pandas as pd
import umap
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler

# 读取CSV文件，header=None表示没有列标签
data = pd.read_csv('selected_data.csv', header=0)

# 提取特征（所有列）
features = data.iloc[:, :]

# 对特征进行标准化
scaled_features = StandardScaler().fit_transform(features)

# 创建UMAP模型并进行降维
n_components = 2  # 降维后的维度
umap_model = umap.UMAP(n_neighbors=4, n_components=n_components)
umap_result = umap_model.fit_transform(scaled_features)

# 将降维后的结果转换为DataFrame
umap_df = pd.DataFrame(data=umap_result, columns=[f'UMAP{i}' for i in range(1, n_components + 1)])

# 指定要绘制的UMAP成分
selected_components = ['UMAP1', 'UMAP2']

# 创建一个新列，用于标识数据行所属的部分
umap_df['Group'] = None
umap_df.loc[0:16, 'Group'] = 'MF'  # 第一部分
umap_df.loc[16:32, 'Group'] = 'METH'  # 第二部分
umap_df.loc[32:48, 'Group'] = 'GE'  # 第三部分
umap_df.loc[48:64, 'Group'] = 'CNA'  # 第四部分

# 定义颜色映射
colors = {'MF': 'red', 'METH': 'blue', 'GE': 'green', 'CNA': 'purple'}

# 根据分组使用不同颜色绘制点
plt.figure(figsize=(8, 6))
for group, color in colors.items():
    group_data = umap_df[umap_df['Group'] == group]
    plt.scatter(group_data[selected_components[0]], group_data[selected_components[1]], c=color, label=group, alpha=0.5)

plt.xlabel(selected_components[0])
plt.ylabel(selected_components[1])
plt.title('UMAP Visualization with Grouping')
plt.legend()
plt.show()

8、UMAP绘制三维图像

import pandas as pd
import umap
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D  # 导入3D绘图模块
from sklearn.preprocessing import StandardScaler

# 读取CSV文件，header=None表示没有列标签
data = pd.read_csv('selected_data.csv', header=0)

# 提取特征（所有列）
features = data.iloc[:, :]

# 对特征进行标准化
scaled_features = StandardScaler().fit_transform(features)

# 创建UMAP模型并进行降维
n_components = 3  # 降维后的维度
umap_model = umap.UMAP(n_neighbors=4, n_components=n_components)
umap_result = umap_model.fit_transform(scaled_features)

# 将降维后的结果转换为DataFrame
umap_df = pd.DataFrame(data=umap_result, columns=[f'UMAP{i}' for i in range(1, n_components + 1)])

# 指定要绘制的UMAP成分
selected_components = ['UMAP1', 'UMAP2', 'UMAP3']  # 选择三个成分

# 创建一个新列，用于标识数据行所属的部分
umap_df['Group'] = None
umap_df.loc[0:16, 'Group'] = 'MF'  # 第一部分
umap_df.loc[16:32, 'Group'] = 'METH'  # 第二部分
umap_df.loc[32:48, 'Group'] = 'GE'  # 第三部分
umap_df.loc[48:64, 'Group'] = 'CNA'  # 第四部分

# 定义颜色映射
colors = {'MF': 'red', 'METH': 'blue', 'GE': 'green', 'CNA': 'purple'}

# 创建一个三维坐标轴
fig = plt.figure(figsize=(10, 8))
ax = fig.add_subplot(111, projection='3d')

# 根据分组使用不同颜色绘制点
for group, color in colors.items():
    group_data = umap_df[umap_df['Group'] == group]
    ax.scatter(group_data[selected_components[0]], group_data[selected_components[1]], group_data[selected_components[2]], c=color, label=group, alpha=0.5)

ax.set_xlabel(selected_components[0])
ax.set_ylabel(selected_components[1])
ax.set_zlabel(selected_components[2])
ax.set_title('UMAP 3D Visualization with Grouping')
plt.legend()
plt.show()

9、t-SNE绘制二维图像

import pandas as pd
from sklearn.manifold import TSNE
import matplotlib.pyplot as plt
import seaborn as sns

# 读取CSV文件，header=None表示没有列标签
data = pd.read_csv('pca_processed.csv', header=0)

# 提取特征（所有列）
features = data.iloc[:, :]

# 创建t-SNE模型并进行降维
n_components = 2  # 降维后的维度
tsne_model = TSNE(n_components=n_components, random_state=7)
tsne_result = tsne_model.fit_transform(features)

# 将降维后的结果转换为DataFrame
tsne_df = pd.DataFrame(data=tsne_result, columns=[f't-SNE{i}' for i in range(1, n_components + 1)])

# 指定要绘制的t-SNE成分
selected_components = ['t-SNE1', 't-SNE2']

# 创建一个新列，用于标识数据行所属的部分
tsne_df['Group'] = None
tsne_df.loc[0:16, 'Group'] = 'MF'  # 第一部分
tsne_df.loc[16:32, 'Group'] = 'METH'  # 第二部分
tsne_df.loc[32:48, 'Group'] = 'GE'  # 第三部分
tsne_df.loc[48:64, 'Group'] = 'CNA'  # 第四部分

# 定义颜色映射
colors = {'MF': 'red', 'METH': 'blue', 'GE': 'green', 'CNA': 'purple'}

# 根据分组使用不同颜色绘制点
plt.figure(figsize=(8, 6))
for group, color in colors.items():
    group_data = tsne_df[tsne_df['Group'] == group]
    plt.scatter(group_data[selected_components[0]], group_data[selected_components[1]], c=color, label=group, alpha=0.5)

plt.xlabel(selected_components[0])
plt.ylabel(selected_components[1])
plt.title('t-SNE Visualization with Grouping')
plt.legend()
plt.show()

10、t-SNE绘制三维图像

import pandas as pd
from sklearn.manifold import TSNE
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D  # 导入三维绘图工具
import seaborn as sns

# 读取CSV文件，header=None表示没有列标签
data = pd.read_csv('pca_processed.csv', header=0)

# 提取特征（所有列）
features = data.iloc[:, :]

# 创建t-SNE模型并进行降维
n_components = 3  # 降维后的维度
tsne_model = TSNE(n_components=n_components, random_state=7)
tsne_result = tsne_model.fit_transform(features)

# 将降维后的结果转换为DataFrame
tsne_df = pd.DataFrame(data=tsne_result, columns=[f't-SNE{i}' for i in range(1, n_components + 1)])

# 指定要绘制的t-SNE成分
selected_components = ['t-SNE1', 't-SNE2', 't-SNE3']

# 创建一个新列，用于标识数据行所属的部分（根据您的需求设置）
tsne_df['Group'] = None
tsne_df.loc[0:16, 'Group'] = 'MF'  # 第一部分
tsne_df.loc[16:32, 'Group'] = 'METH'  # 第二部分
tsne_df.loc[32:48, 'Group'] = 'GE'  # 第三部分
tsne_df.loc[48:64, 'Group'] = 'CNA'  # 第四部分

# 定义颜色映射
colors = {'MF': 'red', 'METH': 'blue', 'GE': 'green', 'CNA': 'purple'}

# 创建三维图像
fig = plt.figure(figsize=(8, 6))
ax = fig.add_subplot(111, projection='3d')  # 创建三维绘图区域

# 根据分组使用不同颜色绘制点
for group, color in colors.items():
    group_data = tsne_df[tsne_df['Group'] == group]
    ax.scatter(group_data[selected_components[0]], group_data[selected_components[1]],
               group_data[selected_components[2]], c=color, label=group, alpha=0.5)

ax.set_xlabel(selected_components[0])
ax.set_ylabel(selected_components[1])
ax.set_zlabel(selected_components[2])
ax.set_title('t-SNE 3D Visualization with Grouping')
plt.legend()
plt.show()

你可能感兴趣的:(#,【专选】数据挖掘,数据挖掘,人工智能)

【Python】解决UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x9A in position xxx: illegal multibyte 云天徽上 python运行报错解决记录 python numpy 机器学习深度学习 pandas
【Python】解决UnicodeDecodeError:‘gbk’codeccan’tdecodebyte0x9Ainpositionxxx:illegalmultibytesequence博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人
新零售社交电商系统小程序功能开发详细解析 v.15889726201 零售小程序
现在的购物方式是越来越有趣了，新零售社交电商系统是互联网、大数据、人工智能的技术和咱们熟悉的传统零售深度结合后产生的。它整合线上线下渠道及数据，带来全方位、多渠道、个性化购物体验。借助实时库存管理、智能推荐和无缝购物体验等功能，打破传统电商与实体店界限，其具备以下显著特点：一、系统主要功能分销管理独家推广代码机制：在这个新零售社交电商系统里，每个经销商都有一个只属于自己的推广代码。把这个代码分享给
windows实用：删除右键菜单功能项 EelBarb windows
前言当在使用windows，仅仅想要通过右键删除某个文件时，密密麻麻无关甚至不常用的右键菜单功能项往往让你感到厌恶。为了删除右键无用的功能项，这里给将给出一些具体方案。删除右键无用菜单功能项1、更改软件配置，取消软件扩展的右键功能项如果是【还算比较有良心】的软件，一般在设置里有取消右键菜单项的选项，只需要取消勾选即可。2、删除菜单注册表中的栏目有些软件比较无理，设置里也没留解决方案，所以这里只能被
到底选谁？五大多智能体 ( Multi-AI Agent) 框架对比
编者按：当前AI技术发展日新月异，多智能体框架如雨后春笋般涌现。如何在AutoGen、LangGraph、CrewAI等众多框架中做出正确选择，找出那一个真正适合你需求的多智能体框架？本文作者通过对五大多智能体AI框架的比较，提出了一个关键观点：不同的AI框架适用于不同的场景和需求，选择的关键在于精准匹配项目特点和技术路线。作者|MehulGupta编译|岳扬在生成式AI领域，Multi-AIAg
[碎碎念] 重启学习与博客之旅-我的每日计划言午coding 碎碎念碎碎念
好久没在写博客了，今天我下定决心，要重新开始。我给自己定了个小目标，从今天起，每天都要写一篇博客，然后发布到CSDN和掘金上。以下是我的计划。一、每天学点新东西以后每天早上，我都得抽出至少一个小时专门用来学新技术。我打算先列个学习清单，把一直想学但没时间学的技术都写上去，然后按照自己的兴趣和工作需要，一项一项地去攻克。比如说，我最近对人工智能和大数据分析特别感兴趣，所以打算每天看点相关的专业书，或
Python学习笔记 - 探索5种数据类型 Mr数据杨 Python 编程基础 python 数据类型
在当今的数字时代，编程已经成为一种基本技能，不仅适用于软件开发人员，更广泛地应用于数据分析、人工智能、自动化和科学研究等领域。Python作为一种强大且易于学习的编程语言，因其简洁的语法和广泛的应用场景，成为了初学者学习编程的首选语言。在学习Python编程的过程中，理解和掌握数据类型是至关重要的。数据类型决定了程序中可以进行的操作类型，以及如何存储和处理信息。理解不同数据类型的特性和使用场景，不
windows上使用wsl安装ubuntu16.04 b2Superman windows
1.设置->系统->开发者选项->开发人员模式2.控制面板->程序与功能->启动或关闭windows功能->勾选虚拟机平台和使用与Linux的windows子系统->重启3.win+x终端管理员启用wsl功能dism.exe/online/enable-feature/featurename:Microsoft-Windows-Subsystem-Linux/all/norestart安装WSL2
讯飞智作 AI 配音技术浅析（一）爱研究的小牛 AIGC—技术综述 AIGC—概述 AIGC—音频人工智能 AIGC 机器学习深度学习
一、核心技术讯飞智作AI配音技术作为科大讯飞在人工智能领域的重要成果，融合了多项前沿技术，为用户提供了高质量的语音合成服务。其核心技术主要涵盖以下几个方面：1.深度学习与神经网络讯飞智作AI配音技术以深度学习为核心驱动力，通过以下关键模型实现语音合成：Tacotron模型：该模型采用端到端的编码器-解码器架构，将输入文本直接转换为梅尔频谱（Mel-spectrogram），再通过声码器生成语音信号
DeepSeek-R1：多模态AGI的实践突破与场景革命热爱分享的博士僧 agi
一、DeepSeek-R1的核心定位DeepSeek-R1是深度求索（DeepSeek）研发的多模态通用人工智能模型，旨在突破单一模态的局限性，实现文本、图像、语音、视频等跨模态信息的深度理解、推理与生成。该模型基于统一的架构设计，通过跨模态对齐与知识共享机制，推动AI在复杂场景中的落地应用，覆盖医疗、工业、教育、娱乐等领域。二、技术架构与创新亮点统一的多模态框架采用Transformer-bas
DeepSeek R1与OpenAI o1深度对比码事漫谈 AI 人工智能机器学习
文章目录引言技术原理DeepSeekR1OpenAIo1性能表现官方数据推理任务知识密集型任务通用能力价格对比应用场景科研与技术开发自然语言处理（NLP）企业智能化升级教育与培训数据分析与智能决策部署与集成DeepSeekR1OpenAIo1伦理考量DeepSeekR1OpenAIo1未来展望DeepSeekR1OpenAIo1引言在科技飞速发展的当下，人工智能领域中的大型语言模型（LLMs）正以
使用 JuiceFS 快照功能实现数据库发布与端到端测试 Juicedata 架构运维
今天的博客来自JuiceFS云服务用户Jerry，他们通过使用JuiceFSsnapshot功能，创新性地实现了数据的版本控制。Jerry，是一家位于北美的科技公司，利用人工智能和机器学习技术，简化用户购买汽车和家庭保险的比较及购买流程。在软件开发领域，严格的测试和受控发布已经成为几十年来的标准做法。但如果我们能将这些原则应用到数据库和数据仓库中会怎样？想象一下，能够为数据基础设施定义一套带有测试
‌关于人工智能（AI）的发展现状和未来趋势的详细分析！ Stanford_1106 学习关于AI 人工智能 c++微信开放平台微信小程序微信公众平台 ai twitter
成长路上不孤单【14后///C++爱好者///持续分享所学///如有需要欢迎收藏转发///】今日将继续分享关于‌人工智能（AI）的发展现状和趋势的相关内容！关于【‌人工智能（AI）的发展现状和未来趋势】目录：一、AI人工智能行业背景二、AI人工智能产业细分领域三、AI人工智能产业链结构四、AI人工智能行业发展现状五、AI人工智能行业未来发展趋势预测六、AI人工智能行业前景七、AI人工智能行业目前存
本地部署 DeepSeek-R1 大模型网络安全我来了人工智能 AI 人工智能
本地部署DeepSeek-R1大模型指南1.引言1.1DeepSeek-R1模型简介在人工智能的世界里，大型语言模型（LLM）正如一座巨大的宝库，里面储存着丰富的信息和无限的潜力。而DeepSeek-R1，就像那扇打开智慧之门的钥匙。它是一款专注于数学、代码和自然语言推理任务的高性能AI推理模型。许多用户希望能在本地环境中自由操作这些强大的模型，因为这不仅关乎数据隐私，还能满足定制化部署的需求。这
【C语言基础习题】C语言练习题——bite 寒假班作业（3）拾贰_C c语言开发语言
AI是在帮助开发者还是取代他们？在软件开发领域，生成式人工智能（AIGC）正在改变开发者的工作方式。无论是代码生成、错误检测还是自动化测试，AI工具正在成为开发者的得力助手。然而，这也引发了对开发者职业前景和技能需求变化的讨论。AI究竟是在帮助开发者还是取代他们？提醒：在发布作品前，请把不需要的内容删掉。方向一：AI工具现状提示：介绍当前市场上的主要AI开发工具，如GitHubCopilot、Ta
超实用的Python深度学习教程 - 基于TensorFlow和Keras框架（含实例及完整代码） AI_DL_CODE 人工智能 python 深度学习 tensorflow
一、深度学习概述（一）深度学习的定义与发展历程深度学习在当今的科技领域占据着极为重要的地位。它是人工智能的一个重要分支，其定义为通过构建具有很多层的神经网络模型，让计算机自动从大量数据中学习复杂模式的一种技术。深度学习的发展历程可谓波澜壮阔，早期它源于对人工神经网络的研究，从简单的感知机模型开始。在发展初期，由于计算资源的限制以及数据量的不足等因素，发展较为缓慢。然而，随着计算机技术的飞速发展，尤
读算法简史：从美索不达米亚到人工智能时代02古老的算法躺柒算法人工智能巴比伦苏美尔埃及欧几里得
1.苏美尔1.1.位于苏美尔地区的乌鲁克，是最古老的城市之一1.2.文字似乎是从印刻在湿黏土陶筹上的简单记号发展而来的1.2.1.陶筹是用来记录库存与货物交换的1.2.2.一个陶筹可能等同于一定数量的获得物或者一定头数的牲畜1.3.楔形(cuneiform)文字1.3.1.这个名字源于文字独特的“楔形”形状，那是用芦苇笔在湿黏土上压印出来的1.3.2.符号由几何形状的楔形图案组成1.3.3.铭文是
读人工智能时代与人类未来笔记11地缘躺柒读人工智能时代与人类未来人工智能笔记百度机器学习 GPT-3 人类
1.网络平台和地缘zz1.1.新兴的网络平台地缘zz学构成了国际战略的一个重要的新方面，而zf并不是唯一的参与者1.2.本国的经济和社会生活的各个方面竟然要在由其他潜在竞争gj设计的人工智能所驱动的网络平台上展开，其隐含意义令人不安1.3.米国和东大的全国性网络平台能够从一个大洲级别的地理规模起步，让它们的公司能够更容易获得所需投资，以便继续扩展至其他语言地区1.4.一个社会创造的人工智能赋能网络
读算法简史：从美索不达米亚到人工智能时代01算法机器躺柒算法 java 开发语言排序算法插入排序快速排序
1.算法1.1.algorithm1.1.1.该词起源于阿拉伯语al-Kwārizmī1.1.1.1.意为“来自花剌子模（现称‘希瓦’）的人”1.1.1.2.一位9世纪数学家的名字，其全名是阿布·贾法尔·穆罕默德·伊本·穆萨(AbūJa’farMuhammadibnMūsa)1.1.1.2.1.他所著的代数和算术著作被广泛翻译1.2.在计算或其他解决问题的操作中所要遵循的处理过程或一组规则，特别是
PDFsam Basic for mac和PDF文件合并的方法 *橙子编程软件 PDFsam Basic for mac
PDFsamBasicformac具有合并，拆分，旋转，转换，编辑，签署PDF文件等功能，还可以填写表格，视觉组合，页面重新排序，在本篇文章中，为您介绍的使用PDFsamBasicformac合并PDF文件的方法！PDFsamBasicformac使用教程选使用PDFsamBasicformac合并PDF文件的方法择要合并的PDF文件您可以合并PDF文件或其中的一部分。拖放要组合的PDF文件或单击
推荐开源神器：PDFsam - 您的PDF处理专家牧桔好Victor
推荐开源神器：PDFsam-您的PDF处理专家项目地址:https://gitcode.com/gh_mirrors/pd/pdfsam在我们的日常工作中，PDF文件的处理是无法避免的一部分。无论是拆分、合并还是旋转PDF页面，都可能成为我们需要解决的问题。为此，我们向您强烈推荐一个免费且开源的多平台软件——PDFsam（PDFSplitAndMerge）。项目介绍PDFsam是一个强大的工具，专
利用ChatGPT阅读文献：指南与技巧摆烂大大王 chatgpt MathorCup数学建模 chatgpt 论文阅读人工智能学习
阅读文献对于学术研究和深度学习至关重要。ChatGPT作为一款高级人工智能聊天机器人，可以帮助用户更高效地阅读和理解文献。以下是如何利用ChatGPT阅读文献的一些指南和技巧。1.文献检索在你阅读文献之前，首先需要找到相关文献。可以使用如下命令让ChatGPT帮助你进行文献检索：/findpapers关键词或主题例如，如果你需要寻找关于人工智能在医疗领域应用的文献，可以输入：/findpapers
leecode624. 数组列表中的最大距离 SRExianxian 数据结构与算法算法数据结构
624.数组列表中的最大距离题目给定m个数组，每个数组都已经按照升序排好序了。现在你需要从两个不同的数组中选择两个整数（每个数组选一个）并且计算它们的距离。两个整数a和b之间的距离定义为它们差的绝对值|a-b|。返回最大距离。示例1：输入：[[1,2,3],[4,5],[1,2,3]]输出：4解释：一种得到答案4的方法是从第一个数组或者第三个数组中选择1，同时从第二个数组中选择5。示例2：输入：a
【Java】已解决：`java.lang.NoClassDefFoundError` 屿小夏 java 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
【Java】已解决java.lang.NoSuchMethodException异常屿小夏 java python 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
docker安装nacos单机部署 DN金猿 docker docker 容器运维 nacos 阿里云
话不多说，直接进入主题1.查看nacos镜像dockersearchnacos一般选第一个也就是starts最高的。2.拉取nacos镜像dockerpullnacos/nacos-serverdockerpullnacos/nacos-server:1.4.1由于我使用的项目alibabacloud版本对应的是nacos1.4.1版本的，所以我安装的是1.4.1版本选择可以参考：版本说明·ali
Deepseek两项关键发现：无需人类专家介入SFT、有自己极道Jdon javascript reactjs
DeepseekR1-Zero关键两项发现：无需人类专家、有自己专业领域语言DSL，也就是没有SFT，有自己DSL!ARCPrize基金会对DeepSeek发布的R1-Zero和R1“推理”系统的分析。ARCPrize基金是谁？ARCPrize基金会旨在定义、衡量并激励新的AGI（通用人工智能）想法。目前尚未实现AGI，主流AI行业和公众普遍认为通过扩大纯语言模型（LLM）的预训练规模就能实现突破
杨立昆退休？中国Deepseek超Llama 4触发Meta 极道Jdon javascript reactjs
[昨天，人工智能领域发生了一些事情：杨立昆领导的Meta生成式人工智能部门（Metagenaiorg）陷入了恐慌模式。杨立昆是Meta（原Facebook）的首席人工智能科学家，同时也是纽约大学的教授。杨立昆因其在深度学习领域的开创性工作而获得了图灵奖（TuringAward），这是计算机科学领域的最高荣誉之一。恐慌模式始于DeepseekV3，它在性能测试中已经超过了Llama4。更让人尴尬的是
书生浦语第五期晴斋1216 语言模型
基础作业完成以下任务，并将实现过程记录截图：配置lmdeploy运行环境下载internlm-chat-1.8b模型以命令行方式与模型对话视频链接文档链接基础知识学习模型部署在软件工程中，部署通常指的是将开发完毕的软件投入使用的过程。在人工智能领域，模型部署是实现深度学习算法落地应用的关键步骤。简单来说，模型部署就是将训练好的深度学习模型在特定环境中运行的过程。目前大模型部署面临的挑战计算量巨大内
斯坦福吴恩达-深度学习和机器学习全套视频+课件！ Alexquyun 人工智能机器学习深度学习 python
这些课程专为已有一定基础（基本的编程知识，熟悉Python、对机器学习有基本了解），想要尝试进入人工智能领域的计算机专业人士准备。介绍显示：“深度学习是科技业最热门的技能之一，本课程将帮你掌握深度学习。”学生将可以学习到深度学习的基础，学会构建神经网络，并用在包括吴恩达本人在内的多位业界顶尖专家指导下创建自己的机器学习项目。DeepLearningSpecialization对卷积神经网络(CNN
Python从0到100（四十九）：数据库设计及Django ORM使用是Dream呀 python 数据库 django
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s

HNU-数据挖掘-实验2-数据降维与可视化

数据挖掘课程实验实验2 数据降维与可视化

文章目录

实验背景

实验目标

实验数据集说明

实验参考步骤

实验过程

1.对数据进行初步降维

2.使用无监督数据降维方法，比如PCA，ICA、UMap等进行降维

（1）主成分分析（PCA）降维

①基础知识

②评价指标

③可视化

★问题探究：改变n_components，PCA主成分并没有变化？

（2）独立成分分析（ICA）降维

①基础知识

②评价指标

③维度选择与可视化

（3）Umap降维

①基础知识

②重要参数

③可视化

3.使用t-SNE进行可视化

①基础知识

②可视化

附录：中间过程csv文件的解释

附录：代码

1、特征选择降维（预处理）代码

2、PCA基础代码

3、PCA绘制二维图像与计算相关参数

4、PCA绘制三维图像

5、ICA绘制二维图像

6、ICA绘制三维图像

7、UMAP绘制二维图像

8、UMAP绘制三维图像

9、t-SNE绘制二维图像

10、t-SNE绘制三维图像

你可能感兴趣的:(#,【专选】数据挖掘,数据挖掘,人工智能)

数据挖掘课程实验
实验2 数据降维与可视化