sov_cc

用python对数据进行主成分分析、类概念描述及特征化分析-实验报告

数据挖掘课程的期中实验，仅供参考。完成时间：2022.10.29
基本要求：利用python对数据集中的数据进行主成分分析、类概念描述及特征化分析。要有相关结果的可视化结果。比如数据的分布情况。
数据源是TCGA。
数据源、代码相关文章：https://blog.csdn.net/Coral__/article/details/128483047

一、主成分分析（PCA）

1.理论学习

无监督学习就是没有y，让算法从特征变量x里面自己寻找特征。

主成分分析，可以将数据进行线性变化从而进行降维，用少数几个变量代替原始的很多的变量。但是主成分不能进行变量筛选，因为新的变量是原始变量的线性组合，失去了原有的含义。而和主成分很像的因子分析可以进行部分解释。

算法的具体步骤如下：
1）对向量X进行去中心化。（把坐标原点放到数据中心）
2）计算向量X的协方差矩阵，自由度可以选择0或者1。
3）计算协方差矩阵的特征值和特征向量。
4）选取最大的k个特征值及其特征向量。
5）用X与特征向量相乘。

数据的线性变化：

拉伸

（x轴拉伸了两倍，y轴不变）

旋转

（逆时针旋转了θ度）

总流程

我们需要求出R，求出R的时候就找到了PCA想要的坐标系

协方差矩阵的特征向量就是R

对于本题来说（平均值为原点），协方差计算：

原本：

最终公式推导：

R就是后面新坐标轴的两个特征向量相乘

2.实验目的

在本次实验中，我们使用的数据库是TCGA，是美国国家癌症研究所和美国人类基因研究所共同监督的一个项目，旨在应用高通量的基因组分析技术，以帮助人们对癌症有更好的认知，从而提高对于癌症的预防、诊断和治疗能力。

在实验过程中，我以BLCA（肾上腺皮质癌）的数据为例子，一步一步表明如何进行主成分分析。

3.实验过程（以BLCA为例）

0）导入包和数据：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.model_selection import cross_val_score#交叉val值
from sklearn.linear_model import LinearRegression#线性回归
from sklearn.model_selection import LeaveOneOut
from mpl_toolkits import mplot3d
 
data = pd.read_csv('C:\\Users\\coral\\Desktop\\BLCA\\rna.csv')
data = data.iloc[:,1:]#去掉第一列无用的索引
len = data.shape[1]#返回列数,后续经常会用到

无监督学习就是没有y，所以我们需要去掉第一列的索引。

1）数据标准化：

#实例化
scaler = StandardScaler()
# 训练
scaler.fit(data)  
# 返回转换后的数据
X = scaler.transform(data)

2）主成分pca拟合：

#主成分PCA拟合
model = PCA()
model.fit(X)  # 用数据集X拟合模型
#每个主成分能解释的方差。代表降维后的各主成分的方差值。方差值越大，则说明越是重要的主成分
model.explained_variance_
#每个主成分能解释的方差的百分比。代表降维后的各主成分的方差值占总方差值的比例，这个比例越大，则越是重要的主成分
model.explained_variance_ratio_

#可视化
plt.plot(model.explained_variance_ratio_, marker='o', markersize=2)

plt.xlabel('主成分分析')
plt.ylabel('方差解释比例')
plt.title('PCA')

plt.show()

3）计算累计百分比，这样可以判断选几个主成分：

# 画累计百分比，这样可以判断选几个主成分
x=range(1.len+1)
y=model.explained_variance_ratio_.cumsum()

plt.plot(x,y, marker='o', markersize=2)
plt.xlabel('主成分分析')
plt.ylabel('方差解释比例的百分比')
plt.axhline(0.9, color='k', linestyle='--', linewidth=1)

print(y)

#标出前三个主成分的占比
r=0
for a, b in zip(x, y):
    r+=1
    plt.text(a, b, b)
    if r>=3:
        break

plt.title('Cumulative PVE/累计百分数')

plt.show()

由图可知接近60个主成分能解释到90%以上了。

print的结果：

我们可以得到第一主成分占比68.797768%，第二主成分占比4.724263%，第三主成分占比2.709897%

4）主成分载荷矩阵

model.components_

columns = ['TCGA' + str(i) for i in range(1, len+1)]

pca_loadings = pd.DataFrame(model.components_, columns=data.columns, index=columns)
round(pca_loadings, 2)

该矩阵用于展示每个主成分原始数据的线性组合，以及线性的系数。

5）计算每个样本的主成分得分

# PCA Scores
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用于正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False#用于正常显示负数

pca_scores = model.transform(X)
pca_scores = pd.DataFrame(pca_scores, columns=columns)
pca_scores.shape
pca_scores.head()

6）前两个主成分的可视化，散点图

sns.scatterplot(x='TCGA1', y='TCGA2', data=pca_scores)
plt.title('Biplot',fontsize=40)

plt.show()

7）三个主成分的可视化图，三维图

fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')
ax.scatter(pca_scores['TCGA1'], pca_scores['TCGA2'], pca_scores['TCGA3'], c='b')
ax.set_xlabel('TCGA1')
ax.set_ylabel('TCGA2')
ax.set_zlabel('TCGA3')

plt.show()

8）利用K均值聚类对三个主成分聚类，可视化

model = KMeans(n_clusters=3, random_state=1, n_init=20)
model.fit(X)
model.labels_

fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')
ax.scatter(pca_scores['TCGA1'], pca_scores['TCGA2'], pca_scores['TCGA3'],
           c=model.labels_, cmap='rainbow')
ax.set_xlabel('TCGA1')
ax.set_ylabel('TCGA2')
ax.set_zlabel('TCGA3')

plt.show()

9）总代码-生成散点图版

from sklearn.cluster import KMeans
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.model_selection import cross_val_score#交叉val值
from sklearn.linear_model import LinearRegression#线性回归
from sklearn.model_selection import LeaveOneOut
from mpl_toolkits import mplot3d
 
data = pd.read_csv('C:\\Users\\coral\\Desktop\\shujuwajue\\data\\BLCA\\rna.csv')
data = data.iloc[:,1:]#去掉第一列无用的索引
len = data.shape[1]#返回列数,后续经常会用到
#数据标准化	
#实例化
scaler = StandardScaler()
# 训练
scaler.fit(data)  
# 返回转换后的数据
X = scaler.transform(data)  

#主成分PCA拟合
model = PCA()
model.fit(X)  # 用数据集X拟合模型
#每个主成分能解释的方差。代表降维后的各主成分的方差值。方差值越大，则说明越是重要的主成分
model.explained_variance_
#每个主成分能解释的方差的百分比。代表降维后的各主成分的方差值占总方差值的比例，这个比例越大，则越是重要的主成分
model.explained_variance_ratio_

# #可视化
# plt.plot(model.explained_variance_ratio_, marker='o', markersize=2)

# plt.xlabel('主成分分析')
# plt.ylabel('方差解释比例')
# plt.title('PCA')

# plt.show()

# # 画累计百分比，这样可以判断选几个主成分
# x=range(1,len+1)
# y = model.explained_variance_ratio_.cumsum()

# plt.plot(x,y, marker='o', markersize=3)
# plt.xlabel('主成分分析')
# plt.ylabel('方差解释比例的百分比')
# plt.axhline(0.9, color='k', linestyle='--', linewidth=1)

# # print(y)

# #标出前三个主成分的占比
# r=0
# for a, b in zip(x, y):
#     r+=1
#     plt.text(a, b, b)
#     if r>=3:
#         break

# plt.title('BLCA-Cumulative PVE/累计百分数',fontsize=20)

# plt.show()

#主成分核载矩阵
model.components_

columns = ['TCGA' + str(i) for i in range(1, len+1)]

pca_loadings = pd.DataFrame(model.components_, columns=data.columns, index=columns)
round(pca_loadings, 2)

# PCA Scores
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用于正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False#用于正常显示负数

pca_scores = model.transform(X)
pca_scores = pd.DataFrame(pca_scores, columns=columns)
pca_scores.shape
pca_scores.head()

#前两个主成分的可视化

sns.scatterplot(x='TCGA1', y='TCGA2', data=pca_scores)
plt.title('Biplot',fontsize=40)

plt.show()

# #三个主成分的可视化图，三维图
# fig = plt.figure()
# ax = fig.add_subplot(111, projection='3d')
# ax.scatter(pca_scores['TCGA1'], pca_scores['TCGA2'], pca_scores['TCGA3'], c='b')
# ax.set_xlabel('TCGA1')
# ax.set_ylabel('TCGA2')
# ax.set_zlabel('TCGA3')

# plt.show()

# #利用K均值聚类对三个主成分聚类，可视化
# model = KMeans(n_clusters=3, random_state=1, n_init=20)
# model.fit(X)
# model.labels_

# fig = plt.figure()
# ax = fig.add_subplot(111, projection='3d')
# ax.scatter(pca_scores['TCGA1'], pca_scores['TCGA2'], pca_scores['TCGA3'],
#            c=model.labels_, cmap='rainbow')
# ax.set_xlabel('TCGA1')
# ax.set_ylabel('TCGA2')
# ax.set_zlabel('TCGA3')

# plt.show()

4.不同种类癌症对比

1.BLCA

第一主成分占比68.80%，第二主成分占比4.72%，第三主成分占比2.71%。

2.BRCA

第一主成分占比76.55%，第二主成分占比1.35%，第三主成分占比0.94%。

3.KIRC

第一主成分占比80.69%，第二主成分占比1.52%，第三主成分占比1.02%。

4.LUAD

第一主成分占比75.75%，第二主成分占比1.60%，第三主成分占比1.22%。

5.PAAD

第一主成分占比78.38%，第二主成分占比2.48%，第三主成分占比1.69%。

二、类概念描述及特征化分析

概念描述是指为数据的特征化和比较产生描述。

数据概化就是将数据库中的跟任务相关的数据集从较低的概念层抽象到较高的概念层的过程。

1.类特征化和类对比分析

数据特征化是目标数据的一般特性或特性的汇总。
数据对比分析是将目标类数据对象的一个特性与一个或多个对比类对象的一般特性进行比较。

特征类型判断以及处理是前期特征工程重要的一环，也是决定特征质量好坏和权衡信息丢失最重要的一环。

按照数据存储的数据格式可以归纳为两类：

按照特征数据含义又可分为：

离散型随机变量：取值只能是可取范围内的指定数值类型的随机变量，比如年龄、车流量此类数据。
连续随机变量：按照测量或者计算方法得到，在某个范围内连取n个值，此类数据可化为定类数据。
二分类数据：此类数据仅只有两类：例如是与否、成功与失败。
多分类数据：此类数据有多类：例如天气出太阳、下雨、阴天。
周期型数据：此类数据存在一个周期循环：例如周数月数。

2.类特征化分析-实操

在实际工作场景中，样本数据往往会包含多个特征，而且通过业务经验是无法区分类别的，因此必然需要借助于相关聚类算法进行实现。常用的聚类算法包括K-means、DBSCAN等，都可以有效划分样本的类别属性。我们先进行PCA，然后采用K-means聚类算法。

如下图，是癌症数据集前三个主成分的可视化图表：

代码：

from sklearn.cluster import KMeans
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.model_selection import cross_val_score  # 交叉val值
from sklearn.linear_model import LinearRegression  # 线性回归
from sklearn.model_selection import LeaveOneOut
from mpl_toolkits import mplot3d

data = pd.read_csv(
    'C:\\Users\\coral\\Desktop\\shujuwajue\\data\\PAAD\\rna.csv')
data = data.iloc[:, 1:]  # 去掉第一列无用的索引
len = data.shape[1]  # 返回列数,后续经常会用到

#采用z-score标准化（归一化）数据标准化
#实例化
scaler = StandardScaler()
# 训练
scaler.fit(data)
# 返回转换后的数据
X = scaler.transform(data)
#主成分PCA拟合
model = PCA()
model.fit(X)  # 用数据集X拟合模型
#每个主成分能解释的方差。代表降维后的各主成分的方差值。方差值越大，则说明越是重要的主成分
model.explained_variance_
#每个主成分能解释的方差的百分比。代表降维后的各主成分的方差值占总方差值的比例，这个比例越大，则越是重要的主成分
model.explained_variance_ratio_

#主成分核载矩阵
model.components_

columns = ['TCGA' + str(i) for i in range(1, len+1)]

pca_loadings = pd.DataFrame(
    model.components_, columns=data.columns, index=columns)
round(pca_loadings, 2)  # 四舍五入到指定的2位小数

# PCA Scores

pca_scores = model.transform(X)
pca_scores = pd.DataFrame(pca_scores, columns=columns)
pca_scores.shape
# 读取矩阵的长度，比如shape[0]就是读取矩阵第一维度的长度。
pca_scores.head()
#head()函数是查看向量，矩阵或数据框等数据的部分信息，它默认输出数据框前6行数据，与其相对的是tail()，查看的是数据框最后的6行数据。
# 两者都可以添加一个参数n来控制显示的行数。

plt.rcParams['font.sans-serif'] = ['SimHei']  # 用于正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用于正常显示负数

#利用K均值聚类对三个主成分聚类，可视化
model = KMeans(n_clusters=3, random_state=1, n_init=20)
model.fit(X)
model.labels_

fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')
ax.scatter(pca_scores['TCGA1'], pca_scores['TCGA2'], pca_scores['TCGA3'],
           c=model.labels_, cmap='rainbow')
ax.set_xlabel('TCGA1')
ax.set_ylabel('TCGA2')
ax.set_zlabel('TCGA3')

plt.title("PAAD-前三个主成分特征化分析", fontsize=20)

plt.show()

3.类对比分析-实操

结果分析：

通过图像分析可得：每种癌症类型选了10个样本，前15个基因，可视化后发现这10个患者对应基因的表达情况很接近。

代码：

import matplotlib.pyplot as plt
import matplotlib.transforms as mtrans
import pandas as pd
import numpy as np
import os
from pathlib import Path

l1 = []  # 用来存储CPU总利用率
l2 = []
l3 = []
l4 = []
l5 = []
l6 = []
l7 = []
l8 = []
l9 = []
l10 = []
x=[]

file = pd.read_csv(
    "C:\\Users\\coral\\Desktop\\shujuwajue\\data\\PAAD\\rna.csv")
file = file.iloc[1:, :]  # 去掉第一行无用的索引
len = file.shape[0]  # 返回行数

f = np.array(file)

i=0
for item in f:
    x.append(item[0])
    l1.append(item[1])
    l2.append(item[2])
    l3.append(item[3])
    l4.append(item[4])
    l5.append(item[5])
    l6.append(item[6])
    l7.append(item[7])
    l8.append(item[8])
    l9.append(item[9])
    l10.append(item[10])
    i+=1
    if(i>=15):
        break

plt.rcParams['font.sans-serif'] = ['SimHei']  # 用于正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用于正常显示负数

plt.plot(x, l1, 'r', marker='o', markersize=2)
plt.plot(x, l2, 'y', marker='o', markersize=2)
plt.plot(x, l3, 'g', marker='o', markersize=2)
plt.plot(x, l4, 'lightgreen', marker='o', markersize=2)
plt.plot(x, l5, 'b', marker='o', markersize=2)
plt.plot(x, l6, 'purple', marker='o', markersize=2)
plt.plot(x, l7, 'deeppink', marker='o', markersize=2)
plt.plot(x, l8, 'orange', marker='o', markersize=2)
plt.plot(x, l9, 'aqua', marker='o', markersize=2)
plt.plot(x, l10, 'black', marker='o', markersize=2)

plt.xlabel('gene_id',fontsize=20)
plt.title("PAAD癌症类型患者的各基因表达情况(前15个为例）", fontsize=25)

plt.show()

###4.属性相关分析和信息增益

属性相关分析：

简而言之就是把不相关和弱相关的属性去除，保留对数据挖掘任务最相关的属性，然后再进行类特征化和类比较分析。

属性相关分析的基本思想是计算某种度量，用于量化属性与给定类或概念的相关性。

信息增益：

信息增益通过计算一个样本分类的期望信息和属性的熵来获得一个属性的信息增益，判定该属性与当前的特征化任务的相关性。

具有高信息增益的属性，是给定集合中具有高区分度的属性。所以可以通过计算样本的每个属性的信息增益，来得到一个属性的相关性的排序。

信息熵 1948年香农提出了信息熵（Entropy）的概念。

1、从信息的完整性上进行的描述:
当系统的有序状态一致时，数据越集中的地方熵值越小，数据越分散的地方熵值越大。
2、从信息的有序性上进行的描述:
当数据量一致时，系统越有序，熵值越低；系统越混乱或者分散，熵值越高。
“信息熵” (information entropy)是度量样本集合纯度最常用的一种指标。

log都是log2。 Ent(D) 的值越小,则D的纯度越高。

信息增益以某特征划分数据集前后的熵的差值。熵可以表示样本集合的不确定性，熵越大，样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。
信息增益 = entroy(前) - entroy(后)

信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度

好的条件就是信息增益越大越好，即变化完后熵越小越好（熵代表混乱程度，最大程度地减小了混乱）。

5.属性相关分析和信息增益-实操

求解在BLCA癌症下，A2BP1|54715和A2ML1|144568两个基因的信息增益。

代码：

import numpy as np
import pandas as pd

# 1. 准备数据
data = pd.read_csv(
    'C:\\Users\\coral\\Desktop\\shujuwajue\\data\\BLCA\\rna.csv',index_col=0)
#index_col=0是为了不产生默认行号

data = data.T

# print(data)
# print(data.groupby("A2BP1|54715"))

#定义计算熵的函数
def ent(data):
    prob1 = pd.value_counts(data) / len(data)
    return sum(np.log2(prob1) * prob1 * (-1))

#定义计算信息增益的函数
def gain(data, str1, str2):
    e1 = data.groupby(str1).apply(lambda x: ent(x[str2]))
    p1 = pd.value_counts(data[str1]) / len(data[str1])
    e2 = sum(e1 * p1)
    print(ent(data[str2]) - e2)
    return ent(data[str2]) - e2

#测试
gain(data, "A2BP1|54715", "A2ML1|144568")

结果：

由公式得到信息增益约为8.64，是很大的数字，说明这两组数据可用性高。

三、参考资料

1.主成分分析

https://www.bilibili.com/video/BV1E5411E71z/

https://blog.csdn.net/weixin_46277779/article/details/125533173

2.类概念描述及特征化分析

https://blog.csdn.net/master_hunter/article/details/126139761

3.信息增益

https://blog.csdn.net/qq_41475067/article/details/113898634

https://blog.csdn.net/spartanfuk/article/details/82052503

Python 成绩等级判定 Camellia 泡泡 python 笔记
score=int(input("请输入学生成绩:"))if90<=score<=100:grade="A"elif75<=score<=90:grade="B"elif60<=score<=75:grade="C"elifscore<60:grade="D"print("本次考试，等级为:",grade)运行结果：
【Python】PDFMiner.six：高效处理PDF文档的Python工具技术无疆 Python python pdf 开发语言 python3.11 人工智能数据挖掘机器学习
PDF是一种广泛使用的文件格式，特别适用于呈现固定布局的文档。然而，提取PDF文件中的文本和信息并不总是那么简单。幸好有许多Python库可以帮助我们，其中，PDFMiner.six是一个功能强大、专门用于PDF文档解析的库。⭕️宇宙起点什么是PDFMiner.six？主要功能安装PDFMiner.six♨️核心功能和代码示例1.提取PDF文档的纯文本2.从多个页面提取文本3.提取PDF中的表格内
25道Python练手题（附详细答案），赶紧收藏！_python题库字节全栈_rJF python 开发语言
importrandomasrdnumber=rd.randint(0,100)foriinrange(10):choice=int(input("请输入你要猜测的数字："))ifchoice>number:print("你猜大了")elifchoice0and5*x+3*y+z/3==100:count+=1print("="*60)print(f'第{count}种买法，公鸡买了{x}只，母鸡
python爱心代码高级 youyouxiong python 开发语言
在Python中，我们可以使用各种方法来绘制一个“爱心”形状。以下是一个使用turtle模块绘制爱心的高级示例。这个示例将使用更复杂的数学公式和图形操作来绘制一个更精致的爱心形状。importturtleimportmath#设置初始状态window=turtle.Screen()window.bgcolor("black")#设置背景色为黑色love=turtle.Turtle()love.sp
python画一个爱心戴子雯 python绘画 python
大家好这是我的地一篇博客，我要写一个关于python的文章我要用python写一个爱心。不说别的，先看效果效果如下：话不多说，上代码，在这之前要下载python下载这事咱们放在最后现在上代码！！！！！！！！！！！！！！importturtleastt.pensize(2)#笔大小2像素t.pencolor("red")#颜色为红色t.left
brew 安装pip_pip brew wget 安装 weixin_32612253 brew 安装pip
终端播放器安装教程从简书上看到一篇,终端实现网易云音乐的文章,并给出了一个github链接.心里有些痒痒,想看看是什么样子,于是尝试安装.安装过程中有些坎坷,记录以便以后查阅.程序实现是用Python写的.安装使用方式仅仅给了三行命令.安装$pipinstallnetease-musicbox$brewinstallmpg123使用$musicbox下载了源码后,不知道该如何安装.三行命令也是莫名
python实现绘制爱心函数（绘制过程） halo0416 python 开发语言
首先，确保已经安装了matplotlib库和numpy库。如果没有安装，可以通过pip来安装：pipinstallmatplotlibpipinstallnumpy了解心形函数公式：x(t)=y(t)=13cos⁡(t)−5cos⁡(2t)−2cos⁡(3t)−cos⁡(4t)定义函数：defheart_shape(t):x=16*np.sin(t)**3y=13*np.cos(t)-5*np.c
python 绘图（爱心） @小H python 开发语言
#-*-coding:utf-8-*-fromturtleimport*defcurvemove():foriinrange(200):right(1)forward(1)color('red','pink')begin_fill()left(140)forward(111.65)curvemove()left(120)curvemove()forward(111.65)end_fill()don
Mulvus向量库数据插入失败排查 Sirius Wu milvus
Mulvus是一个开源的向量数据库，要判断数据是否成功插入以及在插入失败时进行排查，可以参考以下方法：确认数据是否成功插入1.API返回结果在使用Mulvus提供的API插入数据时，API会返回相应的结果信息。以PythonSDK为例，插入数据的代码通常如下：frompymilvusimportconnections,Collection,FieldSchema,CollectionSchema,
使用 Python 绘制爱心图形（高级版）徐浪老师徐浪老师大讲堂 python 开发语言
以下是一段使用Python绘制高级“爱心”图案的代码，结合数学公式生成精美的爱心形状，并附加一些交互式的效果，比如渐变颜色或动态展示：动态渐变爱心importnumpyasnpimportmatplotlib.pyplotaspltimportmatplotlib.animationasanimation#设置爱心的数学公式defheart_shape(t):x=16*np.sin(t)**3y=
2025计算机毕设全流程实战指南：Java/Python+协同过滤+小程序开发避坑手册启点毕设课程设计 java python 大四论文指南查重降重技巧毕业设计 spring
技术框架的选择是项目开发的关键起点，直接影响开发效率和最终成果质量。然而，许多开发者在选择技术框架时面临困难：现有知识储备不足以支撑复杂项目需求，团队经验有限，框架选择缺乏前瞻性常导致后期问题。尽管技术框架的选择过程充满挑战，但合适的框架能为项目开发和维护奠定基础，而不当的选择则可能带来持续的技术债务和开发困扰。所以，建议对项目技术框架把握不好的同学，最好是找自己的研究生学长或者老师详细的把关机技
石油储运生产 2D 可视化，组态应用赋能工业智慧发展智慧园区智慧城市 big data 人工智能大数据物联网网络
当前，国际油价低位徘徊导致各国石油化工行业投资大幅缩减，石油化工建设行业竞争环境日趋严峻，施工企业的利润空间也被不断压缩。内外交困的环境下，促使企业采取更有效的管理手段来提高效率和降低成本。石油工业大数据具有无限潜力与价值，将大数据与数据挖掘技术应用其中，不仅可以提升石油行业工业化水平，而且对其智慧化发展起到强有力的推动作用。图扑软件-构建先进2D和3D可视化所需要的一切图扑软件采用自主研发的HT
pycharm中使用anaconda部署python环境_pycharm部署配置anaconda环境教程 weixin_39796652
本篇文章小编给大家分享一下pycharm部署配置anaconda环境教程，小编觉得挺不错的，现在分享给大家供大家参考，有需要的小伙伴们可以来看看。pycharm部署anaconda环境Pycharm：python编辑器，社区版本Anaconda：开源的python发行版本(专注于数据分析的python版本)，包含大量的科学包环境基本指令(准备工作)：conda--version查看anaconda
python poetry添加某个git仓库的某个分支 waketzheng git
命令行不太清楚怎么弄，但可以通过编辑pyproject.toml实现实例：pypika-tortoise={git="https://github.com/henadzit/pypika-tortoise",branch="do-not-use-builder"}参考：WIPDonotcopypypikaquerybyhenadzit·PullRequest#1851·tortoise/torto
The following modules are *disabled* in configure script:_sqlite3 waketzheng python
Unabletoupgradepast3.6.9-#24byRosuav-PythonHelp-DiscussionsonPython.orgsudoaptinstalllibsqlite3-devcdPython-3.13.1./configure--enable-optimizations--enable-loadable-sqlite-extensionsmakesudomakealtins
CentOS7 python安装Ta-lib 0.6.x【talib不能直接安装，必须先安装ta_lib之c++库才可以】 weixin_43343144 服务器运维
正常流程：CentOS7python安装Ta-lib【talib不能直接安装，必须先安装ta_lib之c++库才可以】_centos7安装ta-lib-CSDN博客不同的版本参考如下！参考官方文档：ta-lib·PyPI务必下载匹配版本的【ta-lib-0.6.4-src.tar.gz】才可以正常安装$wgethttps://github.com/ta-lib/ta-lib/releases/do
【Kivy App】Pyjnius是什么？ Botiway 移动APP Kivy python
Pyjnius是一个Python库，用于在Python中访问Java类和方法，特别适用于在Kivy或其它Python应用中调用AndroidAPI。以下是Pyjnius的详细介绍、安装和使用方法：1.Pyjnius是什么？Pyjnius是一个Python-to-Java的桥接工具，允许Python代码直接调用Java类和方法。它基于JavaNativeInterface(JNI)，主要用于以下场景
基于Python PYQT5 的相机定时采集图像程序，GUI打包独立运行夏时summer time python qt 数码相机相机
基于PythonPYQT5编写相机定时采集图像及手动采集版本介绍Python3.6pyqt55.15.4pyqt5-tools5.15.4.3.2另外就是常用的cv2和numpy包fromPyQt5importQtCore,QtGui,QtWidgetsfromPyQt5importQtCore,QtGui,QtWidgetsimportcv2importnumpyasnpfromdatetime
《AI医疗系统开发实战录》第6期——智能导诊系统实战骆驼_代码狂魔程序员的法宝人工智能 django python neo4j 知识图谱
关注我，后期文章全部免费开放，一起推进AI医疗的发展核心主题：如何构建95%准确率的智能导诊系统？技术突破：结合BERT+知识图谱的混合模型设计一、智能导诊架构设计python基于BERT的意图识别模型（PyTorch）fromtransformersimportBertTokenizer,BertForSequenceClassificationimporttorchclassTriageMod
量化交易系统中如何处理机器学习模型的训练和部署？ openwin_top 量化交易系统开发机器学习人工智能量化交易
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位量化交易系统中，机器学习模型的训练和部署需要遵循一套严密的流程，以确保模型的可靠性、性能和安全性。以下是详细描述以及相关的示例：1.数据收集和预处理数据收集在量化交易中，数据是最重要的资产。收集的数
Mac下载python并安装小小酥*
下载pythonPython官网：https://www.python.org/进入官网后点击download，选择MacOSX版本2.安装MAC系统一般都自带有Python2.x版本的环境，你也可以在链接https://www.python.org/downloads/mac-osx/上下载最新版安装。3.设置环境变量程序和可执行文件可以在许多目录，而这些路径很可能不在操作系统提供可执行文件的搜
Python使用minIO上传下载身似山河挺脊梁 python
前提VSCode+Python3.9minIO有Python的例子1.python生成临时文件2.写入一些数据3.上传到minIO4.获取分享出连接5.发出通知#创建一个客户端minioClient=Minio(endpoint='xx',access_key='xx',secret_key='xx',secure=False)#生成文件名current_datetime=datetime.dat
深入理解Python上下文管理器 ……-…… python 开发语言
1.什么是上下文管理器？2.with语句的魔法3.创建上下文管理器的两种方式3.1基于类的实现3.2使用contextlib模块4.异常处理1.什么是上下文管理器？上下文管理器（ContextManager）是Python中用于精确分配和释放资源的机制。它通过__enter__()和__exit__()两个魔术方法实现了上下文管理协议，确保即使在代码执行出错的情况下，资源也能被正确清理。#经典文件
【Appium】Appium征服安卓自动化：GitHub 10.5k+星开源神器，Python代码实战全解析！山河不见老 python 测试 appium android 自动化
Appium一、为什么开发者都在用Appium？二、环境搭建：5分钟极速配置2.1核心工具链2.2安卓设备连接三、脚本实战：从零编写自动化操作3.1示例1：自动登录微信并发送消息3.2示例2：动态滑动屏幕与数据抓取四、避坑指南4.1元素定位优化4.2稳定性增强4.3云真机集成五、生态扩展：超越安卓的自动化版图一、为什么开发者都在用Appium？万星认证：GitHub超10.5k+星标，活跃社区持续
基于Streamlit实现的音频处理示例大霸王龙音视频 ffmpeg
基于Streamlit实现的音频处理示例，包含录音、语音转文本、文件下载和进度显示功能，整合了多个技术方案：一、环境准备#安装依赖库pipinstallstreamlitstreamlit-webrtcaudio-recorder-streamlitopenai-whisperpython-dotx二、完整示例代码importstreamlitasstfromaudio_recorder_stre
npm错误 gyp错误 vs版本不对 msvs_version不兼容澎湖Java架构师前端 html npm node.js 前端
npm错误gyp错误vs版本不对msvs_version不兼容windowsSDK报错执行更新GYP语句第一种方案第二种方案执行更新GYP语句npminstall-gnode-gyp最新的GYP好像已经不支持Python2.7版本，npm会提示你更新都3.*.*版本安装Node.js的时候一定要勾选以下这个，会自动检测安装缺少的环境第一种方案管理员运行CMD（PowerShell也行）执行更新工具
深入了解 ArangoDB 的图数据库应用与 Python 实践 eahba 数据库 python 开发语言
在当前数据驱动的时代，对连接数据的高效处理和分析需求日益增长。ArangoDB作为一个可扩展的图数据库系统，能够加速从连接数据中获取价值。本文将介绍如何使用Python连接和操作ArangoDB，并展示如何结合图问答链来获取数据洞察。技术背景介绍ArangoDB是一个多模型数据库，支持文档、图和键值类型的数据存储。其强大的图形存储和查询能力使其成为处理复杂数据关系的理想选择。通过JSON支持和单一
不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
一、Python入门基础 MeyrlNotFound python 开发语言
1.Python简介与环境搭建•了解Python的历史、特点和应用领域Python的历史Python是一种高级编程语言，由GuidovanRossum于1989年发明。Python语言的设计目标是让代码易读、易写、易维护，从而提高开发效率和代码质量。自其诞生以来，Python已从一个简单的系统管理工具发展成为一种广泛应用于多个领域的编程语言。Python的特点1.简单易学：Python的语法简洁明
npm error gyp info 计算机辅助工程 npm 前端 node.js
在使用npm安装Node.js包时，可能会遇到各种错误，其中gyp错误是比较常见的一种。gyp是Node.js的一个工具，用于编译C++代码。这些错误通常发生在需要编译原生模块的npm包时。下面是一些常见的原因和解决方法：常见原因及解决方法Python未安装或版本不兼容：Node.js使用Python来运行gyp。确保你的系统上安装了Python，并且版本与node-gyp兼容。通常推荐使用Pyt
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/

用python对数据进行主成分分析、类概念描述及特征化分析-实验报告

一、主成分分析（PCA）

1.理论学习

数据的线性变化：

拉伸

旋转

总流程

2.实验目的

3.实验过程（以BLCA为例）

0）导入包和数据：

1）数据标准化：

2）主成分pca拟合：

3）计算累计百分比，这样可以判断选几个主成分：

4）主成分载荷矩阵

5）计算每个样本的主成分得分

6）前两个主成分的可视化，散点图

7）三个主成分的可视化图，三维图

8）利用K均值聚类对三个主成分聚类，可视化

9）总代码-生成散点图版

4.不同种类癌症对比

1.BLCA

2.BRCA

3.KIRC

4.LUAD

5.PAAD

二、类概念描述及特征化分析

1.类特征化和类对比分析

2.类特征化分析-实操

3.类对比分析-实操

5.属性相关分析和信息增益-实操

三、参考资料

你可能感兴趣的:(数据挖掘,python,数据挖掘)