快乐小虎鲸biubiu

【数据挖掘】数据预处理

现实生活中的数据极易收到噪声、缺失值和不一致数据的影响。数据预处理是数据挖掘过程中的第一个步骤，主要有数据清洗、数据集成、数据归约和数据变换等方式。

一、数据预处理的必要性

数据的质量决定了数据挖掘的效果。而在原始数据中，大多数据都是Dirty数据，他们存在以下几个方面的问题。

数据不一致
噪声数据
缺失值

那，既然数据如此重要，我们就需要一套体系来评估数据的好坏不是吗

1️⃣ 准确性

数据记录是否存在异常或者误差

2️⃣ 一致性

数据是否符合某一规则

3️⃣ 完整性

是否存在确实

4️⃣ 时效性

能否及时更新

5️⃣ 可信性

用户可以信赖的数据

6️⃣ 可解释性

是否易于理解

二、数据清洗

2.1 数据清洗方法

1️⃣ 缺失值处理

忽略元组
人工填写缺失值
使用常量填充缺失值
使用中心趋势度填充缺失值
采用均值或者中位数填充
利用最可能的值进行填充

2️⃣ 噪声数据处理

分箱–借助邻域来光滑数据值
回归–采样函数来拟合光滑数据
离去点分析

2.2 基于Pandas进行数据清洗

1️⃣ 检测与处理缺失值

检测非空值

.isnull()

统计非空值

.isnull().sum()

查看非空值

df.info()

2️⃣ 缺失值处理

️ 删除

dropna()

dropna()对于Series，会返回一个仅含非空数据和索引的Series，而对于一个DataFrame对象，则会默认丢弃任何含有缺失值的行。

参数	说明
axis	0是行 1是列
how	确认缺失值的个数，'any’表示只要有缺失值就丢了,'all’则要全部
thresh	可以确定缺失值阈值
subset	只对子列进行操作，例如subset=[‘a’,'b]
inplace	不返回

️ 填充

fillna()

参数	说明
value	用于填充缺失值的标量值或者字典对象
method	插值方法
axis	待填充的轴
inplace	原地修改
limit	可以连续填充的最大数量

举个栗子

fillna()可以通过字典的方式进行填充。

df=pd.DataFrame(np.random.randn(5,3))
df.iloc[:3,1:]=pd.NA
print(df)
print(df.fillna({1:0.1,2:0.2}))

          0         1         2
0  0.078301      <NA>      <NA>
1  1.310107      <NA>      <NA>
2  0.025339      <NA>      <NA>
3  0.011049 -0.053258 -0.259365
4  0.664727  0.023836 -2.092003
          0         1         2
0  0.078301  0.100000  0.200000
1  1.310107  0.100000  0.200000
2  0.025339  0.100000  0.200000
3  0.011049 -0.053258 -0.259365
4  0.664727  0.023836 -2.092003

使用均值填充：

data.fillna(data.mean())

3️⃣ 数据值替换

通过relpace()方法进行替换

data={'姓名':['张三','小明','马芳','国志'],'性别':['0','1','0','1'],
      '籍贯':['北京','甘肃','','上海']}
df=pd.DataFrame(data)
df=df.replace('','我是你爹')
print(df)

   姓名 性别    籍贯
0  张三  0    北京
1  小明  1    甘肃
2  马芳  0  我是你爹
3  国志  1    上海

当然，也可以通过传入列表的方式进行多列更改：

df=df.replace(["我是你爹","北京"],["北京","PK"])
print(df)

哦提一嘴，这里需要接收！！

   姓名 性别  籍贯
0  张三  0  PK
1  小明  1  甘肃
2  马芳  0  北京
3  国志  1  上海

不难发现，第一个列表是需要替换的值，第二个列表是替换后的值，且他们之间是并行的！不能链式替换~

也可以通过字典实现多值替换

df=df.replace({"1":"男","0":'女'})
print(df)

   姓名 性别  籍贯
0  张三  女  PK
1  小明  男  甘肃
2  马芳  女  北京
3  国志  男  上海

通过自定义函数map实现~！

data={'姓名':['张三','小明','马芳','国志'],'性别':['0','1','0','1'],
      '籍贯':['北京','甘肃','','上海']}
df=pd.DataFrame(data)
df['成绩']=[58,62,71,99]

def grade(x):
    if x>=90:
        return "优"
    if x>=80:
        return "良"
    if x>=60:
        return "及格"
    else:
        return "不及格"

df['成绩']=df['成绩'].map(grade)
print(df)

   姓名 性别  籍贯   成绩
0  张三  0  北京  不及格
1  小明  1  甘肃   及格
2  马芳  0       及格
3  国志  1  上海    优

4️⃣ 异常值检测

散点图

wdf=pd.DataFrame(np.arange(20),columns=['W'])
wdf['Y']=wdf['W']*1.5+2
wdf.iloc[3,1]=128
wdf.iloc[18,1]=150
wdf.plot(kind='scatter',x='W',y='Y')
plt.show()

箱线图

plt.boxplot(wdf['Y'].values,notch=True)
plt.show()

3 $\sigma$ 法则

数据服从正态分布时，在 $3\sigma$ 法则下，异常值被定义为一组测定值中与均值偏差超过三倍标准差 $\sigma$ 的值。因为在正态分布下，距离均值 $3\sigma$ 之外的值出现的概率小于 $0.003$ ，可看做小概率时间。

def outRange(S):
    blidx=(S.mean()-3*S.std()>S)|(S.mean()+3*S.std()<S)
    idx=np.arange(S.shape[0])[blidx]
    outRange=S.iloc[idx]
    return outRange
print(outRange(wdf['Y']))

18    150.0
Name: Y, dtype: float64

值得注意的是啊，像这种表达式

S.mean()-S.std()>S

会返回有个只有True或者False的Series，也就是0,1。此时可以用位运算|保留1的结果。

但是拿到了Series，我们还要原始数据呐不是，所以还需要获取原始数据

idx=np.arange(S.shape[0])[blidx]
S.iloc[idx]

2.3 数据集成

有时候需要挖掘的数据可能来自多个数据源，导致数据存在冗余与不一致的情况。数据集成是将多个数据源中的数据合并，并存放到一个一致的数据存储中。

1️⃣ 数据冗余和相关性分析

冗余是数据继承的重要问题，如果一个属性能由另一个属性或者另一组属性值推导而出，那么这个属性可能就是冗余的哦。此外，属性命名不一致也会导致冗余。

我们下面介绍如何判断属性是不是冗余的哈！

$\chi^2$ 检验

卡方检验适用于标称属性，假设对于两个属性 $A, B$ , $A$ 有 $c$ 个不同的取值， $B$ 有 $r$ 个不同的取值，用 $A$ 和 $B$ 描述的数据元组可以用一个相依表显示，其中 $A$ 的 $c$ 个值构成列， $B$ 的 $r$ 个值构成行。 $A_i,B_j)$ 表示属性 $A$ 取 $i$ ，属性 $B$ 取 $j$ 的联合事件。
$\chi^2=\sum_{i=1}^c\sum_{j=1}^c\frac{(o_{ij}-e_{ij})^2}{e_{ij}}$
其中 $O_{ij}$ 表示联合事件的观测频度， $e_{ij}$ 表示期望频度，计算式为：
$e_{ij}=\frac{count(A=a_i)\times count(B=b_j)}{n}$
$n$ 为元组个数。

相关系数

又称为皮尔逊矩阵系数(Pearson)，相关系数 $r_{A,B}$ 可定义为：
$r_{A,B}=\frac{\sum_1^n(a_i-\bar{A})(b_i-\bar{B})}{n\sigma_A\sigma_B}=\frac{\sum_1^n(a_ib_j)-n\bar{A}\bar{B}}{n\sigma_A\sigma_B}$
其中 $n$ 为元组个数， $\bar{A}$ 为均值， $\sigma$ 为标准差， $a_i,b_i$ 为元组 $i$ 在 $A B$ 上的取值。

若 $A B$ 独立，则 $r_{A,B}=0$ ，取值范围为 $- 1, 1$

协方差
$C o v (X, Y) = E [(X - E (X)) (Y - E (Y))] = E (X Y) - E (X) E (Y)$
实现

df.A.cov(df.B)
df.A.corr(df.B)

协方差反映二者趋势程度，取值没有界定，而相关系数则是将其标准化后评估趋近程度，具有取值界定。

2️⃣ 基于Pandas进行数据合并

merge()

例如

pd.merge(a,b,left_on="fruit",right_on="green",how="left")

在合并过程中可能或出现重复列名，我们可以通过suffixes进行修改

pd.merge(left,right,on="key1",suffixes=('_left','_right'))

concat()

例如

pd.concat([data1,data2],axis=0,join="inner",sort="False")

如果需要合并的两个DF存在重复索引，那么前面两个函数将无法正确合并，我们可以使用combine_first()进行合并，该方法会优先考虑第一个值。

2.4 数据标准化

由于量纲的问题，不同特征之间可能会产生较大的影响。为此，往往需要对数据进行标准化处理。

1️⃣ 离差标准化

做一个简单的线性变化，将数据映射到 $[0, 1]$
$x_1=\frac{x-min}{max-min}$

2️⃣ 标准差标准化

又称零均值标准化或 $z$ 分数标准化，处理后的均值为 $0$ ，标准差为 $1$
$x_1=\frac{x-mean}{std}$

2.5 数据归约

Data Reduction是指在尽可能保证数据完整性的基础上得到数据的归约表示。也就是说，在归约后的数据集上挖掘更加有效，且会产生相同或相似的结果。

1️⃣ 维归约

减少随机变量或属性的个数，常见的方法有：

属性子集选择
小波变换
主成分分析

属性子集选择

通过删除不相关或冗余属性减少数据量，旨在找出最小属性集，使其分布尽可能接近原始分布。

如何选择一个好的子集？穷举是不显示的，所以一般使用压缩空间的启发式算法进行最优子集选取。

基本的启发式算法包含以下技术：

逐步向前选择
- 也就是状态移动
逐步向后删除
- 末位淘汰
选择+删除
- 混合
决策树归纳

小波变换

这玩意继承和发展了短时傅里叶变换局部化的思想，又克服了窗口大小不随频率变化等缺点。能提供一个随频率改变的时间-频率窗口，是进行信号时频分析和处理的理想工具。

一般在频域，信号能量主要集中在低频，可以截取中低频系数保留近似的压缩数据。

主成分分析

PCA搜索 $k$ 个最能代表数据的 $n$ 维正交向量，是最常使用将为方法。

核心思想是找到数据里最主要的方面代替原始数据。

步骤

对样本中心化 $x(i)=x(i)-\frac{1}{m}\sum_{j=1}^mx(j)$
计算样本的协方差矩阵 $xx^T$
对协方差矩阵进行特征分析
取出最大的 $n$ 个特征值对应的特征向量 $w_1,w_2,...,w_n)$ ，将所有的特征向量标准化后，组成特征向量矩阵 $W$
将每个样本通过特征向量矩阵转化为新的样本，并得到样本集 $z(i)=W^Tx(i)$

尝试

对鸢尾花数据集进行降维

import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris

data=load_iris()
y,x=data.target,data.data

pca=PCA(n_components=2)
reduced_x=pca.fit_transform(x)

# 绘出降维后的样本点分布
red_x,red_y=[],[]
blue_x,blue_y=[],[]
green_x,green_y=[],[]

for i in range(len(reduced_x)):
    if y[i]==0:
        red_x.append(reduced_x[i][0])
        red_y.append(reduced_x[i][1])
    elif y[i]==1:
        blue_x.append(reduced_x[i][0])
        blue_y.append(reduced_x[i][1])
    else:
        green_x.append(reduced_x[i][0])
        green_y.append(reduced_x[i][1])
plt.scatter(red_x,red_y,c='r',marker='X')
plt.scatter(blue_x,blue_y,c='b',marker='D')
plt.scatter(green_x,green_y,c='g',marker='.')
plt.show()

2️⃣ 数量归约

用较小、替代的数据表示原始数据。

回归和对数线性模型
直方图
积累
抽样
数据立方体聚类
数据压缩

2.6 数据变换与数据离散化

数据变换是一种将原始数据变化为比较合适的数据格式的方法，以便作为数据处理前特定数据挖掘算法的输入。

数据离散化则是一种数据变化的形式。

数据变换的策略

1️⃣ 光滑

2️⃣ 属性构造

3️⃣ 聚集

4️⃣规范化

5️⃣ 离散化

用于将概念标签递归组织成更高层的概念，形成数值属性的概念分层，以便不同用户需要

分箱离散化
- 基于指定的箱个数的自顶向下的分裂技术，例如使用等宽或等频分箱，再通过箱均值或者中位数替换箱中的每个值，使得属性值离散化。
直方图离散化
- 可以按照规定生成直方图，并且递归调用产生概念级
聚类、决策树、相关性分析进行离散化

Python数据变化与离散化

1️⃣ 数据规范化

import pandas as pd
import numpy as np

a=[47,83,81,18,72,41]
b=[56,96,84,21,87,67]

data=np.array([a,b]).T
df=pd.DataFrame(data,columns=["A","B"])
print("离差标准化: ",(df-df.min())/(df.max()-df.min()))
print("标准差标准化: ",(df-df.mean())/df.std())

离差标准化:            A         B
0  0.446154  0.466667
1  1.000000  1.000000
2  0.969231  0.840000
3  0.000000  0.000000
4  0.830769  0.880000
5  0.353846  0.613333

标准差标准化:            A         B
0 -0.386103 -0.456223
1  1.003868  1.003690
2  0.926648  0.565716
3 -1.505803 -1.733646
4  0.579155  0.675209
5 -0.617765 -0.054747

2️⃣ 哑变量处理

pd.get_dummies(df)

3️⃣ 连续变量的离散化

等宽法

pd.cut(x,bins,right=True,labels=None,retbins=False,precision=3)

举个栗子

np.random.seed(666)
score_list=np.random.randint(25,100,size=10)
print("原始数据",score_list)
bins=[0,59,70,80,100]
score_cut=pd.cut(score_list,bins)
print(pd.value_counts(score_cut))
c=pd.get_dummies(score_cut)
print(c)

原始数据 [27 70 55 87 95 98 55 61 86 76]
(80, 100]    4
(0, 59]      3
(59, 70]     2
(70, 80]     1
dtype: int64
   (0, 59]  (59, 70]  (70, 80]  (80, 100]
0        1         0         0          0
1        0         1         0          0
2        1         0         0          0
3        0         0         0          1
4        0         0         0          1
5        0         0         0          1
6        1         0         0          0
7        0         1         0          0
8        0         0         0          1
9        0         0         1          0

等频法

def SameRateCut(data,k=2):
    w=data.quantile(np.arange(0,1+1.0/k,1.0/k))
    data=pd.cut(data.w)
    return data

简单介绍一下这个方法啊，quantile表示返回指定位置 $q$ 的百分位数，通过这个方法生成等频率。

聚类分析法

简单来说，有两步：

将连续性数据用聚类算法进行聚类，处理聚类得到的簇
为合并到一个簇的连续性数据做统一标记

2.7 基于scikit-learn进行数据预处理

1️⃣ 数据标准化与缩放

这边有一个api

sklearn.preprocessing.scale(X,axis=0,with_mean=True,with_std=True,copy=True)

实际作用

import sklearn.preprocessing as pre
import numpy as np

x_train=np.array([[1.,-2.,1.5],[2.2,1.3,0.5],[0.3,1.,-1.5]])
x_scaled=pre.scale(x_train)
print("均值: ",x_scaled.mean(axis=0))
print("标准差: ",x_scaled.std(axis=0))

均值:  [0. 0. 0.]
标准差:  [1. 1. 1.]

此外，pre模块还提供了一个实用程序类StandardScaler，可以记录训练时的参数，以便进行相同的转换。

scale=pre.StandardScaler().fit(x_train)
scale.transform(x_test)

2️⃣ 特征缩放

这里介绍三个API

pre.MinMaxScaler() # 范围为[0,1]
pre.MaxAbsScaler() # 范围为[-1,1]
pre.RobustScaler() # 适用于异常值较多

3️⃣ 非线性变换

非线性变换分为分位数变换和幂变换。二者都能保证每个特征值的秩。分位数变换将所有特征置于相同的期望分布中，而幂变换则是将数据从任意分布映射到接近高斯分布的位置。

映射到[0,1]均匀分布

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn import preprocessing
import matplotlib.pyplot as plt

X,y=load_iris(return_X_y=True)
X_train,X_test,Y_train,Y_test=train_test_split(X,y,random_state=0)

# 分位数变换
quantile_transformer=preprocessing.QuantileTransformer(random_state=0)
X_train_trans=quantile_transformer.fit(X_train)
X_test_trans=quantile_transformer.transform(X_test)

# 查看分布
fig,ax=plt.subplots(1,2)
ax[0].hist(X_test_trans)
ax[1].hist(X_train)
plt.show()

映射到高斯分布

高斯分布具有稳定的方差和最小化偏度，PowerTransformer提供了两种幂变换：Yeo-Johnson和Box-Cox变换，Box-Cox仅可用于严格的政数局，这两种变换均通过lambda进行参数化，通过最大似然进行估计。

pt=preprocessing.PowerTransformer(method='box-cox',standardize=False)
X_lognormal=np.random.RandomState(616).lognormal(size=(300,30))
fig,ax=plt.subplots(1,2)
ax[0].hist(X_lognormal)

T=pt.fit_transform(X_lognormal)
ax[1].hist(T)
plt.show()

映射到正态分布

这里我们调用QuantileTransformer(output_distribution="normal")

pt=preprocessing.QuantileTransformer(output_distribution="normal")
X_lognormal=np.random.RandomState(616).lognormal(size=(300,30))
fig,ax=plt.subplots(1,2)
ax[0].hist(X_lognormal)

T=pt.fit_transform(X_lognormal)
ax[1].hist(T)
plt.show()

4️⃣ 正则化

正则化是将单个样本缩放到单位范数中(每个样本范数为1)，如果计划使用点积或者其他核的二次形式量化任意一堆样本的相似性，此过程可能会很有用。通常使用于文本分类和聚类中。
$make\ ||a||=1$

x=[[1.,-1.,2.],[2.,0.,0.],[0.,1.,-1.]]
# l2正则化
x_nor=preprocessing.normalize(x,norm="l2")
print(x_nor)

[[ 0.40824829 -0.40824829  0.81649658]
 [ 1.          0.          0.        ]
 [ 0.          0.70710678 -0.70710678]]

同样也有一个Normalizer类，可以通过TransformerAPI实现相同操作。

5️⃣ 编码分类特征

如果要把定性数据转化为整数，可以使用OrdinalEncoder，该估计其可以将每个范畴特征转换为整数的一个新特征。

enc=preprocessing.OrdinalEncoder()
x=[['m','g','17'],['fm','r','22']]
enc.fit(x)
print(enc.transform([['fm','r','17']]))

[[0. 1. 0.]]

除此之外，有个升级版的OneHotEncoder，这玩意可以将n_categories转化为一个二进制编码。

enc=preprocessing.OneHotEncoder()
x=[['m','g','17'],['fm','r','22']]
enc.fit(x)
print(enc.transform([['fm','r','17'],['m','g','22']]).toarray())

[[1. 0. 0. 1. 1. 0.]
 [0. 1. 1. 0. 0. 1.]]

6️⃣ 离散化

离散化预处理可以将非线性特征引入线性模型中。

K桶离散化

KBinsDiscretizer将特征离散到K个桶中

介绍

分桶是离散化的常用方法，将连续型特征离线化为一系列0/1的离散特征。

当数值特征跨越不同的数量级的时候，模型可能只会对大的特征值敏感，这种情况就可以考虑分桶操作。

分桶操作可以看作是对数值变量的离散化，然后通过二值化进行 one hot 编码。

优点

1️⃣分桶后得到的稀疏向量，内积乘法运算速度更快，计算结果更方便存储。

2️⃣对异常数据有很强的鲁棒性。

X = np.array([[-3.,5.,15],[0.,6.,14],[6.,3.,11]])
est = preprocessing.KBinsDiscretizer(n_bins=[3,2,2],encode='ordinal').fit(X)


print(est.transform(X))

[[0. 1. 1.]
 [1. 1. 1.]
 [2. 0. 0.]]

特征二值化

特征二值化是对数字特征进行于阈值化以获得布尔值的过程。

X = [[1.,-1.,2.],[2.,0.,0.],[0.,1.,-1.]]
binarizer = preprocessing.Binarizer().fit(X)
Y1 = binarizer.transform(X)
print(Y1)
binarizer = preprocessing.Binarizer(threshold=1.1)
Y2 = binarizer.transform(X)
print(Y2)

[[1. 0. 1.]
 [1. 0. 0.]
 [0. 1. 0.]]
[[0. 0. 1.]
 [1. 0. 0.]
 [0. 0. 0.]]

你可能感兴趣的:(Python,Data,Mining,数据挖掘,pandas,python)

SnowConvert：自动化数据迁移的技术解析与最佳实践 weixin_30777913 迁移学习数据库运维
SnowConvert是Snowflake生态系统的关键迁移工具，专为将传统数据仓库（如Oracle、Teradata、SQLServer等）的代码资产高效、准确地转换为Snowflake原生语法而设计。以下基于官方文档对其技术原理、工作流程及最佳实践进行深入分析：一、SnowConvert核心技术解析精准的语法映射引擎语言支持：深度解析源系统特有语法（OraclePL/SQL,TeradataB
【Python】如何使用.whl文件安装Python包？ civilpy python 开发语言
基本原理在Python的世界中，.whl文件是一种分发格式，它代表“Wheel”。Wheel是一种Python包格式，旨在提供一种快速、可靠且兼容的方式，用于安装Python库。与源代码包相比，Wheel文件是预编译的，这意味着它们已经包含了编译后的扩展模块，这使得安装过程更快，更简单。代码示例以下是使用.whl文件安装Python包的示例步骤：示例1：基本安装假设你已经下载了一个名为exampl
如何安装 `.whl` 文件（Python Wheel 包）喝醉酒的小白 Liunx Python模块 python 开发语言
目录标题如何安装`.whl`文件（PythonWheel包）安装前提安装方法（3种）方法1：直接使用pip安装（推荐）方法2：先进入文件目录再安装方法3：使用绝对路径（适合脚本中调用）⚠️常见问题解决问题1：版本不兼容错误问题2：缺少依赖问题3：权限不足验证安装进阶技巧如何安装.whl文件（PythonWheel包）.whl文件是Python的二进制分发格式（Wheel格式），用于快速安装Pyth
Python 数据挖掘实战：关联规则与聚类分析，解锁数据价值的钥匙清水白石008 python Python题库 python 数据挖掘动画
Python数据挖掘实战：关联规则与聚类分析，解锁数据价值的钥匙引言在数字化浪潮席卷全球的今天，数据已成为企业和组织最重要的战略资产。海量数据蕴藏着巨大的价值，等待我们去挖掘和发现。数据挖掘(DataMining)，作为从海量数据中提取有价值知识和模式的关键技术，正日益受到各行各业的重视。它如同探矿者的火眼金睛，能够穿透数据的迷雾，发现隐藏在背后的规律和趋势，为商业决策、科学研究和社会发展提供强有
PyWavelets shangjg3 PyTorch pytorch 人工智能 python
PyWavelets（pywt）是Python中用于小波变换的核心库，提供了丰富的信号处理和图像处理功能。以下是其核心功能的详细介绍：1.小波变换基础（1）离散小波变换（DWT）将信号分解为近似系数（Approximation）和细节系数（Detail）。importpywtimportnumpyasnp#示例信号signal=np.array([1
Anaconda插件开发 lyh1344 数据库开发
开发环境准备安装Anaconda或Miniconda，确保conda命令可用。推荐使用Python3.7及以上版本。创建独立的开发环境以避免依赖冲突：condacreate-nplugin_devpython=3.8condaactivateplugin_dev插件结构设计Anaconda插件通常采用Python包的标准结构。核心文件包括__init__.py和setup.py。典型目录结构如下：
Python3 数字(Number) froginwe11 开发语言
Python3数字(Number)引言在编程语言中，数字是构成程序的基础元素之一。Python3作为一种高级编程语言，提供了丰富的数字类型和操作方法。本文将详细介绍Python3中的数字类型，包括整数、浮点数、复数等，并探讨它们的特性和应用。整数（Integer）整数是Python3中最基本的数据类型之一，用于表示没有小数部分的数值。在Python3中，整数类型没有大小限制，可以表示任意大小的整数
Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
Web3前沿科技：开启数字资产交易新征程 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据 web3 科技 ai
Web3前沿科技：开启数字资产交易新征程关键词：Web3、数字资产交易、区块链、智能合约、去中心化金融摘要：本文聚焦于Web3前沿科技在数字资产交易领域的应用与发展。详细阐述了Web3的核心概念、相关技术原理，包括区块链、智能合约等。通过具体的算法原理和Python代码示例，深入剖析了数字资产交易在Web3环境下的运行机制。同时，结合实际项目案例，讲解了开发环境搭建、代码实现与解读。探讨了Web3
区块链技术概述：从比特币到Web3.0 闲人编程 Python区块链50讲区块链 web3 python 元宇宙比特币安全
目录区块链技术概述：从比特币到Web3.0引言：数字革命的下一篇章1.区块链技术基础1.1区块链定义与核心特征1.2区块链数据结构可视化2.比特币：区块链的开端2.1比特币的核心创新2.2比特币交易生命周期3.以太坊与智能合约革命3.1以太坊的核心创新3.2智能合约执行流程4.Web3.0：互联网的新范式4.1Web3.0的核心特征4.2Web3技术栈5.Python实现简易区块链系统5.1区块类
uniapp中表格固定列（Vue） ᥬ 小月亮小程序+H5 uni-app vue.js javascript
一、编写表格：主要是使用了position:sticky;进行固定，不要忘记写top/left/right/bottom的数值哦~表头1表头2表头3表头4表头5表头6操作{{item.data1}}{{item.data2}}{{item.data3}}{{item.data4}}{{item.data5}}{{item.data6}}详情exportdefault{data(){return{t
【Python常用模块】_Pandas模块3-DataFrame对象失心疯_2023 Python常用模块数据分析 pandas 数据挖掘 python 数据统计数据处理
课程推荐我的个人主页：失心疯的个人主页入门教程推荐：Python零基础入门教程合集虚拟环境搭建：Python项目虚拟环境(超详细讲解)PyQt5系列教程：PythonGUI(PyQt5)教程合集Oracle数据库教程：Oracle数据库教程合集MySQL数据库教程：MySQL数据库教程合集优质资源下载：资源下载合集
【Pandas】pandas DataFrame resample liuweidong0802 DataFrame pandas
Pandas2.2DataFrameTimeSeries-related方法描述DataFrame.asfreq(freq[,method,how,…])用于**将时间序列数据转换为指定频率（resampletofrequency）**的方法DataFrame.asof(where[,subset])用于查找时间序列中最接近指定时间点的非NaN值的方法DataFrame.shift([period
【Pandas】pandas DataFrame max liuweidong0802 DataFrame pandas python 数据挖掘
Pandas2.2DataFrameComputationsdescriptivestats方法描述DataFrame.abs()用于返回DataFrame中每个元素的绝对值DataFrame.all([axis,bool_only,skipna])用于判断DataFrame中是否所有元素在指定轴上都为TrueDataFrame.any(*[,axis,bool_only,skipna])用于判断
【Pandas】pandas Series tz_convert liuweidong0802 Pandas Series pandas
Pandas2.2SeriesTimeSeries-related方法描述Series.asfreq(freq[,method,how,…])用于将时间序列数据转换为指定的频率Series.asof(where[,subset])用于返回时间序列中指定索引位置的最近一个非缺失值Series.shift([periods,freq,axis,…])用于将时间序列数据沿指定轴移动指定的周期数Serie
微信小程序封装loading 修改 -嘻嘻哈哈~ 微信小程序小程序
1.custom-loading.vue{{text}}{{dots}}exportdefault{props:{visible:Boolean,text:{type:String,default:'加载中'}},data(){return{dots:'',timer:null}},mounted(){this.startAnimation()},beforeDestroy(){clearInte
《Python数据分析与挖掘实战》Chapter8中医证型关联规则挖掘笔记茫茫大地真干净机器学习 Python 数据挖掘
最近在学习《Python数据分析与挖掘实战》中的案例，写写自己的心得。代码分为两大部分：1.读取数据并进行聚类分析2.应用Apriori关联规则挖掘规律1.聚类部分函数分析：defprogrammer_1():datafile="C:/Users/longming/Desktop/chapter8/data/data.xls"processedfile="C:/Users/longming/Des
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
利用chatGPT提取复杂json数据到excel文件中 z日火工具使用 excel chatgpt json
利用chatGPT提取复杂json数据到excel文件中1利用swagger导出json类型的接口数据2使用hiJson工具查看json结构3利用ChatGPT写python代码解析数据4复制代码到vscode运行任务说明：整理一个项目的所有接口，保存到excel文档中。在这里插入图片描述1利用swagger导出json类型的接口数据2使用hiJson工具查看json结构我需要json数据的"pa
【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
根包含文件——Luaconf.h (src) LLLLLLLLLLLLLL265161 Inside Lua lua integer 编译器 alignment c++dll
Luaconf.h是配置的总集，定义了平台相关的设置，是所有文件都包含的，即RootlyIncluded。0.前言开始关注Lua也是06年六月的事情，《程序员》的2006年第六期中，我独独看中了Lua，而不是当时我已经比较熟悉的Python和Ruby，即使它们我都关注了好几年，但是都没有Lua给我的震撼大。于是那个夏天，稍微地尝试读了Lua的代码。开学后，我突然觉得自己有点受唆使，轻信了动态的福音
Python3获取5000个元素的单字符表 DechinPhy
技术背景此前考虑过一个问题，有没有办法获取到python里面所有定义好的单字符的表，比如我们获取5000个不一样的单字符，但是常用的chr(number)的方法里面包含了太多的非字母条目，比如缩进换行符等，也会被识别为长度为1的符号。因此需要在此基础上加一个isalpha()的判断。输出5000个字符示例先解释一下思路，我们还是遍历chr中所包含的字符，此时得到的是所有的长度为1的字符，再用str
Excel数据导出小记焚城记录总结 EXCEL插件 excel .net
文章目录前言一、DataTable=>EXCEL二、DBReader=>Excel（NPOI）三、分页查询DbReader=>Excel(MiniExcel)总结：前言最近经历了一次数据量比较大的导出，也做了各种优化尝试，这里稍记录一下一、DataTable=>EXCELusingSystem;usingSystem.Collections.Generic;usingSystem.IO;using
【安装Stable Diffusion以及遇到问题和总结】岁月玲珑 AI stable diffusion AI编程 AI作画
在本地安装部署StableDiffusion，需要准备好硬件环境，安装相关依赖，然后配置模型。下面为你详细介绍安装部署的步骤：一、硬件要求显卡：需要NVIDIAGPU，显存至少6GB，推荐8GB及以上。系统：Windows10/11、Linux（Ubuntu等）或macOS（需要Rosetta2）。内存：至少16GBRAM。存储空间：准备10GB以上的可用空间。二、软件准备首先要安装Python和
力扣网C语言编程题：接雨水（双指针法）魏劭逻辑编程题 C语言 c语言 leetcode 算法
一.简介前面文章是以动态规划方法实现的，文章如下：力扣网C语言编程题：接雨水（动态规划实现）-CSDN博客本文继续针对力扣网的接雨水问题，以另一种解题思路（双指针）以C语言实现和Python实现。二.力扣网C语言编程题：接雨水（双指针法）题目：接雨水给定n个非负整数表示每个宽度为1的柱子的高度图，计算按此排列的柱子，下雨之后能接多少雨水。示例2：输入：height=[4,2,0,3,2,5]输出：
vue el-date-picker 直接赋值时控件失效梓暮 IT vue.js 前端 elementui
项目场景：前端vueel-date-picker控件无故失效问题描述本人是主打后端，新进的公司要求前后端全干，然后又因为前端做得少，所以经常碰到一些奇怪的问题，比如以下操作，是给vue前端el-date-picker这个时间控件赋值，但是发现，数据是赋值上去了，但是控件失效了，怎么点都没用if(resData.batchEntity.manage_scene_start_time!=null&&r
uniapp内嵌的webview H5与应用通信 printf_824 uniapp分享 uni-app
H5端：1、找到index.html引入依赖2、在需要通讯处发送消息uni.postMessage({data:{code:200,msg:"处理完成"}})uniapp端：使用@message="handlerMessage"回调的event里有所需信息functionhandlerMessage(event){console.log("接收到信息");let{code,msg}=event.d
el-date-picker时间段赋值
给时间赋值：this.ruleForm.rdDate=[this.timestampToTime(res.data.startTime),this.timestampToTime(res.data.endTime)]
【ElementUI】日期选择器时间选择范围限制前端Joy姐 element UI
ElementUI是饿了么推出的一套基于vue2.x的一个ui框架。官方文档也很详细，这里做一个element-ui日期插件的补充。官方文档中使用picker-options属性来限制可选择的日期，这里举例子稍做补充。单个输入框的组件代码：情景1:设置选择今天以及今天之后的日期data(){return{pickerOptions0:{disabledDate(time){returntime.g
阅读笔记(2) 单层网络:回归 a2507283885 笔记
阅读笔记(2)单层网络:回归该笔记是DataWhale组队学习计划（共度AI新圣经：深度学习基础与概念）的Task02以下内容为个人理解，可能存在不准确或疏漏之处，请以教材为主。1.从泛函视角来看线性回归还记得线性代数里学过的“基”这个概念吗？一组基向量是一组线性无关的向量，它们通过线性组合可以张成一个向量空间。也就是说，这个空间里的任意一个向量，都可以表示成这组基的线性组合。函数其实也可以看作是
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在