qq602683200

常用特征选择

数据处理 - 常用特征选择方法

特征选择对于数据科学家、已经机器学习有关研究人员非常重要，通过减少特征数量、增加模型泛化能力，减少过拟合，能够增加特征之间的理解，降低学习任务的难度，提升模型的效率。常用的特征选择法分为：

1. 过滤式（filter）
- 1.1 方差选择法
- 1.2 相关系数法
- 1.3 卡方检验法
- 1.4 互信息法
- 1.5 基于模型的特征排序
- 1.6 Relief & ReliefF 算法
- - 1.6.1 Relief 算法
  - 1.6.2 ReliefF 算法
2. 包裹式（wrapper）
- 2.1 特征递归消除（Recursive Feature Elimination，RFE）
- 2.2 LVW（Las Vegas Wrapper）
3.嵌入式（embedding）
- 3.1 基于惩罚项的特征选择法
- 3.2 基于树模型
- - 3.2.1 决策树模型（CART 分类回归树）
  - - 3.2.1.1 DecisionTreeClassifier 分类树
    - 3.2.1.2 DecisionTreeRegressor 回归树
  - 3.2.2 森林模型
  - - 3.2.2.1 随机森林
    - 3.2.2.2 极端森林

1. 过滤式（filter）

通过一定的统计方法对每个特征进行评分排序，然后按照一定的规则过滤出最优的特征子集，然后在训练学习器，由于过滤不需要考虑后续的学习器，因此计算性能更好，常见的方法有 Relief/方差选择法/相关系数法/卡方检验法/互信息法；
思维导图如下：

图片来源：https://blog.csdn.net/weixin_43378396/article/details/90649064

1.1 方差选择法

思路：计算各个特征的方差，根据阈值选择特征；或指定待选择的特征数k，选择方差最大的k个特征。

>>> from sklearn.feature_selection import VarianceThreshold
>>> X = [[0, 0, 1], [0, 1, 0], [1, 0, 0], [0, 1, 1], [0, 1, 0], [0, 1, 1]]
>>> sel = VarianceThreshold(threshold=(.8 * (1 - .8)))
>>> sel.fit_transform(X)
array([[0, 1],
       [1, 0],
       [0, 0],
       [1, 1],
       [1, 0],
       [1, 1]])

优点：

简单、计算速度快

缺点：

对噪声和outlier非常不鲁棒
只针对离散变量，连续变量需要离散化
特征的方差仅只考虑自身的取值，没有考虑特征与目标变量的相关性，特征变量可能跟目标变量毫无关系

1.2 相关系数法

计算各个特征对目标值的相关系数及相关系数的P值，在机器学习中，皮尔逊系数只能检测出线性关系，因此更适用于回归问题
使用Pearson相关系数需要满足的条件：

两个变量间有线性关系
变量是连续变量
变量均符合正态分布
两变量独立
两变量的方差不为0

DataFrame.corr(method='pearson', min_periods=1)

参数说明：

method：{‘pearson’, ‘kendall’, ‘spearman’}

	pearson：Pearson相关系数来衡量两个数据集合是否在一条线上面，即针对线性数据的相关系数计算，                                           数据便会有误差。

	kendall：用于反映分类变量相关性的指标，即针对无序序列的相关系数，非正太分布的数据

	spearman：非线性的，非正太分析的数据的相关系数

min_periods：样本最少的数据量

常常我们分析的变量是不满足正态分布的，此时可以采用Spearman 或者 Kendall 相关系数来代替；
如果两个变量是非线性相关的，可以通过将特征进行非线性变化后，使之与目标线性相关；
Pearson系数对异常值较敏感，清洗阶段需要将异常值过滤或平滑处理。

1.3 卡方检验法

卡方检验主要是用来进行分类变量（离散变量） 的关联性、相关性分析，其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。

H0：两个变量独立无关
H1：变量间有相互关联

卡方检验的公式为：

自由度df = (行数 - 1) * (列数 - 1)

>>> from sklearn.datasets import load_iris
>>> from sklearn.feature_selection import SelectKBest
>>> from sklearn.feature_selection import chi2
>>> iris = load_iris()
>>> X, y = iris.data, iris.target
>>> X.shape
(150, 4)
>>> X_new = SelectKBest(chi2, k=2).fit_transform(X, y)
>>> X_new.shape
(150, 2)

优点：不仅适用于二分类，还适用于多分类情况
缺点：只适用于离散变量

1.4 互信息法

互信息法与卡方检验法相同，都是评价定性自变量对定性因变量的相关性。互信息用以计算两个特征或自变量与因变量之间所共有的信息。

区别：互信息计算的不是数据序列，而是数据的分布，因此互信息可以用于检测特征间的非线性关系

互信息计算公式：

离散型
连续型

根据公式可以看出，若 X 与 Y 完全独立，则 p(X, Y) = p(X)p(Y)，I(X, Y) = 0。也就是说 I(X, Y) 越大，则表明 X 与 Y 的相关性越大

#回归问题
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import mutual_info_regression
from sklearn.datasets import load_boston

dataset_boston = load_boston()
data_boston = dataset_boston.data
target_boston = dataset_boston.target

model_sk = SelectKBest(score_func=mutual_info_regression, k=4)
model_sk.fit(data_boston, target_boston)
print(model_sk.scores_)
# 输出
array([0.34945217, 0.18259661, 0.47229519, 0.0209894 , 0.46333988,
       0.52746991, 0.31724869, 0.29427874, 0.22223963, 0.35585112,
       0.45497479, 0.16204564, 0.66418786])

#分类问题
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import mutual_info_classif
from sklearn.datasets import load_iris

dataset_iris = load_iris()
data_iris = dataset_iris.data
target_iris = dataset_iris.target

model_sk = SelectKBest(score_func=mutual_info_classif, k=2)
model_sk.fit(data_iris, target_iris)
print(model_sk.scores_)
# 输出
array([0.48850984, 0.25341124, 0.9957628 , 0.97604533])

1.5 基于模型的特征排序

针对单独的特征和预测值直接建立预测模型

【步骤】

判断特征值与预测值之间的关系，若为线性则建立线性算法；若为非线性则考虑非线性算法（eg. 树模型）
单独采用每个特征进行建模，并进行交叉验证
选择指定个数评分最高的特征，组成特征子集

1.6 Relief & ReliefF 算法

1.6.1 Relief 算法

Relief是一种特种权重算法，根据各个特征和类别的相关性赋予特征不同的权重，权重小于阈值的特征可以移除。

【思路】Relief算法中，特征和类别的相关性是基于特征对及距离样本的区分能力。算法从训练集D中随机选择一个样本R，

从和R同类的样本中寻找最近邻样本H，成为Near Hit；
从和R不同类样本中寻找最近邻样本M，成为Near Miss；

如果在某个特征上，Near Hit < Near Miss，该特征对分类起负面作用，降低该特征权重，反之增加权重

重复m此过程m次，得到每个特征的平均权重，权重越大，表示该特征分类能力越强。

【伪代码】

【优点】运行效率高，效果好
【缺点】仅能处理二分类问题

1.6.2 ReliefF 算法

Relief为一系列算法，它包括最早提出的Relief以及后来拓展的ReliefF和RReliefF，其中RReliefF算法是针对目标属性为连续值的回归问题提出的，下面仅介绍一下ReliefF算法。

【思路】ReliefF算法在处理多类问题时，每次从训练样本集中随机取出一个样本R，然后从和R同类的样本集中找出R的k个近邻样本(near Hits)，从每个R的不同类的样本集中均找出k个近邻样本(near Misses)，然后更新每个特征的权重

【伪代码】

【优点】运行效率高，对数据类型没有限
【缺点】不能有效的去除冗余特征

参考链接：https://blog.csdn.net/ferrarild/article/details/18792613

2. 包裹式（wrapper）

包裹式从初始特征集合中不断的选择特征子集，训练学习器，根据学习器的性能来对子集进行评价，直到选择出最佳的子集。

参考链接：https://blog.csdn.net/weixin_43378396/article/details/90647321

【与过滤式选择的区别】：
过滤式选择方法在模型训练之前，根据特征自身或与其他变量的数值上的关系进行变量选择，而包裹式选择方法直接针对给定学习器进行优化

【优点】
从最终学习器性能来看，包裹式选择比过滤式选择更好；

【缺点】
但另一方面，由于在特征选择过程中需多次训练学习器，因此包裹式选择的计算开销通常比过滤式选择大得多。

2.1 特征递归消除（Recursive Feature Elimination，RFE）

【思路】
特征递归消除是使用一个基模型进行多轮训练，RFE通过递归减少权重较小的特征，直至剩余特征达到指定特征数

【sklearn 官方解释】：对特征含有权重的预测模型，RFE 通过递归减少待考察特征集规模来选择特征。

首先，预测模型在原始特征集上进行训练，通过 coef_ 属性或 feature_importances_ 属性为每个特征指定一个权重；
然后，剔除那些权重绝对值较小的特征；
如此循环，直到剩余的特征数量达到所需的特征数量。

需要注意的是，RFE 的稳定性很大程度上取决于迭代时，底层使用的预测模型。如果 RFE 采用的是普通的逻辑回归，没有经过正则化的回归是不稳定的，因此 RFE 也不稳定。若采用的是脊回归 Ridge 或 Lasso，则 RFE 稳定。

from sklearn.feature_selection import RFE
from sklearn.linear_model import Lasso
from sklearn.linear_model import Ridge

def ref_select(X_train,y_train,features_num,step):
    rfe = RFE(estimator = Ridge(), n_features_to_select = features_num,step=1))#step每次删除的特征数量
    rfe.fit(X_train,y_train)
    target_columns = X_train.columns[rfe.support_.tolist()]
    return target_columns.tolist()

sklearn 还提供RFECV方法，该方法通过交查验证寻找最优的特征数量，这里说的交叉验证是不同列进行组合求平均，如果减少的特征会造成性能损失，将不去除任何特征。其思路是计算每个所有特征组合的误差，选择误差最小的特征子集

def rfecv_select(X_train,y_train):
    refcv = RFECV(estimator = RandomForestRegressor())
    refcv.fit(X_train,y_train)
    target_columns = X_train.columns[refcv.support_.tolist()]
    return target_columns.tolist()

该方法也存在一定缺陷：
（1）计算量大
（2）随着学习器的改变，最佳特征组合也会改变，因此适合在模型确定后在进行特征选择

参考链接：http://www.minxueyu.com/2020/03/29/RFE%E4%B8%8ERFECV%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0/

2.2 LVW（Las Vegas Wrapper）

LVW 是一个典型的包裹式特征选择方法，它在拉斯维加斯（Las Vegas method）框架下使用随机策略来进行子集搜索，并以最终分类器的误差为特征子集评价准则。

【算法】：

输入：数据集 D；特征集 A；学习算法 Σ；停止条件控制参数 T。
输出：特征子集 A*。
过程：

初始化误差 E 为正无穷，d = |A|，A* = A，t = 0；
进入循环，循环停止条件为 while t < T；
随机产生特征子集 A’，设置 d’ = |A’|；
选择特征子集对应部分的数据集，使用交叉验证法来估计学习器的误差。误差是特征子集 A’ 上的误差，若它比当前特征子集 A 上的误差更小，或误差相当但 A’ 中包含的特征数更少，则执行（a），否则执行（b）。
（a）：t = 0，E = E’，d = d’，A* = A’；
（b）：t = t + 1
输出特征子集 A*。

【注意】：由于 LVW 算法中特征子集搜索采用了随机策略，而每次特征子集评价都需要训练学习器，计算开销很大，因此算法设置了停止条件控制参数 T。然而，整个 LVW 算法是基于拉斯维加斯方法框架，若初始特征数很多（即 |A| 很大）、T 设置较大，则算法可能运行很长时间都达不到停止条件。换言之，若有运行时间限制，则有可能给不出解。

3.嵌入式（embedding）

嵌入式特征选择是在训练的过程中自动进行了特征选择。

参考链接：https://clvsit.blog.csdn.net/article/details/90640595

3.1 基于惩罚项的特征选择法

Lasso回归

Lasso回归是用于缓解线性回归的过拟合问题的，优化的目标函数为平方误差加上系数的L1范数

相比于岭回归（使用L2范数），Lasso回归的优点是更易于获得稀疏解，从而达到特征选择的效果。
对w的推导过程如下：

LassoCV(eps=0.001, n_alphas=100, alphas=None, fit_intercept=True, normalize=False, precompute=‘auto’, max_iter=1000, tol=0.0001, copy_X=True, cv=None, verbose=False, n_jobs=1, positive=False, random_state=None, selection=‘cyclic’)
• eps：指代 λ \lambda λ最小值与最大值的商，默认为0.001。
• n_alphas：指定 λ \lambda λ的个数，默认为100个。
• alphas：指定具体的 λ \lambda λ列表用于模型的运算。
• fit_intercept：bool类型，是否需要拟合截距项，默认为True。
• normalize：bool类型，建模时是否对数据集做标准化处理，默认为False。
• precompute：bool类型，是否在建模前计算Gram矩阵提升运算速度，默认为False。
• max_iter：指定模型的最大迭代次数。
• tol：指定模型收敛的阈值，默认为0.0001。
• copy_X：bool类型，是否复制自变量X的数值，默认为True。
• cv：指定交叉验证的重数。
• verbose：bool类型，是否返回模型运行的详细信息，默认为False。
• n_jobs：指定使用的CPU数量，默认为1，如果为-1表示所有CPU用于交叉验证的运算。
• positive：bool类型，是否将回归系数强制为正数，默认为False。
• random_state：指定随机生成器的种子。
• selection：指定每次迭代选择的回归系数，如果为’random’，表示每次迭代中将随机更新回归系数；如果为’cyclic’，则每次迭代时回归系数的更新都基于上一次运算。

Lasso(alpha=1.0, fit_intercept=True, normalize=False, precompute=False, copy_X=True, max_iter=1000, tol=0.0001, warm_start=False, positive=False, random_state=None, selection=‘cyclic’)
• alphas：指定 λ \lambda λ值，默认为1。
• fit_intercept：bool类型，是否需要拟合截距项，默认为True。
• normalize：bool类型，建模时是否对数据集做标准化处理，默认为False。
• precompute：bool类型，是否在建模前计算Gram矩阵提升运算速度，默认为False。
• copy_X：bool类型，是否复制自变量X的数值，默认为True。
• max_iter：指定模型的最大迭代次数。
• tol：指定模型收敛的阈值，默认为0.0001。
• warm_start：bool类型，是否将前一次训练结果用作后一次的训练，默认为False。
• positive：bool类型，是否将回归系数强制为正数，默认为False。
• random_state：指定随机生成器的种子。
• selection：指定每次迭代选择的回归系数，如果为’random’，表示每次迭代中将随机更新回归系数；如果为’cyclic’，则每次迭代时回归系数的更新都基于上一次运算。

import pandas as pd
import numpy as np
from sklearn import model_selection
from sklearn.linear_model import Lasso,LassoCV
from sklearn.metrics import mean_squared_error

data=pd.read_excel(r'C:\Users\Administrator\Desktop\diabetes.xlsx')
data=data.drop(['AGE','SEX'],axis=1)
#拆分为训练集和测试集
predictors=data.columns[:-1]
x_train,x_test,y_train,y_test=model_selection.train_test_split(data[predictors],data.Y,
                                                               test_size=0.2,random_state=1234)
#构造不同的lambda值
Lambdas=np.logspace(-5,2,200)
#设置交叉验证的参数，使用均方误差评估
lasso_cv=LassoCV(alphas=Lambdas,normalize=True,cv=10,max_iter=10000)
lasso_cv.fit(x_train,y_train)

#基于最佳lambda值建模
lasso=Lasso(alpha=lasso_cv.alpha_,normalize=True,max_iter=10000)
lasso.fit(x_train,y_train)
#打印回归系数
print(pd.Series(index=['Intercept']+x_train.columns.tolist(),
                data=[lasso.intercept_]+lasso.coef_.tolist()))

#模型评估
lasso_pred=lasso.predict(x_test)
#均方误差
MSE=mean_squared_error(y_test,lasso_pred)
print(MSE)

参考链接：https://blog.csdn.net/weixin_43374551/article/details/83688913

3.2 基于树模型

树模型在构建的过程中实现了对特征的选择过程，下面写下树模型相关的内容。

3.2.1 决策树模型（CART 分类回归树）

决策树的构建主要分为3步：

特征选择
生成树
剪枝

3.2.1.1 DecisionTreeClassifier 分类树

首先介绍一个重要的指标：基尼指数

特别的，对于二分类问题,如果第一类样本出现概率为p，则 Gini§ = 2p (1 - p)

基尼指数越大，样本不确定性越大；基尼指数越小，纯度越高
基尼指数用于衡量一个集合的纯度，即不确定性，Gini(D, A) 表示经过分割A分割后的不确定性
CART分类树算法每次仅对某个特征的值进行二分

构建流程

3.2.1.2 DecisionTreeRegressor 回归树

决策树的生成就是递归地构建二叉决策树的过程，对回归树用平方误差最小化准则，进行特征选择，生成二叉树。分枝时穷举每一个特征的每一个阈值，来寻找最优切分特征和最优切分点，衡量的方法是平方误差最小化。分枝直到达到预设的终止条件为止。
生成过程
优点：

简单直观，生成的决策树很直观。
基本不需要预处理，不需要提前归一化和处理缺失值。
使用决策树预测的代价是O(log2m)。m为样本数。
既可以处理离散值也可以处理连续值。很多算法只是专注于离散值或者连续值。
可以处理多维度输出的分类问题。
相比于神经网络之类的黑盒分类模型，决策树在逻辑上可以很好解释。
可以交叉验证的剪枝来选择模型，从而提高泛化能力。
对于异常点的容错能力好，健壮性高。

缺点：

决策树算法非常容易过拟合，导致泛化能力不强。可以通过设置节点最少样本数量和限制决策树深度来改进。
决策树会因为样本发生一点的改动，导致树结构的剧烈改变。这个可以通过集成学习之类的方法解决。
寻找最优的决策树是一个NP难题，我们一般是通过启发式方法，容易陷入局部最优。可以通过集成学习的方法来改善。
有些比较复杂的关系，决策树很难学习，比如异或。这个就没有办法了，一般这种关系可以换神经网络分类方法来解决。
如果某些特征的样本比例过大，生成决策树容易偏向于这些特征。这个可以通过调节样本权重来改善。

参考链接1：总结分析
参考链接2：一目了然

3.2.2 森林模型

3.2.2.1 随机森林

随机森林是通过自助法（bootstrap）重采样技术, 从训练样本中有放回抽取k个样本生成新的训练样本集合，随机选择特征去分裂节点，生成k个分类树组成的随机森林，新数据的分类结果按分类树投票多少形成的分数而定。

优点：

随机森林不容易过拟合，且有较强抗噪能力
能够处理高为数据，不用单独做特征选择
既能处理离散数据，也能处理连续数据，数据集无需规范化
模型简单且解释性强
容易并行化

3.2.2.2 极端森林

ExtraTreesClassifier

用的少，用需要再更新。

K8S遇到过的比较深刻的Pod问题 Gold Steps. 技术博文分享 kubernetes 容器云原生故障处理
第一案：Pod集体自杀凌晨12点的告警总是格外刺眼。值班群里突然炸出一连串消息："支付服务全部下线！但Pod日志显示一切正常！"运维组赶到战场时，发现大量Pod像多米诺骨牌般接连消失，监控面板上却全是绿色对勾。错误排查：#查看案发时间线kubectlgetevents--sort-by='.lastTimestamp'|grep-ikilled#查看Pod详细信息kubectldescribepo
【从零开始学习计算机科学】计算机体系结构（一）计算机体系结构、指令、指令集（ISA）与量化评估贫苦游商学习服务器网络计算机体系结构 ISA 指令集量化评估
【从零开始学习计算机科学】计算机体系结构（一）计算机体系结构、指令、指令集（ISA）与量化评估概论计算机体系结构简介计算机的分类并行体系结构指令集体系结构（ISA）分类存储器寻址寻址模式操作数大小指令ISA的编码程序的优化计算机体系结构量化评估存储器体系结构概论计算机体系结构与计算机组成原理之间的联系非常紧密，其研究范畴基本一致，计算机体系结构与计算机组成原理两者是相辅相成的。但是，计算机体系结构
【从零开始学习JAVA】异常体系介绍 Cools0613 从0开始学Java 学习
前言：本文我们将为大家介绍一下异常的整个体系，而我们学习异常，不是为了敲代码的时候不出异常，而是为了能够熟练的处理异常，如何解决代码中的异常。异常的两大分类：我们就以这张图作为线索来详细介绍一下Java中的异常：1.Exceptions（异常）在Java中，Exception（异常）是一种表示非致命错误或异常情况的类或接口。Exception通常是由应用程序引发的，可以被程序员捕获、处理或抛出。E
基于ChatGPT、GIS与Python机器学习的地质灾害风险评估、易发性分析、信息化建库及灾后重建高级实践 weixin_贾防洪评价风险评估滑坡泥石流地质灾害
第一章、ChatGPT、DeepSeek大语言模型提示词与地质灾害基础及平台介绍【基础实践篇】1、什么是大模型？大模型（LargeLanguageModel,LLM）是一种基于深度学习技术的大规模自然语言处理模型。代表性大模型：GPT-4、BERT、T5、ChatGPT等。特点：多任务能力：可以完成文本生成、分类、翻译、问答等任务。上下文理解：能理解复杂的上下文信息。广泛适配性：适合科研、教育、行
程序员学商务英语之Don‘t jinx it、l have a half mind to do sth、Don‘t change the subject、Quality over quantity.. 李匠2024 英文
1463-Don'tjinxit.-别鸟鸦嘴A:Whatifitrainstheweekend?Youknow,theweather'sbeenchangeablethesedays!如果这个周末下雨怎么办?你知道，这些天的天气变化无常!B:Don'tiinxit.i'vespentalotoftimepreparingforthiscamping.lhopeitstaysfineforthewe
AI 赋能应急管理：ChatGPT、DeepSeek、Grok 的应用探索一ge科研小菜菜人工智能人工智能
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言随着人工智能（AI）技术的快速发展，大语言模型（LLM）在应急管理领域的应用逐步扩大。ChatGPT、DeepSeek、Grok等AI模型凭借强大的文本处理、数据分析和推理能力，可为灾害预警、应急响应、风险评估等提供高效支持。本文将对比三大AI模型在应急管理中的优势，并探讨其在未来智能化应急管理体系中的应用前景。2.应急管理中的核心挑战应
前端如何实现一个五星评价，鼠标滑动，前边星星颜色的变黄，后边的不变；修心光前端
直接上代码.star-rating{display:flex;padding:10px0;}.star{position:relative;width:40px;height:40px;}.half{position:absolute;top:0;width:20px;height:40px;overflow:hidden;font-size:40px;color:#e0e0e0;cursor:p
《破局项目延期魔咒：构建全周期风险防控体系》玩转数据库管理工具FOR DBLENS 数据库甘特图项目管理数据库开发大数据
在数字化转型加速的今天，某权威机构调研数据显示：72%的IT项目存在延期交付问题，其中38%的项目实际周期超出计划50%以上。项目延期不仅造成资源浪费，更可能引发客户信任危机。当项目计划屡屡失控、风险频发时，管理者需要以系统化思维重构项目管理体系。一、项目延期的根源解构需求蔓延综合症某智能工厂项目在实施阶段新增327项需求变更，导致交付周期延长11个月隐性需求显性化过程中的认知偏差，形成"需求黑洞
Pytorch中的torch.utils.data.Dataset 类小白的高手之路深度学习（DL）Pytorch实战深度学习 python pytorch
1、使用方法fromtorch.utils.dataimportDataset2、torch.utils.data.Dataset类的定义classDataset(Generic[_T_co]):r"""Anabstractclassrepresentinga:class:`Dataset`.Alldatasetsthatrepresentamapfromkeystodatasamplesshou
Flink相关面试题努力的搬砖人. 面试 java 后端 flink
以下是150道ApacheFlink面试题及其详细回答，涵盖了Flink的基础知识、核心架构、API使用、性能调优等多个方面，每道题目都尽量详细且简单易懂：Flink基础概念类1.什么是ApacheFlink？ApacheFlink是一个开源的流处理和批处理框架，能够实现快速、可靠、可扩展的大数据处理。它既可以处理无界的数据流，也可以处理有界的数据批，提供了低延迟和高吞吐量的实时数据处理能力。Fl
人脸识别的一些代码饿了就干饭 CV相关人脸识别
1、cv2入门函数imread及其相关操作2、（详解）opencv里的cv2.resize改变图片大小Python3、机器学习之人脸识别face_recognition使用4、使用face_recognition进行人脸校准5、简单的人脸识别通用流程示意图（这个看着写的挺好的）6、face_recognition和图像处理中left、top、right、bottom解释7、使用pillow库对图片
Python, C ++开发家庭开支 Geeker-2025 python c++
开发一款**家庭开支数字化记录与结算App**是一个非常有意义的项目，旨在帮助家庭用户高效管理开支、记录消费、分析财务状况，并提供结算和预算管理功能。以下是基于**Python**和**C++**的开发方案，结合两者在数据处理、实时通信和系统开发中的优势。---##1.**项目需求分析**家庭开支数字化记录与结算App的核心功能包括：1.**用户管理**：-用户注册、登录，支持家庭成员管理。2.*
悬镜安全获评专精特新企业！ DevSecOps选型指南软件供应链安全工具悬镜安全开源治理软件成分分析 ASPM 专精特新小巨人
近日，北京安普诺信息技术有限公司（以下简称：悬镜安全）凭借在DevSecOps敏捷安全和中国数字供应链安全领域的关键技术自主创新、市场引领以及在守护中国数字供应链安全做出的行业贡献等多重维度，从众多参评企业中脱颖而出，成功入选第六批专精特新“小巨人”企业！01关键前沿科技引领在此背景下，悬镜安全以关键前沿技术为引领方向，不断完善企业发展体系，增强核心竞争力，持续为行业提供更加高效、安全的数字化服务
HarmonyOS Next 安全机制深度剖析 SameX-4869 harmonyos 华为
本文旨在深入探讨华为鸿蒙HarmonyOSNext系统（截止目前API12）的安全机制相关技术细节，基于实际开发实践进行总结。主要作为技术分享与交流载体，难免错漏，欢迎各位同仁提出宝贵意见和问题，以便共同进步。本文为原创内容，任何形式的转载必须注明出处及原作者。第一章：安全体系架构一、整体架构介绍HarmonyOSNext的安全体系架构犹如一座坚固的城堡，从多个层面为系统和应用提供全方位的保护。它
前端小食堂 | Day17 - 前端安全の金钟罩喵爪排序前端安全状态模式
️今日盾牌：XSS/CSRF攻防全解析1.XSS防御の三重结界//危险操作：直接渲染未过滤内容document.getElementById('content').innerHTML=userInput;//✅安全姿势一：文本转义constescapeHTML=(str)=>{constmap={'&':'&','':'>','"':'"',"'":'''};ret
【Q&A】装饰模式在Qt中有哪些运用？浅慕Antonio Q&A qt 数据库服务器
在Qt框架中，装饰模式（DecoratorPattern）主要通过继承或组合的方式实现，常见于IO设备扩展和图形渲染增强场景。以下是Qt原生实现的装饰模式典型案例：一、QIODevice装饰体系（继承方式）场景为基础IO设备（如文件、缓冲区）添加数据格式解析、缓冲优化等功能。类图（Mermaid）«abstract»QIODevice+readData()+writeData()QFileQBuf
[从零开始学习JAVA] Stream流 Cools0613 从0开始学Java 学习
前言：本文我们将学习Stream流，他就像流水线一样，可以对我们要处理的对象进行逐步处理，最终达到我们想要的效果，是JAVA中的一大好帮手，值得我们了解和掌握。（通常和lambda匿名内部类方法引用相配合）Stram流：Stream流的核心思想是函数式编程（注意返回值必须是对象本身才能），它倡导将数据处理过程看作是一系列的转换操作。这种思想与传统的命令式编程方式不同，传统的命令式编程方式强调对数据
MiniMind：完全从 0 训练自己的大模型三花AI 三花AI 人工智能 LLM大模型
是B站UP主近在远方的远开源的一个微型语言模型，改进自DeepSeek-V2、Llama3结构，项目包含整个数据处理、pretrain、sft、dpo的全部阶段，包含混合专家(MoE)模型。其目标是把上手LLM的门槛无限降低，直接从0开始训练一个极其轻量的语言模型，最低仅需2G显卡即可推理训练！
探索Python中的集成方法：Stacking Echo_Wish Python 笔记 Python 算法 python 开发语言
在机器学习领域，Stacking是一种高级的集成学习方法，它通过将多个基本模型的预测结果作为新的特征输入到一个元模型中，从而提高整体模型的性能和鲁棒性。本文将深入介绍Stacking的原理、实现方式以及如何在Python中应用。什么是Stacking？Stacking，又称为堆叠泛化（StackedGeneralization），是一种模型集成方法，与Bagging和Boosting不同，它并不直
【Python】 Stacking: 强大的集成学习方法音乐学家方大刚 Python python 集成学习开发语言
我们都找到天使了说好了心事不能偷藏着什么都一起做幸福得没话说把坏脾气变成了好沟通我们都找到天使了约好了负责对方的快乐阳光下的山坡你素描的以后怎么抄袭我脑袋想的薛凯琪《找到天使了》在机器学习中，单一模型的性能可能会受到其局限性和数据的影响。为了解决这个问题，我们可以使用集成学习（EnsembleLearning）方法。集成学习通过结合多个基模型的预测结果，来提高整体模型的准确性和稳健性。Stacki
Stacking算法：集成学习的终极武器 civilpy 算法集成学习机器学习
Stacking算法：集成学习的终极武器在机器学习的竞技场中，集成学习方法以其卓越的性能而闻名。其中，Stacking（堆叠泛化）作为一种高级集成技术，更是被誉为“集成学习的终极武器”。本文将带你深入了解Stacking算法的原理和实现，并提供一些实战技巧和最佳实践。1.Stacking算法原理探秘Stacking算法的核心思想是训练多个不同的基模型，并将它们的预测结果作为新模型的输入特征，以此来
集成学习（上）：Bagging集成方法万事可爱^ 机器学习修仙之旅 #监督学习集成学习机器学习人工智能 Bagging 随机森林
一、什么是集成学习？在机器学习的世界里，没有哪个模型是完美无缺的。就像古希腊神话中的"盲人摸象"，单个模型往往只能捕捉到数据特征的某个侧面。但当我们把多个模型的智慧集合起来，就能像拼图一样还原出完整的真相，接下来我们就来介绍一种“拼图”算法——集成学习。集成学习是一种机器学习技术，它通过组合多个模型（通常称为“弱学习器”或“基础模型”）的预测结果，构建出更强、更准确的学习算法。这种方法的主要思想是
【集成学习】：Stacking原理以及Python代码实现 Geeksongs 机器学习 python 机器学习深度学习人工智能算法
Stacking集成学习在各类机器学习竞赛当中得到了广泛的应用，尤其是在结构化的机器学习竞赛当中表现非常好。今天我们就来介绍下stacking这个在机器学习模型融合当中的大杀器的原理。并在博文的后面附有相关代码实现。总体来说，stacking集成算法主要是一种基于“标签”的学习，有以下的特点：用法：模型利用交叉验证，对训练集进行预测，从而实现二次学习优点：可以结合不同的模型缺点：增加了时间开销，容
windows使用ssh-copy-id命令的解决方案爱编程的喵喵 Windows实用技巧 windows ssh ssh-copy-id 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了windows使用ssh-copy-
模型部署后的版本回滚策略，如何确保服务降级的平滑性？百态老人 neo4j
模型部署版本回滚策略与平滑服务降级技术体系（2025版）一、核心设计原则与架构模型部署回滚的平滑性需建立在版本隔离性、流量可控性、数据兼容性三大支柱上，结合2025年前沿技术实现多维保障：
鸿蒙开发：ArkTs字符串string
前言本文代码案例基于Api13。字符串在实际的开发中还是非常重要的，牵扯到的用法也是比较多的，比如字符串中的查找，替换，切割等等。字符串（String）是由零个或多个字符组成的有限序列，在计算机编程和数据处理中广泛使用。字符串可以包含字母、数字、标点符号、空格，甚至可以是空字符串（即不包含任何字符的字符串）。字符串是文本信息的基本表示形式，在几乎所有编程语言中都有专门的字符串数据类型或类来处理它们
从原理到实践：Go 语言内存优化策略深度解析叶间清风1998 服务器 linux 网络
目录一、引言二、Go语言内存管理基础原理2.1栈与堆内存分配2.2垃圾回收机制剖析三、内存优化策略与实践3.1合理使用指针传递3.2避免不必要的内存分配3.3优化切片与映射的使用3.4控制变量作用域3.5减少闭包导致的变量逃逸四、内存优化工具与性能分析4.1pprof工具的使用4.2其他性能分析辅助手段五、不同场景下的内存优化案例分析5.1高并发Web服务场景5.2大数据处理与分析场景六、总结与展
HCIA-AI人工智能笔记3：数据预处理噗老师华为认证人工智能笔记 wpf 数据处理 AI 华为认证
统讲解数据预处理的核心技术体系，通过Python/Pandas与华为MindSpore双视角代码演示，结合特征工程优化实验，深入解析数据清洗、标准化、增强等关键环节。一、数据预处理技术全景图graphTDA[原始数据]-->B{数据清洗}B-->B1[缺失值处理]B-->B2[异常值检测]B-->B3[重复值删除]A-->C{特征工程}C-->C1[标准化/归一化]C-->C2[离散化分箱]C--
我要写整个中文互联网界最牛逼的JVM系列教程 | 「JVM与Java体系架构」章节：JVM的生命周期李阿昀只要你有心人人都是JVM精通者 jvm java 架构
这一讲，我们就来好好谈一谈JVM的生命周期。JVM的生命周期大家做了这么久的开发，应该知道很多的结构其实都有其生命周期吧！而关于JVM的生命周期，这里我们则主要讲述它的三个状态，即虚拟机的启动、虚拟机的执行以及虚拟机的退出，这也是一个结构的生命周期最起码应该具备的三个状态——开始、运行、结束。这就像哲学里面讨论的终极问题一样，我是谁？我从哪里来？我将到哪里去？其实，我觉得先提出我是谁这个问题不太合
python画画加粗_Matplotlib'粗体'字体 - python weixin_39569747 python画画加粗
跟随thisexample：importnumpyasnpimportmatplotlib.pyplotaspltfig=plt.figure()fori,labelinenumerate(('A','B','C','D')):ax=fig.add_subplot(2,2,i+1)ax.text(0.05,0.95,label,transform=ax.transAxes,fontsize=16,
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo