珞沫

机器学习笔记八——特征工程之特征选择

特征选择

1、概述
2、特征选择过程
3、特征选择方法
- 3.1 过滤式（filter）特征选择
- - 3.1.1 Pearson相关系数法
  - 3.1.2卡方经验
  - 3.1.3 互信息法
  - 3.1.4 方差选择法
- 3.2包裹式（wrapper）特征选择
- - 3.2.1 递归特征消除法
- 3.3 嵌入式（Embedded）特征选择
- - 3.3.1 基于惩罚项的特征选择法
  - 3.3.2 基于学习模型的特征选择

1、概述

1、为什么要进行特征选择？

在现实生活中，一个对象往往具有很多属性（以下称为特征），这些特征大致可以被分成三种主要的类型：

相关特征： 对于学习任务（例如分类问题）有帮助，可以提升学习算法的效果；
无关特征：对于我们的算法没有任何帮助，不会给算法的效果带来任何提升；
冗余特征： 不会对我们的算法带来新的信息，或者这种特征的信息可以由其他的特征推断出；

进行特征选择的主要目的：

降维： 属性或者特征过多会造成维数过多问题，如果可以选择重要的特征，使得仅需要一部分特征就可以构建模型，可以大大减轻维数灾难问题，从这个意义上讲，特征选择和降维技术有相似的动机，事实上它们也是处理高维数据的两大主流技术。
降低学习任务的难度 去除无关特征可以降低学习任务的难度，也同样让模型变得简单，降低计算复杂度。
提升模型的效率

2、特征选择是什么？

特征选择是特征工程里的一个重要问题。

特征选择是选取原始特征集合的一个有效子集，使得基于这个特征子集训练出来的模型准确率最高。简单地说，特征选择就是保留有用特征，移除冗余或无关的特征。

2、特征选择过程

1、特征选择最重要的是确保不丢失重要的特征， 否则就会因为缺少重要的信息而无法得到一个性能很好的模型。

给定数据集，学习任务不同，相关的特征很可能也不相同，因此特征选择中的不相关特征指的是与当前学习任务无关的特征。
有一类特征称作冗余特征(redundant feature)，它们所包含的信息可以从其他特征中推演出来。
冗余特征通常都不起作用，去除它们可以减轻模型训练的负担；
但如果冗余特征恰好对应了完成学习任务所需要的某个中间概念，则它是有益的，可以降低学习任务的难度。

2.在没有任何先验知识，即领域知识的前提下，要想从初始特征集合中选择一个包含所有重要信息的特征子集，唯一做法就是遍历所有可能的特征组合。

但这种做法并不实际，也不可行，因为会遭遇组合爆炸，特征数量稍多就无法进行。

一个可选的方案是：

产生一个候选子集，评价出它的好坏。
基于评价结果产生下一个候选子集，再评价其好坏。
这个过程持续进行下去，直至无法找到更好的后续子集为止。

对于一个有N个特征的对象，可以产生2^N个特征子集，特征选择就是从这些子集中选出对于特定任务最好的子集。特征选择主要包括四个过程：

生成过程： 生成候选的特征子集也就是子集搜索的过程；
评价函数：评价特征子集的好坏；
停止条件： 决定什么时候该停止；
验证过程： 特征子集是否有效；

3、子集搜索

子集搜索方法步骤如下：

给定特征集合 A={A1,A2,…,Ad} ，首先将每个特征看作一个候选子集（即每个子集中只有一个元素），然后对这 d 个候选子集进行评价。
假设 A2 最优，于是将 A2 作为第一轮的选定子集。
然后在上一轮的选定子集中加入一个特征，构成了包含两个特征的候选子集。
假定 A2,A5 最优，且优于 A2 ，于是将 A2,A5 作为第二轮的选定子集。
….
假定在第 k+1 轮时，本轮的最优的特征子集不如上一轮的最优的特征子集，则停止生成候选子集，并将上一轮选定的特征子集作为特征选择的结果。

1、这种逐渐增加相关特征的策略称作前向 forward搜索

2、类似的，如果从完整的特征集合开始，每次尝试去掉一个无关特征，这种逐渐减小特征的策略称作后向backward搜索

3、也可以将前向和后向搜索结合起来，每一轮逐渐增加选定的相关特征（这些特征在后续迭代中确定不会被去除），同时减少无关特征，这样的策略被称作是双向bidirectional搜索。

4、子集评价

给定数据集 D，假设所有属性均为离散型。对属性子集 A，假定根据其取值将 D 分成了 V 个子集：

$D_1,D_2,D_3,...,D_V$

可以计算属性子集 A 的信息增益：

$g(D,A)=H(D)-H(D|A)=H(D)-\sum_{v=1}^V\frac{|D_V|}{|D|}H(D_V)$

其中H(D)为信息熵，计算公式如下：

$H(D)=-\sum_{v=1}^V\frac{|D_V|}{|D|}log_2\frac{|D_V|}{|D|}$

H(D|A)为条件熵，计算公式如下：

$H(D|A)=\sum_{v=1}^V\frac{|D_V|}{|D|}H(D_V)=\sum_{v=1}^V\frac{|D_V|}{|D|}\sum_{k=1}^k\frac{|D_ik|}{|D_i|}log_2\frac{|D_ik|}{|Di|}$

**信息增益越大，表明特征子集 A 包含的有助于分类的信息越多。**所以对于每个候选特征子集，可以基于训练集 D 来计算其信息增益作为评价准则。

将特征子集搜索机制与子集评价机制结合就能得到特征选择方法。

3、特征选择方法

过滤式(filter)： 先进行特征选择，然后去训练学习器，所以特征选择的过程与学习器无关。相当于先对特征进行过滤操作，然后用特征子集来训练分类器。
包裹式(wrapper)： 实际上就是一个分类器，直接把最后要使用的分类器作为特征选择的评价函数，对于特定的分类器选择最优的特征子集。
嵌入式(embedding)： 把特征选择的过程与分类器学习的过程融合一起，在学习的过程中进行特征选择。最常见的使用L1正则化进行特征选择。

本文中使用sklearn中的IRIS（鸢尾花）数据集来对特征选择方法进行说明。IRIS数据集由Fisher在1936年整理，包含4个特征（Sepal.Length（花萼长度）、Sepal.Width（花萼宽度）、Petal.Length（花瓣长度）、Petal.Width（花瓣宽度）），特征值都为正浮点数，单位为厘米。目标值为鸢尾花的分类（Iris Setosa（山鸢尾）、Iris Versicolour（杂色鸢尾），Iris Virginica（维吉尼亚鸢尾））。导入IRIS数据集的代码如下：

from sklearn.datasets import load_iris
 
#导入IRIS数据集
iris = load_iris()
 
#特征矩阵
iris.data
 
#目标向量
iris.target

3.1 过滤式（filter）特征选择

该方法先对数据集进行特征选择，然后再训练学习器。特征选择过程与后续学习器无关。也就是先采用特征选择对初始特征进行过滤，然后用过滤后的特征训练模型。

优点是计算时间上比较高效，而且对过拟合问题有较高的鲁棒性；
缺点是倾向于选择冗余特征，即没有考虑到特征之间的相关性。

该方法设计了一个相关统计量来度量特征的重要性。

该统计量是一个向量，其中每个分量都对应于一个初始特征。特征子集的重要性则是由该子集中每个特征所对应的相关统计量分量之和来决定的。
最终只需要指定一个阈值 k，然后选择比 k 大的相关统计量分量所对应的特征即可。也可以指定特征个数 m ，然后选择相关统计量分量最大的 m 个特征。

可用的相关统计量—度量特征,基于不同的相关统计量可以过滤式（filter）特征选择可以分为以下几种方法

3.1.1 Pearson相关系数法

皮尔森相关系数是一种最简单的，能帮助理解特征和响应变量之间关系的方法，该方法衡量的是变量之间的线性相关性，结果的取值区间为 [-1，1] ， [-1] 表示完全的负相关(这个变量下降，那个就会上升)， [1] 表示完全的正相关， [0] 表示没有线性相关。Pearson Correlation速度快、易于计算，经常在拿到数据(经过清洗和特征提取之后的)之后第一时间就执行。Scipy的pearsonr方法能够同时计算相关系数和p-value，

import numpy as np
from scipy.stats import pearsonr

np.random.seed(0)
size = 300
x = np.random.normal(0, 1, size)
print("Lower noise", pearsonr(x, x + np.random.normal(0, 1, size)))
print("Higher noise", pearsonr(x, x + np.random.normal(0, 10, size)))

Pearson相关系数的一个明显缺陷是，作为特征排序机制，他只对线性关系敏感。如果关系是非线性的，即便两个变量具有一一对应的关系，Pearson相关性也可能会接近 [0] 。

3.1.2卡方经验

经典的卡方检验是检验定性自变量对定性因变量的相关性。假设自变量有N种取值，因变量有M种取值，考虑自变量等于i且因变量等于j的样本频数的观察值与期望的差距，构建统计量：

$X^2=\sum\frac{(A-E)^2}{E}$

不难发现，这个统计量的含义简而言之就是自变量对因变量的相关性。用sklearn中feature_selection库的SelectKBest类结合卡方检验来选择特征的代码如下：

from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
iris = load_iris()
X, y = iris.data, iris.target
#选择K个最好的特征，返回选择特征后的数据
X_new = SelectKBest(chi2, k=2).fit_transform(X, y)
print(X_new)

3.1.3 互信息法

经典的互信息也是评价定性自变量对定性因变量的相关性的，互信息公式如下：

为了处理定量数据，最大信息系数法被提出，使用feature_selection库的SelectKBest类结合最大信息系数法来选择特征的代码如下：

from sklearn.feature_selection import SelectKBest
from minepy import MINE
 
 #由于MINE的设计不是函数式的，定义mic方法将其为函数式的，返回一个二元组，二元组的第2项设置成固定的P值0.5
def mic(x, y):
     m = MINE()
     m.compute_score(x, y)
     return (m.mic(), 0.5)

#选择K个最好的特征，返回特征选择后的数据
SelectKBest(lambda X, Y: array(map(lambda x:mic(x, Y), X.T)).T, k=2).fit_transform(iris.data, iris.target)

3.1.4 方差选择法

过滤特征选择法还有一种方法不需要度量特征 $x_i$ 和类别标签 $y$ 的信息量。这种方法先要计算各个特征的方差，然后根据阈值，选择方差大于阈值的特征。

例如，假设我们有一个具有布尔特征的数据集，并且我们要删除超过80％的样本中的一个或零（开或关）的所有特征。布尔特征是伯努利随机变量，这些变量的方差由下式给出:

$v a r (x) = p (1 - p)$

VarianceThreshold是特征选择的简单基线方法。它删除方差不符合某个阈值的所有特征。默认情况下，它会删除所有零差异特征，即所有样本中具有相同值的特征。使用feature_selection库的VarianceThreshold类来选择特征的代码如下：

rom sklearn.feature_selection import VarianceThreshold

#方差选择法，返回值为特征选择后的数据
#参数threshold为方差的阈值
VarianceThreshold(threshold=3).fit_transform(iris.data)

3.2包裹式（wrapper）特征选择

包裹式特征选择直接把最终将要使用的学习器的性能作为特征子集的评价原则。其目的就是为给定学习器选择最有利于其性能、量身定做的特征子集。

优点是直接针对特定学习器进行优化，考虑到特征之间的关联性，因此通常包裹式特征选择比过滤式特征选择能训练得到一个更好性能的学习器，
缺点是由于特征选择过程需要多次训练学习器，故计算开销要比过滤式特征选择要大得多。

3.2.1 递归特征消除法

递归消除特征法使用一个基模型来进行多轮训练，每轮训练后，消除若干权值系数的特征，再基于新的特征集进行下一轮训练。使用feature_selection库的RFE类来选择特征的代码如下：

from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

#递归特征消除法，返回特征选择后的数据
#参数estimator为基模型
#参数n_features_to_select为选择的特征个数
RFE(estimator=LogisticRegression(), n_features_to_select=2).fit_transform(iris.data, iris.target)

3.3 嵌入式（Embedded）特征选择

嵌入式特征选择是将特征选择与学习器训练过程融为一体，两者在同一个优化过程中完成的。即学习器训练过程中自动进行了特征选择。

3.3.1 基于惩罚项的特征选择法

通过L1正则项来选择特征：L1正则方法具有稀疏解的特性，因此天然具备特征选择的特性，但是要注意，L1没有选到的特征不代表不重要，原因是两个具有高相关性的特征可能只保留了一个，如果要确定哪个特征重要应再通过L2正则方法交叉检验。

3.3.2 基于学习模型的特征选择

这种方法的思路是直接使用你要用的机器学习算法，针对每个单独的特征和响应变量建立预测模型。假如某个特征和响应变量之间的关系是非线性的，可以用基于树的方法（决策树、随机森林）、或者扩展的线性模型等。基于树的方法比较易于使用，因为他们对非线性关系的建模比较好，并且不需要太多的调试。但要注意过拟合问题，因此树的深度最好不要太大，再就是运用交叉验证。通过这种训练对特征进行打分获得相关性后再训练最终模型。

参考资料：

1、https://zhuanlan.zhihu.com/p/32749489
2、https://scikitlearn.org/stable/modules/feature_selection.html#feature-selection

30、基于SelectFromModel和LassoCV的特征选择凌晨思索
30、基于SelectFromModel和LassoCV的特征选择importmatplotlib.pyplotaspltimportnumpyasnpfromsklearn.datasetsimportload_diabetesfromsklearn.feature_selectionimportSelectFromModelfromsklearn.linear_modelimportLasso
深度学习回归任务训练代码模版槐月初叁深度学习深度学习回归人工智能
深度学习回归任务训练代码模版文章目录深度学习回归任务训练代码模版参数设置功能函数数据加载自定义数据集加载类特征选择（可选）数据读取定义模型训练模型训练迭代＋验证迭代使用`tensorboard`输出模型训练过程和指标可视化(可选)结果预测参考参数设置超参设置：config包含所有训练需要的超参数（便于后续的调参），以及模型需要存储的位置device='cuda'iftorch.cuda.is_av
Python 机器学习基础之数据表示与特征工程【分箱、离散化、线性模型与树 / 交互特征与多项式特征】的简单说明仙魁XAN Python 机器学习基础+实战案例机器学习 python 分箱离散化线性模型与树交互特征与多项式特征
Python机器学习基础之数据表示与特征工程【分箱、离散化、线性模型与树/交互特征与多项式特征】的简单说明目录Python机器学习基础之数据表示与特征工程【分箱、离散化、线性模型与树/交互特征与多项式特征】的简单说明一、简单介绍二、分箱、离散化、线性模型与树三、交互特征与多项式特征附录一、参考文献一、简单介绍Python是一种跨平台的计算机程序设计语言。是一种面向对象的动态类型语言，最初被设计用于
Java在智能数据挖掘系统的应用 lizi88888 java 数据挖掘开发语言
智能数据挖掘系统是利用机器学习、统计分析等技术从大量数据中自动或半自动地发现模式和知识的系统。Java作为一种流行的编程语言，因其强大的性能和丰富的生态系统，在智能数据挖掘领域的应用非常广泛。本文将探讨Java在智能数据挖掘系统中的应用，并提供示例代码。智能数据挖掘系统概述智能数据挖掘系统通常具备以下功能：数据预处理：包括数据清洗、归一化、特征选择等。模式识别：识别数据中的模式，如分类、聚类、关联
机器学习算法 —— LightGBM ZShiJ 机器学习算法机器学习算法分类
欢迎来到我的博客——探索技术的无限可能！博客的简介（文章目录）目录背景描述数据说明数据来源LightGBMLightGBM原理简介LightGBM的优点LightGBM的缺点LightGBM的应用基于英雄联盟数据集的LightGBM分类实战函数库导入数据读取/载入数据信息简单查看可视化描述利用LightGBM进行训练与预测利用LightGBM进行特征选择通过调整参数获得更好的效果基本参数调整针对训
遗传进化算法进行高效特征选择广东数字化转型算法人工智能
在构建机器学习模型时，特征选择是一个关键的预处理步骤。使用全部特征往往会导致过拟合、增加计算复杂度等问题。因此，我们需要从原始特征集中选择一个最优子集，以提高模型的泛化性能和效率。特征选择的目标是找到一个二元掩码向量，对应每个特征的保留(1)或剔除(0)。例如，对于10个特征，这个掩码向量可能是[1,0,1,1,0,0,1,0,1,0]。我们需要通过某种优化方法，寻找一个使目标函数(如模型的贝叶斯
遥感之智能优化算法大纲介绍遥感-GIS 遥感之智能优化算法图像处理 arcgis 启发式算法
介绍近年来在遥感及人工智能领域研究比较火热的智能优化算法，其中被广泛使用的比如粒子群算法和遗传算法等，在遥感领域，比如高光谱特征选择，机器学习超参数优化等方向有众多的应用，除了提到了两个算法之外，还有众多其他算法，本专栏基于《智能优化算法与涌现计算》及其相关资料，对智能优化算法做些详细的整理和总结，以期给遥感或其他领域提供有价值的参考。书籍大纲为：第一篇仿人智能优化算法描述模拟人脑思维、人体系统、
机器学习小组第三周：简单的数据预处理和特征工程 -Helslie 机器学习机器学习
学习目标●无量纲化：最值归一化、均值方差归一化及sklearn中的Scaler●缺失值处理●处理分类型特征：编码与哑变量●处理连续型特征：二值化与分段学习资料首先，参考：《机器学习的敲门砖：归一化与KD树》及《特征工程系列：特征预处理（上）》中相关部分。其次，其他知识点可参考推荐博文：sklearn中的数据预处理和特征工程。20200311数据归一化在量纲不同的情况下，对于部分算法不能反映样本中每
机器学习基础（四）——决策树与随机森林 Bayesian小孙机器学习基础决策树机器学习随机森林
决策树与随机森林文章目录决策树与随机森林一、知识概要（一）二、决策树使用的算法三、sklearn决策树API四、决策树的案例1.数据清洗2.特征工程3.调用决策树API五、集成学习方法-随机森林1.知识概要（二）2.集成学习API3.随机森林的案例importpandasaspdfromsklearn.feature_extractionimportDictVectorizerfromsklear
智能优化特征选择|基于鹦鹉优化（2024年新出优化算法）的特征选择（分类器选用的是SVM）研究Matlab程序【优化算法可以替换成其他优化方法】机器不会学习CL 智能优化算法智能优化特征选择算法支持向量机 matlab
智能优化特征选择|基于鹦鹉优化（2024年新出优化算法）的特征选择（分类器选用的是SVM）研究Matlab程序【优化算法可以替换成其他优化方法】文章目录一、PO基本原理基本原理基本流程示例应用二、实验结果三、核心代码四、代码获取五、总结智能优化特征选择|基于鹦鹉优化（2024年新出优化算法）的特征选择（分类器选用的是SVM）研究Matlab程序【优化算法可以替换成其他优化方法】一、PO基本原理鹦鹉
spark应用程序转换_4.Spark特征提取、转换和选择 - 简书 weixin_39956182 spark应用程序转换
在实际机器学习项目中，我们获取的数据往往是不规范、不一致、有很多缺失数据，甚至不少错误数据，这些数据有时又称为脏数据或噪音，在模型训练前，务必对这些脏数据进行处理，否则，再好的模型，也只能脏数据进，脏数据出。这章我们主要介绍对数据处理涉及的一些操作，主要包括：特征提取特征转换特征选择4.1特征提取特征提取一般指从原始数据中抽取特征。4.1.1词频－逆向文件频率(TF-IDF)词频－逆向文件频率(T
Spark MLlib 特征工程系列—特征转换VectorSizeHint 不二人生 Spark 实战 spark-ml 机器学习 spark
SparkMLlib特征工程系列—特征转换VectorSizeHintVectorSizeHint是Spark提供的一个特征转换器，用于指定向量列的大小（即维度）。在一些特征转换和建模过程中，要求输入的向量必须有固定的大小。当数据中包含不同大小的向量时，Spark可能无法自动推断出向量的正确大小。这时，VectorSizeHint可以显式地声明向量的大小，确保后续的操作能够顺利进行。为什么需要使用
【机器学习】特征提取特征降维 de-feedback 机器学习人工智能
特征工程特征工程是将原始数据转化为可以用于机器学习的数字特征，比如字典的特征提取，文档的特征提取等。字典特征提取把字典的每个唯一的键作为数据集特征的一个维度，有这个维度的就为1，没有就是0。其他相同的键，该维度的值就是其键值。这样的操作把字典样本的每一条数据转化为了矩阵，但是矩阵中含有大量的0（因为数据中的键和值有很多不同），所以称之为稀疏矩阵为了保存数据的高效，一般使用三元组表存储。保存非零数据
代谢组数据分析（十八）：随机森林构建代谢组诊断模型生信学习者2 代谢组分析数据分析随机森林数据挖掘
介绍使用随机森林算法和LASSO特征选择构建了一种胃癌（GC）诊断预测模型。参与者（队列1，n=426）通过随机分层抽样分为发现数据集（n=284）和测试集（n=142）。接下来，在发现数据集上执行LASSO回归，以选择能够识别胃癌患者的较少数量的特征。我们将L1约束的系数设置为0.01，并根据10,000次随机交叉验证的平均误分类误差选择了十个非零系数的特征。在发现数据集上使用引导聚合方法训练了
【机器学习】特征工程的基本概念以及LASSO回归和主成分分析优化方法 Lossya 机器学习回归人工智能算法特征工程
引言特征工程是机器学习中的一个关键步骤，它涉及到从原始数据中提取和构造新的特征，以提高模型的性能和预测能力LASSO（LeastAbsoluteShrinkageandSelectionOperator）回归是一种用于回归分析的线性模型，它通过引入L1正则化（Lasso正则化）来简化模型并减少过拟合的风险主成分分析（PrincipalComponentAnalysis，PCA）是一种常用的降维技术
AutoML原理与代码实例讲解 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AutoML原理与代码实例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着数据量的爆炸式增长和算法的日益复杂，机器学习在各个领域的应用越来越广泛。然而，机器学习模型的开发过程往往需要大量的专业知识和经验。数据预处理、特征工程、模型选择、参数调优等步骤都需要人工进行，这使得机器学习模型的开发变得复杂且耗时。为了解决这
python库——sklearn的关键组件和参数设置零度° python python sklearn
文章目录模型构建线性回归逻辑回归决策树分类器随机森林支持向量机K-近邻模型评估交叉验证性能指标特征工程主成分分析标准化和归一化scikit-learn，简称sklearn，是Python中一个广泛使用的机器学习库，它建立在NumPy、SciPy和Matplotlib这些科学计算库之上。sklearn提供了简单而有效的工具来进行数据挖掘和数据分析。我们将介绍sklearn中一些关键组件的参数设置。模
AI实现自闭症早筛：卡罗林斯卡学院研究团队开发的多模态数据分析AI模型，能在儿童12个月左右时发现自闭症的早期迹象，准确率超过80%？百态老人人工智能团队开发数据分析
卡罗林斯卡学院的研究团队确实开发了一种多模态数据分析AI模型，该模型能够在儿童大约12个月大时发现自闭症的早期迹象，并且准确率超过80%.具体来说，这种AI模型利用了多种数据源和分析方法，包括基础医疗筛查和背景历史信息，依赖家长报告的数据来简化特征选择，从而使得早期筛查更加实用和广泛适用.这种模型不仅在识别12个月左右的儿童中表现出了高准确性，而且对两岁以下儿童的识别准确率也达到了80.5%.因此
【机器学习】探索数据矿藏：Python中的AI大模型与数据挖掘创新实践 C_GUIQU 机器学习人工智能 python
前言：探索数据矿藏1.数据获取与预处理：AI大模型的燃料1.1数据获取：多样性与规模并重1.2数据清洗与处理：提升数据质量1.3特征工程：挖掘数据的深层次信息1.4自动化特征工程：AI与特征工程的结合2.模型训练与优化：构建智能的大脑2.1模型选择：大模型的基础构建2.2模型训练：从数据到智能的转化2.3⚙️模型优化：精益求精的智能化提升2.4模型解释与可视化：揭示黑盒的内部3实际应用案例：AI大
深度学习的一个完整过程通常包括以下几个步骤 longerVR DL 深度学习人工智能
深度学习的一个完整过程通常包括以下几个步骤：问题定义和数据收集：定义清晰的问题，明确任务的类型（分类、回归、聚类等）以及预期的输出。收集和整理用于训练和评估模型的数据集。确保数据集的质量，进行预处理和清理。数据预处理：处理缺失值、异常值和重复数据。进行特征工程，选择、转换或创建合适的特征。将数据集划分为训练集、验证集和测试集。选择模型架构：根据问题的性质选择适当的深度学习模型架构，如卷积神经网络（
挑战杯基于机器学习与大数据的糖尿病预测 laafeer python
文章目录1前言1课题背景2数据导入处理3数据可视化分析4特征选择4.1通过相关性进行筛选4.2多重共线性4.3RFE（递归特征消除法）4.4正则化5机器学习模型建立与评价5.1评价方式的选择5.2模型的建立与评价5.3模型参数调优5.4将调参过后的模型重新进行训练并与原模型比较6总结1前言优质竞赛项目系列，今天要分享的是基于机器学习与大数据的糖尿病预测该项目较为新颖，适合作为竞赛课题方向，学长非常
【机器学习】多元线性回归 Mount256 #机器学习机器学习线性回归人工智能
文章目录多元线性回归模型（multipleregressionmodel）损失/代价函数（costfunction）——均方误差（meansquarederror）批量梯度下降算法（batchgradientdescentalgorithm）特征工程（featureengineering）特征缩放（featurescaling）正则化线性回归（regularizationlinearregress
吴恩达机器学习全课程笔记第一篇亿维数组 Machine Learning 机器学习笔记人工智能
目录前言P1-P8监督学习无监督学习P9-P14线性回归模型成本（代价）函数P15-P20梯度下降P21-P24多类特征向量化多元线性回归的梯度下降P25-P30特征缩放检查梯度下降是否收敛学习率的选择特征工程多项式回归前言从今天开始，争取能够在开学之前（2.25）把b站上的【吴恩达机器学习】教程过一遍，并把笔记记录于此，本笔记将会把此课程每一p的重点内容及其截屏记录于此，以供大家参考和本人日后复
DataCastle 员工离职预测 Baseline 小嗷犬 Python 机器学习机器学习数据挖掘 sklearn
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录比赛介绍比赛链接赛题描述评分标准比赛数据数据下载数据说明Baseline导包数据读取数据缺失状况样本标签是否均衡打印类别特征类别特征编码特征衍生数据标准化数据降维特征选择不均衡样本处理模型调参XGBo
MATLAB进行特征选择 AI Dog 数学建模\MATLAB matlab 数学建模数据挖掘特征选择特征提取
特征选择是机器学习和统计建模中的重要步骤，它涉及选择最相关、最有信息价值的特征，以提高模型性能、降低过拟合风险，并加速训练过程。以下是一些常见的特征选择方法：（1）方差选择法计算各个特征的方差，然后根据阈值，选择方差大于阈值的特征作为筛选出来的特征。这里是针对于各个变量独立地进行方差计算，然后按照方差大小对特征进行降序排列，保留前几个方差较大的变量。（2）随机森林特征重要度随机森林由多个决策树构成
零基础入门金融风控-贷款违约预测Task2 数据分析一缕阳光lyz 数据分析数据挖掘
Task2数据分析此部分为零基础入门金融风控的Task2数据分析部分，带你来了解数据，熟悉数据，为后续的特征工程做准备，欢迎大家后续多多交流。赛题：零基础入门数据挖掘-零基础入门金融风控之贷款违约目的：1.EDA价值主要在于熟悉了解整个数据集的基本情况（缺失值，异常值），对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模.2.了解变量间的相互关系、变量与预测值之间的存在关系。3.为特征工
【吴恩达·机器学习】第二章：多变量线性回归模型（选择学习率、特征缩放、特征工程、多项式回归） Yaoyao2024 机器学习线性回归人工智能
博主简介：努力学习的22级计算机科学与技术本科生一枚博主主页：@Yaoyao2024每日一言:勇敢的人，不是不落泪的人，而是愿意含着泪继续奔跑的人。——《朗读者》0、声明本系列博客文章是博主本人根据吴恩达老师2022年的机器学习课程所学而写，主要包括老师的核心讲义和自己的理解。在上完课后对课程内容进行回顾和整合，从而加深自己对知识的理解，也方便自己以及后续的同学们复习和回顾。课程地址2022吴恩达
深度学习从入门到不想放弃-1 周博洋K 深度学习人工智能
基本功总是很香的，良好的基础才能决定上层建筑的质量和高度。从今天开始陆续连载一些深度学习的基础，包括概念，数学原理，代码，最近也确实没什么热点可以蹭先看机器学习和深度学习的对比："数据和特征决定了机器学习的上限，而模型与算法则是逼近这个上限而已"，机器学习和深度学习的本质区别之一是特征工程，而特征工程又是决定最终结果好坏的最重要的因素之一；上图最上面描述是机器学习的流程，如果让一个计算机理解输入的
《区块链公链数据分析简易速速上手小册》第8章：实战案例研究（2024 最新版）江帅帅区块链数据分析数据挖掘人工智能 python web3 机器学习
文章目录8.1案例分析：投资决策支持8.1.1基础知识8.1.2重点案例：股票市场趋势预测准备工作实现步骤步骤1:加载和准备数据步骤2:特征工程步骤3:训练模型步骤4:评估模型结论8.1.3拓展案例1：基于情感分析的投资策略准备工作实现步骤
机器学习中的特征工程 qq_44980515 机器学习 python 数据分析人工智能
目录一、特征工程目标二、特征工程内容（一）异常处理（二）特征标准化/归一化（三）数据分桶（四）缺失值处理（五）特征构造（六）特征筛选（特征选择）（七）降维三、代码示例（一）导入数据（二）删除异常值（三）特征构造（四）特征筛选1.过滤式2.包裹式一、特征工程目标对于特征进行进一步分析，并对于数据进行处理。完成对于特征工程的分析，并对于数据进行一些图表或者文字总结。特征工程的主要目的还是在于将数据转换
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓