Doris_H_n_q

PCA降维实例[GridSearchCV求最优参]

降维概念

机器学习领域中所谓的降维就是指采用某种映射方法，将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y，其中x是原始数据点的表达，目前最多使用向量表达形式。 y是数据点映射后的低维向量表达，通常y的维度小于x的维度（当然提高维度也是可以的）。f可能是显式的或隐式的、线性的或非线性的。

目前大部分降维算法处理向量表达的数据，也有一些降维算法处理高阶张量表达的数据。之所以使用降维后的数据表示是因为在原始的高维空间中，包含有冗余信息以及噪音信息，在实际应用例如图像识别中造成了误差，降低了准确率；而通过降维,我们希望减少冗余信息所造成的误差,提高识别（或其他应用）的精度。又或者希望通过降维算法来寻找数据内部的本质结构特征。

在很多算法中，降维算法成为了数据预处理的一部分，如PCA。事实上，有一些算法如果没有降维预处理，其实是很难得到很好的效果的。

对原始数据采取降维的原因通常有两个：① 缓解“维度灾难” ② 对数据进行可视化。

　　降维的好坏没有一个直接的标准（包括上面提到的重构误差也只能作为一个中性的指标）。通常通过对数据进行降维，然后用降维后的数据进行学习，再根据学习的效果选择一个恰当的降维方式和一个合适的降维模型参数。　

sklearn.decomposition.PCA(n_components=None, copy=True, whiten=False)

一、关于参数

n_components:

意义：PCA算法中所要保留的主成分个数n，也即保留下来的特征个数n

类型：int 或者 string，缺省时默认为None，所有成分被保留。

赋值为int，比如n_components=1，将把原始数据降到一个维度。

赋值为string，比如n_components='mle'，将自动选取特征个数n，使得满足所要求的方差百分比。

copy: 类型：bool，True或者False，缺省时默认为True。

意义：表示是否在运行算法时，将原始训练数据复制一份。若为True，则运行PCA算法后，原始训练数据的值不会有任何改变，因为是在原始数据的副本上进行运算；若为False，则运行PCA算法后，原始训练数据的值会改，因为是在原始数据上进行降维计算。

whiten: 类型：bool，缺省时默认为False ; 意义：白化。

二、PCA对象属性

components_：返回具有最大方差的成分。

explained_variance_ratio_：返回所保留的n个成分各自的方差百分比。 n_components_：返回所保留的成分个数n。

mean_：

noise_variance_：

三、PCA对象属性

fit(X,y=None)

fit()可以说是scikit-learn中通用的方法，每个需要训练的算法都会有fit()方法，它其实就是算法中的“训练”这一步骤。因为PCA是无监督学习算法，此处y自然等于None。
fit(X)：表示用数据X来训练PCA模型。
函数返回值：调用fit方法的对象本身。比如pca.fit(X)，表示用X对pca这个对象进行训练。

fit_transform(X)

用X来训练PCA模型，同时返回降维后的数据。
newX=pca.fit_transform(X)，newX就是降维后的数据。

inverse_transform()

将降维后的数据转换成原始数据，
X=pca.inverse_transform(newX)

transform(X)

将数据X转换成降维后的数据。当模型训练好后，对于新输入的数据，都可以用transform方法来降维。

此外，还有get_covariance()、get_precision()、get_params(deep=True)、score(X, y=None)等方法，以后用到再补充吧。

（转至 https://blog.csdn.net/u012102306/article/details/52294726）

流程

拟合数据并降维——n_components对应要将的维度

'''拟合数据'''
K=1 # 要降的维度
model = pca.PCA(n_components=K).fit(x_train)   # 拟合数据，n_components定义要降的维度
Z = model.transform(x_train)    # transform就会执行降维操作

数据恢复

model.components_会得到降维使用的U矩阵

'''数据恢复并作图''' 
Ureduce = model.components_ # 得到降维用的

Ureduce x_rec = np.dot(Z,Ureduce) # 数据恢复

手写数字识别

导包，使用SVM
datasets读取数据
分割训练和预测数据train_test_split(可以放多个要分割的数据)
绘制前100个图片
创建SVC模型gamma =0.001
训练数据
预测数据，可视化

导包

import pandas as pd
from pandas import Series,DataFrame
import numpy as np

import matplotlib.pyplot as plt
%matplotlib inline

'''PCA'''
from sklearn.decomposition import PCA

'''SVC算法'''
from sklearn.svm import SVC
'''使用GridSearchCV搜索最优参数'''
from sklearn.model_selection import GridSearchCV

数据集

data = pd.read_csv('./data/digits.csv')
data.shape
Out：(42000, 785)
# 28*28=784

显示数据

# 属性的不同的，导致了图片数字显示不同
# 属性差别导致，形状差别

image = data.loc[3][1:].values.reshape(28,28)
plt.figure(figsize=(1,1))
plt.imshow(image)

# piexel0这一列对数据的分类，一点用都没有
data['pixel0'].sum()
Out：0

data['pixel5'].sum()
Out：0

data['pixel783'].sum()
Out：0

降维

# 降维，数据784维，属性
# 没用数据属性去掉784维------>100维：提取100个关键的属性

白化的概念

- 白化是一种重要的预处理过程，其目的就是降低输入数据的冗余性，使得经过白化处理的输入数据具有如下性质：

(i)特征之间相关性较低；(ii)所有特征具有相同的方差。
白化处理分PCA白化和ZCA白化，PCA白化保证数据各维度的方差为1，而ZCA白化保证数据各维度的方差相同。
PCA白化可以用于降维也可以去相关性，而ZCA白化主要用于去相关性，且尽量使白化后的数据接近原始输入数据。

- PCA白化和ZCA白化的区别

PCA白化ZCA白化都降低了特征之间相关性较低，同时使得所有特征具有相同的方差。

PCA白化需要保证数据各维度的方差为1，ZCA白化只需保证方差相等。
PCA白化可进行降维也可以去相关性，而ZCA白化主要用于去相关性另外。
ZCA白化相比于PCA白化使得处理后的数据更加的接近原始数据。

参见：https://blog.csdn.net/u013146742/article/details/51798826

特征数据和目标数据

X = data.iloc[:,1:]
y = data['label']

降维操作

''' PCA(n_components=None【要降的维度】, copy=True, whiten=False
【(i)特征之间相关性较低；(ii)所有特征具有相同的方差。】, 
svd_solver='auto', tol=0.0, iterated_power='auto', random_state=None)'''

pca = PCA(n_components=100,whiten=True)
pca.fit(X)
Out： 
PCA(copy=True, iterated_power='auto', n_components=100, random_state=None,
  svd_solver='auto', tol=0.0, whiten=True)

X_pca = pca.transform(X)  # transform就会执行降维操作
# X_pca,使用这个数据效果更好
X_pca.shape
Out：（42000，100）

X_pca[0:5000].shape
OUt:
(5000, 100)

GridSearchCV 的参数说明：

1.estimator
选择使用的分类器，并且传入除需要确定最佳的参数之外的其他参数。
每一个分类器都需要一个scoring参数，或者score方法：
如estimator=RandomForestClassifier(
	min_samples_split=100,
	min_samples_leaf=20,
	max_depth=8,
	max_features='sqrt',
	random_state=10),
 
2.param_grid
需要最优化的参数的取值，值为字典或者列表，例如：
	param_grid =param_test1，
	param_test1 = {'n_estimators':range(10,71,10)}。
 
3. scoring=None
模型评价标准，默认None,这时需要使用score函数；或者如scoring='roc_auc'，
根据所选模型不同，评价准则不同。字符串（函数名），或是可调用对象，
需要其函数签名形如：scorer(estimator, X, y)；如果是None，则使用estimator的误差估计函数。
 
4.n_jobs=1
n_jobs: 并行数，int：个数,-1：跟CPU核数一致, 1:默认值
 
5.cv=None  
交叉验证参数，默认None，使用三折交叉验证。指定fold数量，默认为3，也可以是yield产生训练/测试数据的生成器。
 
6.verbose=0, scoring=None
verbose：日志冗长度，int：冗长度，0：不输出训练过程，1：偶尔输出，>1：对每个子模型都输出。
 
7.pre_dispatch=‘2*n_jobs’
指定总共分发的并行任务数。当n_jobs大于1时，数据将在每个运行点进行复制，这可能导致OOM，
而设置pre_dispatch参数，则可以预先划分总共的job数量，使数据最多被复制pre_dispatch次
 
8.return_train_score=’warn’
如果“False”，cv_results_属性将不包括训练分数。
 
9.refit :默认为True,程序将会以交叉验证训练集得到的最佳参数，重新对所有可用的训练集与开发集进行，
作为最终用于性能评估的最佳模型参数。即在搜索参数结束后，用最佳参数结果再次fit一遍全部数据集。
 
10.iid:默认True,为True时，默认为各个样本fold概率分布一致，误差估计为所有样本之和，而非各个fold的平均。
 
进行预测的常用方法和属性
grid.fit()：运行网格搜索
grid_scores_：给出不同参数情况下的评价结果
best_params_：描述了已取得最佳结果的参数的组合
best_score_：成员提供优化过程期间观察到的最好的评分
-------------------------------------------------------
param_test1 ={'n_estimators':range(10,71,10)}  
gsearch1= GridSearchCV(
		estimator =RandomForestClassifier(
			min_samples_split=100,  
                        min_samples_leaf=20,max_depth=8,
			max_features='sqrt',
			random_state=10),   
                param_grid =param_test1,
		scoring='roc_auc',
		cv=5)  
gsearch1.fit(X,y)  
gsearch1.grid_scores_, 
gsearch1.best_params_, 
gsearch1.best_score_  
 
'''
输出结果如下：
([mean: 0.80681, std:0.02236, params: {'n_estimators': 10},
  mean: 0.81600, std: 0.03275, params:{'n_estimators': 20},
  mean: 0.81818, std: 0.03136, params:{'n_estimators': 30},
  mean: 0.81838, std: 0.03118, params:{'n_estimators': 40},
  mean: 0.82034, std: 0.03001, params:{'n_estimators': 50},
  mean: 0.82113, std: 0.02966, params:{'n_estimators': 60},
  mean: 0.81992, std: 0.02836, params:{'n_estimators': 70}],
{'n_estimators': 60},
0.8211334476626017)
'''
如果有transform,使用Pipeline简化系统搭建流程，将transform与分类器串联起来（Pipelineof transforms with a final estimator）
 
pipeline= Pipeline([("features", combined_features), ("svm", svm)])  
param_grid= dict(features__pca__n_components=[1, 2, 3],  
                  features__univ_select__k=[1,2],  
                  svm__C=[0.1, 1, 10])  
   
grid_search= GridSearchCV(pipeline, param_grid=param_grid, verbose=10)  
grid_search.fit(X,y)  
print(grid_search.best_estimator_)  
# 转：https://blog.csdn.net/WxyangID/article/details/80397185

使用SVC算法

'''C惩罚系数默认值是1  -->[0.1,0.5,1,2,3,5]
 gamma是kernel系数默认值是1/n_features = 0.01 -->[0.0001,0.001,0.01,0.05,0.1,0.5]
'''
svc = SVC()
# 定义参数取值
params = {'C':[1,3],'gamma':[0.001,0.05]}

'''GridSearchCV(estimator, param_grid, scoring=None, fit_params=None, n_jobs=1,
iid=True, refit=True, cv=None, verbose=0, pre_dispatch='2*n_jobs', 
error_score='raise', return_train_score='warn')'''

# 使用GridSearchCV网格搜索出最优参数
gcv = GridSearchCV(svc,param_grid=params)

使用前5000个数据训练，后500个数据做测试：

X_train = X_pca[0:5000]

X_test = X_pca[-500:]

y_train = y[:5000]

y_test = y[-500:]

使用gcv训练数据，找出最优解

# 认为for遍历参数，寻找最优的参数
gcv.fit(X_train,y_train)
Out：
GridSearchCV(cv=None, error_score='raise',
       estimator=SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto', kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False),
       fit_params=None, iid=True, n_jobs=1,
       param_grid={'C': [1, 3], 'gamma': [0.001, 0.05]},
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring=None, verbose=0)

'''最优解：C=3,gamma=0.001'''
svc_best = gcv.best_estimator_
svc_best
Out：
SVC(C=3, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma=0.001, kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

gcv.best_score_
Out: 0.9106

svc_best.score(X_test,y_test)
Out: 0.926

若不进行降维，速度慢，准确度低

# 如果不进行降维
X_train1 = X[:5000]
y_train1 = y[:5000]

X_test1 = X[-500:]
y_test1 = y[-500:]


print(time.time())
svc_best.fit(X_train1,y_train1)
print(time.time())
Out：
1532486494.0555701
1532486563.2417252

# 准确率，不会太高,非常低，不能接受
# 对数据处理，降维好处显而易见
'''svc_best是使用已经经过网格搜索出最优参数的svc模型'''
svc_best.score(X_test1,y_test1)
Out： 0.142

Python 机器学习基础之数据表示与特征工程【分箱、离散化、线性模型与树 / 交互特征与多项式特征】的简单说明仙魁XAN Python 机器学习基础+实战案例机器学习 python 分箱离散化线性模型与树交互特征与多项式特征
Python机器学习基础之数据表示与特征工程【分箱、离散化、线性模型与树/交互特征与多项式特征】的简单说明目录Python机器学习基础之数据表示与特征工程【分箱、离散化、线性模型与树/交互特征与多项式特征】的简单说明一、简单介绍二、分箱、离散化、线性模型与树三、交互特征与多项式特征附录一、参考文献一、简单介绍Python是一种跨平台的计算机程序设计语言。是一种面向对象的动态类型语言，最初被设计用于
机器学习小组第三周：简单的数据预处理和特征工程 -Helslie 机器学习机器学习
学习目标●无量纲化：最值归一化、均值方差归一化及sklearn中的Scaler●缺失值处理●处理分类型特征：编码与哑变量●处理连续型特征：二值化与分段学习资料首先，参考：《机器学习的敲门砖：归一化与KD树》及《特征工程系列：特征预处理（上）》中相关部分。其次，其他知识点可参考推荐博文：sklearn中的数据预处理和特征工程。20200311数据归一化在量纲不同的情况下，对于部分算法不能反映样本中每
机器学习基础（四）——决策树与随机森林 Bayesian小孙机器学习基础决策树机器学习随机森林
决策树与随机森林文章目录决策树与随机森林一、知识概要（一）二、决策树使用的算法三、sklearn决策树API四、决策树的案例1.数据清洗2.特征工程3.调用决策树API五、集成学习方法-随机森林1.知识概要（二）2.集成学习API3.随机森林的案例importpandasaspdfromsklearn.feature_extractionimportDictVectorizerfromsklear
Spark MLlib 特征工程系列—特征转换VectorSizeHint 不二人生 Spark 实战 spark-ml 机器学习 spark
SparkMLlib特征工程系列—特征转换VectorSizeHintVectorSizeHint是Spark提供的一个特征转换器，用于指定向量列的大小（即维度）。在一些特征转换和建模过程中，要求输入的向量必须有固定的大小。当数据中包含不同大小的向量时，Spark可能无法自动推断出向量的正确大小。这时，VectorSizeHint可以显式地声明向量的大小，确保后续的操作能够顺利进行。为什么需要使用
【机器学习】特征提取特征降维 de-feedback 机器学习人工智能
特征工程特征工程是将原始数据转化为可以用于机器学习的数字特征，比如字典的特征提取，文档的特征提取等。字典特征提取把字典的每个唯一的键作为数据集特征的一个维度，有这个维度的就为1，没有就是0。其他相同的键，该维度的值就是其键值。这样的操作把字典样本的每一条数据转化为了矩阵，但是矩阵中含有大量的0（因为数据中的键和值有很多不同），所以称之为稀疏矩阵为了保存数据的高效，一般使用三元组表存储。保存非零数据
【机器学习】特征工程的基本概念以及LASSO回归和主成分分析优化方法 Lossya 机器学习回归人工智能算法特征工程
引言特征工程是机器学习中的一个关键步骤，它涉及到从原始数据中提取和构造新的特征，以提高模型的性能和预测能力LASSO（LeastAbsoluteShrinkageandSelectionOperator）回归是一种用于回归分析的线性模型，它通过引入L1正则化（Lasso正则化）来简化模型并减少过拟合的风险主成分分析（PrincipalComponentAnalysis，PCA）是一种常用的降维技术
AutoML原理与代码实例讲解 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AutoML原理与代码实例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着数据量的爆炸式增长和算法的日益复杂，机器学习在各个领域的应用越来越广泛。然而，机器学习模型的开发过程往往需要大量的专业知识和经验。数据预处理、特征工程、模型选择、参数调优等步骤都需要人工进行，这使得机器学习模型的开发变得复杂且耗时。为了解决这
python库——sklearn的关键组件和参数设置零度° python python sklearn
文章目录模型构建线性回归逻辑回归决策树分类器随机森林支持向量机K-近邻模型评估交叉验证性能指标特征工程主成分分析标准化和归一化scikit-learn，简称sklearn，是Python中一个广泛使用的机器学习库，它建立在NumPy、SciPy和Matplotlib这些科学计算库之上。sklearn提供了简单而有效的工具来进行数据挖掘和数据分析。我们将介绍sklearn中一些关键组件的参数设置。模
【机器学习】探索数据矿藏：Python中的AI大模型与数据挖掘创新实践 C_GUIQU 机器学习人工智能 python
前言：探索数据矿藏1.数据获取与预处理：AI大模型的燃料1.1数据获取：多样性与规模并重1.2数据清洗与处理：提升数据质量1.3特征工程：挖掘数据的深层次信息1.4自动化特征工程：AI与特征工程的结合2.模型训练与优化：构建智能的大脑2.1模型选择：大模型的基础构建2.2模型训练：从数据到智能的转化2.3⚙️模型优化：精益求精的智能化提升2.4模型解释与可视化：揭示黑盒的内部3实际应用案例：AI大
深度学习的一个完整过程通常包括以下几个步骤 longerVR DL 深度学习人工智能
深度学习的一个完整过程通常包括以下几个步骤：问题定义和数据收集：定义清晰的问题，明确任务的类型（分类、回归、聚类等）以及预期的输出。收集和整理用于训练和评估模型的数据集。确保数据集的质量，进行预处理和清理。数据预处理：处理缺失值、异常值和重复数据。进行特征工程，选择、转换或创建合适的特征。将数据集划分为训练集、验证集和测试集。选择模型架构：根据问题的性质选择适当的深度学习模型架构，如卷积神经网络（
【机器学习】多元线性回归 Mount256 #机器学习机器学习线性回归人工智能
文章目录多元线性回归模型（multipleregressionmodel）损失/代价函数（costfunction）——均方误差（meansquarederror）批量梯度下降算法（batchgradientdescentalgorithm）特征工程（featureengineering）特征缩放（featurescaling）正则化线性回归（regularizationlinearregress
吴恩达机器学习全课程笔记第一篇亿维数组 Machine Learning 机器学习笔记人工智能
目录前言P1-P8监督学习无监督学习P9-P14线性回归模型成本（代价）函数P15-P20梯度下降P21-P24多类特征向量化多元线性回归的梯度下降P25-P30特征缩放检查梯度下降是否收敛学习率的选择特征工程多项式回归前言从今天开始，争取能够在开学之前（2.25）把b站上的【吴恩达机器学习】教程过一遍，并把笔记记录于此，本笔记将会把此课程每一p的重点内容及其截屏记录于此，以供大家参考和本人日后复
零基础入门金融风控-贷款违约预测Task2 数据分析一缕阳光lyz 数据分析数据挖掘
Task2数据分析此部分为零基础入门金融风控的Task2数据分析部分，带你来了解数据，熟悉数据，为后续的特征工程做准备，欢迎大家后续多多交流。赛题：零基础入门数据挖掘-零基础入门金融风控之贷款违约目的：1.EDA价值主要在于熟悉了解整个数据集的基本情况（缺失值，异常值），对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模.2.了解变量间的相互关系、变量与预测值之间的存在关系。3.为特征工
【吴恩达·机器学习】第二章：多变量线性回归模型（选择学习率、特征缩放、特征工程、多项式回归） Yaoyao2024 机器学习线性回归人工智能
博主简介：努力学习的22级计算机科学与技术本科生一枚博主主页：@Yaoyao2024每日一言:勇敢的人，不是不落泪的人，而是愿意含着泪继续奔跑的人。——《朗读者》0、声明本系列博客文章是博主本人根据吴恩达老师2022年的机器学习课程所学而写，主要包括老师的核心讲义和自己的理解。在上完课后对课程内容进行回顾和整合，从而加深自己对知识的理解，也方便自己以及后续的同学们复习和回顾。课程地址2022吴恩达
深度学习从入门到不想放弃-1 周博洋K 深度学习人工智能
基本功总是很香的，良好的基础才能决定上层建筑的质量和高度。从今天开始陆续连载一些深度学习的基础，包括概念，数学原理，代码，最近也确实没什么热点可以蹭先看机器学习和深度学习的对比："数据和特征决定了机器学习的上限，而模型与算法则是逼近这个上限而已"，机器学习和深度学习的本质区别之一是特征工程，而特征工程又是决定最终结果好坏的最重要的因素之一；上图最上面描述是机器学习的流程，如果让一个计算机理解输入的
《区块链公链数据分析简易速速上手小册》第8章：实战案例研究（2024 最新版）江帅帅区块链数据分析数据挖掘人工智能 python web3 机器学习
文章目录8.1案例分析：投资决策支持8.1.1基础知识8.1.2重点案例：股票市场趋势预测准备工作实现步骤步骤1:加载和准备数据步骤2:特征工程步骤3:训练模型步骤4:评估模型结论8.1.3拓展案例1：基于情感分析的投资策略准备工作实现步骤
机器学习中的特征工程 qq_44980515 机器学习 python 数据分析人工智能
目录一、特征工程目标二、特征工程内容（一）异常处理（二）特征标准化/归一化（三）数据分桶（四）缺失值处理（五）特征构造（六）特征筛选（特征选择）（七）降维三、代码示例（一）导入数据（二）删除异常值（三）特征构造（四）特征筛选1.过滤式2.包裹式一、特征工程目标对于特征进行进一步分析，并对于数据进行处理。完成对于特征工程的分析，并对于数据进行一些图表或者文字总结。特征工程的主要目的还是在于将数据转换
FFA 2023 专场解读：AI 特征工程、数据集成 flink大数据
今年FlinkForwardAsia（以下简称FFA）重新回归线下，将于12月8-9日在北京望京凯悦酒店举办。FlinkForwardAsia2023大会议程已正式上线！FlinkForward是由Apache官方授权的ApacheFlink社区官方技术大会，作为最受ApacheFlink社区开发者期盼的年度峰会之一，FFA2023将持续集结行业最佳实践以及Flink最新技术动态，是中国Flink
【大厂AI课学习笔记】【2.2机器学习开发任务实例】（1）搭建一个机器学习模型 giszz 人工智能学习笔记人工智能学习笔记
今天学习的是，如何搭建一个机器学习模型。主要有以上的步骤：原始数据采集特征工程数据预处理特征提取特征转换（构造）预测识别（模型训练和测试）在实际工作中，特征比模型更重要。数据和特征的选择，已经决定了模型的天花板，模型算法只是去逼近这个上限。在上述的特征工程中：数据预处理，就是去除数据的噪声，例如文本中的错误、不再使用的词语等；特征提取，就是从原始数据中提取一些有效的特征。例如图像分类中，提取边缘、
基于决策树的金融市场波动性预测与应用 OverlordDuke 机器学习决策树决策树算法机器学习
基于决策树的金融市场波动性预测与应用项目背景与意义数据概述与分析数据来源数据特征数据预处理与特征工程模型训练与评估结果与应用总结LightGBM是一个机器学习算法库，用于梯度提升机（GradientBoostingMachine）的实现。梯度提升机是一种集成学习方法，通过串行训练多个弱学习器（通常是决策树），每次学习的模型都试图纠正前一次模型的错误，从而逐步提升整体模型的性能。LightGBM算法
探索XGBoost：时间序列数据建模 Echo_Wish Python 笔记 Python算法 python 算法开发语言
导言XGBoost是一种强大的机器学习算法，广泛应用于各种领域的数据建模任务中。但是，在处理时间序列数据时，需要特别注意数据的特点和模型的选择。本教程将深入探讨如何在Python中使用XGBoost建模时间序列数据，包括数据准备、特征工程和模型训练等方面，并提供相应的代码示例。准备数据在处理时间序列数据之前，首先需要准备数据。通常，时间序列数据是按照时间顺序排列的，每个时间点都有相应的观测值。以下
葫芦书第一章——特征工程单调不减
葫芦书是机器学习岗位面试的必读书，第一遍读，就当作对自己这四个月以来入门机器学习的知识测验，顺便查漏补缺。葫芦书比较好的一点是它的写作是通过问答方式进行的，就像一场模拟面试一样，而这些问题可能是我自学相关知识的时候没有细想过的，通过这些问题我也可以发现自己的知识盲区，再查阅相关资料。闲言少叙，开始啦。特征工程，顾名思义，是对原始数据进行一系列工程处理，将其提炼为特征，作为输入供算法和模型使用。从本
task3 特征工程 1598903c9dd7
1.采用tsfresh工具包提取时间序列特征导入工具包：提取特征：融合之前单变量特征之后，预测变差......哭
task 13 集成学习罐罐儿111
蒸汽量预测1.特征工程一般流程：1.去掉无用特征2.去掉冗余特征3.利用存在的特征、特征转换、内容中的特征以及其他数据源生成新特征4.特征转换（数值化、类别转换、归一化）5.特征处理（异常值、最大值、最小值、缺失值）观察特征核密度估计，已知散点图，做回归，要求连线尽可能平滑，大致观察数据的分布情况。在本例中，通过核密度估计，观察训练集与测试集数据的分布情况，从而删除不具有相似分布的属性值计算相关性
机器学习各种算法汇总模板怎么菜成这样机器学习机器学习 python 算法随机森林支持向量机
机器学习算法模板包含了KNN，线性回归，逻辑回归，朴素贝叶斯，决策树，支持向量机，随机森林，kmeans，集成算法各种算法，特征工程，评估方式任你选择！！！#导包fromsklearn.neighborsimportKNeighborsClassifierfromsklearn.linear_modelimportLinearRegressionfromsklearn.naive_bayesimp
特征工程:数据平衡林浩杨数据探索与可视化机器学习 python 人工智能机器学习算法数据挖掘
目录一、前言二、正文Ⅰ.基于过采样算法Ⅱ.基于欠采样算法Ⅲ..基于过采样和欠采样的综合算法三、结语一、前言大多数情况下，使用的数据集是不完美的，会出现各种各样的问题，尤其针对分类问题的时候，会出现类别不平衡的问题。例如：在垃圾邮件分类时，垃圾邮件数据会有较少的样本量，从而导致两种类型的邮件数据量差别很大；在欺诈监测数据集中，往往包含的欺诈样本并没有那么多。处理这类数据集的分类的时候，需要对数据集的
掌握XGBoost：特征工程与数据预处理 Echo_Wish Python算法 Python 笔记机器学习 python 人工智能
掌握XGBoost：特征工程与数据预处理导言在应用XGBoost模型之前，特征工程和数据预处理是至关重要的步骤。良好的特征工程和数据预处理可以显著提高模型的性能。本教程将介绍在Python中使用XGBoost进行特征工程和数据预处理的中级教程，通过代码示例详细说明各种技术和方法。安装XGBoost首先，请确保您已经安装了Python和pip。然后，您可以使用以下命令安装XGBoost：pipins
梯度提升树系列6——GBDT在异常检测领域的应用 theskylife 数据挖掘机器学习数据挖掘 GBDT 分类 python
目录写在开头1异常检测的基本概念1.1定义和目标1.2GBDT在异常检测中的适用性2信用卡欺诈检测案例分析2.1场景介绍2.2收集数据和特征工程2.3进行异常值识别2.4模型效果评估2.5模型优化3策略和技巧4面临的挑战和解决方案4.1数据不平衡4.2过拟合4.3模型解释性写在最后在如今数据驱动的时代，异常检测成为了保障系统安全的关键技术，尤其在金融安全、网络安全等领域中扮演着至关重要的角色。梯度
【深度学习：掌握监督学习】掌握监督学习综合指南 jcfszxc 深度学习知识专栏深度学习学习人工智能
【深度学习：掌握监督学习】掌握监督学习综合指南监督学习的定义和简要说明监督学习在人工智能中的重要性和相关性概述什么是监督学习？基本概念主要组件：输入要素和目标标签训练监督式学习模型监督学习算法的类型分类回归每个类别中的流行算法示例监督学习的数据预处理数据清洗数据转换数据缩减特征工程概念简介及其对模型性能的影响模型评估和验证评估和验证监督学习模型的重要性常见评估指标概述模型评估技术挑战和未来方向监督
Titanic - 1 silent_eyes_77
本周原想探究一下seaborn绘图方面的运用，发现用在实际案例中更有效果，遂直接用Kaggel经典的Titanic案例的描述性分析部分进行研究。以下是案例的其中一部分，模型探究有待补充与更新。复习一下，完成这篇分析报告需要进行的几个步骤：一、导入数据包与数据集二、数据分析1、总体预览2、描述性统计分析：使用统计学与绘图，初步了解数据之间相关性，为构造特征工程和模型建立做准备3、数据清洗4、建模与优
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h