李豪呀

XGBoost一文通

文章目录

1 XGBoost概述
2 XGBoost算法
3 XGBoost详解

3.1 目标函数
3.2 前向算法

4 XGBoost in Python

4.1 载入数据
4.2 设置参数
4.3 训练和预测

5 实例

1 XGBoost概述

前驱知识：决策树，集成学习
XGBoost是近年兴起的一种提升树（boosting tree）集成算法，其效率较高。
该算法思想就是不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数，去拟合上次预测的残差。当我们训练完成得到k棵树，我们要预测一个样本的分数，其实就是根据这个样本的特征，在每棵树中会落到对应的一个叶子节点，每个叶子节点就对应一个分数，最后只需要将每棵树对应的分数加起来就是该样本的预测值。

2 XGBoost算法

输入：训练数据集 $T={(x_1,y_1),...,(x_m,y_m)}$ ，其中 $x_i\in \mathbb{R}^n,y_i\in \mathbb{R}$ ；损失函数 $L(y_i,\hat y_i)$ 。
输出：提升树 $\hat f(x)$ 。
（1）初始化 $f_0(x)=arg min_c\sum^m_{i=1}L(y_i,c)$
（2）对K棵决策树， $k = 1, 2, . . ., K$
$\quad$ （a）计算前一棵树损失函数的一阶和二阶梯度： $g_{ki}=\frac{\partial L(y_i,\hat y_i^{k-1})}{\partial \hat y_i^{k-1}},h_{ki}=\frac{\partial^2 L(y_i,\hat y_i^{k-1})}{\partial (\hat y_i^{k-1})^2},,i=1,2,...,m$
$\quad$ （b）对决策树的叶结点 $j = 1, 2, . . ., J$ ，计算 $G_{kj}=\sum_{i\in I_j}g_{ki},H_{kj}=\sum_{i\in I_j}h_{ki}$
$\quad$ （c）则第k棵树的目标函数最小值为： $Obj^{*}_k=\frac{1}{2}\sum_{j=1}^J\frac{G_{kj}^2}{H_{kj}+\lambda}+\gamma J$ ，第k棵树第j个叶结点的最优权值为： $w_{kj}^* = -\frac{G_j}{H_j+\lambda}$ 。
$\quad$ （d）更新： $f_k(x)=f_{k-1}(x)+\sum_{i=1}^m\sum_{j=1}^Jw^*_{kj}I(i\in R_{kj})$
（3）得到回归问题的提升树（分类问题即对回归问题的提升树进行符号函数变换）：
$\displaystyle \hat f(x)=f_K(x)$

3 XGBoost详解

3.1 目标函数

$Obj=\sum_{i=1}^mL(\hat y_i,y_i)+\sum_{k=1}^K\Omega(f_k(x))$ ，其中 $\Omega(f(x))$ 表示决策树的复杂度，用于防止过拟合。
根据前向算法有： $Obj^{(k)} = \sum_{i=1}^m L(y_i, \hat{y}_i^{(k-1)} + f_k(x_i)) + \Omega(f_k) + 常数$
根据二阶泰勒展式有： $\text{Obj}^{(k)} = \sum_{i=1}^m [L(y_i, \hat{y}_i^{(k-1)}) + g_i f_k(x_i) + \frac{1}{2} h_i f_k^2(x_i)] + \Omega(f_k) + Constant$ ，其中 $g_i=\partial_{\hat{y}_i^{(t-1)}} L(y_i, \hat{y}_i^{(t-1)})$ 是一阶偏导， $h_i=\partial_{\hat{y}_i^{(t-1)}}^2 L(y_i, \hat{y}_i^{(t-1)})$ 是二阶偏导。
删去常数项，有： $\text{Obj}^{(k)} = \sum_{i=1}^m [ g_i f_k(x_i) + \frac{1}{2} h_i f_k^2(x_i)] + \Omega(f_k)$
关于正则项 $\Omega(f_k)$ ： $\Omega(f_k(x))=\gamma T+\frac{1}{2}\lambda \sum_{j=1}^{T}w_j^2$ ，T是叶子节点个数， $w_j$ 是叶子节点的权值， $\lambda$ 和 $\gamma$ 是超参数。
接着将4，5结合，这是算法的神奇之处，详见这里，有： $\text{Obj}^{(k)}\approx \sum^J_{j=1} [(\sum_{i\in I_j} g_i) w_j + \frac{1}{2} (\sum_{i\in I_j} h_i + \lambda) w_j^2 ] + \gamma T$
，其中 $i\in I_j$ 表示第i个样本划分到第j个叶结点
定义： $G_j = \sum_{i\in I_j} g_i$ 和 $H_j = \sum_{i\in I_j} h_i$

3.2 前向算法

$\hat{y}_i^{(0)} = 0$
$\hat{y}_i^{(1)} = f_1(x_i) = \hat{y}_i^{(0)} + f_1(x_i)$
$\hat{y}_i^{(2)} = f_1(x_i) + f_2(x_i)= \hat{y}_i^{(1)} + f_2(x_i)$
$\dots$
$\hat{y}_i^{(K)} = \sum_{k=1}^K f_k(x_i)= \hat{y}_i^{(K-1)} + f_K(x_i)$

4 XGBoost in Python

import xgboost as xgb

4.1 载入数据

xgboost将数据存储在DMatrix对象里
支持的数据类型：

LibSVM text format file
Comma-separated values (CSV) file
NumPy 2D array
SciPy 2D sparse array
Pandas data frame
XGBoost binary buffer file.

注：xgb载入分类变量前要先one_hot encoding

xgb.DMatrix(data, label=None, missing=None, weight=None, silent=False, feature_names=None, feature_types=None, nthread=None)：载入数据到DMatrix对象。

label：指定标签值向量/矩阵。
missing：指定缺失值在矩阵中的值。
weight：指定权重变量。

dtrain = xgb.DMatrix(X_train, label = y)
dtest = xgb.DMatrix(X_test)

DMatrix.save_binary('train.buffer')：存储DMatrix对象，下次使用时能加快加载速度。

4.2 设置参数

param = {'max_depth': 2,'eta': 1, 'objective': 'binary:logistic',...}
参数介绍：

'nthread':4
'eval_metric'：['auc','ams@0','rmse']
'max_depth': 2
'eta': 1
'objective':：'reg:linear'，'binary:logistic'
"booster":'gbtree'
'subsample': 0.7
'colsample_bytree': 0.8
'silent': True

4.3 训练和预测

clf=xgb.train(params, dtrain, num_boost_round=10, evals=[], obj=None, feval=None, maximize=False, early_stopping_rounds=None, evals_result=None, verbose_eval=True, xgb_model=None, callbacks=None, learning_rates=None)

num_boost_round：boost迭代次数
evals：一对对 (DMatrix, string)组成的列表，培训期间将评估哪些指标的验证集列表。验证指标将帮助我们跟踪模型的性能。用evallist = [(dtest, 'eval'), (dtrain, 'train')]指定。
obj
feval：自定义评价函数
maximize
early_stopping_rounds：验证指标需要至少在每轮early_stopping_rounds中改进一次才能继续训练，例如early_stopping_rounds=200表示每200次迭代将会检查验证指标是否有改进，如果没有就会停止训练，如果有多个指标，则只判断最后一个指标
evals_result
verbose_eval：取值可以是bool型也可以是整数，当取值为True时，表示每次迭代都显示评价指标，当取值为整数时，表示每该取值次数轮迭代后显示评价指标
xgb_model
callbacks
learning_rates

.cv(params, dtrain, num_boost_round=10, nfold=3, stratified=False, folds=None, metrics=(), obj=None, feval=None, maximize=False, early_stopping_rounds=None, fpreproc=None, as_pandas=True, verbose_eval=None, show_stdv=True, seed=0, callbacks=None, shuffle=True)

model = xgb.cv(params, dtrain,  num_boost_round=500, early_stopping_rounds=100)
model.loc[30:,["test-rmse-mean", "train-rmse-mean"]].plot()

3. bst.save_model('0001.model')

ypred = clf.predict(data, output_margin=False, ntree_limit=None, validate_features=True)

ntree_limit：限制预测中的树数；如果定义了最佳树数限制，则默认为最佳树数限制，否则为0（使用所有树）

xgb.plot_tree(bst, num_trees=2)
xgb.to_graphviz(bst, num_trees=2)

5 实例

model_xgb = xgb.XGBRegressor(colsample_bytree=0.4603, gamma=0.0468, 
                             learning_rate=0.05, max_depth=3, 
                             min_child_weight=1.7817, n_estimators=2200,
                             reg_alpha=0.4640, reg_lambda=0.8571,
                             subsample=0.5213, silent=1,
                             random_state =7, nthread = -1)

import xgboost
from sklearn.model_selection import KFold
from sklearn.metrics import mean_squared_error

#X_train,y_train略

#自定义评价函数
def myFeval(preds, xgbtrain):
    label = xgbtrain.get_label()
    score = mean_squared_error(label,preds)
    return 'myFeval',score
    
xgb_params = {"booster":'gbtree','eta': 0.005, 'max_depth': 5, 'subsample': 0.7, 
              'colsample_bytree': 0.8, 'objective': 'reg:linear', 'eval_metric': 'rmse', 'silent': True, 'nthread': 8}
folds = KFold(n_splits=5, shuffle=True, random_state=2018)
oof_xgb = np.zeros(len(train))
predictions_xgb = np.zeros(len(test))

for fold_, (trn_idx, val_idx) in enumerate(folds.split(X_train, y_train)):
    print("fold n°{}".format(fold_+1))
    trn_data = xgb.DMatrix(X_train[trn_idx], y_train[trn_idx])
    val_data = xgb.DMatrix(X_train[val_idx], y_train[val_idx])
    
    watchlist = [(trn_data, 'train'), (val_data, 'valid_data')]
    clf = xgb.train(dtrain=trn_data, num_boost_round=20000, evals=watchlist, early_stopping_rounds=200, verbose_eval=100, params=xgb_params,feval = myFeval)
    oof_xgb[val_idx] = clf.predict(xgb.DMatrix(X_train[val_idx]), ntree_limit=clf.best_ntree_limit)
    predictions_xgb += clf.predict(xgb.DMatrix(X_test), ntree_limit=clf.best_ntree_limit) / folds.n_splits
    
print("CV score: {:<8.8f}".format(mean_squared_error(oof_xgb, y_train_)))

OVER

你可能感兴趣的:(机器学习和数据挖掘)

Python环境下基于深度判别迁移学习网络的轴承故障诊断哥廷根数学学派故障诊断信号处理深度学习 python 迁移学习开发语言
目前很多机器学习和数据挖掘算法都是基于训练数据和测试数据位于同一特征空间、拥有相同数据分布的假设。然而在现实应用中，该假设却未必存在。一方面，如果将利用某一领域数据训练得到的模型直接应用于新的目标领域，领域之间切实存在的数据差异可能会导致模型效果的骤然下降。另一方面，如果直接在新的目标领域中进行模型的训练，其数据的稀缺和标注的不完整可能会导致监督学习出现严重的过拟合问题，难以达到令人满意的学习效果
机器学习系列——（十九）层次聚类飞影铠甲机器学习机器学习聚类人工智能
引言在机器学习和数据挖掘领域，聚类算法是一种重要的无监督学习方法，它试图将数据集中的样本分组，使得同一组内的样本相似度高，不同组间的样本相似度低。层次聚类（HierarchicalClustering）是聚类算法中的一种，以其独特的层次分解方式，在各种应用场景中得到广泛应用，如生物信息学、图像分析、社交网络分析等。一、概述层次聚类算法主要分为两大类：凝聚的层次聚类（AgglomerativeHie
机器学习：朴素贝叶斯笔记 Ningbo_JiaYT 机器学习机器学习笔记分类算法
朴素贝叶斯（NaiveBayes）是一种基于贝叶斯定理的简单概率分类算法，广泛应用于机器学习和数据挖掘中。“朴素”体现在对特征之间的独立性做出了假设，即一个特征或者一个属性的出现不依赖于其他特征的出现。目录基本原理1.贝叶斯定理2.朴素的独立性假设贝叶斯定理1.简介2.贝叶斯公式算法过程1.训练模型2.预测类别类型注意事项基本原理1.贝叶斯定理朴素贝叶斯算法的核心是贝叶斯定理，即对于给定的样本数据
【转】机器学习--- 分类算法详解奔狼的春晓转载机器学习算法数据挖掘
原文链接：http://blog.csdn.net/china1000/article/details/48597469感觉狼厂有些把机器学习和数据挖掘神话了，机器学习、数据挖掘的能力其实是有边界的。机器学习、数据挖掘永远是给大公司的业务锦上添花的东西，它可以帮助公司赚更多的钱，却不能帮助公司在与其他公司的竞争中取得领先优势，所以小公司招聘数据挖掘/机器学习不是为了装逼就是在自寻死路。可是相比JA
DoubleEnsemble：基于样本重加权和特征选择的金融数据分析方法 tzc_fly 论文阅读笔记金融数据分析人工智能
现代机器学习模型（如深度神经网络和梯度提升决策树）由于其提取复杂非线性模式的优越能力，在金融市场预测中越来越受欢迎。然而，由于金融数据集的信噪比非常低，并且是非平稳的，复杂的模型往往很容易过拟合。此外，随着各种机器学习和数据挖掘工具在量化交易中的应用越来越广泛，许多交易公司已经提取了越来越多的特征（也称为因子factors）。因此，如何自动选择有效特征成为一个迫在眉睫的问题。为了解决这些问题，作者
矩阵乘法的分布式计算架构 OpenChat 矩阵架构线性代数
1.背景介绍矩阵乘法是线性代数的基本运算，在许多计算机算法和应用中都有着重要的作用。随着数据规模的不断增加，如大规模的图像处理、机器学习和数据挖掘等应用场景，矩阵乘法的计算量也随之增加，这导致了传统的中心化计算方式无法满足实际需求。因此，研究矩阵乘法的分布式计算架构变得尤为重要。本文将从以下几个方面进行阐述：背景介绍核心概念与联系核心算法原理和具体操作步骤以及数学模型公式详细讲解具体代码实例和详细
[Python] scikit-learn - accuracy_score(准确率分数)函数介绍和使用场景（案例）老狼IT工作室 python python scikit-learn
Scikit-learn是一个用于机器学习和数据挖掘的Python库，提供了大量的机器学习算法和工具，使得机器学习任务更加便捷和高效。其中一个非常常用的函数是accuracy_score，用于计算分类器的准确率。本文将介绍accuracy_score函数的具体功能、函数原型和使用场景，并提供一个使用案例来说明其用法和作用。函数介绍accuracy_score函数是scikit-learn库中用于计
文本数据与分析方法的介绍与讨论亦旧sea 机器学习人工智能
什么是文本数据文本数据是指由各种字符或字母组成的数据，可以包括文字、数字、符号等。文本数据通常用于表示文字信息，如文章、新闻、网页内容、聊天记录等。文本数据可以在计算机系统中进行存储、处理和分析，也可以用于自然语言处理、机器学习和数据挖掘等领域的研究和应用。如何获得文本数据获得文本数据可以有多种途径。1.网络爬虫：使用爬虫工具，如Python中的BeautifulSoup或Scrapy库，可以寻找
机器学习简单概念和pytorch代码-2 Persistence is gold 机器学习 pytorch 人工智能
机器学习简单概念和pytorch代码-2学习率的选择和调校特征工程特征工程是数据预处理和分析过程中的一个关键步骤，主要用于机器学习和数据挖掘。它涉及到从原始数据中选择、修改和创建新的特征（即数据的属性或变量），以便提高模型的性能。在机器学习中，特征工程对于提高模型的准确性和效率至关重要。它包括以下几个主要步骤：特征选择：从现有的特征集中选择最重要的特征，以减少维度并提高模型的效率。特征提取：将原始
大数据技术原理与应用期末考试题无敌海苔咪大数据开源框架期末大数据
大数据技术原理与应用期末考试题一、单选题1.下面哪个选项属于大数据技术的“数据存储和管理”技术层面的功能?A、利用分布式文件系统、数据仓库、关系数据库等实现对结构化、半结构化和非结构化海量数据的存储和管理B、利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析C、构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全D、把实时采集的数据作为流计算系统的输
DBSCAN聚类算法原理（含C++代码） RobotsRuning DBSCAN 聚类 c++人工智能
概述DBSCAN（density-basedspatialclustering）是一种基于密度的聚类算法，在机器学习和数据挖掘领域有广泛的应用，其聚类原理通俗点讲是每个簇类的密度高于该簇类周围的密度，噪声点的密度小于任一簇类的密度。如下图簇类ABC的密度大于周围的密度，噪声的密度低于任一簇类的密度，因此DBSCAN算法也能用于异常点检测。本文对DBSCAN算法进行了详细总结。1.DBSCAN算法的
【风控业务分析模型】 Oo_Amy_oO python pandas numpy scipy
预测类评分卡模型(ScoreCardModel)评分卡模型是一种用于评估客户信用风险的分析模型，广泛用于金融、保险、电商等领域。通过对客户个人信息、历史交易记录等数据进行统计分析，构建出一个客户信用得分用于评估其信用风险水平。欺诈检测模型(FraudDetectionModel)欺诈检测模型是一种用于识别可疑交易或行为的分析模型，可以帮助企业及时发现和阻止欺诈行为。通常使用机器学习和数据挖掘技术，
使用粒子群算法和引力搜索算法优化前向反馈神经网络进行数据分类天使问过的键盘算法神经网络分类 Matlab
使用粒子群算法和引力搜索算法优化前向反馈神经网络进行数据分类在机器学习和数据挖掘领域，神经网络是一种常用的模型，可用于数据分类任务。为了提高神经网络的性能，可以使用优化算法对其进行训练和优化。本文介绍了如何使用粒子群算法（ParticleSwarmOptimization，PSO）和引力搜索算法（GravitationalSearchAlgorithm，GSA）优化前向反馈神经网络（Feedfor
人工智能增强的全流程测试在需求理解分析阶段和单元测试阶段的提效手段超级大超越人工智能
AIGC（人工智能增强的全流程测试）在需求理解分析阶段和单元测试阶段的提效手段如下：1.需求理解分析阶段：(1)引入自然语言处理（NLP）技术，将需求文档转化为语义模型，以更好地理解需求，发现需求中的潜在问题。(2)使用机器学习和数据挖掘技术，对需求文档进行自动分类、聚类、过滤等处理，提高需求分析的效率和准确性。(3)引入知识图谱，将需求信息进行链接和整合，辅助需求分析人员更好地理解需求与相关信息
【特征选择】基于二进制粒子群算法的特征选择方法（PNN概率神经网络分类）【Matlab代码#33】天`南 Matlab #特征选择 matlab 神经网络分类算法
文章目录【可更换其他算法，`获取资源`请见文章第6节：资源获取】1.特征选择问题2.二进制粒子群算法3.概率神经网络（PNN）分类4.部分代码展示5.仿真结果展示6.资源获取【可更换其他算法，获取资源请见文章第6节：资源获取】1.特征选择问题特征选择是指从原始数据中选择最具有代表性和有用性的特征子集，以用于建模和预测任务。它是机器学习和数据挖掘中的重要步骤，可以提高模型的性能和解释能力，并降低计算
正负样本不均衡的解决办法 weixin_33834910 人工智能大数据数据结构与算法
转载自：http://blog.csdn.net/lujiandong1/article/details/52658675这几年来，机器学习和数据挖掘非常火热，它们逐渐为世界带来实际价值。与此同时，越来越多的机器学习算法从学术界走向工业界，而在这个过程中会有很多困难。数据不平衡问题虽然不是最难的，但绝对是最重要的问题之一。一、数据不平衡在学术研究与教学中，很多算法都有一个基本假设，那就是数据分布是
机器学习常见问题及解决方案——正负样本不均衡荒野13 Machine Learning Machine Learning
转载自：http://blog.csdn.net/lujiandong1/article/details/52658675这几年来，机器学习和数据挖掘非常火热，它们逐渐为世界带来实际价值。与此同时，越来越多的机器学习算法从学术界走向工业界，而在这个过程中会有很多困难。数据不平衡问题虽然不是最难的，但绝对是最重要的问题之一。一、数据不平衡在学术研究与教学中，很多算法都有一个基本假设，那就是数据分布是
机器学习/数据挖掘之中国大牛 xuyanan3 机器学习数据挖掘机器学习数据挖掘
机器学习/数据挖掘之中国大牛推荐几个机器学习和数据挖掘领域相关的中国大牛：李航：http://research.microsoft.com/en-us/people/hangli/，是MSRAWebSearchandMiningGroup高级研究员和主管，主要研究领域是信息检索，自然语言处理和统计学习。近年来，主要与人合作使用机器学习方法对信息检索中排序，相关性等问题的研究。曾在人大听过一场他的讲
写作——如何写摘要 RebeccaCute 写作经验分享
菜鸟版本。很八股，但是不会翻车。第一句：背景。考虑只写主谓宾。切忌不可以写“在机器学习和数据挖掘中”这种毫无营养凑字数的句子。第二句：研究主题的现状。现状：当前用什么方法去解决了什么问题。第三句：用However,指出“现状”中还存在的问题或者尚未考虑的问题。例如：However,theyhavenotconsidered______。第四句：用“Inthispaper,wepropose____
基于MATLAB的人脸识别系统（包含传统/深度学习方法） KAU的云实验台 MATLAB 人脸识别 matlab 深度学习机器学习
基于MATLABGUI的人脸识别系统（包含传统/深度学习方法）人脸检测与识别作为计算机视觉研究的核心内容之一，是一个不断发展的领域，并且还是模式识别、机器学习和数据挖掘等相关学科交叉研究的热点，已经发展成为计算智能的重要研究课题。本文是作者人脸识别系统V1.0，基于MATLAB平台，主要实现人脸识别功能，包含3种人脸识别算法，PCA-最近邻、PCA-SVM、以及深度学习的方法，都在ORL数据集上取
Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱 thomashtq 机器学习数据挖掘机器学习自然语言处理 numpy python
曾经因为NLTK的缘故开始学习Python，之后渐渐成为我工作中的第一辅助脚本语言，虽然开发语言是C/C++，但平时的很多文本数据处理任务都交给了Python。离开腾讯创业后，第一个作品课程图谱也是选择了Python系的Flask框架，渐渐的将自己的绝大部分工作交给了Python。这些年来，接触和使用了很多Python工具包，特别是在文本处理，科学计算，机器学习和数据挖掘领域，有很多很多优秀的Py
《机器学习与数据挖掘》学习笔记（一）产品扫地僧
从刚注册时强迫自己写文章时的拖延，到现在有了想法不自觉的想记录下来，是好的转变。最近开始对数据挖掘很感兴趣，在网易公开课上开始学加州理工的《机器学习和数据挖掘》，还可以顺便练练英语听力。第一课《学习问题》只要从问题引入，介绍什么是机器学习，以及常见的学习分类。在人类的认知中一些显而易见的结论，对机器而言是一个却是无限靠近的过程，比如婴儿可以快速识别一张脸的情绪等。课中介绍了银行信贷审批的例子。阐述
[Python]第三方库居家龙龙
一些第三方库NumPy:N维数据表示和运算pipinstallnumpyMatplotlib：二维数据可视化PIL：图像处理Scikit-Learn:机器学习和数据挖掘Requests:HTTP协议访问及网络爬虫Jieba：中文分词BeautifulSoup:HTML和XML解析器Wheel:Python第三方库文件打包文具PyInstaller:打包Python源文件为可执行文件Django:P
【人工智能】—_维度灾难、降维、主成分分析PCA、获取旧数据、非线性主成分分析 Runjavago 机器学习深度学习人工智能人工智能
文章目录高维数据与维度灾难维度灾难降维为什么需要降维？PRINCIPLECOMPONENTANALYSIS主成分的几何图像最小化到直线距离的平方和举例主成分的代数推导优化问题计算主成分（PrincipalComponents,PCs）的主要步骤获取旧数据的方法？主成分分析的最优性性质主要的理论结果PCA图像压缩使用核的非线性主成分分析评价高维数据与维度灾难大多数机器学习和数据挖掘技术对于高维数据可
深度神经网络+聚类的概述风度78 dnn 聚类人工智能神经网络深度学习
【导读】本篇介绍了深度神经网络表示学习+聚类的方法（深度聚类）综述，有帮助的话，文末点个赞吧~聚类分析在机器学习和数据挖掘中非常重要。深度聚类利用深度神经网络学习适用于聚类的表示，已广泛应用于各种聚类任务。然而，现有研究主要集中在单视图领域和网络架构上，忽略了聚类的复杂应用场景。为解决这一问题，本文从数据源的角度对深度聚类进行了全面的调查。针对不同的数据源和初始条件，我们从方法论、先验知识和架构方
机器学习和数据挖掘04-PowerTransformer与 MinMaxScaler 丰。。机器学习与数据挖掘大数据数据分析人机交互笔记学习
概念PowerTransformer（幂变换器）PowerTransformer是用于对数据进行幂变换（也称为Box-Cox变换）的预处理工具。幂变换可以使数据更接近正态分布，这有助于某些机器学习算法的性能提升。它支持两种常用的幂变换：Yeo-Johnson变换和Box-Cox变换。代码实现fromsklearn.preprocessingimportPowerTransformerimportn
机器学习和数据挖掘02-Gaussian Naive Bayes 丰。。机器学习与数据挖掘数据分析信息可视化数据挖掘大数据人工智能
概念贝叶斯定理：贝叶斯定理是概率中的基本定理，描述了如何根据更多证据或信息更新假设的概率。在分类的上下文中，它用于计算给定特征集的类别的后验概率。特征独立性假设：高斯朴素贝叶斯中的“朴素”假设是，给定类别标签，特征之间是相互独立的。这个简化假设在现实场景中通常并不完全准确，但它简化了计算过程，在实践中仍然可以表现良好。高斯分布：高斯朴素贝叶斯假设每个类别中的连续特征遵循高斯（正态）分布。这意味着在
机器学习和数据挖掘01- lasso regularization 丰。。机器学习与数据挖掘大数据数据分析人工智能数据挖掘信息可视化
概念Lasso正则化是一种线性回归中的正则化技术，旨在减少模型的复杂性并防止过拟合。Lasso（LeastAbsoluteShrinkageandSelectionOperator）通过在损失函数中添加正则项，促使模型的系数变得稀疏，即某些系数会被压缩到零，从而实现特征选择。在Lasso正则化中，我们引入了一个惩罚项，它是模型中所有系数的绝对值之和乘以一个参数α。这个参数α控制了惩罚的强度，从而影
机器学习和数据挖掘03-模型性能评估指标丰。。机器学习与数据挖掘大数据数据分析人工智能
Accuracy（准确率）概念：模型正确预测的样本数量与总样本数量的比例。公式：Accuracy=(TP+TN)/(TP+TN+FP+FN)TP(TruePositives)：正确预测为正例的样本数。即模型正确地将正例判定为正例。TN(TrueNegatives)：正确预测为负例的样本数。即模型正确地将负例判定为负例。FP(FalsePositives)：错误预测为正例的样本数。即模型错误地将负例
探索人工智能 | 智能推荐系统未来没有人比计算机更懂你阿Q说代码人工智能人工智能智能推荐机器学习数据挖掘数据分析个性化推荐算法
前言智能推荐系统（RecommendationSystems）利用机器学习和数据挖掘技术，根据用户的兴趣和行为，提供个性化推荐的产品、内容或服务。文章目录前言核心机器学习为什么说机器学习是智能推荐系统的基础呢？数据挖掘数据挖掘在智能推荐系统中的作用算法优势个性化推荐提高搜索效率丰富用户体验提升销售和转化率拓展长尾市场挑战总结核心智能推荐系统是一种利用机器学习和数据分析技术的应用程序，旨在根据用户的
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他