赵广陆

机器学习集成学习进阶Xgboost算法原理

目录

1 最优模型的构建方法
2 XGBoost的目标函数推导
- 2.1 目标函数确定
- 2.2 CART树的介绍
- 2.3 树的复杂度定义
- - 2.3.1 定义每课树的复杂度
  - 2.3.2 树的复杂度举例
- 2.4 目标函数推导
3 XGBoost的回归树构建方法
- 3.1 计算分裂节点
- 3.2 停止分裂条件判断
4 XGBoost与GDBT的区别
5 小结

1 最优模型的构建方法

XGBoost（Extreme Gradient Boosting）全名叫极端梯度提升树，XGBoost是集成学习方法的王牌，在Kaggle数据挖掘比赛中，大部分获胜者用了XGBoost。

XGBoost在绝大多数的回归和分类问题上表现的十分顶尖，本节将较详细的介绍XGBoost的算法原理。

我们在前面已经知道，构建最优模型的一般方法是最小化训练数据的损失函数。

我们用字母 L表示损失，如下式：

其中，F是假设空间，假设空间是在已知属性和属性可能取值的情况下，对所有可能满足目标的情况的一种毫无遗漏的假设集合。

N是所有样本数，L代表损失函数，yi代表目标值，f(xi)代表预测值。

式（1.1）称为经验风险最小化，训练得到的模型复杂度较高。当训练数据较小时，模型很容易出现过拟合问题。

因此，为了降低模型的复杂度，常采用下式：

其中 J(f)为模型的复杂度，

式（2.1）称为结构风险最小化，结构风险最小化的模型往往对训练数据以及未知的测试数据都有较好的预测。

应用：

决策树的生成和剪枝分别对应了经验风险最小化和结构风险最小化，
XGBoost的决策树生成是结构风险最小化的结果，后续会详细介绍。

2 XGBoost的目标函数推导

2.1 目标函数确定

目标函数，即损失函数，通过最小化损失函数来构建最优模型。

由前面可知，损失函数应加上表示模型复杂度的正则项，且XGBoost对应的模型包含了多个CART树，因此，模型的目标函数为：

（3.1）式是正则化的损失函数；

其中yi是模型的实际输出结果，是模型的输出结果；

等式右边第一部分是模型的训练误差，第二部分是正则化项，这里的正则化项是K棵树的正则化项相加而来的。

2.2 CART树的介绍

上图为第K棵CART树，确定一棵CART树需要确定两部分，

第一部分就是**树的结构，**这个结构将输入样本映射到一个确定的叶子节点上，记为fk(x;

第二部分就是各个叶子节点的值，q(x)表示输出的叶子节点序号，wq(x)表示对应叶子节点序号的值。

由定义得：

2.3 树的复杂度定义

2.3.1 定义每课树的复杂度

XGBoost法对应的模型包含了多棵cart树，定义每棵树的复杂度：

其中T为叶子节点的个数，||w||为叶子节点向量的模。γ表示节点切分的难度，λ表示L2正则化系数。

2.3.2 树的复杂度举例

假设我们要预测一家人对电子游戏的喜好程度，考虑到年轻和年老相比，年轻更可能喜欢电子游戏，以及男性和女性相比，男性更喜欢电子游戏，故先根据年龄大小区分小孩和大人，然后再通过性别区分开是男是女，逐一给各人在电子游戏喜好程度上打分，如下图所示：

就这样，训练出了2棵树tree1和tree2，类似之前gbdt的原理，两棵树的结论累加起来便是最终的结论，所以：

小男孩的预测分数就是两棵树中小孩所落到的结点的分数相加：2 + 0.9 = 2.9。
爷爷的预测分数同理：-1 + （-0.9）= -1.9。

具体如下图所示：

如下例树的复杂度表示：

2.4 目标函数推导

根据（3.1）式，共进行t次迭代的学习模型的目标函数为：

由前向分布算法可知，前t-1棵树的结构为常数

我们知道，泰勒公式的二阶导近似表示：

令为Δx , 则（3.5）式的二阶近似展开：

其中：

gi和hi分别表示预测误差对当前模型的一阶导和二阶导;

表示前t-1棵树组成的学习模型的预测误差。

当前模型往预测误差减小的方向进行迭代。

忽略（3.8）式常数项，并结合（3.4）式，得：

通过（3.2）式简化（3.9）式：

（3.10）式第一部分是对所有训练样本集进行累加，

此时，所有样本都是映射为树的叶子节点，

所以，我们换种思维，从叶子节点出发，对所有的叶子节点进行累加，得：

Gj 表示映射为叶子节点 j 的所有输入样本的一阶导之和，同理，Hj表示二阶导之和。

得：

对于第 t 棵CART树的某一个确定结构（可用q(x)表示），其叶子节点是相互独立的，

Gj 和Hj是确定量，因此，（3.12）可以看成是关于叶子节点w的一元二次函数。

最小化（3.12）式，得：

把（3.13）带入到（3.12），得到最终的目标函数：

（3.14）也称为打分函数(scoring function)，它是衡量树结构好坏的标准，

值越小，代表这样的结构越好。
我们用打分函数选择最佳切分点，从而构建CART树。

3 XGBoost的回归树构建方法

3.1 计算分裂节点

在实际训练过程中，当建立第 t 棵树时，XGBoost采用贪心法进行树结点的分裂：

从树深为0时开始：

对树中的每个叶子结点尝试进行分裂；
每次分裂后，原来的一个叶子结点继续分裂为左右两个子叶子结点，原叶子结点中的样本集将根据该结点的判断规则分散到左右两个叶子结点中；
新分裂一个结点后，我们需要检测这次分裂是否会给损失函数带来增益，增益的定义如下：

如果增益Gain>0，即分裂为两个叶子节点后，目标函数下降了，那么我们会考虑此次分裂的结果。

那么一直这样分裂，什么时候才会停止呢？

3.2 停止分裂条件判断

情况一：上节推导得到的打分函数是衡量树结构好坏的标准，因此，可用打分函数来选择最佳切分点。首先确定样本特征的所有切分点，对每一个确定的切分点进行切分，切分好坏的标准如下：

Gain表示单节点obj与切分后的两个节点的树obj之差，
遍历所有特征的切分点，找到最大Gain的切分点即是最佳分裂点，根据这种方法继续切分节点，得到CART树。
若 γ 值设置的过大，则Gain为负，表示不切分该节点，因为切分后的树结构变差了。
- γ 值越大，表示对切分后obj下降幅度要求越严，这个值可以在XGBoost中设定。

情况二：当树达到最大深度时，停止建树，因为树的深度太深容易出现过拟合，这里需要设置一个超参数max_depth。

情况三：当引入一次分裂后，重新计算新生成的左、右两个叶子结点的样本权重和。如果任一个叶子结点的样本权重低于某一个阈值，也会放弃此次分裂。这涉及到一个超参数:最小样本权重和，是指如果一个叶子节点包含的样本数量太少也会放弃分裂，防止树分的太细，这也是过拟合的一种措施。

4 XGBoost与GDBT的区别

区别一：
- XGBoost生成CART树考虑了树的复杂度，
- GDBT未考虑，GDBT在树的剪枝步骤中考虑了树的复杂度。
区别二：
- XGBoost是拟合上一轮损失函数的二阶导展开，GDBT是拟合上一轮损失函数的一阶导展开，因此，XGBoost的准确性更高，且满足相同的训练效果，需要的迭代次数更少。
区别三：
- XGBoost与GDBT都是逐次迭代来提高模型性能，但是XGBoost在选取最佳切分点时可以开启多线程进行，大大提高了运行速度。

5 小结

XGBoost的目标函数
知道XGBoost的回归树构建方法
XGBoost与GBDT的区别
- 区别一：
  - XGBoost生成CART树考虑了树的复杂度，
  - GBDT未考虑，GBDT在树的剪枝步骤中考虑了树的复杂度。
- 区别二：
  - XGBoost是拟合上一轮损失函数的二阶导展开，GDBT是拟合上一轮损失函数的一阶导展开，因此，XGBoost的准确性更高，且满足相同的训练效果，需要的迭代次数更少。
- 区别三：
  - XGBoost与GDBT都是逐次迭代来提高模型性能，但是XGBoost在选取最佳切分点时可以开启多线程进行，大大提高了运行速度。

你可能感兴趣的:(machinelearning,机器学习,集成学习,算法)

使用numpy或pytorch校验两个张量是否相等
文章目录1、numpy2、pytorch做算法过程中，如果涉及到模型落地，那必然会将原始的深度学习的框架训练好的模型转换成目标硬件模型的格式，如onnx,tensorrt,openvino,tflite;那么就有对比不同格式模型输出的一致性，从而判断模型转换是否成功。1、numpy用到的核心代码就一行，就是：importnumpyasnpnp.testing.assert_allclose(act
机器学习笔记：MATLAB实践 techDM 机器学习笔记 matlab Matlab
在机器学习领域，MATLAB是一种功能强大且广泛使用的工具，它提供了许多内置函数和工具箱，方便开发者进行各种机器学习任务。本文将介绍一些常见的机器学习任务，并提供相应的MATLAB源代码示例。数据预处理在进行机器学习之前，通常需要对原始数据进行预处理。这包括数据清洗、特征选择、特征缩放和数据划分等步骤。%导入数据data=readmatrix('data.csv');%数据清洗cleaned_da
CppCon 2018 学习:A Little Order! Delving into the STL sorting algorithms 虾球xz CppCon 学习 c++排序算法
记录一下一个编译器加密的算法#include#include#include#include#include#include#includenamespacedetail{//编译期伪随机key：每个字符对应不同keytemplateconstexprstd::uint8_tkey8(){returnstatic_cast((N*31+57)^0xAA);}}//namespacedetail//
使用c++编写一段人脸识别眨眼检测的代码语嫣凝冰 c++opencv 计算机视觉图像处理开发语言
我可以给你一些大致的步骤：使用摄像头或图像文件获取视频帧。使用人脸检测算法检测视频帧中的人脸。对检测到的人脸进行眼睛检测。判断眼睛是否闭合，如果是则认为该人在眨眼。以下是一段使用OpenCV库编写的C代码示例：```#include#include#include#includeusingnamespacestd;usingnamespacecv;intmain(){//使用摄像头获取视频帧Vid
欧盟AI法案、中国《生成式AI管理办法》规范数据隐私与算法歧视 DK_Allen 大模型人工智能算法
一、全球AI治理框架：双轨并行1.欧盟《AI法案》（2025全面生效）风险等级监管要求典型场景不可接受风险全面禁止社会评分系统、实时生物识别（公共场所）高风险强制注册+第三方评估+人工监督医疗诊断、关键基础设施管理有限风险透明度披露（AI生成内容标注）聊天机器人、深度伪造最小风险无限制垃圾邮件过滤、游戏AI处罚机制：最高罚金≈全球营收6%（或3000万欧元，取较高者）典型判例：ClearviewA
数据库领域数据仓库的星型模型与雪花模型对比数据库管理艺术数据库专家之路大数据AI人工智能 MCP&Agent SQL实战数据库数据仓库 ai
数据库领域数据仓库的星型模型与雪花模型对比关键词：数据仓库、星型模型、雪花模型、数据建模、对比分析摘要：本文深入探讨了数据库领域数据仓库中的星型模型与雪花模型。首先介绍了数据仓库建模的背景知识，包括目的、预期读者和文档结构等。接着详细阐述了星型模型和雪花模型的核心概念、联系以及各自的架构特点，并通过Mermaid流程图进行直观展示。然后对两种模型的核心算法原理展开分析，结合Python源代码进行说
西南交通大学【机器学习实验1】
实验目的理解和掌握回归问题和分类问题模型评估方法，学会使用均方误差、最大绝对误差、均方根误差指标评估回归模型，学会使用错误率、精度、查全率、查准率、F1指标评价分类模型。实验内容给定回归问题的真实标签和多个算法的预测结果，编程实现MSE、MAE、RMSE三种评测指标，对模型进行对比分析。给定二分类问题真实标签和多个算法的预测结果，编程实现混淆矩阵评测，采用错误率、精度、查全率、查准率、F1指标对结
AWS WebRTC: 判断viewer端拉流是否稳定的算法 Jasper张 AWS WebRTC webrtc aws 服务器 linux
在使用sdk-cviewer端进行拉流的过程中，viewer端拉取的是视频帧和音频帧，不会在播放器中播放，所以要根据收到的流来判断拉流过程是否稳定流畅。我这边采用的算法是：依据相邻帧之间的时间间隔是否落在期望值的±20%范围内。音频帧、视频帧的日志打印如下：07:19:26.263VERBOSEsampleAudioFrameHandler():AudioFramereceived.TrackId
用sklearn库中的算法对数据集进行训练和auc评估（个人学习笔记） ZD困困困 python 机器学习
本文为个人学习笔记，仅供学习参考，欢迎讨论，要是有哪里写的不对或有疑问的欢迎讨论。题目：运用已给数据集进行模型训练，使用逻辑回归、决策树、随机森林和AdaBoost几个算法进行训练，并打印各个算法训练后的auc评价指标。文章目录1.导入数据集①read_csv():读取数据并以某字符分隔。②merge():合并③drop():删除行或列④tolist():将数组或矩阵转换为列表⑤train_tes
学习笔记(28):随机噪声的原理、作用及代码实现详解宁儿数据安全 #机器学习学习笔记 python
学习笔记(28):随机噪声的原理、作用及代码实现详解一、什么是随机噪声？为什么需要添加？在机器学习中，随机噪声是指数据中无法用特征解释的随机波动，通常符合某种概率分布（如正态分布）。在房价模拟中添加噪声的核心原因如下：1.模拟真实世界的不确定性真实房价除了受面积、房龄影响，还受装修情况、学区、交通、政策等未被建模的特征影响，这些因素的综合效应可抽象为“噪声”。示例：两套面积和房龄相同的房子，房价可
基于改进粒子群算法的混合储能系统容量优化（Matlab代码实现）吃兔子的大脑腐算法 matlab 开发语言
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述基于改进粒子群算法的混合储能系统容量优化研究一、混合储能系统容量优化的背景与挑战1.混合储能系统的定义与组成2.容量优化的核心目标3.优化面临的挑战二、传统粒子群算法的局限性及其改进策略1.传统PSO的缺陷2.改进粒子群算法的核心方法三、改进PSO在HESS容量
归并排序详解
创建两个临时数组存储待合并的子数组使用双指针法依次比较两个子数组的元素将较小的元素放入原数组的对应位置处理剩余未合并的元素前言1.算法概述归并排序是一种采用分治法（DivideandConquer）策略的排序算法，由约翰·冯·诺伊曼在1945年提出。它的核心思想是将一个大问题分解成若干个小问题，递归解决小问题后，再将结果合并起来。分治策略分解：将当前区间一分为二解决：递归地对两个子区间进行排序合并
AI实践：智能工单系统的技术逻辑与应用合力亿捷-小亿人工智能机器学习
在当今数字化浪潮下，智能工单系统正逐渐成为企业服务管理的核心利器。智能工单系统，是依托前沿技术，将传统工单流程智能化、自动化的一套体系，它贯穿于企业服务的各个环节，从客户需求提交，到任务分配、进度跟踪，再到问题解决反馈，全方位覆盖。在企业服务管理中，其扮演着关键角色。一方面，它能极大提高服务效率，通过智能算法快速精准地将工单派发给最合适的人员，减少流转时间；另一方面，优化客户体验，客户能实时了解工
学习笔记(29):训练集与测试集划分详解：train_test_split 函数深度解析宁儿数据安全 #机器学习学习笔记深度学习
学习笔记(29):训练集与测试集划分详解：train_test_split函数深度解析一、为什么需要划分训练集和测试集？在机器学习中，模型需要经历两个核心阶段：训练阶段：用训练集数据学习特征与目标值的映射关系（如线性回归的权重）。测试阶段：用测试集评估模型在未见过的数据上的表现，避免“过拟合”（模型只记住训练数据的噪声，无法泛化到新数据）。类比场景：学生通过“练习题”（训练集）学习知识，再通过“考
【Torch】nn.Dropout算法详解油泼辣子多加深度学习算法
1.定义nn.Dropout是PyTorch中用于防止神经网络过拟合的正则化层。其核心思想是在训练阶段随机“丢弃”（置零）部分神经元的输出，以减少网络对特定神经元的过度依赖；在推理阶段则保持所有神经元输出不变。2.输入与输出输入（Input）任意形状的浮点张量（如torch.float32、torch.float64等），常见于全连接层或卷积层的激活输出。输出（Output）与输入张量形状、dty
Redis总结傲祥Ax redis 数据库 Redis重点总结
一、Redis是什么？key-value形式的非关系型数据库，基于内存（64位系统默认是物理内存的四分之三），单线程多路io复用，通常当缓存使用，提高查询效率。二、为什么使用Redis？2.1快（内单异高算）内存存储，单线程模型，异步操作，高效的网络通信，优化的算法和数据结构2.2作用2.2.1五大数据类型Redis存储，key-value形式，value的五种数据类型String，List，Se
《dlib库中的聚类》算法详解：从原理到实践 A小庞算法算法聚类数据挖掘机器学习 c++
一、dlib库与聚类算法的关联1.1dlib库的核心功能dlib是一个基于C++的机器学习和计算机视觉工具库，其聚类算法模块提供了多种高效的无监督学习工具。聚类算法在dlib中主要用于：数据分组：将相似的数据点划分为同一簇。特征分析：通过聚类结果发现数据潜在的结构。降维辅助：结合聚类结果进行特征选择或数据压缩。dlib支持的经典聚类算法包括K-Means和ChineseWhispers，适用于图像
点云从入门到精通技术详解100篇-基于二维激光雷达的隧道形貌三维重建（续）格图素书算法人工智能
目录3.4点云数据精简3.4.1数据精简的要求3.4.2经典精简算法分析3.5点云三维重建算法3.5.1曲面重建方式的分类3.5.2点云数据的三角剖分3.5.3Delaunay三角剖分算法3.5.4贪婪投影三角化算法3.5.5泊松曲面重建算法4特征保留优化的点云精简4.1引言4.2点云精简的思想4.3基于图信号的特征保留优化的点云精简算法4.3.2定义密度均匀性损失4.4点云精简实验结果及分析5隧
Python, Rust 开发教育/医疗/文化资源去中心化分配APP Geeker-2025 python rust
以下是为教育、医疗、文化资源设计的**去中心化分配APP**的完整技术方案，结合Python的灵活性和Rust的高性能与安全性，实现公平透明的资源分配：---###系统架构设计```mermaidgraphTDA[用户终端]-->B[区块链网络]A-->C[分配引擎]B-->D[智能合约]C-->E[资源数据库]D-->F[分配记录]subgraph技术栈C-.Rust.->G[核心分配算法]D-
机器学习：集成算法的装袋法（Bagging）：随机森林（Random Forest） rubyw #概念及理论机器学习算法随机森林
随机森林（RandomForest）是一种集成学习方法，通过构建多个决策树并结合其预测结果来提升模型的性能和稳定性。它由LeoBreiman于2001年提出，广泛应用于分类和回归任务。以下是随机森林的详细介绍，包括其基本概念、构建过程、优缺点及应用场景。基本概念随机森林是一种基于决策树的集成算法，通过生成多棵决策树，并将这些树的预测结果结合起来，以提高整体模型的预测准确性和稳定性。每棵决策树都是在
JWT认证授权原理和简单实现风铃喵游 node
1.关于JWT:(1).JWT(jsonwebtoken)是为了在网络应用环境间传递声明而执行的一种基于JSON的开放标准(2).JWT的声明一般被用于在身份提供者和服务提供者之间传递被认证的用户身份信息，以便于从资源服务器获取资源。最为常见的场景就是用户登录认证(3).因为数字签名的存在，这些信息是可信的，JWT可以使用HMAC算法或者是RSA的公私密钥对进行签名2.主要的应用场景:(1).身份
森林的智慧：随机森林与集成学习的民主之道田园Coder 人工智能科普人工智能科普
当约阿夫·弗罗因德和罗伯特·沙皮尔提出的AdaBoost算法在90年代末期以其强大的预测精度震惊机器学习界，展示了“团结弱者为强者”的集成魅力时，另一种集成思想也在悄然孕育。这种思想同样信奉“众人拾柴火焰高”，但走的是一条与AdaBoost截然不同的路径：它不执着于反复调整数据权重去“关注”被前序模型分错的困难样本，而是致力于创造尽可能多样化的模型，然后让这些模型平等地投票。它的核心哲学是：如果每
大模型算法工程师面试宝典：精选面试题及参考答案全解析，助你备战AI算法工程师岗位！大模型入门学习人工智能产品经理大数据机器学习程序员大模型大模型学习
大模型应该算是目前当之无愧的最有影响力的AI技术。它正在革新各个行业，包括自然语言处理、机器翻译、内容创作和客户服务等，正成为未来商业环境的重要组成部分。截至目前大模型已超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关面试也是越来越卷。我今天给大家分享一篇大模型的面试题总结，内容较长，喜欢记得收藏、关注、点赞。ii.为什么会出现LLMs复读机问题？出现LLMs复读机问题可能
机器学习：集成学习方法之随机森林(Random Forest) 慕婉0307 机器学习集成学习机器学习随机森林
一、集成学习与随机森林概述1.1什么是集成学习集成学习(EnsembleLearning)是机器学习中一种强大的范式，它通过构建并结合多个基学习器(baselearner)来完成学习任务。集成学习的主要思想是"三个臭皮匠，顶个诸葛亮"，即通过组合多个弱学习器来获得一个强学习器。集成学习方法主要分为两大类：Bagging(BootstrapAggregating)：并行训练多个基学习器，然后通过投票
机器学习在智能金融风险评估中的应用：信用评分与欺诈检测 Blossom.118 机器学习与人工智能机器人机器学习人工智能 python 深度学习 sklearn 计算机视觉
在金融行业，风险评估是确保金融机构稳健运营的关键环节。随着大数据和机器学习技术的快速发展，金融机构开始探索如何利用机器学习算法来提高风险评估的准确性和效率。本文将探讨机器学习在智能金融风险评估中的应用，特别是信用评分和欺诈检测方面的最新进展，并分析其带来的机遇和挑战。一、智能金融风险评估中的信用评分（一）传统信用评分方法的局限性传统的信用评分主要依赖于人工规则和简单的统计模型，如逻辑回归。这些方法
机器学习在智能制造业中的应用：质量检测与设备故障预测 Blossom.118 机器学习与人工智能机器学习人工智能深度学习神经网络机器人 sklearn tensorflow
随着工业4.0和智能制造的推进，制造业正经历着一场深刻的数字化转型。智能制造业通过整合物联网（IoT）、大数据和机器学习等先进技术，实现从生产计划到质量控制的全流程优化。机器学习技术在智能制造业中的应用尤为突出，尤其是在质量检测和设备故障预测方面。本文将探讨机器学习在智能制造业中的应用，并分析其带来的机遇和挑战。一、智能制造业中的质量检测（一）传统质量检测方法的局限性传统的质量检测主要依赖于人工检
面了字节跳动的数据挖掘岗，感觉真的很难。。。大模型爱好者社区机器学习深度学习面试宝典数据挖掘人工智能数据分析算法面试
节前，我们社群组织了一场技术&面试讨论会，邀请了一些互联网大厂同学、参加社招和校招面试的同学，针对新手如何入门机器学习算法、该如何备战、面试常考点分享等热门话题进行了深入的讨论。基于社群的讨论，今天我整理了一个同学的面试题，分享给大家，希望对后续找工作的有所帮助。喜欢记得点赞、收藏、关注。更多技术交流&面经学习，可以文末加入我们交流群。一面40min【编程题】有两种数据，分别是被转发的用户和转发的
【字节跳动】数据挖掘面试题0002：从转发数据中求原视频用户以及转发的最长深度和二叉排序树指定值言析数智数据挖掘常见面试题数据挖掘面试题
文章大纲题目一：从转发数据中求原视频用户以及转发的最长深度问题分析解题思路寻找原视频用户计算转发最长深度题目二：在一棵二叉排序树中，找到比给定数值小的最大节点方法思路题目一：从转发数据中求原视频用户以及转发的最长深度在数据处理和算法面试中，常常会遇到一些基于实际业务场景的题目，比如根据用户转发数据来分析原视频用户以及转发深度。今天就来探讨一道这样的面试题：给定被转发用户和转发用户两组数据，求原视频
归并排序算法起个数先数据结构与算法排序算法算法 java
归并排序所用方法和基本原理归并排序是一种基于分治思想的排序算法。其基本原理如下：分解：将一个长度为(n)的数组不断地二分，直到每个子数组只包含一个元素（因为单个元素的数组天然是有序的）。例如，对于长度为(n)的数组，先找到中间位置(mid)，将数组分为左半部分([l,mid])和右半部分([mid+1,r])。解决：递归地对左右两个子数组进行归并排序，使得左右子数组各自有序。合并：将两个已经有序的
两个点定位_基于双天线的北斗定位系统设计与实现 weixin_39697096 两个点定位
前期实际北斗模块定位误差统计分析中得出了北斗模块的定位误差分布服从正态分布，根据北斗模块定位误差分布的规律，利用在同一块电路板上的双天线模块接收北斗定位信号，将定位信息传给TMS320F28335DSP芯片，DSP对北斗模块给出的定位信息做实时算法处理，并将处理后的定位信息传给嵌入式ARM芯片，ARM芯片在TFT液晶屏上更新定位信息，同时根据用户要求来设置北斗模块的工作模式。在接收不到北斗定位信息
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他