旅途中的宽~

【机器学习】深入理解LightGBM

目录：深入理解LightGBM

一、LightGBM简介
二、LightGBM提出的动机
三、 XGBoost的缺点及LightGBM的优化
- 3.1 XGBoost的缺点
- 3.2 LightGBM的优化
四、 LightGBM的基本原理
- 4.1 基于Histogram的决策树算法
- - 4.1.1 直方图算法
  - 4.1.2 直方图做差加速
- 4.2 带深度限制的 Leaf-wise 算法
- 4.3 单边梯度采样算法
- 4.4 互斥特征捆绑算法
- - 4.4.1 解决哪些特征应该绑在一起
  - 4.4.2 解决怎么把特征绑为一捆
五、 LightGBM的工程优化
- 5.1 直接支持类别特征
- 5.2 支持高效并行
- - 5.2.1 特征并行
  - 5.2.2 数据并行
  - 5.2.3 投票并行
  - 5.2.4 Cache命中率优化
六、LightGBM的优缺点
- 6.1 优点
- - 6.1.1 速度更快
  - 6.1.2 内存更小
- 6.2 缺点

一、LightGBM简介

GBDT (Gradient Boosting Decision Tree) 是机器学习中一个长盛不衰的模型，其主要思想是利用弱分类器（决策树）迭代训练以得到最优模型，该模型具有训练效果好、不易过拟合等优点。

GBDT不仅在工业界应用广泛，通常被用于多分类、点击率预测、搜索排序等任务。

在各种数据挖掘竞赛中也是致命武器，据统计Kaggle上的比赛有一半以上的冠军方案都是基于GBDT。

而LightGBM（Light Gradient Boosting Machine）是一个实现GBDT算法的框架，支持高效率的并行训练，并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以快速处理海量数据等优点。

二、LightGBM提出的动机

常用的机器学习算法，例如神经网络等算法，都可以以mini-batch的方式训练，训练数据的大小不会受到内存限制。

而GBDT在每一次迭代的时候，都需要遍历整个训练数据多次。

如果把整个训练数据装进内存则会限制训练数据的大小；如果不装进内存，反复地读写训练数据又会消耗非常大的时间。

尤其面对工业级海量的数据，普通的GBDT算法是不能满足其需求的。

LightGBM提出的主要原因就是为了解决GBDT在海量数据遇到的问题，让GBDT可以更好更快地用于工业实践。

三、 XGBoost的缺点及LightGBM的优化

3.1 XGBoost的缺点

在LightGBM提出之前，最有名的GBDT工具就是XGBoost了，它是基于预排序方法的决策树算法。

这种构建决策树的算法基本思想是：

首先，对所有特征都按照特征的数值进行预排序。
其次，在遍历分割点的时候用 $O$ (#data)的代价找到一个特征上的最好分割点。
最后，在找到一个特征的最好分割点后，将数据分裂成左右子节点。

这样的预排序算法的优点是能精确地找到分割点。

但是缺点也很明显：

首先，空间消耗大。这样的算法需要保存数据的特征值，还保存了特征排序的结果（例如，为了后续快速的计算分割点，保存了排序后的索引），这就需要消耗训练数据两倍的内存。
其次，时间上也有较大的开销，在遍历每一个分割点的时候，都需要进行分裂增益的计算，消耗的代价大。
最后，对cache优化不友好。在预排序后，特征对梯度的访问是一种随机访问，并且不同的特征访问的顺序不一样，无法对cache进行优化。同时，在每一层长树的时候，需要随机访问一个行索引到叶子索引的数组，并且不同特征访问的顺序也不一样，也会造成较大的cache miss。

3.2 LightGBM的优化

为了避免上述XGBoost的缺陷，并且能够在不损害准确率的条件下加快GBDT模型的训练速度，lightGBM在传统的GBDT算法上进行了如下优化：

基于Histogram的决策树算法。
单边梯度采样 Gradient-based One-Side Sampling(GOSS)：使用GOSS可以减少大量只具有小梯度的数据实例，这样在计算信息增益的时候只利用剩下的具有高梯度的数据就可以了，相比XGBoost遍历所有特征值节省了不少时间和空间上的开销。
互斥特征捆绑 Exclusive Feature Bundling(EFB)：使用EFB可以将许多互斥的特征绑定为一个特征，这样达到了降维的目的。
带深度限制的Leaf-wise的叶子生长策略：大多数GBDT工具使用低效的按层生长 (level-wise) 的决策树生长策略，因为它不加区分的对待同一层的叶子，带来了很多没必要的开销。实际上很多叶子的分裂增益较低，没必要进行搜索和分裂。LightGBM使用了带有深度限制的按叶子生长 (leaf-wise) 算法。
直接支持类别特征(Categorical Feature)
支持高效并行
Cache命中率优化

四、 LightGBM的基本原理

4.1 基于Histogram的决策树算法

4.1.1 直方图算法

Histogram algorithm应该翻译为直方图算法，直方图算法的基本思想是：

先把连续的浮点特征值离散化成 $k$ 个整数，同时构造一个宽度为 $k$ 的直方图。
在遍历数据的时候，根据离散化后的值作为索引在直方图中累积统计量，当遍历一次数据后，直方图累积了需要的统计量，然后根据直方图的离散值，遍历寻找最优的分割点。

直方图算法简单理解为：首先确定对于每一个特征需要多少个箱子（bin）并为每一个箱子分配一个整数；然后将浮点数的范围均分成若干区间，区间个数与箱子个数相等，将属于该箱子的样本数据更新为箱子的值；最后用直方图（#bins）表示。看起来很高大上，其实就是直方图统计，将大规模的数据放在了直方图中。

我们知道特征离散化具有很多优点，如存储方便、运算更快、鲁棒性强、模型更加稳定等。对于直方图算法来说最直接的有以下两个优点：

内存占用更小

直方图算法不仅不需要额外存储预排序的结果，而且可以只保存特征离散化后的值，而这个值一般用8位整型存储就足够了，内存消耗可以降低为原来的 $\frac{1}{8}$ ，也就是说XGBoost需要用32位的浮点数去存储特征值，并用32位的整形去存储索引，而 LightGBM只需要用8位去存储直方图，内存相当于减少为 $\frac{1}{8}$ 。

计算代价更小

预排序算法XGBoost每遍历一个特征值就需要计算一次分裂的增益，而直方图算法LightGBM只需要计算 $k$ 次，直接将时间复杂度从：

降低到：

而我们知道 $d a t a >> k$

当然，Histogram算法并不是完美的。由于特征被离散化后，找到的并不是很精确的分割点，所以会对结果产生影响。但在不同的数据集上的结果表明，离散化的分割点对最终的精度影响并不是很大，甚至有时候会更好一点。原因是决策树本来就是弱模型，分割点是不是精确并不是太重要；较粗的分割点也有正则化的效果，可以有效地防止过拟合；即使单棵树的训练误差比精确分割的算法稍大，但在梯度提升（Gradient Boosting）的框架下没有太大的影响。

4.1.2 直方图做差加速

LightGBM另一个优化是Histogram（直方图）做差加速。一个叶子的直方图可以由它的父亲节点的直方图与它兄弟的直方图做差得到，在速度上可以提升一倍。通常构造直方图时，需要遍历该叶子上的所有数据，但直方图做差仅需遍历直方图的k个桶。在实际构建树的过程中，LightGBM还可以先计算直方图小的叶子节点，然后利用直方图做差来获得直方图大的叶子节点，这样就可以用非常微小的代价得到它兄弟叶子的直方图。

注意： XGBoost 在进行预排序时只考虑非零值进行加速，而 LightGBM 也采用类似策略：只用非零特征构建直方图。

4.2 带深度限制的 Leaf-wise 算法

在Histogram算法之上，LightGBM进行进一步的优化。首先它抛弃了大多数GBDT工具使用的按层生长 (level-wise) 的决策树生长策略，而使用了带有深度限制的按叶子生长 (leaf-wise) 算法。

XGBoost 采用 Level-wise 的增长策略，该策略遍历一次数据可以同时分裂同一层的叶子，容易进行多线程优化，也好控制模型复杂度，不容易过拟合。但实际上Level-wise是一种低效的算法，因为它不加区分的对待同一层的叶子，实际上很多叶子的分裂增益较低，没必要进行搜索和分裂，因此带来了很多没必要的计算开销。

LightGBM采用Leaf-wise的增长策略，该策略每次从当前所有叶子中，找到分裂增益最大的一个叶子，然后分裂，如此循环。因此同Level-wise相比，Leaf-wise的优点是：在分裂次数相同的情况下，Leaf-wise可以降低更多的误差，得到更好的精度；Leaf-wise的缺点是：可能会长出比较深的决策树，产生过拟合。因此LightGBM会在Leaf-wise之上增加了一个最大深度的限制，在保证高效率的同时防止过拟合。

4.3 单边梯度采样算法

Gradient-based One-Side Sampling 应该被翻译为单边梯度采样（GOSS）。GOSS算法从减少样本的角度出发，排除大部分小梯度的样本，仅用剩下的样本计算信息增益，它是一种在减少数据量和保证精度上平衡的算法。

AdaBoost中，样本权重是数据重要性的指标。然而在GBDT中没有原始样本权重，不能应用权重采样。幸运的是，我们观察到GBDT中每个数据都有不同的梯度值，对采样十分有用。即梯度小的样本，训练误差也比较小，说明数据已经被模型学习得很好了，直接想法就是丢掉这部分梯度小的数据。然而这样做会改变数据的分布，将会影响训练模型的精确度，为了避免此问题，提出了GOSS算法。

4.4 互斥特征捆绑算法

针对这种想法，我们会遇到两个问题：

怎么判定哪些特征应该绑在一起（build bundled）？
怎么把特征绑为一个（merge feature）？

4.4.1 解决哪些特征应该绑在一起

构造一个加权无向图，顶点是特征，边有权重，其权重与两个特征间冲突相关；
根据节点的度进行降序排序，度越大，与其它特征的冲突越大；
遍历每个特征，将它分配给现有特征包，或者新建一个特征包，使得总体冲突最小。

算法允许两两特征并不完全互斥来增加特征捆绑的数量，通过设置最大冲突比率 $r$ 来平衡算法的精度和效率。EFB 算法的伪代码如下所示：

4.4.2 解决怎么把特征绑为一捆

特征合并算法，其关键在于原始特征能从合并的特征中分离出来。绑定几个特征在同一个bundle里需要保证绑定前的原始特征的值可以在bundle中识别，考虑到histogram-based算法将连续的值保存为离散的bins，我们可以使得不同特征的值分到bundle中的不同bin（箱子）中，这可以通过在特征值中加一个偏置常量来解决。比如，我们在bundle中绑定了两个特征A和B，A特征的原始取值为区间 $[0, 10)$ ，B特征的原始取值为区间 $[0, 20)$ ，我们可以在B特征的取值上加一个偏置常量10，将其取值范围变为 $[0, 30)$ ，绑定后的特征取值范围为 $[0, 30)$ ，这样就可以放心的融合特征A和B了。具体的特征合并算法如下所示：

五、 LightGBM的工程优化

5.1 直接支持类别特征

实际上大多数机器学习工具都无法直接支持类别特征，一般需要把类别特征，通过 one-hot 编码，转化到多维的0/1特征，降低了空间和时间的效率。但我们知道对于决策树来说并不推荐使用 one-hot 编码，尤其当类别特征中类别个数很多的情况下，会存在以下问题：

会产生样本切分不平衡问题，导致切分增益非常小（即浪费了这个特征）。使用 one-hot编码，意味着在每一个决策节点上只能使用one vs rest（例如是不是狗，是不是猫等）的切分方式。例如，动物类别切分后，会产生是否狗，是否猫等一系列特征，这一系列特征上只有少量样本为1，大量样本为0，这时候切分样本会产生不平衡，这意味着切分增益也会很小。较小的那个切分样本集，它占总样本的比例太小，无论增益多大，乘以该比例之后几乎可以忽略；较大的那个拆分样本集，它几乎就是原始的样本集，增益几乎为零。比较直观的理解就是不平衡的切分和不切分没有区别。
会影响决策树的学习。因为就算可以对这个类别特征进行切分，独热编码也会把数据切分到很多零散的小空间上，如下图左边所示。而决策树学习时利用的是统计信息，在这些数据量小的空间上，统计信息不准确，学习效果会变差。但如果使用下图右边的切分方法，数据会被切分到两个比较大的空间，进一步的学习也会更好。下图右边叶子节点的含义是 $X = A$ 或者 $X = C$ 放到左孩子，其余放到右孩子。

5.2 支持高效并行

5.2.1 特征并行

特征并行的主要思想是不同机器在不同的特征集合上分别寻找最优的分割点，然后在机器间同步最优的分割点。XGBoost使用的就是这种特征并行方法。这种特征并行方法有个很大的缺点：就是对数据进行垂直划分，每台机器所含数据不同，然后使用不同机器找到不同特征的最优分裂点，划分结果需要通过通信告知每台机器，增加了额外的复杂度。

LightGBM 则不进行数据垂直划分，而是在每台机器上保存全部训练数据，在得到最佳划分方案后可在本地执行划分而减少了不必要的通信。具体过程如下图所示。

5.2.2 数据并行

LightGBM在数据并行中使用分散规约 (Reduce scatter) 把直方图合并的任务分摊到不同的机器，降低通信和计算，并利用直方图做差，进一步减少了一半的通信量。具体过程如下图所示。

5.2.3 投票并行

基于投票的数据并行则进一步优化数据并行中的通信代价，使通信代价变成常数级别。在数据量很大的时候，使用投票并行的方式只合并部分特征的直方图从而达到降低通信量的目的，可以得到非常好的加速效果。具体过程如下图所示。

大致步骤为两步：

本地找出 Top K 特征，并基于投票筛选出可能是最优分割点的特征；
合并时只合并每个机器选出来的特征。

5.2.4 Cache命中率优化

XGBoost对cache优化不友好，如下图所示。在预排序后，特征对梯度的访问是一种随机访问，并且不同的特征访问的顺序不一样，无法对cache进行优化。同时，在每一层长树的时候，需要随机访问一个行索引到叶子索引的数组，并且不同特征访问的顺序也不一样，也会造成较大的cache miss。为了解决缓存命中率低的问题，XGBoost 提出了缓存访问算法进行改进。

而 LightGBM 所使用直方图算法对 Cache 天生友好：

首先，所有的特征都采用相同的方式获得梯度（区别于XGBoost的不同特征通过不同的索引获得梯度），只需要对梯度进行排序并可实现连续访问，大大提高了缓存命中率；
其次，因为不需要存储行索引到叶子索引的数组，降低了存储消耗，而且也不存在 Cache Miss的问题。

六、LightGBM的优缺点

6.1 优点

这部分主要总结下 LightGBM 相对于 XGBoost 的优点，从内存和速度两方面进行介绍。

6.1.1 速度更快

LightGBM 采用了直方图算法将遍历样本转变为遍历直方图，极大的降低了时间复杂度；
LightGBM 在训练过程中采用单边梯度算法过滤掉梯度小的样本，减少了大量的计算；
LightGBM 采用了基于 Leaf-wise 算法的增长策略构建树，减少了很多不必要的计算量；
LightGBM 采用优化后的特征并行、数据并行方法加速计算，当数据量非常大的时候还可以采用投票并行的策略；
LightGBM 对缓存也进行了优化，增加了缓存命中率；

6.1.2 内存更小

6.2 缺点

可能会长出比较深的决策树，产生过拟合。因此LightGBM在Leaf-wise之上增加了一个最大深度限制，在保证高效率的同时防止过拟合；
Boosting族是迭代算法，每一次迭代都根据上一次迭代的预测结果对样本进行权重调整，所以随着迭代不断进行，误差会越来越小，模型的偏差（bias）会不断降低。由于LightGBM是基于偏差的算法，所以会对噪点较为敏感；
在寻找最优解时，依据的是最优切分变量，没有将最优解是全部特征的综合这一理念考虑进去；

O (1) 空间搞定链表：穿针引线法核心技巧与例题无聊的小坏坏算法链表 c++算法
文章目录穿针引线法的核心思想基础应用：链表反转1.全链表反转2.部分链表反转高级应用：链表重排穿针引线法的设计模式常见问题解决方案1.K个一组反转链表2.环形链表检测在链表操作的世界里，"穿针引线"是一种优雅而高效的技巧，它通过精准的指针操作，像缝纫一样重新连接节点，解决各种复杂的链表问题。这种技巧不依赖额外数据结构，空间复杂度仅为O(1)，是算法面试中的必备技能。穿针引线法的核心思想指针即针线：
2023-11-15 自然科学学术论文=记叙文+说明文+议论文写作不停的追梦人
一篇自然科学的实验性的原创论文，包含了前言、材料方法、结果、讨论结论，这四块主要内容。而前言部分，就是记叙文，介绍所有研究问题的由来；而材料方法和结果部分，就是说明文部分，介绍材料方法具体过程和结果部分，主要描述结果的情况详细具体情况；而讨论结论，就是议论文部分，以实验结果为论据，来证明你的分论点，而结论就是你的一篇文章总论点。
1.7分钟了解华宝协办app亏损惨重！虚假数字投票被骗套路遭曝光！最新曝光36
1.华宝协办APP在平台不能提现怎么办？2.华宝协办APP这个软件靠谱可信吗？3.华宝协办APP在软件做任务被骗？4.华宝协办APP软件app无法登录?5.华宝协办APP平台是真的吗？6.华宝协办APP被骗无法提现，操作失误！7.华宝协办APP平台是騙局吗？8.华宝协办APP被骗无法出金如何维护自己的合法权益!希望看到这篇文章的人可以及时止损；请及时联系为你提供解决方案，要想讨回损害资产务必阅读以
鸿蒙实战开发（HarmonyOS ）网络连接管理
鸿蒙NEXT开发实战往期必看文章：一分钟了解”纯血版！鸿蒙HarmonyOSNext应用开发！“非常详细的”鸿蒙HarmonyOSNext应用开发学习路线！（从零基础入门到精通）HarmonyOSNEXT应用开发案例实践总结合（持续更新......）HarmonyOSNEXT应用开发性能优化实践总结（持续更新......）简介网络连接管理提供管理网络一些基础能力，包括WiFi/蜂窝/Etherne
鸿蒙开发进阶（HarmonyOS ）应用启动框架AppStartup应用实践案例你我皆是牛马星人鸿蒙开发 HarmonyOS OpenHarmony 1024程序员节 harmonyos 华为鸿蒙前端 android 鸿蒙系统
鸿蒙NEXT开发实战往期必看文章：一分钟了解”纯血版！鸿蒙HarmonyOSNext应用开发！“非常详细的”鸿蒙HarmonyOSNext应用开发学习路线！（从零基础入门到精通）HarmonyOSNEXT应用开发案例实践总结合（持续更新......）HarmonyOSNEXT应用开发性能优化实践总结（持续更新......）启动框架应用场景大型应用在启动过程中会加载大量的模块或SDK，各个模块或SD
Redis大Key问题 MQLYES redis redis 数据库缓存
文章目录1.什么是大key2.如何衡量大key3.大key有什么影响4.大key是如何产生的5.如何发现大key6.如何解决大key1.什么是大keyRediskey和value的最大限制都是512M，超过了Redis会拒绝这个操作，并返回一个错误信息给客户端。例如，可能会收到类似ERRkeytoobig的消息，具体的错误信息可能依据Redis版本的不同而有所变化。但我们这里讨论的大key是指的v
Markdown编辑器金麟༒ 编辑器
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML图表FLowchart流程图导出与导入导出导入欢迎使用Mark
广州天河区最新亲子鉴定收费费用标准(2024年8月最新更新) 民鉴基因科普
民鉴基因亲子鉴定中心预约热线：400-9989-716（微信号：gao897160）广州天河区亲子鉴定多少钱？广州天河区亲子鉴定正规机构收费标准在2000-4500元左右。不同类型的亲子鉴定其价格也不一样，此外，亲子鉴定的价格还要受到其他的因素的影响，因此，对于亲子鉴定的价格还需要联系自身需求以及当地机构的标准来。本篇文章小编给大家整理了2024最新广州天河区亲子鉴定正规机构收费标准供参考。广州天
华为OD机试2025 B卷 - 通过软盘拷贝文件 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD机试华为OD机试 2025B卷华为OD2025B卷华为OD机考 2025B卷
通过软盘拷贝文件华为OD机试真题目录点击查看:华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD机试2025B卷100分题型题目描述有一名科学家想要从一台古董电脑中拷贝文件到自己的电脑中加以研究。但此电脑除了有一个3.5寸软盘驱动器以外，没有任何手段可以将文件持贝出来，而且只有一张软盘可以使用。因此这一张软盘是唯一可以用来拷贝文件的载体。科学家想要尽可能多地将计算机中的信息拷贝到
STM32硬件I2C的注意事项蓝黑墨水 stm32 单片机嵌入式硬件
文章目录软件模拟I2C硬件的实现方式最近在研究I2C的屏幕使用。有两种使用方式，软件模拟I2C、硬件HAL使用I2C。软件模拟I2C发送数据是通过设置引脚的高低电平实现的。/*引脚配置*/#defineOLED_W_SCL(x)GPIO_WriteBit(GPIOB,GPIO_Pin_6,(BitAction)(x))#defineOLED_W_SDA(x)GPIO_WriteBit(GPIOB,
高仿劳力士日志一般什么价格(高仿劳力士日志价格一览表) 潮品会
劳力士，作为钟表界的佼佼者，以其卓越的品质、精湛的工艺和独特的设计赢得了全球钟表爱好者的青睐。然而，高昂的价格也使得不少消费者望而却步【重要提醒】文章最下面有联系方式于是，市场上出现了各种高仿劳力士日志手表，其价格区间相对广泛，从几百元到数万元不等，满足了不同消费者的需求。1.低端高仿劳力士日志手表这类手表的价格通常在500元至1000元之间，是市场上最为常见的入门级高仿产品。这些手表多由劣质材料
网上哪里能买到高仿香奈儿包(高仿香奈儿价格一览表) 潮奢之家
标题：揭秘网络购买高仿香奈儿包的渠道导语：香奈儿包作为世界知名品牌，一直备受消费者喜爱。然而，高昂的价格让许多消费者望而却步。随着互联网的发展，越来越多的消费者开始关注高仿香奈儿包，那么，究竟哪里能买到质量优良的高仿香奈儿包呢？本文将为您揭秘网络购买高仿香奈儿包的渠道。【重要提醒】文章最下面有联系方式一、淘宝网店淘宝作为我国最大的电商平台，拥有众多销售高仿香奈儿包的店铺。然而，由于淘宝店铺数量庞大
【PTA数据结构 | C语言版】查找根结点
本专栏持续输出数据结构题目集，欢迎订阅。文章目录题目代码题目请编写程序，根据给定信息构建森林，并找出给定结点所在树的根结点。输入格式：输入首先给出一个正整数n（0#defineMAX_N20intmain(){intn;scanf("%d",&n);intparent[MAX_N];chardata[MAX_N];//读取输入数据for(inti=0;i
一文读懂 Android FFmpeg 视频解码过程与实战分析 2401_85667460 android ffmpeg 音视频
–本文首先以FFmpeg视频解码为主题，主要介绍了FFmpeg进行解码视频时的主要流程、基本原理；其次，文章还讲述了与FFmpeg视频解码有关的简单应用，包括如何在原有的FFmpeg视频解码的基础上按照一定时间轴顺序播放视频、如何在播放视频时加入seek的逻辑；除此之外，文章重点介绍了解码视频时可能容易遗漏的细节，最后是简单地阐述了下如何封装一个具有基本的视频解码功能的VideoDecoder。前
Android NDK ffmpeg 音视频开发实战
文章目录接入FFmpeg1.下载FFmpeg源码2.编译FFmpeg.so库异常处理3.自定义FFmpeg交互so库创建4.配置CMakeLists.txt5.CMakeLists.txt环境配置6.Native与Java层调用解码器准备接入FFmpeg1.下载FFmpeg源码FFmpeg官网地址2.编译FFmpeg.so库移动FFmpeg源码文件夹至AndroidStudio的cpp包下（也可以
ymyw-mysql训练营-Day5
文章目录1.什么是聚合函数，常见的聚合函数有哪些？2.查询关键字解释3.什么是窗口函数？有哪些使用场景？4.内连接、左连接、右连接、全连接（MySQL不支持哪个？）5.什么是子查询/嵌套查询？6.MySQL中的一对一、多对一、多对多关系如何设计？7.学生与学籍号、班级、老师关系设计（含建表）（1）学生与学籍号（一对一）（2）学生与班级（多对一）（3）学生与老师（多对多）8.外键应该放在哪个表中？9
《废后一心求死后，父子俩悔疯了》宋裴宥阿璃(完结篇)全文免费阅读【笔趣阁】海边书楼
《废后一心求死后，父子俩悔疯了》宋裴宥阿璃(完结篇)全文免费阅读【笔趣阁】主角：宋裴宥阿璃简介：攻略成功后，我选择留在这个世界。宋裴宥封我为后，废除选秀。可后来他受伤失忆把我忘了，爱上了我的表妹。为了她，他废我后位，夺走我的儿子，将我幽禁千珏山。三年后他恢复记忆，迎我回宫。“阿璃，绾绾已经是我的女人，你若大度，便还是我的妻。”----阅读全文小说内容请翻阅文章最底部---1攻略成功后，我选择留在这
2021-2-21晨间日记客归呀
今天是什么日子起床：8.30就寝：12.00天气：晴心情：充满阳光纪念日：第一天加入任务清单昨日完成的任务，最重要的三件事：写小说3000字，剪视频，和亲人聊天改进：小说字数字数加，视频录制习惯养成：每天坚持写小说周目标·完成进度百分之七十学习·信息·阅读做题，头条文章阅读健康·饮食·锻炼每天一瓶牛奶人际·家人·朋友和家人朋友聊天，教亲朋好友一些手机操作工作·思考写随笔最美好的三件事1.每天进步2
python学智能算法（二十四）|SVM-最优化几何距离的理解
引言前序学习过程中，已经对几何距离的概念有了认知，学习链接为：几何距离这里先来回忆几何距离δ的定义：δ=min⁡i=1...myi(w∥w∥⋅xi+b∥w∥)\delta=\min_{i=1...m}y_{i}(\frac{w}{\left\|w\right\|}\cdotx_{i}+\frac{b}{\left\|w\right\|})δ=i=1...mminyi(∥w∥w⋅xi+∥w∥b)对上
我与《写作》的故事开心果子
要想提高写作能力，就要磨练写故事的能力，昨天读了叶老师与阅读的故事，今天又再写作的故事里相逢，跟叶老师隔着书本进行了一场对话，我就是那大部分小伙伴中的一员，在微信读书《认知觉醒》的书评里认识了叶老师，通过叶老师的写作，来到这里与大家相聚。我也来讲讲，我与写作的故事。2022年8月7日，我读到了《逆熵增成长之路》的写作篇，开始注册写下第一篇文章《日更百天挑战》，到今天24天，写了28篇小短文，2.2
有效快速记忆五十音方法和技巧蓝色的枕头12
日语学习之五十音图记忆法：日语发音以五十音图为基础，一定学好五十音图，通过文章内教授的一些记忆法，知道日语是怎样发音，才能学好日语。日语发音以五十音图为基础，比中文的拼音还要重要，一定学好五十音图，才知道日语是怎样发音。日语小知识①先是竖着记=（*称为行）あaかkaさsaたなはまやらわんいiきkiしxiうuくkuすsiえeiけkeiせseiおouこkoそsou②竖着记好后，衡着记（*称为段）あaか
华为OD机试2025C卷 - 计算三叉搜索树的高度 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD机试2025C卷华为OD2025C卷华为OD机考2025C卷
计算三叉搜索树的高度华为OD机试真题目录点击查看:华为OD机试2025C卷真题题库目录｜机考题库+算法考点详解华为OD机试2025C卷100分题型题目描述定义构造三叉搜索树规则如下：每个节点都存有一个数，当插入一个新的数时，从根节点向下寻找，直到找到一个合适的空节点插入。查找的规则是：如果数小于节点的数减去500，则将数插入节点的左子树如果数大于节点的数加上500，则将数插入节点的右子树否则，将数
支持向量机SVM 李昊哲小课 sklearn 人工智能机器学习支持向量机算法机器学习 sklearn 人工智能数据挖掘
支持向量机SVM一、支持向量机算法支持向量机（SupportVectorMachine，SVM）是一种用于分类和回归分析的机器学习算法。分类场景举例（更容易理解）假设现在有一个二维平面上散落着一些点，这些点分为两类，一类是红色的圆形点，另一类是蓝色的方形点。我们的任务就是找到一条直线，能够把这两类点尽可能准确地分开。支持向量机算法做的事情就和这个类似。算法核心思想它不是随便找一条能分开两类数据的直
死鱼扯淡之放假写作业找茬搞事 nicheng在在在在在此
1人生是一所学校，在那里，不幸比起幸福来是更好的老师。（所以当你幸福了以后，你就要买好学区房找更好的老师，这就带来了偌大的不幸）。—源自【苏联】弗里奇2赵丽宏有篇文章开头就说：“不是所有音乐都可以把你带入天堂的”，而我想说：“这种神功是只有世界禁曲才有的。”3我认为于德北文章中的景大爷就是因为总训斥“我”所以作者才写出个脑溢血害他才死的。4扯了以上三条，我又要开始钻古代版权的空子了：空山不见人，但
2023听讲座（6）听郝晓东老师教师专业写作的进阶之路相信未来_3257
窗外，雨声淅淅沥沥。被近半个月的雨声折磨得我迟迟静不下心，于是，打开手机，找到收藏夹里的讲座听起来。近年，主要关注的就是教育写作。于是，我打开了郝晓东老师《教师专业写作进阶之路》这个讲座听起来。郝老师这个讲座间隔时间比较长了，讲座是2020年的，但是，我听起来，却依旧干货满满。郝老师从重新认识写作和修改文章的五方面谈起教育写作，让我对教育写作有了更深的了解，也明晰了后期努力的方向。郝老师在讲座中谈
Java 领域 Dubbo 服务注册与发现机制详解 Java大师兄学大数据AI应用开发 java dubbo 开发语言 ai
Java领域Dubbo服务注册与发现机制详解关键词：Dubbo、服务注册、服务发现、微服务、RPC、Zookeeper、负载均衡摘要：本文深入剖析了Dubbo框架中的服务注册与发现机制，从核心概念到实现原理，再到实际应用场景和最佳实践。我们将通过源码分析、架构图解和实战案例，全面讲解Dubbo如何实现高效的服务治理，包括注册中心的作用、服务提供者与消费者的交互流程、负载均衡策略等关键内容。文章还将
理性与感性戴老师成长记录仪
昨天在罗胖的60秒中，听到了这么一个话语，就是理性的反面不是感性，而是本能，感性的反面不是理性而是冷漠，当我听到这么一句话的时候，一直刺激着我的大脑，因为我对这句话理解的不够透彻，今天的文章，我就想要针对这个六十秒的话语，说说我的自己的思考，谈谈我的感受。[if!supportLists]一、[endif]理性与感性我们还是回到罗胖说的那句话，就是理性的反面是本能，感性的反面是冷漠。那些自以为感性
拼多多无门槛优惠券领取方法，拼多多大额优惠劵领取方法一览表一起高省
拼多多无门槛优惠券和超级红包领取入口，省钱购物两不误？更多的薅羊毛群，捡漏群，以及0元撸纸巾群是如何领劵，今天全部教给大家！导语：拼多多作为中国领先的社交电商平台，以超低价格和丰富的优惠券活动吸引了大量用户。本文将为您介绍拼多多无门槛优惠券的领取方式，以及超级红包的领取入口，帮助您省钱购物两不误。我们在开始讲今天的文章之前，小编想和大家分享我正在使用的副业兼职省钱app—高省，官方邀请码17171
拥有这三种能力，人生就会更幸福孟小悦
在生活中，我们总是会经历很多决择的时刻，但是在做选择的时候，我们也会遇到很多困难。如果我每个人都能拥有这三种能力，那么人生就会更幸福。一，钝感力钝感力就是当我们面对质疑时，不被流言蜚语影响到情绪，做好自我调节，怡然自得的把喜欢的事情做下去。这就是钝感力。那些生活得很幸福的人往往钝感力都很强。刚开始写作的时候，很多人都质疑我，觉得我不会写出好文章的，但是我没有被这些质疑影响到，而是把写作坚持下去了。
打卡Day12 HAhhhiu python学习打卡 python 机器学习
@浙大疏锦行知识点：遗传算法：来源于自然界中的生物进化和基因遗传思想：模拟生物进化过程，通过“选择（保留优秀解）、交叉（组合解的特征）、变异（引入新特征）”迭代优化我想培养出一只超级泰迪犬？该怎么办呢？首先，我有一群泰迪犬，但是小泰迪们的各种基因不同，形态各色，我只想要一只高大、卷毛和聪明的泰迪。（这是初始解的集合，也是案例学习代码中，我们所设定的随机森林中的一堆的参数范围）接着，我开始挑选符合上
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL