太阳不热

第八篇：机器学习基础：集成学习算法：随机森林、Adaboost、 XGBoost

1 集成学习

1.1。何为集成方法？

  集成学习是一种机器学习范式。在集成学习中，我们会训练多个模型（通常称为「弱学习器」）解决相同的问题，并将它们结合起来以获得更好的结果。
  最重要的假设是：当弱模型被正确组合时，我们可以得到更精确和/或更鲁棒的模型。
  集成方法的思想是通过将这些弱学习器的偏置和/或方差结合起来，从而创建一个「强学习器」（或「集成模型」），从而获得更好的性能。

1.2。组合弱学习器：很重要的一点是：我们对弱学习器的选择应该和我们聚合这些模型的方式相一致。

  如果我们选择具有低偏置高方差的基础模型，我们应该使用一种倾向于减小方差的聚合方法；
  而如果我们选择具有低方差高偏置的基础模型，我们应该使用一种倾向于减小偏置的聚合方法。

1.3 偏差和方差

广义的偏差（bias）描述的是预测值和真实值之间的差异，方差（variance）描述距的是预测值作为随机变量的离散程度
    模型的偏差和方差：bagging和stacking中的基模型为强模型（偏差低方差高），boosting中的基模型为弱模型。

1.4 什么是集成学习

- 超级个体 -> 比如9次多项式函数 -> 能力过强，容易过拟合 -> 
            * 解决过拟合问题：互相扼制变壮 bagging采样学习集成。
            * 对数据进行采样训练；所有学习器平权投票；Bagging的学习是并行的，每个学习器没有依赖关系；
            * Bagging主要用于提高泛化性能（解决过拟合，也可以说降低方差）
            * 例：
                **随机森林算法：随机森林 = Bagging + 决策树
                
- 弱者联盟 -> 比如组合一堆1次函数 -> 能力变强，但不容易过拟合 -> 
            * 解决欠拟合问题: 弱弱组合变强 boosting逐步增强学习。
            * 根据前一轮学习结果调整数据的重要性；对学习器进行加权投票；Boosting学习是串行，学习有先后顺序。
            * Boosting主要用于提高训练精度 （解决欠拟合，也可以说降低偏差）
            * 例：
                ** GBDT 梯度提升决策树(GBDT Gradient Boosting Decision Tree) ：GBDT = 梯度下降 + Boosting + 决策树
                ** XGBoost= 二阶泰勒展开 + boosting + 决策树 + 正则化

1.5 机器学习的两个核心任务

   - 任务一：如何优化训练数据 —> 主要用于解决欠拟合问题
   - 任务二：如何提升泛化性能 —> 主要用于解决过拟合问题

2 自助聚合bagging、提升法boosting 、堆叠法stacking

2.1 自助聚合bagging：该方法通常考虑的是同质弱学习器，相互独立地并行学习这些弱学习器，并按照某种确定性的平均过程将它们组合起来。

  Bagging是Bootstrap Aggregating的缩写。
  Bagging是为了得到泛化能力强的集成，因而就需要让各个子学习器之间尽可能独立，
  但是如果将样本分为了不同的不重合子集，那么每个基学习器学习的样本就会不足。
  所以它采用一种自助采样的方法（boostrap sampling）
          每次从数据集中随机选择一个subset，然后放回初始数据集，
          下次取时，该样本仍然有一定概率取到。然后根据对每个subset训练出一个基学习器，
          然后将这些基学习器进行结合。对于分类任务可以通过vote来输出结果，回归任务可以求平均值。
  Bagging的代表是Random Forest，RF是在决策树作为基学习器通过Bagging思想建立的。
          Random Forest是一种基于Bagging思想的Ensemble learning方法，它实际上就是Bagging + 决策树。
          Random Forest可以用来做分类也可以做回归，
                  做分类时最后多棵树的分类器通过voting来决定分类结果；
                  做回归时，由多棵树预测值的averaging来决定预测结果。

2.2 提升法boosting：该方法通常考虑的也是同质弱学习器。它以一种高度自适应的方法顺序地学习这些弱学习器（每个基础模型都依赖于前面的模型），并按照某种确定性的策略将它们组合起来。

Boosting是一种将弱学习器转换为强学习器的算法，
 它的机制是：
         先从初始训练集训练出一个基学习器，
         然后根据基学习器的表现对训练样本进行调整，使得先前基学习器做错的训练样本在后续的训练中得到更多的关注，
         然后基于调整后的样本分布来训练下一个基学习器。
 Boosting的代表是Adam Boosting。
         Adaboost是Boosting算法中的代表，它的思想也便是基于Boosting思想的。
         在adaboost的运算过程中，一开始在训练样本时，为每个子样本赋予一个权重，一开始这些权重都是相等的，
         然后在训练数据集上训练出一个弱分类器，并计算这个弱分类器在每个子样本上的错误率，
         在第二次对这同一数据集进行训练时，将会根据分类器的错误率对子数据集中各个权重进行调整，分类正确的权重降低，分类错误的权重上升，这些权重的总和不变。
         最终得到的分类器会基于这些训练的弱分类器的分类错误率来分配不同的决定系数，从而使权重更新时，错误样本具有更高的权重。
         最后以此来更新各个样本的权重，直至达到迭代次数或者错误率为0。所以Adaboost会对那些影响准确率的数据额外关注，从而会降低bias，而导致overfit。

2.3 堆叠法stacking：该方法通常考虑的是异质弱学习器，并行地学习它们，并通过训练一个「元模型」将它们组合起来，

    并通过训练一个「元模型」将它们组合起来，根据不同弱模型的预测结果输出一个最终的预测结果。
  stacking是一种将弱学习器集成进行输出的策略，
  其中，在stacking中，所有的弱学习器被称作0级（0 level）学习器，他们的输出结果被一个1级（1 level）学习器接受，然后再输出最后的结果。
  这是实际上是一种分层的结构，前面提到的就是一种最基本的二级Stacking。
  另外，在bagging或者boosting中，所有的弱学习器一般都要求是相同的模型，如决策树，而stacking中可以是不同的模型，如KNN、SVM、LR、RF等。

2.4 bagging 的重点在于获得一个方差比其组成部分更小的集成模型，

 而 boosting 和 stacking 则将主要生成偏置比其组成部分更低的强模型（即使方差也可以被减小）。

2.5 我现在对集成学习的三种模式的理解是：

 自助聚合bagging：（并行集成）是为了得到泛化能力强的集成，因而就需要让各个子学习器之间尽可能独立, 
 提升法boosting：（序列集成）是一种将弱学习器转换为强学习器的算法, 根据基学习器的表现对训练样本进行调整，然后基于调整后的样本分布来训练下一个基学习器。
 堆叠法stacking： 考虑的是异质弱学习器，并行地学习它们、并通过训练一个「元模型」将它们组合起来，根据不同弱模型的预测结果输出一个最终的预测结果。

3 随机森林的剪枝

随机森林的剪枝：集成学习在实践中的训练效果很好  如果在测试集中的表现都是100% 那应该是过拟合了 考虑一下剪枝 
    * n_estimators：这是森林中树木的数量，即基评估器的数量。n_estimators越大，模型的效果往往越好。
    * max_features：决策树划分时考虑的最大特征数。max_features 值越大，模型学习能学习到的信息越多，越容易过拟合。
    * max_depth：决策树最大深度。常用的可以取值10-100之间。值越大，决策树越复杂，越容易过拟合。
    * min_samples_split：内部节点再划分所需最小样本数。值越大，决策树越简单，越不容易过拟合。
    * min_samples_leaf：叶子节点最少样本数。值越大，叶子节点越容易被被剪枝，决策树越简单，越不容易过拟合。
    * max_leaf_nodes: 最大叶子节点数。值越小，叶子节点个数越少，可以防止过拟合。

4 Adaboost剪枝

    * n_estimators:基分类器提升（循环）次数，默认是50次，这个值过大，模型容易过拟合；值过小，模型容易欠拟合。
    * learning_rate:学习率，表示梯度收敛速度，默认为1，如果过大，容易错过最优值，如果过小，则收敛速度会很慢
    * algorithm:boosting算法，也就是模型提升准则，有两种方式SAMME, 和SAMME.R两种，默认是SAMME.R，两者的区别主要是弱学习器权重的度量。
            SAMME是对样本集预测错误的概率进行划分的，SAMME.R是对样本集的预测错误的比例，即错分率进行划分的，默认是用的SAMME.R。 
    * random_state: 随机种子设置

5 xgboost

5.1 传统的GBDT，(gradient boosting decision tree)也就是梯度提升决策树:

  这是一种基于树的集成算法.多棵树的集合就构成了GBDT。其实GBDT是对残差的拟合.
  GBDT的目标函数是预测值和真实值差的累加，也就是误差累加，可以看出每一步计算都依赖于上面所有步的误差，效率比较低

5.2 xgboost特点：

 3.2.1 传统GBDT以CART作为基分类器，xgboost还支持线性分类器，
         这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归（分类问题）或者线性回归（回归问题）。
     -- 可以通过booster [default=gbtree]设置参数:gbtree: tree-based models/gblinear: linear models
 3.2.2 传统GBDT在优化时只用到一阶导数信息，xgboost则对代价函数进行了二阶泰勒展开，同时用到了一阶和二阶导数。
         顺便提一下，xgboost工具支持自定义代价函数，只要函数可一阶和二阶求导。
     -- 对损失函数做了改进（泰勒展开，一阶信息g和二阶信息h）
 3.2.3 xgboost在代价函数里加入了正则项，用于控制模型的复杂度。
         正则项里包含了树的叶子节点个数、每个叶子节点上输出的score的L2模的平方和。
         从Bias-variance tradeoff角度来讲，正则项降低了模型variance，使学习出来的模型更加简单，防止过拟合，
         这也是xgboost优于传统GBDT的一个特性 
     -- 正则化包括了两个部分，都是为了防止过拟合，剪枝是都有的，叶子结点输出L2平滑是新增的。
 3.2.4 shrinkage and column subsampling
         shrinkage缩减类似于学习速率，在每一步tree boosting之后增加了一个参数n（权重），通过这种方式来减小每棵树的影响力，给后面的树提供空间去优化模型。
         column subsampling列(特征)抽样，说是从随机森林那边学习来的，防止过拟合的效果比传统的行抽样还好（行抽样功能也有），并且有利于后面提到的并行化处理算法。
 3.2.5 split finding algorithms(划分点查找算法)
         split finding algorithms(划分点查找算法)
         approximate algorithm— 近似算法，提出了候选分割点概念，先通过直方图算法获得候选分割点的分布情况，然后根据候选分割点将连续的特征信息映射到不同的buckets中，并统计汇总信息。
         Weighted Quantile Sketch—分布式加权直方图算法
         可并行的近似直方图算法。树节点在进行分裂时，我们需要计算每个特征的每个分割点对应的增益，即用贪心法枚举所有可能的分割点。
         当数据无法一次载入内存或者在分布式情况下，贪心算法效率就会变得很低，所以xgboost还提出了一种可并行的近似直方图算法，用于高效地生成候选的分割点。
 3.2.6 对缺失值的处理。对于特征的值有缺失的样本，xgboost可以自动学习出它的分裂方向。 
 3.2.7 Built-in Cross-Validation（内置交叉验证)
 3.2.8 continue on Existing Model（接着已有模型学习）
 3.2.9 High Flexibility（高灵活性）
 3.2.10 并行化处理 —系统设计模块,块结构设计等

5.3 模型参数

* max_depth:int |每个基本学习器树的最大深度，可以用来控制过拟合。典型值是3-10
* learning_rate=0.1：即是eta，为了防止过拟合，更新过程中用到的收缩步长，使得模型更加健壮。典型值一般设置为：0.01-0.2。
* n_estimators=100,估计器的数量
* objective：定义学习任务及相应的学习目标，可选目标函数如下：
        “reg:linear”          —— 线性回归
    　　“reg:logistic”        —— 逻辑回归 
    　　“binary:logistic”    —— 二分类的逻辑回归问题，输出为概率
    　　“binary:logitraw”  —— 二分类的逻辑回归问题，输出的结果为wTx            
    　　“count:poisson”   —— 计数问题的poisson回归，输出结果为poisson分布。在poisson回归中，max_delta_step的缺省值为0.7。(used to safeguard optimization)            
    　　“multi:softmax”    —— 让XGBoost采用softmax目标函数处理多分类问题，同时需要设置参数num_class（类别个数）。返回预测的类别(不是概率)。            
    　　“multi:softprob”   —— 和softmax一样，但是输出的是ndata * nclass的向量，可以将该向量reshape成ndata行nclass列的矩阵。每行数据表示样本所属于每个类别的概率。            
    　　“rank:pairwise”   —— set XGBoost to do ranking task by minimizing the pairwise loss
* booster: default="gbtree"，可选gbtree和gblinear，gbtree使用基于树的模型进行提升计算，gblinear使用线性模型进行提升计算
* n_jobs：线程数目
* gamma：0，损失阈值，在树的一个叶节点上进行进一步分裂所需的最小损失减少量，越大，算法越保守。取值范围为：[0,∞]。
        在节点分裂时，只有分裂后损失函数的值下降了，才会分裂这个节点。Gamma指定了节点分裂所需的最小损失函数下降值。
        这个参数的值越大，算法越保守。这个参数的值和损失函数息息相关，所以是需要调整的。
* min_child_weight=1, 拆分节点权重和阈值，如果节点的样本权重和小于该阈值，就不再进行拆分。在现行回归模型中，这个是指建立每个模型所需要的最小样本数。越大，算法越保守，可以用来减少过拟合。 取值范围为：[0,∞]
* max_delta_step=0, 每棵树的最大权重估计。如果它的值被设置为0，意味着没有约束；如果它被设置为一个正值，它能够使得更新的步骤更加保守。通常这个参数是没有必要的，但是如果在逻辑回归中类别极其不平衡这时候他有可能会起到帮助作用。把它范围设置为1-10之间也许能控制更新。 取值范围为：[0,∞]
* scale_pos_weight=1,用来控制正负样本的比例，平衡正负样本权重，处理样本不平衡。在类别高度不平衡的情况下，将参数设置大于0，可以加快收敛。

鸿蒙开发：资讯项目实战之项目框架设计
前言本项目API>=13写了那么多的文章，总感觉缺少点什么，沉下心来细细一想，原来是没有把相关知识应用于实战，对于我们这些开发过项目，有过项目经验的人来说，项目开发小菜一点，但是对于刚接触鸿蒙的开发者而言，确实需要一个从0到1的项目进行磨炼一下，授人以鱼不如授人以渔，说干就干，那么接下来的一段时间，我会时不时的进行穿插项目实战的文章，当然了其他的技术文章也会不间断更新。关于项目实战，选来选去，最终
HarmonyOS Next IM实战：数据库查询慢的优化过程分享
HarmonyOSNextIM实战：数据库查询慢的优化过程分享1、背景介绍在IMSDK开发中，客户端要使用关系型数据库存储会话、用户、消息等数据，最开始做C端应用一直没发现问题，今年开始有B端用户使用时反馈应用卡，消息延迟等，经过定位发现是B端用户的会话和消息更多，在数据库查询时更慢，由于之前都在主线程所以导致应用卡和慢。本文分享整个优化过程中的遇到问题、解决思路，最终效果等。2、HarmonyO
机器学习3——参数估计之极大似然估计平和男人杨争争山东大学机器学习期末复习机器学习人工智能算法
参数估计问题背景：P(ωi∣x)=p(x∣ωi)P(ωi)p(x)p(x)=∑j=1cp(x∣ωj)P(ωj)\begin{aligned}&P\left(\omega_i\mid\mathbf{x}\right)=\frac{p\left(\mathbf{x}\mid\omega_i\right)P\left(\omega_i\right)}{p(\mathbf{x})}\\&p(\mathbf
浏览器移动端html右边有一点白_手机端页面在项目中遇到的一些问题及解决办法... weixin_39804335
1.解决页面使用overflow:scroll在iOS上滑动卡顿的问题?首先你可能会给页面的html和body增加了height:100%,然后就可能造成IOS上页面滑动的卡顿问题。解决方案是：(1)看是否能把body和html的height:100%去除掉。(2)在滚动的容器中增加：-webkit-overflow-scrolling:touch或者给body增加：body{overflow-x
2019-2020年线上睡眠市场深度分析报告我就是夏迎春
本文还有配套的精品资源，点击获取简介：本报告全面分析了2019至2020年间中国线上消费者购买睡眠相关产品的行为和趋势。报告内容涉及市场概况、消费偏好、消费者行为、地域差异及未来展望，详细解读了消费者对多种睡眠产品的偏好及线上市场的发展。京东平台的数据为研究提供了丰富的实证，包括市场增长、产品多样化、高端产品需求上升、科技产品的发展、购买时段、年龄分布、决策因素以及地域差异等。报告指出，健康意识和
Python代理池的构建与应用：实现高效爬虫与防封禁策略程序员威哥 python 爬虫开发语言
在进行大规模网络数据抓取时，IP封禁是最常见的反爬虫手段之一。为了应对这一挑战，代理池成为了一个重要工具。通过构建代理池，爬虫程序可以随机切换代理IP，避免同一IP被频繁访问而导致封禁，确保数据抓取任务的稳定性和持续性。本文将详细介绍如何使用Python构建一个高效的代理池，并结合实际应用场景，讲解如何使用代理池提升爬虫的抓取能力和防封禁策略。一、代理池的工作原理代理池的基本工作原理是，爬虫请求时
Python爬虫实战：用Tushare和Baostock爬取股票历史数据及K线图与技术指标计算
在金融数据分析和量化交易中，股票历史数据的获取是进行技术分析、回测和策略研究的第一步。传统上，投资者需要依赖付费数据服务，然而如今，借助Python强大的爬虫工具和开源数据接口，我们能够轻松地爬取免费的历史股票数据，并结合K线图与技术指标来进行深入分析。Tushare和Baostock是两个非常流行的开源金融数据接口。Tushare提供了丰富的国内外金融数据，特别是A股市场的历史数据和实时数据，而
基于 chat-uikit-react-native 实现一个 React Native 聊天 App qq_38405998 react native 即时通信 typescript android ios
一、前言本文分享了通过github源码快速实现一个聊天App。二、具体步骤Step1：配置开发环境如果您电脑没有ReactNative开发环境，请先按照ReactNative官网set-up-your-environment配置开发环境.Step2：下载源码Demo源码可前往github下载Step3：获取应用信息您需要前往腾讯云即时通讯官网创建并获取相关的应用信息，关于如何创建即时通信账号请点击
2024年AI 智能助手（大模型）产品市场分析｜商派徐礼昭｜商派软件市场负责人人工智能
一、引言人工智能的浪潮不断向前推进，智能助手作为其中的重要应用，已经逐渐渗透到我们生活的各个方面。它们以其便捷性和个性化的特点，改变了我们与世界的互动方式。本报告将对AI智能助手进行全面的行业分析，包括行业概况、主要玩家、用户数据、发展要素以及未来趋势等方面，并通过具体案例分享，帮助读者深入了解这一领域的现状和未来发展潜力。二、行业概览（一）智能助手的定义和发展阶段智能助手是利用人工智能技术为用户
C# 与串口通信：解决常见问题的调试技巧与实用建议威哥说编程 c#单片机 stm32
串口通信作为一种经典的通信方式，在很多领域中仍然广泛应用，尤其是在嵌入式系统、工业自动化、测控系统等场景中。通过串口接口，可以实现设备间的短距离、低速数据传输。C#提供了强大的System.IO.Ports.SerialPort类来支持串口通信的开发，但在实际开发中，开发者常常遇到一些问题，比如数据丢失、串口冲突、波特率不匹配等。本文将深入探讨如何使用C#进行串口通信，结合调试技巧和实用建议，帮助
由数据泄露引发业务崩塌的HTTP代理危险彬彬醤 http 网络协议网络 tcp/ip web安全大数据 macos
HTTP代理作为跨地域访问的常用工具，被广泛应用于跨境电商、数据采集、内容访问等场景。然而，其明文传输特性与监管漏洞，正成为数据安全与业务稳定的隐形杀手。某跨境电商团队因使用廉价HTTP代理，导致500+账号被亚马逊封禁；某企业员工通过公共代理访问内部系统，引发数据泄露事故——这些案例揭示：不当使用HTTP代理，可能让便捷变成灾难。五大核心风险解析1.不安全的数据传输传统HTTP代理工作于OSI模
Fiddler中文版抓包工具在跨域与OAuth调试中的深度应用 2501_91600747 http udp https websocket 网络安全网络协议 tcp/ip
跨域和OAuth授权流程一直是Web和移动开发中最容易踩坑的领域。复杂的CORS配置、重定向中的Token传递、授权码流程的跳转，以及多域名环境下的Cookie共享，常常让开发者陷入调试困境。此时，一款能够精准捕获、修改、重放请求的抓包工具显得至关重要，而Fiddler抓包工具正是解决此类难题的核心武器。Fiddler中文网（https://telerik.com.cn/）为跨域和OAuth接入场
Fiddler抓包工具在多端调试中的实战应用：结合Postman与Charles构建调试工作流 2501_91600747 http udp https websocket 网络安全网络协议 tcp/ip
在如今前后端分离、接口驱动开发逐渐成为主流的背景下，开发者越来越依赖于各类调试工具，以应对复杂的网络请求管理、多设备调试和跨团队协作等问题。而在诸多网络分析工具中，Fiddler抓包工具以其功能全面、扩展灵活、支持HTTPS抓包和断点调试等特性，在开发者圈中拥有稳定的口碑。本文将从一个更贴近日常开发流程的角度，探讨如何在多端调试、接口测试、数据模拟等环节中，灵活运用Fiddler，并与Postma
荣耀手机应用使用时间查看方法详解游戏开发爱好者8 http udp https websocket 网络安全网络协议 tcp/ip
荣耀手机如何查看应用使用时间想要了解荣耀手机中各个应用的使用时间吗？接下来，我们将为您详细介绍如何查看这些信息。一、引言在当下智能手机广泛应用的时代，手机应用已然成为我们生活中不可或缺的助手。荣耀手机，作为华为旗下的出色品牌，凭借其出色的性能与丰富的功能，赢得了众多用户的青睐。为了更有效地管理手机使用时间，洞悉个人的应用使用习惯，掌握查看应用使用时间的技巧显得尤为关键。接下来，我们将一步步引导您了
程序员面试中的故障排查：展现问题解决能力的黄金法则
程序员面试中的故障排查：展现问题解决能力的黄金法则关键词：故障排查、面试技巧、问题解决能力、结构化思维、技术沟通、根因分析、面试场景模拟摘要：在程序员面试中，故障排查类问题是考察候选人“实战能力”的核心环节——它不仅检验技术知识的深度，更能暴露逻辑思维、沟通表达和抗压能力的真实水平。本文将通过“侦探破案”式的类比，结合真实面试场景，拆解故障排查的黄金法则，帮助你在面试中从“解题者”升级为“问题解决
基于OpenCv的图片倾斜校正系统详细设计与具体代码实现 AI大模型应用之禅人工智能数学基础计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
基于OpenCv的图片倾斜校正系统详细设计与具体代码实现1.背景介绍1.1图像处理的重要性在当今数字时代,图像处理技术在各个领域都扮演着重要角色。无论是在计算机视觉、模式识别、医学影像、遥感探测还是多媒体处理等领域,图像处理都是不可或缺的核心技术。通过对图像进行预处理、增强、分割、特征提取等操作,可以从图像中获取有价值的信息,为后续的分析和决策提供支持。1.2图像倾斜问题及其影响在实际应用中,由于
iOS 抓包工具排查接口时区异常：国际化产品调试实战分享 2501_91600747 http udp https websocket 网络安全网络协议 tcp/ip
在开发面向全球用户的应用时，“时间”这个维度的处理远比预期复杂。近期在一个国际化版本中，我们遭遇了一个特殊问题：同一接口在不同国家用户手机上表现不一致，有时返回数据为空，有时返回过期内容。服务端逻辑看似正常，客户端日志也无报错，最终我们通过一套多工具组合的抓包流程，还原出隐藏在跨时区处理差异背后的根因。问题背景与初步症状该功能是一个活动弹窗判断接口：根据当前时间返回用户是否可见活动入口。接口响应结
iOS App 上架常见问题解决方案：六大难点与实战工具分工详解游戏开发爱好者8 http udp https websocket 网络安全网络协议 tcp/ip
作为一名主要负责移动端交付的工程师，iOS上架过程向来是开发周期中最容易“卡壳”的一环，特别是在跨平台项目、资源有限的团队中更为明显。在最近一个智能出行类App项目中，我们团队采用Flutter开发，最终要将成品应用发布至AppStore。在整个过程中，我们遇到了不少实际问题。本文将围绕“上架过程中最棘手的6个典型难点”，结合我们的解决方法和所用工具，进行一次全面复盘。难点一：没有Mac电脑，无法
iOS 远程调试与离线排查实战：构建非现场问题复现机制 HTTPwise http udp https websocket 网络安全网络协议 tcp/ip
iOS开发者都知道，调试最怕两个字：“偶发”。用户说App闪退了，你点了十遍也没问题；测试说功能卡顿了，你抓日志时它又顺滑如新。最麻烦的是，这种“现场问题”往往在你连接不到用户设备时发生。面对这种情况，我们团队过去一年逐渐搭建起一套以离线分析为核心的调试流程，即使设备不在身边，也能高效定位问题。本篇文章将围绕以下四类典型场景，拆解我们如何借助一套工具组合来解决：无法重现的崩溃问题用户侧偶发卡顿非越
手机控制载货汽车一键启动无钥匙进入广泛应用
移动管家载货汽车一键启动无钥匙进入手机控车系统‌，该系统广泛应用于物流运输、工程作业等货车场景，为车主提供了高效、便捷的启动和熄火解决方案，体现了科技进步对物流行业的积极影响‌核心功能‌：简化启动流程，提高便捷性与安全性。‌无钥匙进入‌：车主携带智能钥匙靠近车辆，车门自动解锁并解除防盗；离开时自动上锁防盗‌。‌一键启动‌：踩下刹车，按下一键启动按钮即可启动或熄火车辆，替代传统钥匙‌。‌智能控制‌：
大模型RLHF强化学习笔记（一）：强化学习基础梳理Part1 Gravity! 大模型笔记大模型 LLM 算法机器学习强化学习人工智能
【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.1Intro定义：强化学习是一种机器学习方法，需要智能体通过与环境交互学习最优策略基本要素：状态（State）：智能体在决策过程中需要考虑的所有相关信息（环境描述）动作（Action）：在环境中可以采取的行为策略（Policy）：定义了在给定状态下智能体应该选择哪个动作，目标是最大化智能体的长期累积奖
【k近邻】 K-Nearest Neighbors算法原理及流程 F_D_Z 机器学习方法数理算法学习机器学习 k近邻算法 k-近邻算法
【k近邻】K-NearestNeighbors算法原理及流程【k近邻】K-NearestNeighbors算法距离度量选择与数据维度归一化【k近邻】K-NearestNeighbors算法k值的选择【k近邻】Kd树的构造与最近邻搜索算法【k近邻】Kd树构造与最近邻搜索示例k近邻算法（K-NearestNeighbors，简称KNN）是一种常用的监督学习算法，可以用于分类和回归问题。在OpenCV中
C++正则表达式语法 Coding小公仔 c/c++c++正则表达式开发语言
在C++中，正则表达式是处理文本模式匹配和字符串操作的强大工具。C++11及以后的标准库提供了头文件，支持正则表达式的使用。下面是C++正则表达式的核心语法规则和用法：一、基本正则表达式语法1.普通字符直接匹配自身，例如：a匹配字符a。2.元字符（需转义）具有特殊含义的字符，需用反斜杠\转义（在C++字符串中需用双反斜杠\\）。.：匹配除换行符外的任意字符。^：匹配字符串的开头。$：匹配字符串的结
高通 QCS8550 大模型性能深度解析：从算力基准到场景实测的全维度 Benchmark 伊利丹~怒风 Qualcomm 人工智能 AI编程 python arm 自然语言处理
前言在人工智能技术狂飙突进的时代，大模型正以前所未有的速度重塑各行业生态，从智能客服到多模态交互，从边缘推理到端侧部署，其应用场景不断拓展。而这一切革新的背后，离不开底层硬件的强力支撑。高通QCS8550作为面向下一代智能设备的旗舰级计算平台，凭借高达48TOPS的AI算力与先进的第七代高通AI引擎，在大模型性能表现上极具竞争力。其异构多核架构不仅能高效处理复杂的神经网络计算，还通过软硬件协同优化
java spi 好处_Java SPI 实战 Gaven Wang java spi 好处
SPI全称为(ServiceProviderInterface)，是JDK内置的一种服务提供发现机制，可以轻松实现面向服务的注册与发现，完成服务提供与使用的解耦，并且可以实现动态加载SPI能做什么利用SPI机制，sdk的开发者可以为使用者提供扩展点，使用者无需修改源码，有点类似Spring@ConditionalOnMissingBean的意思动手实现一个SPI例如我们要正在开发一个sdk其中有一
手机屏像素缺陷修复及相关液晶线路激光修复原理 syncon12 科技制造 3d
摘要手机屏像素缺陷严重影响显示效果，而液晶线路异常是导致像素缺陷的关键因素之一。激光修复技术凭借高精度与非接触特性，能够有效修复液晶线路，进而改善像素显示。本文分析手机屏像素缺陷类型，探究液晶线路激光修复原理、工艺及参数优化，为提升手机屏显示质量提供理论支撑。引言随着手机屏向高分辨率、高刷新率方向发展，像素密度不断提升，像素缺陷问题愈发凸显。液晶线路作为控制像素显示的核心结构，其断路、短路、信号传
【LlamaIndex核心组件指南 | 模型篇】一文通晓 LlamaIndex 模型层：LLM、Embedding 及多模态应用全景解析
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
iPhone越狱基本流程王景程 github iphone xcode macos
目录一、什么是越狱（Jailbreak）？二、越狱前的准备工作三、越狱方式总览（按iOS版本划分）越狱类型：主流越狱工具一览：四、以Checkra1n为例讲解越狱流程（适合iPhoneX及更早）✅支持设备（iOS12–14）：步骤：五、越狱后的操作（以Cydia为例）⚠️六、越狱风险与注意事项总结流程图：一、iPhone16+iOS26：是否可以越狱？当前情况（截至2025年中）：二、为何新设备（
Next.js漏洞风暴：CVE-2025-29927全网爆发，你的项目躺枪了吗？前端菜鸡日常服务端渲染 javascript 开发语言后端 node.js
Next.js中间件鉴权绕过漏洞(CVE-2025-29927)全面解析与应急指南近日，Next.js框架曝出一个高危安全漏洞CVE-2025-29927，该漏洞允许攻击者通过构造特殊HTTP请求头绕过中间件的安全控制，可能导致未授权访问、数据泄露等严重后果。本文将全面剖析该漏洞的技术细节、影响范围、检测方法及修复方案，帮助开发者快速评估风险并采取应对措施。漏洞概述与技术原理CVE-2025-29
从零开始理解零样本学习：AI人工智能必学技术 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战 ai
从零开始理解零样本学习：AI人工智能必学技术关键词：零样本学习、人工智能、机器学习、知识迁移、语义嵌入摘要：本文旨在全面深入地介绍零样本学习这一在人工智能领域具有重要意义的技术。首先阐述零样本学习的背景和基本概念，通过详细的解释和直观的示意图让读者建立起对零样本学习的初步认识。接着深入剖析其核心算法原理，结合Python代码进行详细说明，同时引入相关数学模型和公式并举例阐释。通过项目实战部分，带领
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul

第八篇：机器学习基础：集成学习算法：随机森林、Adaboost、 XGBoost

1 集成学习

1.1。何为集成方法？

1.2。组合弱学习器：很重要的一点是：我们对弱学习器的选择应该和我们聚合这些模型的方式相一致。

1.3 偏差和方差

1.4 什么是集成学习

1.5 机器学习的两个核心任务

2 自助聚合bagging、提升法boosting 、堆叠法stacking

2.1 自助聚合bagging：该方法通常考虑的是同质弱学习器，相互独立地并行学习这些弱学习器，并按照某种确定性的平均过程将它们组合起来。

2.2 提升法boosting：该方法通常考虑的也是同质弱学习器。它以一种高度自适应的方法顺序地学习这些弱学习器（每个基础模型都依赖于前面的模型），并按照某种确定性的策略将它们组合起来。

2.3 堆叠法stacking：该方法通常考虑的是异质弱学习器，并行地学习它们，并通过训练一个「元模型」将它们组合起来，

2.4 bagging 的重点在于获得一个方差比其组成部分更小的集成模型，

2.5 我现在对集成学习的三种模式的理解是：

3 随机森林的剪枝

4 Adaboost剪枝

5 xgboost

5.1 传统的GBDT，(gradient boosting decision tree)也就是梯度提升决策树:

5.2 xgboost特点：

5.3 模型参数

你可能感兴趣的:(机器学习算法入门及应用实战,机器学习,大数据,集成学习,xgboost)