Trade Off

ESL第九章加性模型、树和相关方法 backfitting/加性逻辑回归、成本复杂度剪枝/基尼系数/各种问题扩展/ROC、PRIM、MARS/反射对/R方、层次混合专家、缺失数据/【完全】随机缺失

9.1 广义加性模型
- - 9.1.1 拟合可加模型
  - 9.1.2 例子：加性逻辑回归
  - 9.1.3 总结
9.2 基于树的方法
- - 9.2.1 背景
  - 9.2.2 回归树
  - 9.2.3 分类树
  - 9.2.4 其他问题
  - 9.2.5 垃圾邮件例子
9.3 耐心规则归纳法PRIM: Bump Hunting
- - 9.3.1 垃圾邮件例子
9.4 多变量自适应回归样条MARS
- - 9.4.1 垃圾邮件例子
  - 9.4.2 模拟数据例子
  - 9.4.3 其他问题
9.5 层次混合专家
9.6 缺失数据
9.7 计算考虑

9.1 广义加性模型

P296 和第五章基的扩张不同的是，这里采用散点图光滑器scatterplot smoother（三次光滑样条、核光滑器等）进行，并提供同时估计所有 $p$ 个函数的方法
P296 链接函数link function，通过链接函数让条件均值和可加函数相关联。书上列举了一些链接函数
P297 广义线性模型，对于不同的特征，可能有不同的处理方式，例如可能糅合非参非线性函数和参数线性函数、也可能以某些类别变量为条件的、两个特征组合的非线性函数，等等，非常灵活

9.1.1 拟合可加模型

P297 用三次光滑样条的损失来优化，可以得到每一个特征的 $f$ 都是以feature为结点的分段三次样条，和第五章结论一致
P298 上述问题有唯一解的条件
P298 "backfitting"算法：一个个特征迭代轮流优化. backfitting是逐块Gauss-Seidel算法，见习题9.2（第2问没做）
P299 对于逻辑回归和其他广义加性模型，用backfitting过程轮流优化最大似然函数
P335 习题9.1 光滑矩阵和局部线性回归会保持拟合的线性部分（先用线性回归拟合，得到 $\hat y$ ，然后 $\bm S \hat y = \hat y$ ，没做）

9.1.2 例子：加性逻辑回归

P300 加性逻辑回归的local scoring算法，IRLS+backfitting
P301 垃圾邮件例子中对长尾分布的数据进行对数变换
P304 二分类问题当两种错误的惩罚不同时，对训练完的决策阶段的阈值采用 $L_{01}/(L_{01}+L_{10})$ . 进一步，可以在训练的时候就引入不同惩罚权重
P304 训练完广义加性模型之后，应该检查一下加入交叉项后是否显著性提高拟合．这可以通过插入一些或全部的显著特征来“手动”完成，或通过MARS过程自动完成

9.1.3 总结

P304 加性模型扩展线性模型，更灵活，同时保持了大部分的可解释性，backfitting过程简易，允许对于每个输入特征选择合适的拟合方法
P304 加性模型对于特征太多的大数据挖掘难用. 有不少改进，包括BRUTO结合backfitting和输入选择、COSSO引入lasso类惩罚等. 前向逐步方法forward stagewise approach如boosting对于大型问题更有效

9.2 基于树的方法

9.2.1 背景

9.2.2 回归树

P307 直接用最小二乘找划分特征和阈值，阈值很好找。所以把每个特征都扫描一遍，就完事了

以下是wiki（仔细推导一下，会发现两者类似，就相差左右节点样本个数 $R_1|, |R_2|$ ）

P308 一种控制复杂度的方法是只有最小二下降到超过阈值，才会划分，但是这太目光短浅
P308 成本复杂度剪枝cost-compexity pruning：用叶结点个数衡量复杂度。在xgboost中，除了叶节点个数，叶结点预测值组成的向量二范数也是复杂度惩罚之一（当然，这可能是出于boosting的考虑）
P308 如何选择正则惩罚系数 $\alpha$ ？最弱连接剪枝weakest link pruning方法：逐步合并最小二乘增长最小的中间结点（看书上公式），直到根。得到子树序列，可以证明，这条序列，一定包含用成本复杂度剪枝的结果 $T_\alpha$ . 对 $\alpha$ 的估计可以采用5折或10折交叉验证

9.2.3 分类树

P308 划分准则中，信息熵和Gini系数可微分，分类错误率不可微分，算是前两个的一个好性质。此外，这两者比分类错误率要好，因为前两者对结点的概率更敏感，这一说明也可参考PRML14章. 所以，当生成一棵树时，应使用基尼指数或者交叉熵．为了引导成本复杂度剪枝，三种衡量指标的任意一个都可以使用，但一般地是采用误分类误差率．
P310 基尼系数在依概率随机分类而不是硬分类时，表示期望训练误差，此外，如果进行one-hot编码，则某个位置取值方差为 $\hat p(1-\hat p)$ ，所有类相加得到基尼系数

9.2.4 其他问题

P310 无序类别变量：类别特征，如果有 $q$ 个无序取值，那么想真正的划分，存在 $2^{q-1}-1$ 种可能. 但如果输出是0-1二类，则可以简化。依据1类中类别数量比例排序，然后把它当作有序. 可以证明，该方法给出了交叉熵和基尼系数下的最优分割. 该方法也在连续输出配上均方误差下成立. 特征的无序取值通过输出均值升序排列。多类输出则没有这样的简化. 此外，划分算法（决策树？）趋向选择有多个取值的无序特征；选择数量也指数级，如果无序特征数过多，会导致严重的过拟合
P310 损失矩阵loss matrix：分类问题中为了考虑到不同类不同的误分损失，引入损失矩阵. 为了与之呼应，Gini系数修改成 $\sum_{k\neq k'} L_{kk'} \hat p_{mk} \hat p_{mk'}$ ，也即随机分类的期望损失. 该修改方式对多分类有效，对二分类无效. 对二分类，更好的方式是对第 $k$ 类观测带上权重 $L_{kk'}$ ，但多分类没法用啊，除非 $L_{kk'}$ 与 $k^{'}$ 无关，则可以用。观测权重可以看作是改变了类别先验（不理解），叶结点的预测为 $k(m)=\arg\min_k \sum_l L_{lk}\hat p_{ml}$
P311 特征缺失值：决策树中两种更好方式。（1）对于类别特征，可以造missing当作一个取值. （2）构造代理变量surrogate variables，在分割时，仅仅考虑该变量未缺失的观测，选择好特征和分割点后，构造代理变量和分割点的列表，表中第一代理是对数据划分的最优模仿，第二是次优的，以此类推。代理分割探索特征之间的相关性来试图减轻丢失数据的影响．缺失特征和其他特征的相关度越高，信息丢失越小
P311 多叉树：一般不是一个好策略，问题在于分得太快，以至于下一层没有充分多数据（这有点牵强啊，多叉树是不是目光会更长远一些）
P312 其他建树过程：ID3，C4.5，C5.0
P312 线性组合分割：斜划分、权重光滑性与层次混合专家模型的导出
P312 树的不稳定性：树的一个主要问题是高方差，数据集小的扰动可能造成非常不同的划分，从而解释性不稳定。原因是建树的层次性导致的. Bagging可以降低方差
P312 缺乏光滑：对于回归问题尤其受影响，MARS可以看作是CART的改进，缓解这一问题
P313 捕获加性结构的困难：树难以建模加性结构。书上给的例子是 $Y=c_1 I(X_1 < t_1) + c_2 I(X_2 < t_2) + \epsilon$ ，如果无关特征数量很多，则需要划分很多偶然的划分来重建这个结构。原因仍然是“二叉”树造成（我估计是贪心、目光短浅的意思？）。MARS为了捕获加性结构，放弃树

9.2.5 垃圾邮件例子

P314 敏感度sensitivity：真实为患病中预测为患病的概率；特异度specificity：真实为未患病中预测为未患病的概率。医学分类中常用（敏感度似乎就是召回率，特异度有点像是0类召回率）
P317 P-R曲线和ROC曲线不同！ ROC曲线纵轴为敏感度，横轴为特异度（西瓜书为1-特异度，并叫作假正例率）
P317 AUC也叫做c统计量c-statistics。有趣的是，可以证明，对于两个群体预测得分差异的中位数，AUC等于Mann-Whitney U统计量，或者Wilcoxon秩和检验
P317 判断新进特征是否对预测显著时，AUC不好用。新特征可能对模型偏差deviance改变很大，但AUC不怎么增长

9.3 耐心规则归纳法PRIM: Bump Hunting

P318 耐心规则归纳法patient rule induction method（PRIM），算法没接触过，细节翻书。和决策树不同的是，选择具有高平均预测值的box区域，也即选择目标函数最大值，称为bump hunting. 不是采用二叉树，是层次化的不断收缩，而后如果能让均值提升，再增长，称为pasting。找到最好的box后，把这些点剔除，然后再重复上述过程
P320 PRIM相比CART，优势在于耐心patience，决策树切分数据过快，数据过早耗尽。所以PRIM能帮助自上而下的贪心算法找到更好的解。书上稍理论地分析了两者切分速度对比

9.3.1 垃圾邮件例子

9.4 多变量自适应回归样条MARS

P321 多变量自适应回归样条Multivariate Adaptive Regression Splines（MARS） 是回归的自适应过程，非常适合高维问题。算法没接触过，细节翻书。可以从两个角度来理解，可以看成是逐步线性回归的推广，也可以看成是为了提高CART在回归中的效果而进行的改进
P322 反射对reflected pair，例如 $x-0.5)_+$ 和 $0.5 - x)_+$ ，对每个特征的每个特征值 $x_{ij}$ 都构造反射对
P322 用这 $2 N p$ 个反射对函数，或其两个或多个交叉项，当作基，进行逐步线性回归。成对引入基
P322 基是不断往里乘进去的!
P324 最后得到一个大模型，基本上是过拟合的，所以还会再反向删除。删到剩多少项，可以用交叉验证决定。为了节省计算，MARS采用了广义交叉验证GCV。回顾第7章P244。其中自由度包括模型项数和选择最优节点位置的参数个数，理论证明和实际拟合结果表明分段线性回归中每选择一个结点，应该额外增加2个有效参数，当模型仅仅是加性时，为2个. 更精细的公式翻书
P325 为什么如此设计基函数，原因：（1）基连乘只有一小部分区域有值，容易建立回归曲面；（2）降低计算复杂度（这一块细节没看懂）（3）高阶项只有在低阶项在模型中时，才会层次化建立。降低高阶项复杂度。虽然这么搜索不一定正确，但是一个合理的假设
P326 构造模型时，约束每个特征只能出现一次，预防输入变量的高阶幂形成，导致特征空间的急剧变化。因为幂可以用分段线性函数近似。此外，MARS在交叉项的阶数上可以设置上界，例如交叉项乘积项不允许超过2

9.4.1 垃圾邮件例子

9.4.2 模拟数据例子

P327 R平方

9.4.3 其他问题

P328 MARS用于分类：把二分类当回归做；多分类则当多回归做，采用共同的基函数，但存在4.2节P105说的掩盖问题。更好做法是12.5节的optimal scoring。此外，可以用一种被称为PolyMARS的MARS混合，处理分类，采用了多个logistic框架，用二次近似找下一对基
P328 MARS和CART关系：通过两步修改，（1）分段线性基函数改成阶跃函数；（2）模型中的项与候选项相乘时，替换成交叉项，并不允许与其他项交叉。此时MARS能变得和CART一样。从第二点能看出，CART一个结点可能不会被分割多次，从而导出了二叉树结构；但另一方面，这也使得CART很难建模加性模型。MARS放弃树结构来捕获加性影响
P329 混合输入：对于类别变量，MARS考虑分成两块的所有分割（这复杂度不是爆炸。。）

9.5 层次混合专家

P329 层次混合专家The hierarchical mixtures of experts(HME)：树的软划分版本。叶结点叫做专家experts，非叶节点叫做门控网络gating network
P330 对于二分类，如果门控网络系数趋于 $+\infty$ ，在考虑上截距项，这就变成了硬分类决策树
P331 参数优化还是要用EM，这里隐变量为选哪个分支，应该还是要算隐变量的后验概率
P332 HME有一个问题是如何找树结构，这是一个挑战。一种方式是用一定深度的CART产生的结构
P332 和HME很像的一个方法是潜类别模型latent class model，一般只有一层，结点或者潜在类别解释成表现出相似响应变量行为的个体的群体（细节不知道）

9.6 缺失数据

P332 随机缺失missing at random（MAR），完全随机缺失missing completely at random（MCAR）。这两个概念精确描述数据缺失的机制是否与观测值有关，进而分析缺失数据的机制是否使观测数据失真distorted the observed data. MCAR是比MAR强的假设。大部分填补方法依赖MCAR
P332 判断特征是否是MCAR，需要看数据收集的过程信息
P333 处理缺失值三个方法：（1）扔掉样本；（2）看具体模型具体处理，如CART中的代理分割surrogate splits，MARS和PRIM也用了相似方式，而在广义加性模型backfitting中，对某特征部分残差进行光滑拟合时，则忽略缺失样本，并把对应拟合值设为0，因为截距项已经把均值调成0了，从而0就是平均拟合值，这和第一种方法类似（3）训练前先填，补均值或者拿其他特征预测。拿其他特征做模型预测时，模型要灵活、自适应，并自身还要能处理缺失值，CART是填补的好选择
P333 填补会引入不确定性，可以通过多重填补，产生多个数据集，多次拟合。评估不确定性的方差。如果用CART填补，则多重填补可以通过在叶结点采样得到

9.7 计算考虑

P334 分析复杂度，广义加性模型和树能看个大概，MARS和HME不懂没细看。。

参考文献：
[1] Trevor Hastie, Robert Tibshirani, Jerome Friedman. The Elements of Statistical Learning, Second Edition
[2] ESL CN

景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
Matlab实现SSA-HKELM麻雀算法（SSA）优化混合核极限学习机多变量回归预测的详细项目实例 nantangyuxi MATLAB 算法 matlab 回归人工智能数据挖掘开发语言深度学习
目录Mstlsb实她TTS-HKFLM麻雀算法（TTS）优化混合核极限学习机多变量回归预测她详细项目实例1项目背景介绍...1项目目标她意义...1目标...1意义...2项目挑战及解决方案...2挑战...2解决方案...3项目特点她创新...3创新点...3特点...4项目应用领域...4应用领域...4项目效果预测图程序设计及代码示例...5项目模型架构...6数据预处理...6混合核极限学
客服机器人怎么才能精准的回答用户问题？玩人工智能的辣条哥 AI面试机器人客服机器人
环境：客服机器人问题描述：客服机器人怎么才能精准的回答用户问题？解决方案：客服机器人要精准回答用户问题，需综合技术、数据和用户体验等多方面因素。以下是关键策略和步骤：1.精准理解用户意图自然语言处理（NLP）技术分词与实体识别：提取关键词（如“订单号”“退货”）和实体（如时间、地点）。意图分类：通过机器学习模型（如BERT、Transformer）将问题归类（如“售后”“支付”）。上下文理解记录对
群体智能优化算法-爱情进化算法 (Love Evolution Algorithm, LEA，含Matlab源代码） HR Zhou 算法 matlab 开发语言群体智能优化优化
摘要爱情进化算法（LEA）是一种基于心理学刺激-价值-角色理论（Stimulus-Value-RoleTheory）所提出的新型元启发式算法。该算法将“恋爱中的人”抽象为种群个体，通过对个体“幸福度（Happiness）”的定义和动态更新，模拟了从“相遇->价值交流->角色平衡”三个阶段不断逼近全局最优解的过程。LEA在高维连续优化与工程应用等场景下可实现对搜索空间的充分探索与精细开发。本文结合算
灰狼优化算法（Grey Wolf Optimization, GWO）及其 Python 代码追蜻蜓追累了算法 python github pycharm jupyter matlab numpy
灰狼优化算法（GreyWolfOptimization,GWO）是一种基于灰狼社会行为觅食过程而设计的优化算法。其基本原理是模拟灰狼群体中个体的协作和竞争行为，以迭代更新的方式寻找最优解。灰狼优化算法涉及三种灰狼的角色：alpha（α）、beta（β）和delta（δ），它们分别代表群体中的优势个体。算法包括初始化灰狼位置、计算适应度值、更新灰狼位置等步骤。以下是一个简单的Python示例代码，实
读书笔记五 ---大数据之路--数仓分层 qq_38215991 big data 大数据
数据分层在流式数据模型中,数据模型整体上分为五层。ODS层跟离线系统的定义一样,ODS层属于操作数据层,是直接从业务系统采集过来的最原始数据（进行了数据清洗）,包含了所有业务的变更过程,数据粒度也是最细的。在这一层,实时和离线在源头上是统一的,这样的好处是用同一份数据加工出来的指标,口径基本是统一的,可以更方便进行实时和离线问数据比对。例如:原始的订单变更记录数据、服务器引擎的访同日志。（原始数据
25. 策略模式智想天开设计模式详解策略模式 bash 开发语言
原文地址:策略模式更多内容请关注：智想天开1.策略模式简介策略模式（StrategyPattern）是一种行为型设计模式，它定义了一系列算法，将每一个算法封装起来，并使它们可以相互替换。策略模式让算法的变化独立于使用算法的客户。通过引入策略模式，可以在不修改客户端代码的情况下，动态地更改对象的行为。关键点：算法封装：将不同的算法封装到独立的策略类中。互换性：策略类可以相互替换，客户端可以根据需要选
人工智能与网络信息技术的深度融合鸭鸭鸭进京赶烤学术会议人工智能 AI编程 ai 机器人计算机视觉网络计算机网络
在当今时代，人工智能（AI）和网络信息技术正以前所未有的速度推动着社会变革。从通用人工智能（AGI）到具身智能的普及，AI不仅实现了技术上的飞跃，也在各个行业展现出巨大的应用潜力。随着技术的不断迭代，我们迎来了许多创新应用，例如AI在电子信息技术中的应用，通过算法优化与升级，显著提高了处理效率和准确性。网络信息技术同样在飞速发展。面向2030年的未来网络发展趋势表明，网络将支撑万亿级、人机物、全时
OpenCV 4.2.0与扩展模块安装与应用指南土城三富
本文还有配套的精品资源，点击获取简介：OpenCV4.2.0是一个先进的计算机视觉库，包含了图像处理、计算机视觉和机器学习算法。本压缩包包含OpenCV核心库和扩展模块（opencv_contrib），版本均为4.2.0。该版本引入了性能增强、API优化以及对深度学习框架和硬件加速技术的更新支持。扩展模块提供了额外的实验性算法和功能，有助于研究和开发新算法。指南详细介绍了如何安装和配置这些库，并提
matlab两矩阵相似性,两个矩阵同时相似对角化MATLAB程序.docx weixin_39870664 matlab两矩阵相似性
两个矩阵同时相似对角化MATLAB程序摘要：使用Matlab语言设计出实现两个复矩阵同时相似对角化的计算机程序。关键词：同时相似对角化；Matlab；程序矩阵对角化是重要的数学方法，但因其计算过程繁琐，人们往往望之生畏，尤其是多个矩阵同时对角化问题，因此本文设计出判断及计算两个复矩阵能否同时相似对角化的Matlab程序，用此能够方便地解决两个复矩阵同时相似对角化问题。1.理论基础定义［1］：设A、
java队列实现限流_如何使用队列实现微服务限流算法？纽太普 java队列实现限流
队列在平时开发中可能是出现频率最高的数据结构之一了，但是大部分情况下，我们都是用别人已经实现好的，比如kafka，比如redis里的list，以至于让人怀疑为什么还要去学习队列呢？希望今天的内容可以给你一些启发。什么是队列为了整个文章的完整性，我们还是来介绍一下什么是队列。我们举个生活中常见的案例，假设你在周杰伦的奶茶店买奶茶，由于人很多，为了保持公平和秩序，你被要求排队，最先来的人排到最前面，这
YOLOV11|YOLO12改进系列指南魔鬼面具 YOLO
基于Ultralytics的YOLO11|YOLO12改进目前自带的一些改进方案(持续更新)为了感谢各位对本项目的支持,本项目的赠品是yolov5-PAGCP通道剪枝算法.具体使用教程专栏改进汇总YOLO11系列二次创新系列ultralytics/cfg/models/11/yolo11-RevCol.yaml使用(ICLR2023)ReversibleColumnNetworks对yolo11主
OpenCV ML 模块使用指南 ice_junjun OpenCV opencv 人工智能计算机视觉
一、模块概述OpenCV的ML模块提供了丰富的机器学习算法，可用于解决各种计算机视觉和数据分析问题。本指南将详细介绍该模块中主要的机器学习算法，包括支持向量机（SVM）、K均值聚类（K-Means）和神经网络（ANN），并结合图像分类和聚类分析这两个典型应用场景进行代码实现与解释。二、主要函数及类详解（一）支持向量机（SVM）：cv.ml.SVM_create()功能支持向量机（SVM）是一种强大
强化学习中策略网络模型设计与优化技巧数字扫地僧计算机视觉深度学习
I.引言强化学习（ReinforcementLearning,RL）是一种通过与环境交互，学习如何采取行动以最大化累积奖励的机器学习方法。策略网络（PolicyNetwork）是强化学习中一种重要的模型，它直接输出动作的概率分布或具体的动作。本篇博客将深入探讨策略网络的设计原则、优化技巧，并结合具体实例展示其应用。II.策略网络的基本概念A.策略网络的定义策略网络是一种神经网络，它接受当前状态作为
【数学建模】熵权法烟锁池塘柳0 数学建模数学建模算法
熵权法介绍熵权法是一种常用的用于多指标决策问题中的权重确定方法，它通过对决策矩阵的熵值进行计算，来自动地评估各个指标的权重。熵值能够反映各个指标的不确定性，熵值越小，表明该指标的信息量越大，反之亦然。熵权法可以避免人为设定权重的问题，通过熵权法确定的权重是一个客观量，只和数据本身的性质有关。熵权法在多目标优化问题中具有广泛的应用。文章目录熵权法介绍1.熵权法的基本原理2.熵权法步骤步骤1：标准化决
青少年编程与数学 02-011 MySQL数据库应用 09课题、规则、约束和默认值明月看潮生编程与数学第02阶段数据库青少年编程 mysql 编程与数学
青少年编程与数学02-011MySQL数据库应用09课题、规则、约束和默认值一、规则1.规则的概念2.规则的类型3.规则的定义和应用3.1创建表3.2定义规则3.3应用规则4.规则的管理和维护5.规则的性能影响6.其他相关概念二、规则应用示例（一）、检查约束（CHECKConstraints）示例1.限制年龄范围2.限制性别取值（二）、触发器（Triggers）示例1.自动记录日志2.防止非法删除
蓝桥杯——算法训练——粘木棍大柠丶蓝桥杯蓝桥杯算法职场和发展
问题描述有N根木棍，需要将其粘贴成M个长木棍，使得最长的和最短的的差距最小。输入格式第一行两个整数N,M。一行N个整数，表示木棍的长度。输出格式一行一个整数，表示最小的差距样例输入32102040样例输出10数据规模和约定N,M<=7packagecom.study.蓝桥杯.算法训练;importjava.util.Arrays;importjava.util.Scanner;/***@autho
蓝桥杯——算法训练——共线大柠丶蓝桥杯蓝桥杯算法职场和发展
问题描述给定2维平面上n个整点的坐标，一条直线最多能过几个点？输入格式第一行一个整数n表示点的个数以下n行，每行2个整数分别表示每个点的x,y坐标。输出格式输出一个整数表示答案。样例输入50011220323样例输出3数据规模和约定n<=1500，数据保证不会存在2个相同的点。点坐标在int范围内importjava.util.Scanner;/***@authorsjn*@date2022-2-
基于Python编程语言实现“机器学习”，用于车牌识别项目我的sun&shine Python python 机器学习计算机视觉
基于Python的验证码识别研究与实现1.摘要验证码的主要目的是区分人类和计算机，用来防止自动化脚本程序对网站的一些恶意行为，目前绝大部分网站都利用验证码来阻止恶意脚本程序的入侵。验证码的自动识别对于减少自动登录时长，识别难以识别的验证码图片有着重要的作用。对验证码图像进行灰度化、二值化、去离散噪声、字符分割、归一化、特征提取、训练和字符识别等过程可以实现验证码自动识别。首先将原图片进行灰度化处理
python列表操作计算列表长度并输出,Python基础2：列表想吃草莓干
一、列表列表是按照特定顺序的排列组合，就像数学中的数列，列表中的元素具有⼀定的排列顺序。在Python中，列表用方括号[]来表示列表，比如：>>>a=['Python','C','Java']1、访问列表中的元素索引开始：0如果我们想要打印上述列表中Python，就需要我们访问列表中第一个元素，在Python中，列表的访问从0开始，索引数为元素的位置减去1，访问的元素位置放在方括号里面，如果我们想
BM25S 项目安装和配置指南陆汝涓Marissa
BM25S项目安装和配置指南bm25sBM25Sisanultra-fastlexicalsearchlibrarythatimplementsBM25usingscipy项目地址:https://gitcode.com/gh_mirrors/bm/bm25s1.项目基础介绍和主要编程语言BM25S是一个快速实现BM25算法的开源项目，主要用于文本检索任务。BM25是一种广泛使用的排名函数，常用于
【MATLAB】不掉发的小刘 MATLAB matlab 开发语言
数学计算与运算基础数学函数函数名功能示例sin(x)正弦函数sin(pi/2)→1cos(x)余弦函数cos(0)→1sqrt(x)平方根sqrt(4)→2exp(x)指数函数exp(1)→e≈2.718log(x)自然对数log(e)→1abs(x)绝对值abs(5)→5线性代数函数名功能示例A\b解线性方程组Ax=bA=21;11,b=3;2,x=A\b→x=1;1det(A)矩阵行列式det
线性代数介绍 ZhuBin365 其它机器学习线性代数人工智能
线性代数介绍线性代数是数学的一个重要分支，它研究向量空间、线性变换和线性方程组。其概念抽象，应用广泛，是现代科学技术中不可或缺的数学工具。本篇将详细解释线性代数中的核心概念，包括行列式、矩阵、向量与向量空间、线性方程组、特征值与特征向量以及二次型，力求深入浅出，帮助读者全面理解。一、行列式(Determinants)行列式是线性代数中一个fundamental的概念，它是一个将方阵映射到一个标量的
DS/ML：数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略一个处女座的程序猿资深文章(前沿/经验/创新)DataScience ML 数据科学数据科学的生命周期机器学习
DS/ML：数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略导读：本文章是博主在数据科学和机器学习领域，先后实战过几百个应用案例之后的精心总结，应该是完全覆盖了数据科学的整个生命周期及其各个阶段的要点。其中机器学习领域六大阶段更是在整个数据科学生命周期中扮演着极其重要的角色。同时，因为涉及到博主出书中出版社要求在
c++算法赛万能模板个人笔记适用蓝桥杯，天梯赛，acm等赛事 a东方青个人笔记 c++算法笔记
算法笔记-更新与2025-3-22点赞收藏+关注持续更新算法基础二分整数二分//在一个单调区间里面去找答案boolcheck(intx){/*...*/}//检查x是否满足某种性质//区间[l,r]被划分成[l,mid]和[mid+1,r]时使用：intbsearch_1(intl,intr){while(l>1;if(check(mid))r=mid;//check()判断mid是否满足性质el
一切皆是映射：实现神经网络的硬件加速技术：GPU、ASIC（专用集成电路）和FPGA（现场可编程门阵列） AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
文章目录一切皆是映射：实现神经网络的硬件加速技术：GPU、ASIC（专用集成电路）和FPGA（现场可编程门阵列）1.背景介绍2.核心概念与联系3.核心算法原理&具体操作步骤3.1算法原理概述3.2算法步骤详解3.2.1GPU加速3.2.2ASIC加速3.2.3FPGA加速3.3算法优缺点GPUASICFPGA3.4算法应用领域4.数学模型和公式&详细讲解&举例说明4.1数学模型构建4.2公式推导过
第三十一篇数据仓库（DW）与商业智能（BI）架构设计与实践指南随缘而动，随遇而安数据库 sql 数据仓库大数据数据库架构
目录一、DW/BI架构核心理论与选型策略1.1主流架构模式对比（1）Kimball维度建模架构（2）Inmon企业工厂架构（3）混合架构二、架构设计方法论与实施步骤2.1维度建模实战指南（1）模型选择决策树（2）ETL开发规范2.2实时BI技术栈选型三、全链路实施与优化策略3.1五阶段实施框架3.2数据治理体系构建四、行业场景深度实践4.1电商用户行为分析4.2金融风控实时预警五、关键问题解析Q1
堆数据结构：从基础原理到高效算法实现的技术探讨 Everyrt 课程设计
摘要堆作为一种特殊的树形数据结构，在多种算法场景中发挥着核心作用。本文深入剖析堆的基础原理，详细阐述堆的构建、插入、删除等操作的实现细节，并探讨其在优先队列、堆排序等高效算法中的应用，助力读者全面掌握堆数据结构及其应用技术。一、引言堆数据结构以其独特的特性，能够高效地获取集合中的最大（或最小）元素。无论是操作系统中的进程调度，还是搜索算法中的最优解筛选，堆都扮演着不可或缺的角色。理解堆的原理与实现
蓝桥大使【算法赛】----贪心算法 wyshh119 算法学习贪心算法
这里比较的难点在于sort排序的根据是什么，为什么是两人的报酬差，我的理解是当两人报酬差越大，那么总报酬的损失就越大，其实是缺少具体的证明的，但是通过就说明确实是这样。也就不深究证明了。#include#includeusingnamespacestd;longlongans=0;constintN=100005;structnode{//结构体inta;intb;};nodea[N];intma
算法设计与分析4（变治法） songx_99 算法设计与分析算法
变治法将问题转化为一个或数个有一定关联当形式上不同的更加简单或更加好解决的子问题。变治法的应用：预排序思想用预排序可以简化许多问题，如检查元素唯一性，检查出现次数最多的元素等堆算法堆的定义首先它是一个完全二叉树，完全二叉树表明树的每一层都是满的，只有最后一层最右边的元素有可能缺位。且父结点的值大于它的两个子节点，则称是一个大根堆，若值小于两个子节点，称小根堆堆化有向下调整，向上调整两种，大致思路相
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s

ESL第九章 加性模型、树和相关方法 backfitting/加性逻辑回归、成本复杂度剪枝/基尼系数/各种问题扩展/ROC、PRIM、MARS/反射对/R方、层次混合专家、缺失数据/【完全】随机缺失

目录

9.1 广义加性模型

9.1.1 拟合可加模型

9.1.2 例子：加性逻辑回归

9.1.3 总结

9.2 基于树的方法

9.2.1 背景

9.2.2 回归树

9.2.3 分类树

9.2.4 其他问题

9.2.5 垃圾邮件例子

9.3 耐心规则归纳法PRIM: Bump Hunting

9.3.1 垃圾邮件例子

9.4 多变量自适应回归样条MARS

9.4.1 垃圾邮件例子

9.4.2 模拟数据例子

9.4.3 其他问题

9.5 层次混合专家

9.6 缺失数据

9.7 计算考虑

你可能感兴趣的:(#,读书笔记,ESL,机器学习,数学,算法,决策树,数学,机器学习)

ESL第九章加性模型、树和相关方法 backfitting/加性逻辑回归、成本复杂度剪枝/基尼系数/各种问题扩展/ROC、PRIM、MARS/反射对/R方、层次混合专家、缺失数据/【完全】随机缺失