文文学霸

KDD2019 | DeepGBM:使用树蒸馏提升在线预测任务下深度模型效果

“ 本文从以下3个方面介绍了微软提出的DeepGBM方法：

1.阐述了树模型以及神经网络模型的优缺点，各自适合的场景和优势；

2.蒸馏技术：一个巧妙的地方就是，我们知道神经网络能够拟合各种函数，在这篇文章里并不是直接拟合树模型的输出，而是拟合树模型索引的输出，间接的得到树模型单位输出，从而在神经网络中学习到了树结构的知识。

3.用嵌入表示学习对众多的叶子节点降维，使得模型能够高效运行。”

作者：潘振福，本硕毕业于华北电力大学计算机专业，现任钱大妈农产品有限公司算法工程师。

本文是对论文《DeepGBM: A Deep Learning Framework Distilled by GBDT for Online Prediction Tasks》的解读，公众号后台回复【deepgbm】可下载论文。

摘要

在线预测已经成为许多实际应用中最基本的任务之一。在线预测任务的两个典型且主要特点是在线数据呈表格空间形式和在线数据流形式。具体地，表格数据空间中存在着稀疏分类特征和密集数值特征，而在线数据流意味着具有潜在动态分布的连续任务生成的数据。因此，利用表格数据空间进行有效学习和快速适应在线数据流成为赢得在线预测的两个重要挑战。虽然梯度提升决策树（「gbdt」）和神经网络（「nn」）在实际中得到了广泛的应用，但它们都有各自的缺点。尤其是「gbdt」很难适应动态的在线数据流学习，而且在面对稀疏的分类特征时往往是无效的；而神经网络在面对稠密的数值特征时则很难获得令人满意的性能。本文提出了一种新的学习框架「DEEPGBM」，它综合了神经网络和「gbdt」的优点，使用了两个相应的神经网络组件：（1）「catnn」，重点处理稀疏的分类特征。（2）「GBDT2NN」，利用「GBDT2NN」提取的知识，重点研究密集的数值特征。在这两个组件的支持下，「deepgbm」可以同时利用分类和数值特性，同时保持高效在线更新的能力。对各种公开数据集的综合实验表明，「deepgbm」在各种在线预测任务中都能优于其他公认的基线算法。

1. 简介

在线预测是指在许多实际工业应用中起着重要作用的一类任务，如广告搜索中的点击预测、web搜索中的内容排序、推荐系统中的内容优化、交通规划中的行程时间估计等。一个典型的在线预测任务通常存在着表格数据空间和在线数据流两个特定的特征。特别地，表格数据空间意味着在线预测任务的输入特征可以包括分类和数值表格特征。例如，广告搜索中点击预测任务的特征空间通常包含广告类别等分类特征空间，以及查询与广告文本相似性等数字特征空间。在线数据生成意味着这些任务的实际数据是在线生成的，并且数据分布可以实时动态。例如，新闻推荐系统可以实时生成大量的数据，不断涌现的新闻可以在不同的时间产生动态的特征分布。因此，要寻求一个有效的基于学习的在线预测模型，就必须解决两个主要的挑战：（1）如何学习一个具有表格输入空间的有效模型；（2）如何使模型适应在线数据生成。目前，两类机器学习模型被广泛应用于在线预测任务的求解，即梯度提升决策树（「gbdt」）和神经网络（「nn」）。不幸的是，它们都不能同时很好地应对这两个主要挑战。换言之，当用于解决在线预测任务时，「gbdt」或「nn」都会产生各自的优缺点。一方面，「gbdt」的主要优势在于它能够有效地处理密集的数值特征。由于「gbdt」可以迭代地选取统计信息增益最大的特征来构建树，因此它可以自动地选择和组合有用的数值特征，以更好地适应训练目标。这就是gbdt在点击预测(「CTR」)、web搜索排名和其他公认的预测任务中展示其有效性的原因。同时，「gbdt」在在线预测任务中有两个主要的弱点。首先，由于「gbdt」中学习到的树是不可微的，所以在在线模式下更新「gbdt」模型是很困难的。频繁地从头到尾的训练模型使得「gbdt」在学习在线预测任务时效率很低。此外，这一弱点还阻碍了「gbdt」对超大规模数据的学习，因为将大量数据加载到内存中进行学习通常是不切实际的。「gbdt」的第二个弱点是它在稀疏分类特征上的学习效率低下。特别是将分类特征转换成稀疏高维的独热(「one-hot」)编码后，稀疏特征的统计信息增益将变得非常小，因为稀疏特征对不平衡分割的增益几乎与非分割相同。因此，「gbdt」不能有效地利用稀疏特征来生长树。尽管还有一些分类编码方法可以直接将分类值转换为密集的数值，但由于不同分类的编码值可能相似，难以区分它们，因此这些方法会损害原始信息。通过枚举可能的二进制分区，分类特征也可以直接用于树学习，然而，这种方法在分类特征稀疏的情况下往往会对训练数据过度拟合，因为每一类数据太少，统计信息有偏差。简言之，虽然「gbdt」可以很好地学习密集的数值特征，但两个弱点，即难以适应在线数据生成和学习稀疏分类特征的无效性，导致「gbdt」在许多在线预测任务中失败，特别是那些需要在线调整模型和包含许多稀疏分类特征的模型。另一方面，神经网络的优势在于它对在线任务中大规模数据的有效学习，因为批处理模式的反向传播算法，以及它对稀疏分类特征的学习能力，通过公认的嵌入结构(embedding)。最近的一些研究表明，神经网络在包括点击预测和推荐系统在内的在线预测任务中的应用是成功的，然而，神经网络的主要挑战在于它在学习稠密的数值表格特征方面的不足。全连接神经网络（「fcnn」）虽然可以直接用于稠密的数值特征，但由于其全连接的模型结构导致了非常复杂的优化超平面，很容易陷入局部最优，因此常常导致性能不理想。因此，在许多具有稠密数值表特征的任务中，神经网络往往不能优于「gbdt」。综上所述，尽管神经网络能够有效地处理稀疏的分类特征，并且能够有效地适应在线数据流，但是通过学习稠密的数值表格特征仍然很难得到有效的模型。如表1所示，神经网络(「NN」)或梯度提升树(「gbdt」)在获得在线预测任务的模型方面都有其优缺点。直观地说，探索如何将神经网络和「gbdt」的优点结合起来，同时解决在线预测任务中的两大挑战，即表格数据空间和在线数据流生成，将是非常有益的。文章中提出了一种新的学习框架「deepgbm」，它将神经网络和「gbdt」相结合，以获得一个更有效的通用在线预测任务模型。特别是，如图1所示，整个「deepgbm」框架由两个主要部分组成：「catnn」是一个输入分类特征的神经网络(NN)结构，「gbdt2nn」是另一个输入数值特征的神经网络(NN)结构。为了充分利用「gbdt」在学习数值特征方面的优势，「gbdt2nn」尝试将gbdt学习到的知识提取为神经网络建模过程。具体来说，为了提高知识提取的有效性，「gbdt2nn」不仅传递了预先训练的「gbdt」的输出知识，而且还融合了所得到的树结构所隐含的特征重要性和数据划分知识(特征选择和特征生成)。这样，在达到与「gbdt」相当的性能的同时，采用神经网络结构的「gbdt2nn」在面对在线数据生成时，可以很容易地通过不断涌现的数据进行更新。「deepgbm」由两个基于神经网络的组件「catnn」和「gbdt2nn」提供支持，在保持高效在线学习的重要能力的同时，确实可以在类别和数值特征上产生强大的学习能力。为了说明所提出的「deepgbm」的有效性，我们使用表格数据对各种公开可用的数据集进行了广泛的实验。综合实验结果表明，在各种预测任务中，「deepgbm」的性能优于其他方案。总之，本文的贡献是多方面的：• 提出了「deepgbm」结合「gbdt」和「nn」的优点，在保留有效在线更新能力的同时，利用分类和数值特征，对各种具有表格数据的预测任务进行更新。• 提出了一种有效的解决方案，通过考虑「gbdt」模型学习树中选择的输入、结构和输出知识，将「gbdt」模型的学习知识提取为神经网络模型。• 广泛的实验表明，「deepgbm」是一种现成的模型，可以用于各种预测任务，并实现最先进的性能.

2. DEEPGBM

在这一部分中，将详细阐述新提出的学习框架「deepgbm」如何将「nn」和「gbdt」集成在一起，以获得更有效的通用在线预测任务模型。具体地说，如图1所示，整个「deepgbm」框架由两个主要部分组成：「catnn」是一个输入类别特征的神经网络结构，「gbdt2nn」是另一个从「gbdt」中提炼出来的神经网络结构，侧重于学习密集的数值特征。

2.1 CatNN 专注于稀疏类别特征(for Sparse Categorical Features)

为了解决在线预测问题，神经网络被广泛应用于学习分类特征的预测模型，如「wide&deep」(广度与深度)、「pnn」、「deepfm」和「xdeepfm」。由于「CATNN」的目标是与这些算法相同的，可以直接利用现有的任何成功的神经网络结构发挥「CATNN」的功能，而不重新造车轮。特别是与以往的工作一样，「catnn」主要依靠嵌入(embedding)技术，能够有效地将高维稀疏向量转化为稠密向量。此外，本文还利用「fm」组件和「deep」组件来学习特征上的交互。请注意，「catnn」不受这两个组件的限制，因为它可以使用具有类似功能的任何其他nn组件。嵌入是高维稀疏向量的低维密集表示，可以表示为:

其中表示第个特征的值，存储第i个特征的所有嵌入表示(embedding representation)，可以通过反向传播来学习，将返回对应的嵌入向量。基于此，我们可以使用「FM」组件来学习线性(linear)特征和成对特征(pair-wise)交互，并可以表示为

其中是特征数，和是线性部分的参数，是内积运算。然后，使用deep组件学习高阶特征交互：

其中是具有输入和参数的多层神经网络模型。结合两个组件，「catnn」的最终输出是

2.2 GBDT2NN 专注于数值密集型特征(for Dense Numerical Features)

在本小节中，具体描述如何将「gbdt」中学习到的树提取(distill)为神经网络模型的细节。简单起见，首先介绍如何将单棵树提取为神经网络。然后再将这一思想推广到「gbdt」中的多树蒸馏。

2.2.1 单树知识提取(Single Tree Distillation)

传统的知识蒸馏(Distillation)方法大多都是只根据所学的函数传递模型的知识，以确保新模型产生的输出与传递的模型输出相似。然而，由于树模型与神经网络的本质不同，除了传统的模型蒸馏方法外，树模型中的更多知识可以被提取并转化为神经网络的所具备的能力。树模型除了函数的输出之外，还有其他更为重要的知识：特别是学习树中的特征选择和特征重要性提取，以及学习树结构所隐含的数据划分能力。「树的特征选择能力 (Tree-Selected Features).」 与神经网络相比，基于树的模型的一个特点是不使用所有的输入特征，因为它的学习会根据统计信息贪婪地选择适合训练目标的有用特征。因此，根据树选择出来的特征来传递这些知识，可以仅仅使用树选择出来的特征作为神经网络的输入，以提高神经网络模型的学习效率，而不是使用所有的输入特征。形式上，定义为树中使用的特征的索引。那么用作为神经网络的输入。「树型结构知识(Tree Structure)」.从本质上讲，决策树的树结构知识是指如何将数据划分成多个不重叠的区域（叶），即将数据聚类成不同的类，同一叶中的数据属于同一类。这种树结构很难直接转化为神经网络，因为它们从结构上有着明显的区别。所幸的是，神经网络已经被证明足以逼近任何函数，所以可以使用神经网络模型来逼近树结构的函数输出，并实现结构知识的蒸馏。因此，如图2所示，可以使用神经网络来拟合树生成的聚类结果，从而使神经网络逼近决策树的结构函数。形式上，把树表示为的结构函数，它返回样本的输出叶子索引，即树生成的聚类结果。然后，可以使用神经网络模型来逼近结构函数，学习过程可以表示为：

其中是训练样本的数目，是第个训练样本，是样本的树叶子输出的独热(one-hot)表示，是树中使用的特征的索引，是神经网络模型的模型参数，可以通过反向传播更新，是交叉熵之类的多分类问题的损失函数。因此，在学习之后，就可以得到一个神经网络模型。由于神经网络具有很强的表达能力，经过学习的神经网络模型应该能完美地逼近决策树的结构函数。「树叶子值的输出(Tree Outputs)」.由于在前面的步骤中学习了从树输入到树结构的映射，所以要提取树的输出，只需要知道从树结构到树输出的映射。在决策树中叶子索引有相应的叶子值，因此实际上不需要学习此映射。将树的叶子值表示为，那么表示第个叶子的叶子值。要得到树模型的输出，只需要用将映射到树的值输出。结合上述的单树蒸馏方法，从树蒸馏得到的神经网络的输出可以表示为

2.2.2 多棵树知识提取(Multiple Tree Distillation)

由于「gbdt」中有多棵树，结合以上的单树蒸馏方法，应从单棵树推广多棵树的蒸馏方法。一个最直接的解决方案是使用多个神经网络模型对应多个树模型，每个模型都是从一棵树中提取出来的。然而，由于结构蒸馏目标的高维，复杂度（），该方法效率很低。为了提高效率，本文提出了叶子嵌入蒸馏法和树分组法，分别降低了叶子的个数和神经网络模型的个数。「叶子嵌入蒸馏(Leaf Embedding Distillation)」.如图3所示，采用嵌入技术来降低结构蒸馏目标 (叶子的个数)的维数，在该步骤中利用树模型自身的信息进行再训练。更具体地说，由于叶子索引和叶子值之间存在双射关系，因此可以使用叶子值来学习嵌入。形式上，嵌入的学习过程可以表示为

其中是以为参数的一层全连接网络，主要能把one_hot的输入 (叶子索引)转化成密集的嵌入表示H^{t,i}，为样本在树中的叶子节点的预测值，是树学习过程中的损失函数，和是用于将嵌入映射到叶子节点值的参数。完了之后，可以改用密集嵌入作为目标来逼近树结构的函数，而不是稀疏高维的独热表示。这个新的学习过程可以表示为

其中是拟合密集嵌入的回归损失，如损失。由于的维数要比one-hot的小得多，因此叶节点嵌入蒸馏在多树蒸馏中更为有效。因为它将使用更少的神经网络参数，因此会效率会更高。「树分组法(Tree Grouping)」.为了减少神经网络个数，可以对树进行分组，然后对分组后的树用神经网络模型去蒸馏知识。但是分组有两个问题(1)怎么去对这些树进行分组，(2)怎么去对这些分组后树组进行蒸馏。首先，对于分组策略，有很多解决方案。例如随机分组、等顺序分组、基于重要性或相似性的分组等。在本文中，使用等随机分组。假设有棵树，想把它们分成组，每组中有树,第组中的树是，它包含来自「gbdt」的随机「s」棵树。其次，为了从多棵树中提取，可以扩展到多棵树的叶子索引嵌入蒸馏技术。给定一组树，扩展等式(7)从多个树学习叶子节点的嵌入表示。

其中||(.)是拼接操作(concatenate operation)，是一个一层全连通网络，它将多个单树叶子索引向量的拼联，转化为树中的密集嵌入，然后用新的嵌入作为神经网络模型的蒸馏目标，其学习过程可以表示为

其中是树分组中用到的特征。当树分组中的树的数量较大时，可能包含很多特征，从而影响树模型的特征选择能力。因此，只根据特征的重要性在其中使用重要性较高的特征。综上所述，结合上述方法，从树组中提取神经网络模型的最终输出是

包含k个树组的「gbdt」模型的输出是

综上所述，由于叶子嵌入蒸馏和树分组，「gbdt2nn」可以有效地将「gbdt」中的许多树提取为一个紧凑的神经网络模型。而且除了树的模型值输出，树的特征选择和结构知识也被有效地提取到神经网络模型中。

2.3 DeepGBM模型的训练(Training for DeepGBM)

「deepgbm」模型的训练，包括如何在离线状态下对其进行端到端训练，以及如何高效地在线更新它。

2.3.1 端到端的离线训练 (End-to-End Offline Training)

为了训练deepgbm，首先需要使用离线数据训练「gbdt」模型，然后使用等式（9）得到「gbdt」中树的叶子节点嵌入表示。然后就可以端到端地训练「deepgbm」。将「deepgbm」的输出表示为

其中和是用于组合「gbdt2nn」和「catnn」的可训练参数，σ′是输出变换函数，例如用于二进制分类的「sigmoid」。然后，可以使用下面的损失函数进行端到端的训练

其中是样本的训练目标，是分类任务的交叉熵等相应任务的损失函数，是树组的嵌入损失，并在等式(10)中定义，k是树组个数，α和β是预先给定的用于控制端到端损失强度和嵌入损耗的超参数。

3.3.2 在线更新(Online Update)

由于「gbdt」模型是离线训练的，在在线更新中嵌入学习(embedding learning)会影响在线时效性。因此，在在线更新模型的时候不再包含，在线更新模型的时候，损失函数表示成：

它只使用端到端的损失。因此，当使用「deepgbm」在线时，我们只需要新的数据来通过更新模型，而不需要涉及「gbdt」和从头开始的再训练模型。简而言之，「deepgbm」将非常有效地执行在线任务。此外，它还可以很好地处理稠密的数值特征和稀疏的分类特征。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str