Sonhhxg_柒

【Ensemble Learning】第 5 章：使用集成学习库

使用高质量的库可以加快初始开发速度，减少错误，减少重新发明轮子的情况，并降低长期维护成本。鉴于机器学习本质上是实验性的，库可以实现快速且可维护的实验。

本章的目标是

介绍 ML-Ensemble，这是一个基于 Python 的开源库，它包装了 scikit 集成类以提供高级 API。

通过 Dask 扩展 XGBoost，Dask 是一个灵活的 Python 并行计算库。Dask 和 XGBoost 可以协同工作以并行训练梯度提升树。

学习使用 Microsoft LightGBM 进行提升。

介绍 AdaNet，这是一种基于 TensorFlow 的轻量级框架，用于学习神经网络架构，但也用于学习集成模型。

ML-Ensemble

ML-Ensemble也称为 mlens，是一个开源 Python 库，用于构建与 scikit-learn 兼容的集成估计器。

你可以通过 pip 安装它。

pip install mlens

构建集成的 API 风格与 Keras 等库非常相似。它提供了一种非常简单直接的方法来构建具有复杂交互的深度集成。

但是，为什么我们需要一个单独的库来进行集成呢？嗯，scikit-learn 不支持直接堆叠。您仍然可以编写它，但是您将不得不自己维护它。ML-Ensemble 提供了一种集成估计器的通用方法，并具有合理的文档。它值得探索，即使您决定不在生产代码中使用它。API 可帮助您非常快速地试验不同的集成。

让我们通过 mlens构建一个堆叠的集成。回想一下，堆叠通过元学习器组合了多个分类或回归估计器。第一层估计器基于完整的训练集进行训练，然后元学习器根据第一层估计器的预测输出进行训练。

让我们先设置数据。我们将使用make_moons 数据集。如果您不知道，make_moons 是一个简单的玩具数据集，可以制作两个半交错的圆圈。

# ---数据设置----
import numpy as np
from sklearn.metrics import accuracy_score
from sklearn.datasets import make_moons
seed = 42
X, y = make_moons(n_samples=10000,noise=0.4, random_state=seed)
# --- 1.初始化 ---
from mlens.ensemble import SuperLearner
ensemble = SuperLearner(scorer=accuracy_score, random_state=seed)
# --- 2.构建第一层 ---
ensemble.add([RandomForestClassifier(random_state=seed), SVC(random_state=seed)])
# --- 3.附上最终的元学习器 ---
ensemble.add_meta(LogisticRegression())
# --- 训练 ---
ensemble.fit(X_train, y_train)
# --- 预测 ---
preds = ensemble.predict(X_test)

清单 5-1 通过 mlens 堆叠合奏

现在，让我们看一下代码。集成本质上是一个三步过程。

初始化ensemble，这里就是SuperLearner。

添加中间估计量。在这里，我们添加了两个分类器：RandomForest和SVM。请注意，它们将并行执行。

添加metalearner，这里是LogisticRegression。

调用 fit 方法并进行预测。形象地，可以用图5-1表示。

图 5-1 单层堆叠集成

是不是感觉像是在搭建一个神经网络，我们通过堆叠层来构建网络？

要检查层中估计器的性能，请调用数据属性。

print("Fit data:\n%r" % ensemble.data)

Fit data:

score-m score-s ft-m ft-s pt-m pt-s

layer-1 randomforestclassifier 0.84 0.00 0.06 0.00 0.01 0.00

layer-1 svc 0.86 0.00 0.14 0.00 0.06 0.00

第一列 score-m 包含分数。为简洁起见，后缀-m表示平均值，-s表示折叠间的标准差。ft和pt分别代表拟合时间和预测时间。我们鼓励您阅读文档以获取更多信息。请注意，我们在超级学习者初始化期间提供了评分功能。如果我们可以在第一层添加两个估计器，那么您可以在任何层添加更多估计器也就不足为奇了。

多层合奏

添加多层同样简单。我们只需要调用add函数来添加一个新层。请注意，层是按顺序执行的。然而，在一个层内，估计器可以并行运行。

ensemble = SuperLearner(scorer=accuracy_score, random_state=seed, verbose=2)
# 构建第1层
ensemble.add([RandomForestClassifier(random_state=seed), LogisticRegression(random_state=seed)])
# 构建第2层
ensemble.add([LogisticRegression(random_state=seed), SVC(random_state=seed)])
# 附上最终的元估计器
ensemble.add_meta(SVC(random_state=seed))

图5-2是整体的可视化表示。

图 5-2 多层堆叠集成

集成模型选择

为了充分利用集成中的学习能力，进行超参数调整非常重要，将基础学习器的参数视为集成的参数。Metalearner是集成的关键部分，但是您将如何选择合适的 Metalearner？如果每次都必须评估整个集成，那么选择合适的元学习器的任务将变得计算量很大。

此问题的一种可能解决方法是将集成的较低层视为预处理管道，然后仅在较高阶层或元学习器上执行模型选择。将预处理管道视为仅评估一次的缓存结果。要为此目的使用整体，请在拟合之前将model_selection参数设置为True。这将修改transform方法的行为方式并确保在测试折叠时调用predict 。

在我们查看模型选择的端到端代码之前，您需要了解更多的库片段。

评分功能

我们需要将评分函数包装在 mlens make_scorer()函数中。

这实质上是从性能指标或损失函数中得出的评分者。

from mlens.metrics import make_scorer
accuracy_scorer = make_scorer(accuracy_score, greater_is_better=True)

greater_is_better参数的 true 值表示准确性，而 False 表示错误/损失。

但是为什么我们需要这样做呢？这是为了确保所有学习者的评分都以相同的方式进行。

make_scorer包装器是 scikit-learn 的sklearn.metrics.make_scorer() 的副本。sklearn make_scorer 是一个工厂函数，它包装了用于 GridSearchCV 和 cross_val_score 的评分函数。它采用一个评分函数，例如accuracy_score 、 mean_squared_error、adjusted_rand_index或average_precision并返回一个对估计器的输出进行评分的可调用函数。为了让您不会在这里迷路，请记住我们的目标是找到合适的金属学习者。现在您知道如何使评分保持一致，让我们讨论一下图书馆如何管理处理管道。

Evaluator

mlens Evaluator 类允许您跨多个预处理管道并行地对多个模型进行网格搜索。评估器类预装转换器，从而避免在相同数据上重复安装相同的预处理管道。让我们通过代码来更好地理解它。为简洁起见，我们跳过了一些常见且明显的代码。

from mlens.model_selection import Evaluator
from scipy.stats import randint
from sklearn.naive_bayes import GaussianNB
from sklearn.neighbors import KNeighborsClassifier
Now we need to name the estimators.
ests = [('gnb', GaussianNB()), ('knn', KNeighborsClassifier())]

然后我们准备参数列表。这与您在网格或随机搜索期间所做的没有什么不同。请注意，不包括 GNB，因为它没有任何参数。

pars = {'n_neighbors': randint(2, 20)}
params = {'knn': pars}

我们现在可以通过调用evaluate方法对这些估计量和参数分布进行评估。

evaluator = Evaluator(scorer=accuracy_scorer, cv=10)
evaluator.fit(X, y, ests, params, n_iter=10)

您可以通过 Evaluator 的cv_results和summary属性检查结果和摘要。

预处理

mlens预处理功能可帮助您比较一组预处理管道中的模型。它通过一个充当转换器的类来实现这一点，允许您使用较低层或传入层作为“预处理”步骤，因此您只需要迭代地评估元学习者。让我们看一下代码以更好地理解它。

from sklearn.preprocessing import StandardScaler
preprocess_cases = {'none': [],
                    'sc': [StandardScaler()]
                    }

我们已经指定了要运行的预处理管道字典。字典中的每个条目都是要按顺序应用的转换器列表。

现在是时候查看一个端到端的示例以查看所有的部分了。

from mlens.model_selection import Evaluator
from mlens.ensemble import SequentialEnsemble #--1
from mlens.metrics import make_scorer
from scipy.stats import uniform, randint
base_learners = [RandomForestClassifier(random_state=seed),
                 SVC(probability=True)] #--2
proba_transformer = SequentialEnsemble(
              model_selection=True, random_state=seed).add(
 'blend', base_learners, proba=True) #--3
class_transformer = SequentialEnsemble(
               model_selection=True, random_state=seed).add(
                 'blend', base_learners, proba=False) #--4
preprocessing = {'proba': [('layer-1', proba_transformer)],
                 'class': [('layer-1', class_transformer)]} #--5
meta_learners = [SVC(random_state=seed), ('rf', RandomForestClassifier(random_state=seed))] #--6
params = {'svc': {'C': uniform(0, 10)},
          'class.rf': {'max_depth': randint(2, 10)},
          'proba.rf': {'max_depth': randint(2, 10),
                            'max_features': uniform(0.5, 0.5)}
          } #--7
scorer = make_scorer(accuracy_score) #--8
evaluator = Evaluator(scorer=scorer, random_state=seed, cv=2) #--9
evaluator.fit(X, y, meta_learners, params, preprocessing=preprocessing, n_iter=2)#--10
from pandas import DataFrame
df = DataFrame(evaluator.results) #--11

清单 5-2 通过 mlens 处理管道

让我们解压代码。

导入SequentialEnsemble类。SequentialEnsemble允许用户构建具有不同层级的集成。图层的类别是混合、子集和堆栈。这三个类是将训练集映射到元学习器使用的预测集的不同方式。

使用RandomForest和SVM作为基础学习器。

设置两个相互竞争的合奏基地作为预处理变压器。这是一个带有 proba 的混合整体基础。请注意，proba表示该层是否应预测类别概率。这里将调用估计器的predict_proba方法。

这是一个没有概率的混合合奏。请注意，model_selection参数设置为True。这会修改transform方法的行为方式并确保在测试折叠时调用预测。

设置预处理映射。在评估候选元学习者之前，这张地图中的每条管道在每次折叠时都安装一次。

设置候选元学习者。这里的估计器将在所有预处理管道上运行。

设置参数映射。请注意，分布在随机森林的情况下有所不同。

包装得分函数。你已经知道为什么了。

实例化评估器。

调用评估器拟合方法。

这不是必需的，但您可以将评估器结果加载到数据框中，以格式化的方式查看结果。同样，-s和-m后缀分别代表平均值和标准偏差。

概括

让我们快速回顾一下。ML-Ensemble 提供 Keras 风格的 API 构建集成。超级学习者课程有助于构建堆叠集成。mlens 提供了不同类型的堆叠层，例如 stack、blend 和 subset。多次运行整个集成以比较不同的元学习器可能非常昂贵。ML-Ensemble 实现了一个充当转换器的类，允许您将输入层用作“预处理”步骤，因此您只需要迭代地评估元学习器。您可以在http://ml-ensemble.com/info/index.html找到项目文档。

通过 Dask 扩展 XGBoost

如您所知，XGBoost 是梯度提升的优化实现，而Dask是Python 中用于并行计算的灵活库。

您可以将两者结合起来并行训练梯度提升树。

在我们通过 Dask 扩展 XGBoost 之前，您需要了解 Dask。

要了解和欣赏 Dask 的价值，您需要了解Python 科学生态系统。图5-3让您大致了解这么多有用的库和框架的广泛可用性。

图 5-3 Python 的科学生态系统

然而，这些包并不是为了扩展到单台机器之外而设计的。Dask 的开发是为了扩展这些包和周围的生态系统。它与现有的 Python 生态系统一起工作，将其扩展到多核机器和分布式集群。这些库中的大多数都不可扩展。对于计算机内存无法容纳的数据集，您将如何使用 NumPy 或 Pandas？Dask 使NumPy 和 Pandas可以处理分布式数据。分布式NumPy和Pandas的想法是不是很酷很令人兴奋？不过，Dask 并不局限于扩展 NumPy 和 Pandas；可扩展性优势扩展到整个生态系统。

在高层次上，Dask 可以帮助您解决两个问题。

处理大于 RAM 的数据集。（您已经知道 Pandas 和 NumPy 需要内存中的完整数据集。）

跨线程、核心或不同机器分配任务。

最好的部分是，由于 Dask 是基于 Python 的，并且它的 API 与大多数 scikit-learn 库接口相匹配，因此您已经感到宾至如归。

Dask 在两个层面上运作。

在高层次上，Dask 提供了模仿 NumPy、列表和 Pandas 的高级 Array、Bag 和 DataFrame 集合，但可以在不适合主内存的数据集上并行操作。Dask 的高级集合是用于大型数据集的 NumPy 和 Pandas 的替代品。

在底层，Dask 提供了并行执行任务图的动态任务调度器。Dask 的调度程序是在复杂情况下或其他任务调度系统（如 Luigi 或 IPython Parallel）中直接使用线程或多处理库的替代方法。

Dask 的逻辑架构（参见图5-4）可以帮助您更好地理解这些概念。

图 5-4 任务架构

现在让我们深入了解 Dask 数组和数据帧。

Dask 数组和数据框

一张图片说一千个单词。Dask 数组的逻辑结构如图5-5所示。

图 5-5 Dask数组的逻辑结构

您可以在图5-5中看到，Dask 数组实质上管理着NumPy 数组的集合，尽管它为用户提供了单一的逻辑视图。这张照片可能会引发您的想法，是的，它们是真实的。您可以将处理的各个 NumPy 数组分配给不同的线程、内核或机器。他们住在哪里并不重要。Dask 是一位出色的秘书，负责管理内部的所有协调工作。

同样的图片（参见图5-6）也可以用于数据帧。Dask 数据帧协调许多 Pandas 数据帧，沿索引分区。

图 5-6 Dask 数据框的逻辑结构

让我们看一下代码，了解如何在 Dask 数据框中读取CSV 。

import dask.dataframe as dd
df = pd.read_csv("hdfs://mycsv.csv", parse_dates =['timestamp'])
Let’s also look at how it would have been done in Pandas.
import pandas as pd
df = dd.read_csv("hdfs://mycsv.csv", parse_dates =['timestamp'])

代码在两个库中是相同的，这不是复制/粘贴错误。Dask API 在设计时牢记 Python 风格，以确保学习曲线最小。Python 数据计算生态系统中的几乎所有包都可以在不做太多更改的情况下获得分布式和并行处理的好处。

除了分布式处理，并行处理是 Dask 扩展数据处理任务的另一个特性。让我们看看 Dask 如何使用更简单的dask.delayed接口并行化自定义算法。让我们看一下清单5-3中的代码。

def inc(x):
    return x + 1
def double(x):
    return x ∗ 2
def add(x, y):
    return x + y
data = [1, 2, 3, 4, 5]
output = []
for x in data:
    a = inc(x)
    b = double(x)
    c = add(a, b)
    output.append(c)
total = sum(output)

清单 5-3用于并行处理的 Dask 延迟接口

虽然代码很简单，但您可以清楚地看到处理可以并行化。inc和double可以并行执行。

Dask延迟函数可以修饰前面的函数，使它们延迟运行。它不是立即执行函数，而是推迟执行，将函数及其参数放入任务图中。现在让我们将自定义函数包装在延迟函数中，如清单5-4所示。

import dask
output = []
for x in data:
    a = dask.delayed(inc)(x)
    b = dask.delayed(double)(x)
    c = dask.delayed(add)(a, b)
    output.append(c)
total = dask.delayed(sum)(output)

清单 5-4 Dask 惰性执行

请务必注意，尚未发生任何inc、double、 add或sum调用。相反，对象总计是一个延迟结果，其中包含整个计算的任务图。

幸运的是，您可以通过调用total.visualize()方法查看任务图，如图5-7所示。

图 5-7 任务图

图中的每个节点都是可以分配给不同线程、池甚至机器的任务。运行操作时执行节点。对于清单5-2中的代码，它是对计算函数的调用。

total.compute()

弄清楚这里发生的事情很重要。这不是大型数据集问题，而是计算挑战。当您听到“混乱数据”时，大多数时候，它是大型数据集和自定义数据处理逻辑的组合。Dask 在两个级别上运行：大数据和执行中的并行任务。清单5-5是 Dask 数组任务的图形。

import dask.array as da
x = da.ones((15, 15), chunks=(5, 5))
y = x + x.T
y.visualize()

清单 5-5 任务图

在这里，我们正在创建一个由形状 (5,5) 的三个块组成的 Dask 二维数组，然后添加该数组及其转置。图5-8是计算的任务图。

图 5-8 Dask 二维数组任务图

Dask-ML

如果将 Dask 与 scikit-learn 结合使用会得到什么？您将获得可扩展的 ML 算法。

但是 scikit-learn 不是已经并行了吗？是的，但 scikit-learn 仅在带有 Joblib 的单机上提供并行计算。让我们使用LogisticRegression构建一个分类器（参见清单5-6）。我们将使用生成随机n分类问题的make_classification 数据集。

from dask_glm.datasets import make_classification
from dask_ml.linear_model import LogisticRegression
from dask_ml.model_selection import train_test_split
X, y = make_classification()
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)
lr = LogisticRegression()
lr.fit(X_train, y_train)
lr.predict(X_test)

清单 5-6 带 Dask 的单机逻辑回归

发现此代码与标准 scikit-learn 代码没有区别时，请不要感到惊讶。它使用 Joblib，它本身提供基于线程和基于进程的并行性。在 scikit-learn 的正常使用中，Joblib支持n_jobs=参数。从图形上看，该过程如图5-9所示。

图 5-9 使用Joblib在单台机器上进行基于Dask线程和进程的处理

Dask 可以将这种并行性扩展到集群中的许多机器。这适用于中等数据大小，但计算量大，例如随机森林、超参数优化等。在我们查看代码之前，图5-10显示了分布式计算的样子。

图 5-10 集群环境中的Dask并行执行

在这里，Dask 通过 Joblib 与 scikit-learn 对话，以便使用集群来训练模型。让我们通过清单5-7中的代码看看实际情况。

from dask_ml.model_selection import GridSearchCV
parameters = {'penalty': ['l1', 'l2'], 'C': [0.5, 1, 2]}
lr = LogisticRegression()
est = GridSearchCV(lr, param_grid=parameters)
est.fit(X_train,y_train)

清单 5-7 GridSearch 和 LogisticRegression 通过 dask

到现在为止没有惊喜。我们正在使用网格搜索来寻找logisticRegression 参数的最佳值：惩罚和系数 C。数据集与我们在清单5-6中使用的数据集相同。现在我们想在集群上切换训练。

from dask_ml.model_selection import GridSearchCV
parameters = {'penalty': ['l1', 'l2'], 'C': [0.5, 1, 2]}
lr = LogisticRegression()
est = GridSearchCV(lr, param_grid=parameters)
import joblib #--1
from dask.distributed import Client #--2
client = Client() #--3
with joblib.parallel_backend('dask'): #--4
    est.fit(X_train, y_train) #--5

清单 5-8 通过 dask 在集群上进行训练

让我们解压代码。请注意，scikit-learn 网格搜索代码没有变化，我们使用与清单5-6中相同的数据。

我们导入Joblib 库。回想一下，Joblib 在本地机器上的不同线程或进程上运行 scikit-sklearn 函数。我们正在导入它以注册新的后端，这里是 Dask。本质上就是把图5-9改成图5-10。

我们从 Dask dask.distributed导入客户端以连接到 Dask 集群。

我们正在初始化客户端以连接到 Dask 集群。但是我们什么时候启动集群的？当客户端在没有参数的情况下初始化时，集群在本地运行。要在本地运行集群，我们需要做的就是不带任何参数初始化客户端。

使用joblib.parallel_backend 上下文，我们指定使用 Dask 后端或集群进行训练。

现在估计器适合集群而不是线程或进程。

集群可以在带有 Docker 或 Kubernetes 的云环境中运行。请查看有关在云计算机上设置集群的文档。

Scaling XGBoost

您在前面的章节中了解了 XGBoost。在这里，您将学习如何使用 Dask 和 XGBoost 并行训练梯度提升树。回想一下，XGBoost 代表 eXtreme Gradient Boosting，顾名思义，它是梯度提升的一种实现。梯度提升方法试图将新的预测器与先前预测器产生的残差相匹配。

dask -xgboost 项目非常小而且非常简单 (200 TLOC)。与具有调度程序和工作程序的 Dask 集群一样，Dask 在运行 Dask 调度程序的同一进程中启动 XGBoost 调度程序，并在每个 Dask 工作程序中启动 XGBoost 工作程序。它们共享相同的物理进程和内存空间。Dask 就是为支持这种情况而构建的，这就是它如此无缝的原因。在训练期间，Dask 工作人员将所有 Pandas 数据帧（它们是 Dask 数据帧的组成部分）提供给本地 XGBoost，并让 XGBoost 执行它的操作。重要的是要注意并记住 Dask 不为 XGBoost 提供动力；它只是设置它，给它数据，并让它在后台完成它的工作。

Dask 和 XGBoost 可以相互共享数据并可以相互监控，因为它们可以存在于同一个 Python 进程中。这与NumPy和Pandas在单个进程中一起运行的方式非常相似。如果您想轻松地使用多个专门的服务并避免大型单体框架，那么与多个系统共享分布式进程可能会非常有益。现在让我们看看如何在代码中将 XGBoost与 Dask 结合使用（参见清单5-9）。

from dask.distributed import Client
client = Client() # --1
# 准备虚拟数据集
from dask_ml.datasets import make_classification
X, y = make_classification(n_samples=100000, n_features=20,
                           chunks=1000, n_informative=4,
                           random_state=0) #--2
# 拆分训练和测试
from dask_ml.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.15) #--3
#Train Dask-XGBoost
import xgboost
import dask_xgboost
params = {'objective': 'binary:logistic',
          'max_depth': 4, 'eta': 0.01, 'subsample': 0.5,
          'min_child_weight': 0.5} #--4
bst = dask_xgboost.train(client, params, X_train, y_train, num_boost_round=10) #--5
# 绘制特征重要性
%matplotlib inline
import matplotlib.pyplot as plt
ax = xgboost.plot_importance(bst, height=0.8, max_num_features=9)
ax.grid(False, axis="y")
ax.set_title('Estimated feature importance')
plt.show()
#Results

清单 5-9 通过 dask 缩放 XGBoost

图 5-11特征重要性得分图

让我们在这里解压代码。

初始化客户端。您已经知道 Dask 集群将是本地集群。您可以检查 cluster 的值以查看集群详细信息。

使用 make_classification 函数生成随机玩具数据集。我们以前也用过这个。

将数据集拆分为训练和测试数据，以通过确保我们有一个公平的测试来帮助评估。

指定 XGBoost 参数。

调用 train 方法来拟合模型。dask -xgboost是 XGBoost 的一个小包装器。Dask 设置 XGBoost，提供 XGBoost 数据，并让 XGBoost 使用所有 Dask worker 在后台进行训练。bst对象是一个常规的xgboost.Booster对象，这意味着 XGBoost 的所有方法都可以在这里使用。

使用xgboost.plot_importance方法绘制特征重要性。

Microsoft LightGBM

LightGBM是一个基于决策树算法的快速、分布式、高性能的梯度提升框架。它用于排名、分类和许多其他机器学习任务。

如果你关注 Kaggle 比赛，那么你就会知道提升的力量和受欢迎程度。XGBoost 开创了这一切，成为赢得 Kaggle 比赛的标准算法。然而，对于大数据，XGBoost 的训练时间会急剧增加。LightGBM 解决了可扩展性和速度的问题，显着降低了内存消耗。值得记住的是，XGBoost 和 LightGBM 都是 GBT（梯度提升）的特定实例，它们都实现了相同的底层算法；但是，它们各自引入了各种技巧来提高训练效率或提高性能。它被设计为分布式和高效的，具有以下优点。

更快的训练速度和更高的效率

降低内存使用率

更高的准确性

支持并行和 GPU 学习

能够处理大规模数据

为什么 LightGBM 架构是最好的

XGBoost 和 LightGBM 属于同一梯度提升决策树 (GBDT)系列，具有相似的架构。在这里，我们专注于使 LightGBM 训练准确模型的架构思想。

Growing the Tree

为了拆分和训练每个单独的决策树，可以采用两种策略：level-wise 和 leaf-wise。

level-wise 策略维护一个平衡的树。平衡树是指每片叶子与根的距离“不超过一定距离”的树。本质上，所有叶节点与根的距离相同。您可以在图5-12中看到，拆分确保树保持平衡。

图 5-12 Level-wise tree split strategy （来源：https ://mlexplained.com ）

leaf-wise 策略分裂损失最大的叶子（见图5-13）。这使得训练变得灵活，尽管容易出现过度拟合。LightGBM 按叶子生长树木。它选择具有最大 delta loss 的叶子来生长。通过保持叶子的数量固定，leaf-wise 算法往往比 level-wise 算法实现更低的损失。有趣的是，leaf-wise 增长是 LightGBM 的独有特性，但 XGBoost 也实现了这种增长策略。

图 5-13 Leaf-wise tree split strategy （来源：https ://mlexplained.com ）

寻找最佳拆分

为每个叶子找到最佳分割是训练 GBDT 的关键挑战。

您可以使用蛮力并遍历每个特征来找到最佳分割，但这既不可扩展也不实用。

想一想包含数百万个文档和一百万个单词的词汇量的数据集。GBDT 需要永远在 tf-idf 矩阵上进行训练。唯一可能的方法是以某种方式近似最佳分割。让我们来看看这方面的一些策略。

基于直方图的方法

基于直方图的方法将特征分组到一组箱中，并对箱而不是特征执行拆分。这有助于加快训练速度并降低复杂性，因为可以在构建每棵树之前对特征进行分箱。请注意，必须提前对特征进行排序，此方法才能有效。

处理缺失值

LightGBM 的输入往往是稀疏的，因为它经常用于表格或文本数据。一种可能的选择是忽略缺失值，然后将其分配给分割的任何一侧以减少损失。当zero_as_missing参数设置为True时，这就是 LightGBM 所做的。它认为所有零值都缺失。

基于梯度的单侧采样

一个普遍的观察是，并非所有特征都在训练中发挥重要作用。这些特征具有较低的梯度。LightGBM 专注于具有高梯度的数据点（即，在最佳分割期间，它倾向于忽略低梯度特征）。然而，这伴随着抽样偏差的固有风险。为了缓解这些问题，LightGBM 应用了两个技巧：使用较小梯度随机采样数据和重要性采样。这实质上增加了具有小梯度的样本的权重，同时计算它们对损失变化的贡献。

独家功能捆绑

独占特征捆绑是一种利用大型数据集稀疏性的技术。考虑到稀疏性，一些特征永远不会一起非零；例如，Python 和政治很少有机会在文档中结合在一起。它们可以“捆绑”成一个单一的功能，而不会丢失任何信息。寻找最佳束是一个 NP-hard 问题，因此，LightGBM 使用一种近似技术来容忍特征束中非零元素之间一定程度的重叠。详细了解该近似值在这里没有多大价值，但如果您有兴趣，可以在www.microsoft.com/en-us/research/wp-content/uploads/2017/11/lightgbm阅读全文.pdf _

现在您对 LightGBM 的工作原理有了更多的了解，理解它的参数应该很容易。

参数

毫不奇怪，参数格式是key1=value1 key2=value2 ....。它可以在配置文件和命令行中设置。通过使用命令行，参数在=前后不能有空格。通过使用配置文件，一行只能包含一个参数。您可以使用# 进行评论。

如果一个参数同时出现在命令行和配置文件中，LightGBM 将使用命令行中的参数。不要在此处列出参数，而是阅读https://lightgbm.readthedocs.io/en/latest/Parameters.html上的文档。

Python 代码中的 LightGBM

让我们使用 LightGBM 构建一个二元分类器。我们将为用例使用 Python 接口（参见清单5-10）。

import lightgbm as lgb # --1
n_features  = 20
data = np.random.rand(5000, 20)  # --2
label = np.random.randint(2, size=5000)
X_trn, X_val, y_trn, y_val = train_test_split(data, label, test_size=0.30)  # --3
feature_name = ['feature_' + str(col) for col in range(n_features)] # --4
train_data = lgb.Dataset(X_trn,label=y_trn,feature_name=feature_name, categorical_feature=[feature_name[-1]] #--5
validation_data = lgb.Dataset(X_val,label=y_val,reference=train_data) # --6
param = {'num_leaves': 31, 'objective': 'binary'} # --7
param['metric'] = ['auc', 'binary_logloss'] # --8
num_round = 10
bst = lgb.train(param, train_data, num_round, valid_sets=[validation_data]) #--9
print('Feature importances:', list(bst.feature_importance())) # --10
data = np.random.rand(7, 20)
ypred = bst.predict(data) # --11
# --12
for i in range(7):
    if ypred[i]>=.5:       # setting threshold to .5
       ypred[i]=1
    else:
       ypred[i]=0

清单 5-10 使用 lightGBM 的二进制分类器

让我们解压代码。

导入 LightGBM 库。为简洁起见，省略了其他导入。

LightGBM Python 模块可以从 LibSVM（从零开始）/TSV/CSV/TXT 格式文件、NumPy 二维数组、Pandas 数据框、H2O DataTable 的框架和 SciPy 稀疏矩阵 LightGBM 二进制文件加载数据。数据存储在Dataset对象中。

将数据拆分为训练和验证。

为随机生成的特征分配名称。请注意，我们的数据集中有 20 个特征。

准备训练数据集。我们正在指定特征名称和分类值。LightGBM 可以直接使用分类特征作为输入。它不需要转换为 one-hot 编码，而且比 one-hot 编码快得多（大约 8 倍加速）。在加载到数据集之前将分类值转换为 int 很重要。

准备验证数据集。在 LightGBM 中，验证数据应该与训练数据保持一致。这里的Dataset对象非常节省内存，它只需要保存离散的bin。

LightGBM 可以使用字典来设置Parameters。由于这是一个二元分类问题，我们将目标设置为binary。检查文档以获取目标的其他可能值。

指定多个评估指标

通过调用 train 方法进行训练。您还可以使用 fit 并查看文档以了解详细信息。

使用 feature_importance 方法检查特征重要性。

调用 predict 方法来计算类别概率。

使用阈值将概率转换为类别预测。

还有一个参数调整领域，为此我们建议阅读https://lightgbm.readthedocs.io/en/latest/Parameters-Tuning.html上的文档。有了新的架构知识，理解起来就不难了。

自适应网络

AdaNet是一种基于 TensorFlow 的轻量级框架，可在最少专家干预的情况下自动学习高质量模型。它是一种迭代学习神经网络结构和权重作为子网络集合的算法。

该项目基于 AdaNet 算法，该算法在ICML 2017的“ AdaNet：人工神经网络的自适应结构学习”中提出，用于学习作为子网络集合的神经网络结构。

图片在这里很有帮助（见图5-14）。

图 5-14 AdaNet子网络集成神经网络

这里子网络的输出被组合生成一个输出。它本质上使用了集成学习的概念，其中最终模型由更简单的模型组成。这使得模型更加复杂，但它也可以提供更好的准确性。

在每次迭代中，该算法都会检查一组候选网络并评估哪个提高了集成性能（或者从技术上讲，产生较小的损失），然后将其添加到集成中。需要注意的是，每个候选网络架构都必须由用户提供。

让我们看几个集成示例以了解可能性。

图5-15是具有不同复杂性的子网络的集合。本质上，集成由越来越复杂的神经网络子网络组成，其输出只是简单的平均。

图 5-15 具有不同复杂性的AdaNet子网集成

图5-16是在共享嵌入之上学习的集成。当大多数模型参数是特征的嵌入时，这种集成风格很有用。使用学习的线性组合组合各个子网络的预测。

图 5-16 从共享嵌入中学习的 AdaNet 集成

现在让我们从 Python 对象的角度来看一下迭代周期。这有助于我们学习和使用框架（见图5-17）。

图 5-17

AdaNet集成生成过程（来源：AdaNet 文档）

子网生成器和子网在adanet.subnetwork包中定义。

Ensemble Strategy 、 Ensembler 和Ensemble在adanet.ensemble包中定义。

作为练习，我们鼓励您运行托管在 Google Colab ( https://github.com/tensorflow/adanet ) 上的示例。这些笔记本有很好的注释，并提供随时可用的样板代码以在您的 ML 任务中使用。

概括

让我们快速回顾一下本章所涵盖的内容。

sklearn 没有内置的模块堆叠。ML-Ensemble（又名 mlens）是一个开源库，可简化集成实验。API 风格类似于 Keras，可以通过分层基础学习器和元学习器轻松构建堆栈。

我们研究了选择有效学习器和相关超参数的技术。

Dask 是一个灵活的 Python 并行计算库，由两部分组成：动态任务调度和大数据收集。动态任务调度类似于气流，但针对交互式计算工作负载进行了优化。

Dask 可以并行训练 XGBoost 树，为其提供巨大的可扩展性。

LightGBM 是一种梯度提升树算法，可作为 Microsoft 的库使用。

基于直方图的方法、处理缺失值、基于梯度的单侧采样和独有的特征捆绑帮助 LightGBM 比 XGBoost 表现更好。

AdaNet 是一种基于 TensorFlow 的轻量级框架，可在最少专家干预的情况下自动学习高质量模型。它是一种迭代学习神经网络结构和权重作为子网络集合的算法。

如您所见，库为构建集成提供了灵活性、可重用性和速度。在第6章中，您将学习将集成有效地应用于现实世界的艺术。

你可能感兴趣的:(面向,AI,开发人员的集成学习,集成学习)

助力您发SCI 机器学习（ML）在材料领域应用专题 YEcenfei 分子动力学催化材料机器学习人工智能 python
第一天机器学习在材料与化学常见的方法理论内容1.机器学习概述2.材料与化学中的常见机器学习方法3.应用前沿实操内容Python基础1.开发环境搭建2.变量和数据类型3.列表4.if语句5.字典6.For和while循环实操内容Python基础（续）1.函数2.类和对象3.模块Python科学数据处理1.NumPy2.Pandas3.Matplotlib第二天机器学习材料与化学应用<
Edge-TTS在广电系统中的语音合成技术的创新应用
Edge-TTS在广电系统中的语音合成技术的创新应用作者：本人是一名县级融媒体中心的工程师，多年来一直坚持学习、提升自己。喜欢Python编程、人工智能、网络安全等多领域的技术。摘要随着人工智能技术的快速发展，文字转语音(Text-to-Speech,TTS)系统已成为多种应用的重要组成部分，尤其在广播电视领域。本文介绍了一种基于Edge-TTS大模型的文字转语音工具，该工具结合了现代文本处理和语
数据库的查询爱吃草莓的土拨鼠️ 数据库
一.单表查询1.简单数据查询a.显示指定字段列：使用“*”显示全部字段列；列出字段名显示指定字段列。b.显示字段列别名：使用AS关键字为字段指定别名，方便理解。c.显示计算的列值：通过算术运算符(+-*/%)对字段进行计算，得到新的列值。d.消除重复行：使用DISTINCT参数消除查询结果中的重复行。e.限制行数：利用LIMIT控制返回的行数，可指定偏移量和行数。f.排序：ORDERBY子句按指定
掌握软件工程领域持续集成的部署流程
掌握软件工程领域持续集成的部署流程关键词：持续集成、自动化构建、版本控制、单元测试、持续交付、DevOps、流水线摘要：本文通过面包工厂的生动比喻，揭示持续集成的核心原理。我们将构建一条"代码加工流水线"，用真实的Jenkins配置案例展示从代码提交到自动化部署的全过程，并探讨现代软件开发中持续集成带来的革命性变化。背景介绍目的和范围本文面向初入软件行业的开发者，系统讲解持续集成（Continuo
小柿子影视安卓版，跨平台开发的技术挑战与解决方案 2501_92530989 音视频百度经验分享其他
在移动应用开发的浪潮中，视频类App因其对性能、用户体验、跨平台兼容性要求高，成为开发者面临的重点技术难题之一。本文将结合实际案例，分析一个典型的视频类项目“小柿子”的跨平台开发过程中的关键技术点。一、背景介绍“小柿子影视”是一款轻量级视频播放App，专注于提供清爽的界面和流畅的播放体验。该项目同时支持小柿子安卓与小柿子iOS两个平台，目标用户覆盖广泛。因此，跨平台开发策略、播放器内核选择、缓存机
Selenium测试安全策略：防止逆向工程软件工程实践软件工程最佳实践 AI软件构建大数据系统架构 selenium 网络 tcp/ip ai
Selenium测试安全策略：防止逆向工程关键词：Selenium自动化测试、逆向工程、代码安全、敏感信息保护、测试脚本防护摘要：本文从Selenium自动化测试的实际场景出发，深入解析测试脚本面临的逆向工程风险（如敏感信息泄露、测试逻辑被破解），通过生活案例类比技术概念，系统讲解代码混淆、敏感信息加密、日志脱敏等核心安全策略，并提供可落地的实战代码与工具推荐，帮助测试人员构建“防逆向”的安全测试
Serverless架构下的持续交付实践软件工程实践软件工程最佳实践 AI软件构建大数据系统架构 serverless 架构运维 ai
Serverless架构下的持续交付实践关键词：Serverless架构、持续交付、DevOps、无服务器计算、自动化部署摘要：本文深入探讨了Serverless架构下的持续交付实践。首先介绍了Serverless架构和持续交付的背景知识，接着解释了相关核心概念及其关系，详细阐述了核心算法原理与操作步骤，通过数学模型加深理解，结合实际项目案例展示了代码实现与解读，探讨了实际应用场景，推荐了相关工具
深入解析 Cookie、LocalStorage 和 SessionStorage 浪裡遊杂文前端服务器后端信息与通信 tcp/ip 交互
浏览器数据存储三剑客：深入解析Cookie、LocalStorage和SessionStorage在现代Web应用开发中，经常需要在用户的浏览器端存储数据，以实现用户状态管理、个性化设置、离线功能等。浏览器为此提供了几种主要的客户端存储机制，其中Cookie、LocalStorage和SessionStorage是最常用且核心的三种。虽然它们都用于在浏览器端存储数据，但它们在设计目的、生命周期、作
雅思英语----写作观点表达（一） dulu~dulu 雅思雅思英语笔记雅思英语写作雅思写作话题
目录（1）犯罪话题（2）压力的来源（3）人口老龄化（4）接受教育（5）房屋问题1.保护老建筑2.住房紧缺雅思写作观点用在核心段的逻辑：观点表述+举例：Itisevidentthatlivingasimplelifemakesgreatcontributionstocombatingenvironmentalchallenges.Forexample,ifpeoplechoosetospendhol
IDEA：程序编译报错：java: Compilation failed: internal java compiler error 天黑请闭眼 intellij-idea Java异常处理 intellij-idea java
目录简介异常信息排查原因解决简介代码无法编译、无法打包异常信息java:Compilationfailed:internaljavacompilererror排查1、代码近期没有改动过，原先是可以正常编译的2、查看程序JDK，是JDK1.8没错，与原先JDK一致3、出现无法编译的情况是在升级IDEA版本之后4、使用IDEA-2024版本无法编译5、使用IDEA-2019、IDEA-2022版本可正
7-STM32的模拟IIC 水果里面有苹果嵌入式软件 stm32 单片机嵌入式硬件
STM32的模拟IICvoidIIC_Init(){GPIO_InitTypeDefGPIO_InitStructure;RCC_APB2PeriphClockCmd(RCC_APB2Periph_GPIOB,ENABLE);//使能GPIOA时钟GPIO_InitStructure.GPIO_Pin=GPIO_Pin_10|GPIO_Pin_11;//PA4->SCL;PA5->SDAGPIO_
9-STM32的ADC采样和DAM配置水果里面有苹果嵌入式软件 stm32 单片机嵌入式硬件
STM32的ADC采样和DAM配置Adc_Init();//ADC初始化My_DMA_Config(DMA1_Channel1,(u32)&ADC1->DR,(u32)&ADC1_Value,ADC_CHANNEL_NUM*ADC_C_VAL_TIMES);//配置DMA通道DMA_Cmd(DMA1_Channel1,ENABLE);//启动DMA通道ADC_SoftwareStartConvCm
联咏NT98567高度集成边缘IPC应用SoC规格特性 weixin_Todd_Wong2010 边缘计算人工智能计算机视觉 python c++神经网络
联咏NT98567MQG是一款高度集成的SoC，具有高图像质量、低比特率和低功耗的特点，适用于电池应用，目标是2Mp至5Mp/8Mp边缘IP摄像头应用。该SoC集成了双核ARMCortexA7CPU、新一代ISP、H.265/H.264视频压缩编解码器、视频处理引擎（VPE）用于双传感器拼接和鱼眼去畸变、高性能硬件DLA模块、图形引擎、显示控制器、以太网PHY、USB2.0主机/设备、音频编解码器
海思Hi3519DV500方案1200万无人机吊舱套板 weixin_Todd_Wong2010 嵌入式硬件 AI 前端边缘计算图像处理
海思Hi3519DV500方案1200万无人机吊舱套板Hi3519DV500是一颗面向行业市场推出的超高清智能网络摄像头SoC。该芯片最高支持四路sensor输入，支持最高4K@30fps的ISP图像处理能力，支持2FWDR、多级降噪、六轴防抖、全景拼接、多光谱融合等多种传统图像增强和处理算法，支持通过AI算法对输入图像进行实时降躁等处理，为用户提供了卓越的图像处理能力，集成了高效的神经网络推理引
Java中的finalize()方法周杰伦fans JAVA ai学习参考考试学习 java python jvm
Java中的finalize()方法详解Java的finalize()方法是Object类定义的一个特殊方法，主要用于在对象被垃圾回收器回收之前执行一些清理工作。下面我将从基本概念、工作原理、使用场景、注意事项以及示例代码等方面详细解释这个方法。基本概念finalize()方法是Java中Object类的一个protected方法，每个Java类都隐式继承了这个方法。它的基本语法如下：protec
STM32F407 步进电机梯形加减速 smallerlang STM32 电机 stm32 单片机 arm
/*USERCODEBEGINHeader*//*********************************************************************************@file:main.c*@brief:Mainprogrambody************************************************************
飞算 JavaAI 2.0.0和 AI 编程技术设计的 120 章 Java 系统教程 AI编程员 001AI传统＆编程语言 002AI编程工具汇总 003AI编程作品汇总开发语言深度学习 pillow AI编程人工智能
以下是基于飞算JavaAI2.0.0和AI编程技术设计的120章Java系统教程，涵盖从基础到高阶、理论到实践的全栈知识体系，结合经典案例与企业级项目实战，适合零基础到架构师的学习路径：第一部分：基础入门（第1-30章）Java开发环境配置JDK21+IntelliJIDEA+飞算AI插件安装第一个AI生成的HelloWorld程序基础语法与AI辅助编程数据类型、变量、运算符飞算AI：自动生成算法
100G QSFP28双纤单波光模块的高性价比解决方案易天ETU 光模块信息与通信网络 5G 数据中心互联万兆光模块单波100G光模块 QSFP28光模块
我们都知道传统的100G光模块采用的都是4路25G的光学通道并行或波分复用进行传输的，目前市场上主流的光模块主要是100GSR4/CWDM4/PSM4/LR4/ZR4等。而我们今天为大家介绍的100G单波光模块，使用的是单波长100GPAM4调制技术，可以更好的降低生产成本和获得更高的传输效率。一、传统100G光模块和100G单波光模块的区别对比传统的100G光模块采用的是4x25GNRZ技术。使
Java猜拳小游戏 wp_tao Java从入门到精通 java 开发语言
Java猜拳小游戏使用java设计一个猜拳小游戏，要求如下：在控制台提示用户输入出拳结果（1：石头，2：剪刀，3：布）。计算机生成出拳结果。裁判判断出拳结果。输出游戏结果。com.game.Judge.java。packagecom.game;publicclassJudge{privateintplayer1;//选手一的出拳结果：1为石头，2为剪刀，3为布
go语言PDF---golang完整文档尹泽凝
go语言PDF---golang完整文档【下载地址】go语言PDF---golang完整文档本仓库提供了Go语言的完整文档PDF资源，内容全面、系统，涵盖基础语法、特性、标准库、并发编程等关键知识点。通过实例讲解，帮助您快速掌握Go语言的开发技巧，为实际项目开发奠定坚实基础。PDF格式便于在电脑、平板、手机等多种设备上阅读，随时随地学习。无论您是初学者还是有一定经验的开发者，这份文档都将成为您高效
verilog ascii码 0-99翻译成16进制数 LEEE@FPGA FPGA学习记录 fpga开发
VerilogASCII码转16进制数(0-99)moduleascii_to_hex(inputclk,inputrst_n,input[7:0]ascii_high,//十位数的ASCII码input[7:0]ascii_low,//个位数的ASCII码outputreg[7:0]hex_data//输出的16进制数);reg[7<
掌握编程：数字时代的必备技能 afsdfewasdf AI编程
编程在现代社会的必要性学习编程在当今数字化时代具有显著优势。随着科技发展，编程技能已成为许多行业的基础需求，从软件开发到数据分析，甚至传统行业也在逐步依赖技术解决方案。掌握编程能力可以提升个人竞争力，开拓职业机会。就业市场需求旺盛技术岗位如软件工程师、数据科学家、人工智能专家等持续增长。非技术岗位如市场营销、金融分析也要求基础编程知识处理自动化任务或数据分析。掌握编程技能能显著提高薪资水平和职业发
Aop和Ioc有什么关系？（面试简洁版）乞讨不是罪过面试 java 职场和发展
AOP（面向切面编程）和IoC（控制反转）是Spring框架的两大核心，它们既独立又协作，共同实现松耦合、可扩展的架构设计。以下是它们的核心关系基础关系1.IoC是基石：Spring通过IoC容器（如ApplicationContext）统一管理所有Bean（包括普通业务Bean和AOP代理对象）。没有IoC，AOP无法自动生效。2.AOP是增强：AOP基于IoC管理的Bean，通过动态代理（JD
SR触发器为什么能够消抖马职音人嵌入式硬件
SR触发器（Set-Reset触发器）能够用于**消抖（Debounce）**，主要是因为它的双稳态特性和对输入信号的锁定能力。机械开关（如按键、拨动开关）在闭合或断开时，由于金属触点的弹性，会在短时间内产生多次快速通断（即“抖动”），导致信号出现多个脉冲。SR触发器可以通过其逻辑特性消除这些抖动，确保输出稳定的电平信号。---##**SR触发器消抖的原理**###**1.SR触发器的基本特性**
电赛DEEPSEEK 马职音人嵌入式硬件 stm32 学习单片机 HAL库
以下是针对竞赛题目的深度优化方案，重点解决频率接近时的滤波难题和相位测量精度问题：以下是使用NIMultisim14.3实现本项目的详细解决方案：一、基础要求实现方案（模块化设计）1.双频信号发生电路电路结构：[信号源1]XFG1（1kHz）->[电压跟随器U1A]->[加法器U2A][信号源2]XFG2（10kHz）->[电压跟随器U1B]->[加法器U2A]关键参数设置：元件清单：-运算放大器
如何修改Python安装路径壹只小小码农 python 学习开发语言
在安装软件时，很多人都会发现默认的安装路径不是他们想要的，于是就想要修改安装路径。那么如何修改安装路径呢？本文将从多个角度为大家进行分析。一、在安装向导中更改一般情况下，我们在安装软件时会看到安装向导，其中会有一个“安装路径”选项，我们可以在这里手动更改安装路径。不同软件的安装向导可能略有不同，但是一般都会有这个选项。二、使用修改器有些软件虽然没有提供修改安装路径的选项，但是我们可以使用一些修改器
基于 Kintex UltraScale 系列 2 路 QSFP+40G 光纤 PCIe 数据传输卡 / 光纤适配器（5GByte/s 带宽KU060光纤 PCIe 数据传输卡） F_white 数据中心视频与图像采集处理机器视觉
PCIE732是一款基于PCIE总线架构的高性能数据传输卡，板卡具有1个PCIex8主机接口、2个QSFP+40G光纤接口，可以实现2路QSFP+40G光纤的数据实时采集、传输。板卡采用Xilinx的高性能KintexUltraScale系列FPGA作为实时处理器，板载2组独立的72位DDR4SDRAM大容量缓存。板卡具有1个RJ45千兆以太网口以及若干IO信号。一般应用于基于服务器的雷
golang游戏开发学习笔记-开发一个简单的2D游戏(基础篇）
2.人物运动图（只展示第一帧）2.方块纹理图将资源准备完成之后，就能开始代码的开发了五.开始实现！1.资源管理在上一篇文章中我们将纹理和着色器分别封装成了两个类，这里我们创建一个资源管理类对这两个类进行管理，由于golang中是没有静态变量的，需要用包内变量对其进行模拟shader.gopackageresourceimport(“github.com/go-gl/gl/v4.1-core/gl”
【大模型】Transformer架构完全解读：从“盲人摸象“到“通晓万物“的AI进化论全栈追梦人大模型 #提示工程 transformer 架构深度学习
Transformer架构完全解读：从"盲人摸象"到"通晓万物"的AI进化论——一位大模型探索者的技术日记☕第一章：为什么说Transformer是AI界的"蒸汽机革命"？1.1从RNN到Transformer：一场效率革命场景：咖啡厅里两位开发者的对话实习生小雨：“学长，为什么现在都用Transformer？RNN不是也能处理文本吗？”资深工程师老张：（掏出纸巾画图）“想象RNN是个严格的图书管
element plus封装表单组件和跨组件的表单校验 2302_79447558 vue.js elementui javascript
最基础的表单组件封装在做项目的时候,刚开始并没有想到要做表单校验,项目又有超级多的表单要生成,所以最开始想到高度封装一个表单组件,通过参数来生成表单,并进行传值等操作下面展示了部分代码(远程搜索感觉还挺有意思的,所以保留下来了){ele.remoteFunc(ele,queryString)}"default-first-option:loading="ele.loading">import{re
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs

【Ensemble Learning】第 5 章： 使用集成学习库