简单生活FF

Random Forests C++实现：细节，使用与实验

- 1. 随机森林简介
- - 1.1 算法简介
  - 1.2 随机特性
- 2. C++实现和使用
- - 2.1 动机
  - 2.2 细节
  - - 2.2.1 算法的参数（Hyperparameters）
    - 2.2.2 关于节点分裂方式
    - 2.2.3 关于终止条件
    - 2.2.4 关于预测
  - 2.3 使用
  - - 2.3.1 命令行方式
    - 2.3.2 代码嵌入方式（推荐）
- 3. Python接口
- 4. 实验
- - 4.1 数据集
  - 4.2 参数
  - 4.3 结果
- 5. 分析
- - 5.1 参数影响
  - 5.2 特征重要性
  - 5.3 Margin
  - 5.4 多目标回归
  - 5.5 随机程度
- 6. 性能
- 参考文献

代码已同步到github randomforests
欢迎讨论

1. 随机森林简介

1.1 算法简介

随机森林（Random Forest, RF）算法是一类集成学习算法，它由统计学习界的大师级人物 Leo Breiman(1928–2005) 提出^[1]。它是若干随机树（Randomized Tree）的组合，这些随机树彼此互相独立，而且在训练样本的选择和树的生长过程中引入随机性以降低树结构分类器较高的方差。随机森林在很多应用场景下具有不错的准确性，它具备一些优良特性，比如，较少的超参，高效的训练与预测，多分类和对噪声不敏感等。这些特性使它广泛应用于不同领域，比如计算机视觉，遥感，生物信息学等。特别在计算机视觉领域，随机森林在图像分割、特征点识别、目标检测和人体部件识别等方面都有比较成功的应用。
本文并不是随机森林算法的入门，需要对RF算法具有一定的认识甚至实践经验。若想对RF有详细甚至进一步的深入了解，推荐阅读微软的技术报告^[3]，这份报告对分类森林、随机回归森林、概率密度森林等从算法和实现角度进行了介绍。也可以参考Gilles Louppe的博士论文，作者对实现细节做了非常详尽的描述^[7]。

1.2 随机特性

针对不同问题随机森林学习算法包括分类和回归两类。随机森林是一组随机树的组合，它们彼此独立且有较大差异。其中的随机树按传统分类回归树(Classification and Regression Tree, CART) 的训练方式生长到最大深度，但是不进行剪枝（pruning）。随机性主要体现在两个方面：（1）训练样本的随机选择，即使用自举重采样法（Bootstrap Sampling）为森林中每棵树生成有差异的训练样本，其本质上是 Bagging 集成学习思想。Bagging 能够提高不稳定学习算法分类和预测的准确性，即降低学习算法的方差（Variance）。因此，引入 Bagging方法可降低树结构学习算法较高的方差^[4]。（2）另一方面，随机性也体现在树中节点的分裂方式中。每个节点进行分裂时仅从参数空间中随机选择一个子集，在其中选出“最优”的分裂参数。在树的生长过程中加入随机性可以降低它们彼此之间的相关度，从而降低集成学习算法的泛化误差的上限^[1]。

2. C++实现和使用

2.1 动机

目前Random Forest的实现大多是python、R语言，C++实现存在但比较少，我所知的且好用的仅有opencv, ALGLIB。此外，上述实现一般作为一个机器学习库的一部分，或者需要科学上网才能下载，使用成本稍高。下图总结了各类RF实现。

上图来自论文：
Anne-Laure Boulesteix, Silke Janitza. Overview of random forest methodology and practical guidance with emphasis on computational biology and bioinformatics. WIREs Data Mining and Knowledge Discovery 2012, 2: 493–507.
此外，还有微软的decision forest(C++)；刚刚开源的tensorflow决策森林 (TF-DF); 基于NumPy实现的机器学习库 numpy-ml;
高度优化，并且在开源社区中速度最快的scikit-learn中的sklearn.ensemble模块，提供了许多可选参数。
… …

本文RF实现的主体代码其实在2012年就已经完成，可以用于常规的分类、回归训练，也可以用于实时应用，已经使用过的场景包括目标跟踪（实时训练+分类）、作为实时人脸检测的辅助肤色验证（离线训练+实时分类）。当年还写了篇博文《肤色检测（分割）via Random Forest》，效果还不错。今年3月以来对部分算法和交互的代码做了优化，跑了十几个数据集，并与论文中结果进行了比对，验证了算法的正确性。这版程序尽力做到实现的准确，注重代码质量提高运行性能，兼顾简洁、对用户友好。以下是本RF实现的特点：

适用于分类和回归, 支持回归的多维输出（multi-target regression)
可计算proximities，支持离群值计算（raw outlier measure score）
off-the-shelf，即插即用
提供两种使用方式：命令行与嵌入代码(C风格的C++)
提供python接口（未完待续）
支持3种随机性
可保存训练完成的模型至本地 (XML格式，可读性强)，也可读取本地模型进行预测^*
使用tinyxml2库支持xml文件的读写

2.2 细节

2.2.1 算法的参数（Hyperparameters）

MaxDepth: 树最大的深度，若传入负值则使用默认值40
TreesNum: 森林中树的数量，若传入负值则使用默认值200
SplitVariables: 用于分裂的候选特征数量，如果传入负值则使用默认值，对于分类问题设置为 $\sqrt{n\_features}$ ，对于回归问题设置为 $\frac {n\_features}3$
MinSamplesSplit: 节点还能往下分裂的最小样本数
Randomness: 1或2或3，随数字增大在节点分类的随机性增加，1为经典RF（默认），3为Etra-Trees^[4]

2.2.2 关于节点分裂方式

对于随机森林中的每棵树，在每个节点要寻找“最优”的分裂参数，使训练样本分裂后的信息增益（Information Gain, IG, 式1）最大化。IG衡量了分裂前后节点上样本不纯度（impurity）的下降幅度。对于分类森林，采用了Gini系数来计算节点不纯度；对于回归森林，采用了方差（或协方差）来描述节点不纯度。为了方便实现和控制计算量，采用了“轴平行”（axis aligned）的分裂方式（即经典RF），其他分裂方式可见微软的技术报告^[3]。
$IG=H\left ( S \right )-\sum\limits_{i={l,r}} \frac{|S^{i}|}{|S|}H\left ( S^{i} \right ) \tag{1}$
上一小节中提到的参数“Randomness”用来控制节点分裂时的随机性，实际上是控制了节点分裂时参数空间的大小，参数空间越小随机性越大。“Randomness”可选参数值为{1，2，3}，对应含义为：

“1”: Breiman的经典RF，在寻找节点分裂特征和分裂值时采用基于优化的快排+“积分”的加速方法，使时间复杂度从 $O(n^2)$ 降低到 $O(n\log{n})$ ， $n$ 为达到节点样本数（实测在elevators数据集上加速370倍，参数为[200, 40, 6, 5]）；
“2”: 从候选特征的最大值与最小值之间均匀得到 $K$ （默认为50）个候选的分裂值，再从中选择较优的特征和对应的分裂值，当 $\to \infty$ ，即为经典RF，这个方法grt (github nickgillian / grt)上也被使用；
“3”: 采用论文“Extremely randomized trees”^[4]的方法，从候选特征的最大值与最小值之间随机选择一个值作为候选，然后再选择较优的特征和对应的分裂值。

2.2.3 关于终止条件

当到达节点的样本不可分或者不必再分时，停止树的生长。具体来说，满足以下条件之一时，停止生长，RF不对树进行剪枝。

达到最大深度MaxDepth；
到达节点的样本的不纯度低于阈值：节点上样本的类别相同（适用于分类）或者样本目标值的方差为0（适用于分类回归）；
到达节点的样本数小于等于MinSamplesSplit。
以上三个条件满足其一，即终止继续生长。
注：对于分类问题，如果只满足第三个条件，但是最多和第二多类别的样本数相同，那么还需要继续往下生长。

存在特殊情况，当不满足上述“终止条件”，但从候选的SplitVariables个特征中无法获得分裂值，此时尝试从所有特征中随机选择可能的分裂值的方式。这有可能出现在达到节点样本数较少，且SplitVariables较小的场景，恰巧候选特征的值都相同。若还是不可分则停止树的生长。

2.2.4 关于预测

Final predictions are obtained by aggregating over the ensemble. — Gérard Biau

对于分类问题，可用hard descion或者soft decsion两种方式。先介绍后者，随机森林训练结束后，测试样本 $x$ 经过每棵树到达叶子节点，那么样本 $x$ 属于类别 $c$ 的概率为：
$p\left ( c\mid x \right )=\frac{1}{T}\sum_{t=1}^{T}p_{t}\left ( c\mid x \right )$
其中， $T$ 为森林中随机树的数量， $p_{t}\left ( c\mid x \right )$ 为叶子节点的类别分布。那么对 $x$ 类别的决策为：
$\hat{c}=\mathop{\arg\max}_{c\in \left \{ 1,\cdots,N_{c} \right \}}p\left ( c\mid x \right )$
以上是soft decision。对于Hard decision，每颗树输出对应的类别，然后统计出现最多的类别即为 $x$ 的类别，也就是多数投票。
对于回归问题，使用所有树输出的平均值。

2.3 使用

源码可以从github上下载：gxf1027/randomforests

2.3.1 命令行方式

linux:
自行编译

git clone https://github.com/gxf1027/randomforests.git
cd randomforests
# train，生成可执行文件rf_train
make
# test，生成可执行文件rf_test
make -e runtype=test

编译后产生以下两个可执行文件

windows:
包含 src和demo目录下对应文件，通过IDE编译即可。
训练：包含 src目录下所有文件+demo/rf_train.cpp
预测：包含 src目录下所有文件+demo/rf_test.cpp
示例1：训练

分类：./rf_train -p 0 -c RF_config.xml -d dataset.data -o ClassificationForest.xml
回归：./rf_train -p 1 -c RF_config.xml -d dataset.data -o RegressionForest.xml

-p: '0’表示分类问题，'1’表示回归问题
-c: RF的参数，通过xml文件指定
以下为参数文件的示例


<RandomForestConfig>
	<MaxDepth>40MaxDepth>
	<TreesNum>200TreesNum>
	<SplitVariables>4SplitVariables>
	<MinSamplesSplit>5MinSamplesSplit>
	<Randomness>1Randomness>
RandomForestConfig>

如果不提供参数文件，则使用默认参数

-d: 训练集数据文件，需要遵循以下格式

用于分类的数据集文件：
开头三行为样本数(totoal_sample_num), 特征数(variable_num), 类别数(class_num)
接下来每一行为一个训练样本，数字用空格分隔，其中首列为类别序号（从0开始，如对于二分类问题为0, 1）

@totoal_sample_num=19020
@variable_num=10
@class_num=2
1 86.088 36.259 3.4839 0.2359 0.1337 -12.893 -56.746 -4.0291 4.158 372.98
1 76.099 18.755 2.8639 0.3461 0.2209 -90.721 -52.015 -19.577 3.46 271.43
1 62.989 22.083 3.1191 0.2258 0.1167 -85.779 48.038 19.251 7.652 246
1 19.55 10.763 2.3201 0.6077 0.3421 8.3626 -17.38 -10.092 17.368 173.39
0 67.609 26.678 2.632 0.3851 0.2462 -56.63 -57.963 19.806 79.666 227.19
1 24.909 17.432 2.632 0.3944 0.2229 7.1171 -2.3838 -8.6055 37.114 204.79

用于回归的数据集文件：
开头三行为样本数(totoal_sample_num), 特征数(variable_num_x), 目标维度(variable_num_y)
接下来每一行为一个训练样本，数字用空格分隔，其中前’variable_num_y’列为目标值

@totoal_sample_num=4177
@variable_num_x=8
@variable_num_y=1
15 1 0.455 0.365 0.095 0.514 0.2245 0.101 0.15 
7 1 0.35 0.265 0.09 0.2255 0.0995 0.0485 0.07 
9 2 0.53 0.42 0.135 0.677 0.2565 0.1415 0.21 
10 1 0.44 0.365 0.125 0.516 0.2155 0.114 0.155 
7 3 0.33 0.255 0.08 0.205 0.0895 0.0395 0.055 
8 3 0.425 0.3 0.095 0.3515 0.141 0.0775 0.12

-o: （可选）输出RF模型到本地路径（以xml文件格式，下图为部分片段）

训练过程(以分类为例，pendigits数据集）

示例2：测试

./rf_test -p 0 -c rf_pendigits.xml -d ./DataSet/Classification/pendigits.tes -o test-pendigits.out

-c: RF模型文件，即rf_train输出到本地的模型文件
-d: 测试数据集，格式与训练集相同
-o: 输出结果至文件

2.3.2 代码嵌入方式（推荐）

包含src目录下源文件，编写训练或者预测代码。各函数及其参数在头文件中有详细说明，容易上手。以下给出训练和预测的代码片段。

训练
从本地数据文件读入数据集进行训练，计算oob-error(oob-mse)，并保存forest到本地。
（1）分类森林

#include 
using namespace std;

#include "RandomCLoquatForests.h"
#include "UserInteraction2.h"

int main()
{
	// read training samples if necessary
	char filename[500] = "./DataSet/Classification/pendigits.tra";
	float** data = NULL;
	int* label = NULL;
	Dataset_info_C datainfo;
	InitalClassificationDataMatrixFormFile2(filename, data/*OUT*/, label/*OUT*/, datainfo/*OUT*/);
	// setting random forests parameters
	RandomCForests_info rfinfo;
	rfinfo.datainfo = datainfo;
	rfinfo.maxdepth = 40;
	rfinfo.ntrees = 500;
	rfinfo.mvariables = (int)sqrtf(datainfo.variables_num);
	rfinfo.minsamplessplit = 5;
	rfinfo.randomness = 1;
	// train forest
	LoquatCForest* loquatCForest = NULL;
	TrainRandomForestClassifier(data, label, rfinfo, loquatCForest /*OUT*/, 50);// print info every 50 trees
	float error_rate = 1.f;
	OOBErrorEstimate(data, label, loquatCForest, error_rate /*OUT*/);
	// save RF model, 0:xml, 1:plain text
	SaveRandomClassificationForestModel("Modelfile.xml", loquatCForest, 0);
	// clear the memory allocated for the entire forest
	ReleaseClassificationForest(&loquatCForest);
	// release money: data, label
	for (int i = 0; i < datainfo.samples_num; i++)
   		delete[] data[i];
	delete[] data;
	delete[] label;
	return 0;
}

（2）回归森林

#include "RandomRLoquatForests.h"
#include "UserInteraction2.h"
using namespace std;

int main()
{
	// read training samples if necessary 
    char filename[500] = "./DataSet/Regression/Housing_Data_Set-R.txt"; 
	float** data = NULL;
	float* target = NULL;
	Dataset_info_R datainfo;
	InitalRegressionDataMatrixFormFile2(filename, data /*OUT*/, target /*OUT*/, datainfo /*OUT*/);
	// setting random forests parameters
	RandomRForests_info rfinfo;
	rfinfo.datainfo = datainfo;
	rfinfo.maxdepth = 40;
	rfinfo.ntrees = 200;
	rfinfo.mvariables = (int)(datainfo.variables_num_x / 3.0 + 0.5); 
	rfinfo.minsamplessplit = 5;
	rfinfo.randomness = 1; 
	rfinfo.predictionModel=PredictionModel::constant;
	rfinfo.splitCrierion = SplitCriterion::mse;
	// train forest
	LoquatRForest* loquatRForest = NULL;
	TrainRandomForestRegressor(data, target, rfinfo, loquatRForest /*OUT*/, false, 20); // print info every 20 trees
	float* mean_squared_error = NULL;
	MSEOnOutOfBagSamples(data, target, loquatRForest, mean_squared_error /*OUT*/);
	delete[] mean_squared_error;
	// save RF model, 0:xml, 1:plain text
	SaveRandomRegressionForestModel("testModelfile-R.xml", loquatRForest, 0);
	// clear the memory
	ReleaseRegressionForest(&loquatRForest);
	// release money: data, target
	for (int i = 0; i < datainfo.samples_num; i++)
		   delete[] data[i];
	delete[] data;
	delete[] target;
	return 0;
}

说明

以上代码仅为主干，实际使用需对函数返回值进行判断。
RF结构体对象loquatForest的内存由TrainRandomForestClassifier /TrainRandomForestRegressor 负责分配，由ReleaseClassificationForest /ReleaseRegressionForest 释放内存，用户无需对其分配或者释放
OOBErrorEstimate 计算out-of-bag分类错误率，输入参数data, label必须与训练时相同,MSEOnOutOfBagSamples类同
InitalClassificationDataMatrixFormFile2/InitalRegressionDataMatrixFormFile2 从本地文件读取数据集，文件格式与“命令行方式”中相同。也可以自行准备训练数据，就可以不调用上述函数。

预测

// 分类森林：label_index用于返回预测的类别
EvaluateOneSample(data, loquatForest, label_index /*OUT*/, 1);
// 回归森林：target_predicted用于返回预测的目标值
EvaluateOneSample(data, loquatForest, target_predicted /*OUT*/);

提供单个样本的分类/回归接口，对整个数据集可以循环解决。
分类森林的最后一个参数表示预测方式，1：hard，0：soft decision。

3. Python接口

未完待续

4. 实验

4.1 数据集

名称	分类/回归	来源	样本数	特征数	类别数
chess-krvk	classification	UCI	28056	6	18
Gisette	classification	UCI	6000/1000	5000	2
ionosphere	classification	UCI	351	34	2
mnist	classification	libsvm	60000/10000	780	10
MAGIC_Gamma_Telescope	classification	UCI	19020	10	2
pendigits	classification	UCI	7494/3498	16	10
spambase	classification	UCI	4601	57	2
Sensorless_drive_diagnosis	classification	UCI	58509	48	11
Smartphone Human Activity Recognition	classification	UCI	4242	561	6
waveform	classification	UCI	5000	40	3
satimage	classification	UCI	6435	36	6
Car Evaluation	classification	UCI	1728	6	4
sonar	classification	UCI	208	60	2
abalone	regression	UCI	4177	8	——
airfoil_self_noise	regression	UCI	1503	5	——
Bike-Sharing¹	regression	UCI	17379	14	——
Combined_Cycle_Power_Plant	regression	UCI	9568	4	——
elevators	regression	openml	16599	18	——
QSAR fish toxicity	regression	UCI	908	6	——
Housing	regression	kaggle	506	13	——
Parkinsons_Telemonitoring²	regression	UCI	5875	19	——
Superconductivty	regression	UCI	21263	81	——
YearPredictionMSD	regression	Million Song Dataset/ UCI	515345	90	——

Bike-Sharing: 原数据集去掉第1、2列
Parkinsons_Telemonitoring: 预测输出(output)是2维的。将原数据集第1列（subject number）去掉，UCI网站上记录“Number of Attributes：26”但根据下载的数据集只有22维（包括2维output)

4.2 参数

使用2.2中参数，下一小节表格中“参数”列为 [TreesNum, SplitVariables, MaxDepth, MinSamplesSplit] （randomness均为1，即经典RF）。实验并没有对参数进行调优，而是根据经验选取了个人认为比较合理的参数组合。实验目的一方面是为了验证算法实现的正确性，另一方面也想说明RF对参数敏感度较低（相比SVM）。

Clearly, some algorithms such as glmnet and svm are much more tunable than the others,
while ranger(random forest) is the algorithm with the smallest tunability.^[6]

4.3 结果

如果没有特殊说明，分类和回归问题的实验结果分别通过out-of-bag分类错误率（%）和out-of-bag 均方误差(Mean Square Error (MSE))来统计，结果运行10次取平均和标准差。可以看到，大多数数据集都采用了默认的参数，也能达到较理想效果。

The out-of-bag (oob) error estimate
…This has proven to be unbiased in many tests^[2].

数据集	参数	oob error(%)/mse	分类/回归
chess-krvk	[500, 2^*, 40, 5]	16.46636±0.07493	C
Gisette	[200, 70^*, 40, 5]	2.932105±0.10090(oob) 3.010±0.13333(test set)	C
ionosphere	[200, 5^*, 40, 5]	6.325±0.213	C
mnist	[200, 27^*, 40, 5]	3.307166±0.02863(oob) 3.066±0.0665(test set)	C
MAGIC_Gamma_Telescope	[200, 3^*, 40, 5]	11.8559±0.04347	C
pendigits	[200, 4^*, 40, 5]	0.880822±0.03428(oob) 3.670668±0.049843(test set)	C
spambase	[200, 7^*, 40, 5]	4.514335±0.10331	C
satimage	[500, 6^*, 40, 5]	8.102018±0.057777	C
Sensorless_drive_diagnosis	[200, 6^*, 40, 5]	0.169049±0.009346	C
Smartphone Human Activity Recognition	[200, 23^*, 40, 5]	7.39415±0.1159	C
waveform	[500, 6^*, 40, 5]	14.70493±0.19792	C
Car Evaluation	[200,2^*,40,5]	1.9456±0.11923	C
sonar	[200,7^*,40,2]	14.961±0.8646	C
abalone	[500, 3^#, 40, 5]	4.58272±0.008826	R
airfoil_self_noise	[200, 2/5, 40, 5]	3.83345±0.034283	R
Bike-Sharing	[500, 5^#, 40, 5]	29.7227±0.84333	R
Combined_Cycle_Power_Plant	[200, 2/4, 40, 5]	9.94693±0.031153	R
elevators	[200, 10/18, 40, 5]	7.1859E-06±3.15264E-08	R
QSAR fish toxicity	[200, 2^#, 40, 2]	0.7669898±0.003282	R
Housing	[200, 4^#, 40, 5]	10.077±0.1923	R
Parkinsons_Telemonitoring³	[200,19,40,5]	[1.437, 2.523]±[0.01706, 0.03033]	R
Superconductivty	[200, 27^#, 40, 5]	81.4527±0.2781	R
YearPredictionMSD	[100, 30^#, 40, 50]	83.1219±0.05236	R

*: 表示使用分类森林默认的 $\sqrt{variable\_num}$ 作为SplitVariables参数;
#:表示使用回归森林默认的 $\frac {variable\_num\_x}3$ 作为SplitVariables参数
3: Parkinsons_Telemonitoring的预测输出是2维的，本算法并不是把它分解为两个独立回归问题，而是直接使用多维输出数据进行训练。

5. 分析

5.1 参数影响

通常RF在默认参数设定下也能取得较理想的效果，通过对参数（见2.2节）调优可以获得更佳的分类/回归效果。一般可以对TreesNum和SplitVariables进行调优。通常认为增加TreesNum会使泛化误差下降（当然也有特例）。如下图，展示了随着树增加，oob error/oob-mse呈现下降的趋势。

SplitVariables是控制RF随机性的主要参数，当它增加时树之间的关联性也随之增加，而关联性增加会导致分类/回归误差提高^[2]。从可调性(Tunability)角度考虑，调节SplitVariables对性能提升的贡献是最大的。而SplitVariables选择默认设定时，通常也能取得不错的效果。

The correlation between any two trees in the forest. Increasing the correlation increases the forest error rate.^[2]
In ranger(random forest) mtry is the most tunable parameter which is already common knowledge and is implemented in software packages such as caret.^[6]

下图为pendigits数据集上，不同SplitVariables（样本为16维，TreesNum=500）参数下的分类oob error。

5.2 特征重要性

特征重要性(variable importance)的评估是RF“自带”的一个特性。采用oob数据的特征随机交换的方法来估计特征重要性。对于数据集"waveform"，结果如下图所示，可见后一半特征的重要性几乎为0，这是因为waveform的后19维特征是随机噪声，因此variable importance计算结果符合上述情况。

5.3 Margin

Margin可以用来度量分类器对分类结果的可信程度，如果margin值很低，说明分类结果可信度不高。随机森了的margin可以这么定义^[1]：
$mg(X,Y)=av_k{I(h_k(X)=Y)}-max_{j \neq Y} av_k{I(h_k(X)=j)}$
公式含义就是样本被分到正确类别 $Y$ 的概率—被分到其他类别 $j\neq Y$ 的最大概率。

The margin measures the extent to which the average number of votes at X,Y for the right class exceeds the average vote for any other class. The larger the margin, the more confidence in the classification^[1].

实验使用mnist数据集，下图展示oob样本的平均margin与随机森林中树数量的关系，"概率"为样本被分为某类的oob随机树数量/所有该样本oob树数量。可以看到训练集平均margin值随着随机树数量增加而提升。

5.4 多目标回归

这里多目标指的是回归目标是多维的，一般称为multivariate regression或者multi-target regression。可以将多维目标分解为多个单独的回归问题，即可以对每一维输出输出单独训练一个模型，那么输出有 $N$ 维就要训练 $N$ 个随机森林模型，预测时也要获取多个随机森林的输出。使用随机森林也可以直接对多维输出（多目标）进行训练，这里也使用这种方法对多维输出进行预测。
使用Tetuan-City-power-consumption数据集来进行试验，原始数据集是通过时间、温度、湿度、风速等6个变量来预测城市3个配电网的能源消耗，即输入6维，输出3维。由于“时间”变量难以使用，所以分解为[minute,hour,day,month,weekday,weekofyear] 6个变量，加上原始的5个气象变量，形成新的11维输入。RF参数为[200, 3^#, 60, 2]（参数含义见4.2节）。由于输出具有明确物理含义，且都是正数，衡量回归准备度的指标不再使用oob-mse，而是使用oob样本的平均偏离度 $\frac {|t_{predict}-t|}{t}$ 。下图反映了当RF中随机树数量增加时，三个输出维度的平均偏离度变化。可以看到随着随机树增加，偏离度呈下降趋势，基本都在200颗树时达到<1.8%的回归准确度。

5.5 随机程度

在每个节点分裂时可选三种随机性，在"2.2.2 关于节点分裂方式"小节中已经有详细说明。
根据实验，并没有发现选择哪种随机性能明显优于其它选择，也没有证据证明哪种随机性在大多数数据集上呈现一致的优势。以下展示两个数据集上三种随机性oob-error和oob-mse与随机树的关系。

有关上图的一些说明：

参数1–week：传统的随机森林算法;
参数2–moderate：在特征（变量）最大值与最小值之间平均划分N个切分点的方法;
参数3–extreme：extremely randomized trees方法，在特征（变量）最大值与最小值范围内随机选取切分值。

在mnist数据集上使用三种分裂随机方法，RF模型中每棵随机树的平均深度、节点数量和叶子节点数量见下表。可见随着随机性增加，深度和节点数量也随之增加，符合预期。

节点分裂方法	平均深度	平均/最大节点数	平均/最大叶子节点数
week	28.8	8050.1/8545	4025.6/4273
moderate	28.9	8153.8/8619	4077.4/4310
extreme	31.7	11982.1/12859	5991.5/6430

6. 性能

训练的速度（耗时）是算法性能的重要指标，为验证本算法的训练性能表现，在典型数据集上，对比了本算法与RTrees（opencv的随机森林实现）的训练耗时。OpenCV的RTrees使用C++实现，提供python接口，以下实验中两种算法的参数尽量保持一致。

实验结果

所有实验都运行5次取平均数，OpenCV版本为4.1.2，需要说明的是：RTrees最大深度(MaxDepth)的最大值为25。实验环境：win64，CPU：3.7GHz，内存：12G。实验参数如下表。

数据集	OpenCV-RF	本文RF-D40	本文RF-D25
mnist	[200, 27*, 25, 5]	[200, 27*, 40, 5]	[200, 27*, 25, 5]
spambase	[200, 7*, 25, 5]	[200, 7*, 40, 5]	[200, 7*, 25, 5]

mnist数据集上的运行结果

mnist	OpenCV-RF	本文RF-D40	本文RF-D25
耗时(s)	207.12	213.90	213.92
平均深度/树	–	29.6	25
平均节点数/树	–	8060	8032

spambase数据集上的运行结果

spambase	OpenCV-RF	本文RF-D40	本文RF-D25
耗时(s)	2.69	1.87	1.71
平均深度/树	–	32.5	25
平均节点数/树	–	569.5	531

从实验结果看，本文算法的训练速度基本接近RTrees，验证了本算法在实现上基本接近了常用开源代码的水平。令人不解的一点是，在mnist数据集上，RF-D25并没有因为树的深度减少而使训练耗时减少，从节点数来看D25平均每棵树的节点要比D40少30个节点左右，可能是因为到达最后几层树节点的样本实际非常少，所以在它们上的分裂计算量少到忽略不计了。

附：opencv训练RTrees的python代码核心片段（以mnist数据集为例）

import cv2
import numpy as np
......
# 读取数据集，X：样本，Y：类别
......
rf=cv2.ml.RTrees_create()
rf.setActiveVarCount(27)
rf.setMinSampleCount(5)
rf.setMaxDepth(40) # RTrees的最大深度的最大值为25，这里设置为40，而实际上用于训练的参数为25
rf.setTermCriteria((1,200,0.0))
X=X.astype(np.float32)
Y=Y.astype(np.int32)
traindata=cv2.ml.TrainData_create(X,cv2.ml.ROW_SAMPLE,Y)
rf.train(traindata)  # 对trian进行计时

参考文献

[1]. Breiman, L. Random Forests . Machine Learning 45, 5–32, 2001.

[2]. Leo Breiman, Adele Cutler. Random Forest Homepage on berkeley website.

[3]. Antonio Criminisi, Ender Konukoglu, Jamie Shotton. Decision Forests for Classification, Regression, Density Estimation, Manifold Learning and Semi-Supervised Learning. MSR-TR-2011-114, 2011.

[4]. P. Geurts, D. Ernst, and L. Wehenkel. Extremely randomized trees . Machine Learning, 63(1), 2006: 3-42.

[5]. Manuel Fernández-Delgado, Eva Cernadas, Senén Barro, Dinani Amorim. Do we Need Hundreds of Classifiers to Solve Real World Classification Problems? Journal of Machine Learning Research, 15(90):3133−3181, 2014.

[6]. Philipp Probst, Anne-Laure Boulesteix, Bernd Bischl. Tunability: Importance of Hyperparameters of Machine Learning Algorithms. Journal of Machine Learning Research, 20(53):1−32, 2019.

[7]. Gilles Louppe. Understanding Random Forests: From Theory to Practice. PhD thesis, 2014, arXiv:1407.7502.

你可能感兴趣的:(随机森林,机器学习,随机森林,random,forest)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
用Python实现简单的猜数字游戏程序媛了了 python 游戏 java
猜数字游戏代码：importrandomdefpythonit():a=random.randint(1,100)n=int(input("输入你猜想的数字："))whilen!=a:ifn>a:print("很遗憾，猜大了")n=int(input("请再次输入你猜想的数字："))elifna::如果玩家猜的数字n大于随机数字a，则输出"很遗憾，猜大了"，并提示玩家再次输入。elifn
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
基于Google authentic实现的双因子登录认证系统前后台基于SSMP+Vue+Element（解决SecureRandom造成的服务器请求缓慢） Tate_Brown git JAVA IDEA DEBUG VUE
用md5两次加盐密码，可以灵活更换算法--直接上代码地址：JAVA后台：https://github.com/TateBrownJava/TwoFALogindemoBackendVue前端：https://github.com/TateBrownJava/TwoFALoginDemofrontend-------------------------------------------------
Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
Open3D 使用RANSAC分割平面今夕是何年，单目+双目计算机视觉
目录1，概述2，拟合平面3，实现过程4，主要函数：defsegment_plane(self,distance_threshold,ransac_n,num_iterations):'''5，代码实现6，结果展示1，概述随机抽样一致性算法QRANSAC(Randomsampleconsensus)是一种迭代的方法来从一系列包含有离异值的数据中计算数学模型参数的方法。RANSAC算法本质上由两步组成
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
Python 初学者入门必知： Anaconda是什么？有什么作用？怎么使用？懒大王爱吃狼 Python基础 python 开发语言 python基础 python学习 anaconda anaconda安装 python教程
初学者在学习Python时，经常看到的一个名字是Anaconda。究竟什么是Anaconda，为什么它如此受欢迎？在这篇文章中，我们将探讨Anaconda，了解Anaconda的从安装到使用的。Anaconda是一个免费开源的Python和R编程发行版，包含上千个适用于数据科学和机器学习的包。同时，配备了Spyder和Jupyternotebook等工具，初学者可以使用它们来学习Python，使用
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在