jura666

线性回归算法梳理

1. 机器学习的一些概念
- 监督式学习
- 无监督的学习
- 泛化能力
- 过拟合
- 欠拟合
- 交叉验证
2. 线性回归的原理
- 理论模型
- 数据和估计
3. 线性回归损失函数、代价函数、目标函数
- 损失函数
- 代价函数
- 目标函数
4. 优化方法
- 梯度下降法
- 牛顿法
- 拟牛顿法
5.线性回归的评估指标
- 均方误差（MSE）
- 均方根误差（RMSE）
- 平均绝对误差(MAE）
- R方（R Squared)
6. sklearn参数详解
- 聚类算法
- Adaboost
- GBDT
- 随机森林
- LR模型
- 贝叶斯
- 决策树
- SVM

1. 机器学习的一些概念

监督式学习

监督式学习（Supervised learning），是机器学习的一种方法，可以由训练数据集中学到或建立一个模式（learning model），并依此模式推测新的实例。训练数据集是由输入物件（通常是向量）和预期输出所组成。函数的输出可以是一个连续的值（称为回归分析），或是预测一个分类标签（称作分类）。从训练数据集学习算法的过程可以被认为是监督学习的过程的教师。我们知道正确答案，算法迭代地对训练数据进行预测，并由教师纠正。当算法达到可接受的性能水平时，学习停止。

无监督的学习

无监督的学习（Unsupervised learning）也是机器学习的一种方法，没有给定事先标记过的训练示例，自动对输入的数据进行分类或分群。与监督式学习不同，无监督的学习没有正确的答案，也没有教师，算法由自己设计，来发现和呈现数据中的有趣结构。

泛化能力

泛化能力（generalization ability）是指机器学习算法对新鲜样本的适应能力。学习的目的是学到隐含在数据背后的规律，对具有同一规律的学习集以外的数据，经过训练的网络也能给出合适的输出，该能力称为泛化能力。我们也叫作举一反三的能力，或者叫做学以致用的能力。

过拟合

我们训练一个机器学习算法，通过感性的告诉机器一个加上一个等于两个，之后算法通过自己的学习，推广计算多位数的加减法，多位数的加减法是无穷多个的，如果机器在不断的测试中都能够算对，那么我们认为机器已经总结出了加法的内部规律并且能够学以致用，如果说机器只会计算你给机器看过的比如2+2=4，而不会计算没有教过的5+7=12，那么我们认为机器只是死记硬背，并没有学以致用的能力，也就是说泛化能力非常的低，同时我们也把这种现象叫做这个算法过拟合（over-fitting）。过拟合通常可以理解为，模型的复杂度要高于实际的问题，所以就会导致模型死记硬背的记住，而没有理解背后的规律。就比如说人脑要比唐诗复杂得多，即使不理解内容，我们也能背下来，但是理解了内容和写法对于我们理解记忆其他唐诗有好处，如果死记硬背那么就仅仅记住了而已。过拟合图示如下

欠拟合

欠拟合（under-fitting）是和过拟合相对的现象，可以说是模型的复杂度较低，没法很好的学习到数据背后的规律。就好像开普勒在总结天体运行规律之前，他的老师第谷记录了很多的运行数据，但是都没法用数据去解释天体运行的规律并预测，这就是在天体运行数据上,人们一直处于欠拟合的状态，只知道记录过的过去是这样运行的，但是不知道道理是什么。欠拟合图示如下

交叉验证

交叉验证（Cross-validation），有的时候也称作循环估计（Rotation Estimation），是一种统计学上将数据样本切割成较小子集的实用方法，该理论是由Seymour Geisser提出的。
交叉验证的基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set or test set),首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标。

2. 线性回归的原理

理论模型

在统计学中，线性回归（linear regression）是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归，大于一个自变量情况的叫做多元回归。
给一个随机样本 $Y_i,X_{i1},...,X_{ip}),i=1,...,n$ ,一个线性回归模型假设回归子 $Y_i$ 和回归量 $X_{i1},...,X_{ip}$ 之间的关系是除了 $X$ 的影响以外，还有其他的变量存在。我们加入一个误差项 $\varepsilon_i$ （也是一个随机变量）来捕获除了 $X_{i1},...,X_{ip}$ 之外任何对 $Y_i$ 的影响。所以一个多变量线性回归模型表示为以下的形式：
$Y_i=\beta_0+\beta_1X_{i1}+\beta_2X_{i2}+...+\beta_pX_{ip}+\varepsilon_i, \space\space\space\space i=1,...,n$
其他的模型可能被认定成非线性模型。一个线性回归模型不需要是自变量的线性函数。线性在这里表示 $Y_i$ 的条件均值在参数 $\beta$ 里是线性的。例如：模型 $Y_i=\beta_1X_{i}+\beta_2X_{i}^2+\varepsilon_i$ 在 $\beta_1$ 和 $\beta_2$ 里是线性的，但在 $X_i^2$ 里是非线性的，它是 $X_i$ 的非线性函数。

数据和估计

区分随机变量和这些变量的观测值是很重要的。通常来说，观测值或数据（以小写字母表记）包括了n个值 $(y_i,x_i,...,x_{ip}), \space i=1,...,n$
我们有 p+1个参数 $\beta_0,...,\beta_p$ 需要决定，为了估计这些参数，使用矩阵表记是很有用的。
$Y=X\beta+\varepsilon$
其中Y是一个包括了观测值 $Y_1,...,Y_n$ 的列向量， $\varepsilon$ 包括了未观测的随机成分 $\varepsilon_1,...,\varepsilon_n$ 以及回归量的观测值矩阵 $X$ ：
$X=\begin{pmatrix}1&x_{11}&.&.&.&x_{1p}\\1&x_{21}&.&.&.&x_{2p}\\.&.&.&&&.\\.&.&&.&&.\\.&.&&&.&.\\1&x_{n1}&.&.&.&x_{np}\end{pmatrix}$
$X$ 通常包括一个常数项。
如果 $X$ 列之间存在线性相关，那么参数向量 $\beta$ 就不能以最小二乘法估计除非 $\beta$ 被限制，比如要求它的一些元素之和为0。

3. 线性回归损失函数、代价函数、目标函数

损失函数

线性回归的损失函数是平方损失函数。在线性回归中，对于训练数据样本 $x_i,y_i)$ ，我们有如下的拟合直线： $\hat{y_i}=\theta\cdot x_i$ 构建的损失函数是 $C=\displaystyle\sum_{i=1}^n(y_i-\hat{y_i})^2$ 表示每一个训练点 $x_i,y_i)$ 到拟合直线 $\hat{y_i} =\theta\cdot x_i$ 的竖直距离的平方和，通过最小化上面的损失函数可以求得拟合直线的最佳参数 $\theta$ 。
这里的损失函数之所以使用平方形式，是使用了“最小二乘法”的思想，这里的“二乘”指的是用平方来度量观测点与估计点的距离（远近），“最小”指的是参数值要保证各个观测点与估计点的距离的平方和达到最小。

代价函数

代价函数（cost function）用于评价线性回归，其公式为： $J(\theta_0,\theta_1)=\frac{1}{2m}\displaystyle\sum_{i=1}^m(h_\theta(x^{(i)}-y^{(i)})^2$ 计算方式是计算每一个点在当前假设函数情况下，偏差的平方和，再取平均数。m即表示一共取了几个点进行判断。

目标函数

目标函数是让代价函数最小的函数即 $min=\frac{1}{2m}\displaystyle\sum_{i=1}^m(h_\theta(x^{(i)}-y^{(i)})^2$

4. 优化方法

梯度下降法

梯度下降法（Gradient Descent）是一个最优化算法，通常也称为最速下降法。最速下降法是求解无约束优化问题最简单和最古老的方法之一，虽然现在已经不具有实用性，但是许多有效算法都是以它为基础进行改进和修正而得到的。最速下降法是用负梯度方向为搜索方向的，最速下降法越接近目标值，步长越小，前进越慢。可以用于求解非线性方程组.
梯度下降法参数的更新有两种形式，第一种遍历全部数据集算一次损失函数，然后算函数对各个参数的梯度，更新梯度。这种方法每更新一次参数都要把数据集里的所有样本都看一遍，计算量开销大，计算速度慢，不支持在线学习，这称为Batch gradient descent，批梯度下降。第二种每看一个数据就算一下损失函数，然后求梯度更新参数，这个称为随机梯度下降（stochastic gradient descent）。这个方法速度比较快，但是收敛性能不太好，可能在最优点附近晃来晃去，找不到最优点。两次参数的更新也有可能互相抵消掉，造成目标函数震荡的比较剧烈。
为了克服两种方法的缺点，现在一般采用的是一种折中手段，小批的梯度下降（mini-batch gradient decent），这种方法把数据分为若干个批，按批来更新参数，这样，一个批中的一组数据共同决定了本次梯度的方向，下降起来就不容易跑偏，减少了随机性。另一方面因为批的样本数与整个数据集相比小了很多，计算量也不是很大。

牛顿法

牛顿法（Newton’s method）是一种在实数域和复数域上近似求解方程的方法。方法使用函数f (x)的泰勒级数的前面几项来寻找方程f (x) = 0的根。牛顿法最大的特点就在于它的收敛速度很快。牛顿法的步骤为：首先，选择一个接近函数 f (x)零点的 $x_0$ ，计算相应的 $f (x_0)$ 和切线斜率 $f^{'}(x_0)$ 。然后我们计算穿过点 $x_0, f (x_0))$ 并且斜率为 $f^{'}(x_0)$ 的直线和 X轴的交点的X坐标，也就是求如下方程的解： $x\cdot f^{'}(x_0)+f(x_0)-x_0\cdot f^{'}(x_0)=0$ 我们将新求得的点的 x 坐标命名为 $x_1$ ，通常 $x_1$ 会比 $x_0$ 更接近方程f (x) = 0的解。因此我们现在可以利用 $x_1$ 开始下一轮迭代。迭代公式可化简为如下所示： $x_{n+1}=x_n-\frac {f(x_n)}{f^{'}(x_n)}$ 已经证明，如果 $f ^{'}$ 是连续的，并且待求的零点x是孤立的，那么在零点x周围存在一个区域，只要初始值 $x_0$ 位于这个邻近区域内，那么牛顿法必定收敛。并且，如果$f ^{’} (x)不为0, 那么牛顿法将具有平方收敛的性能。

拟牛顿法

拟牛顿法（Quasi-Newton Methods）的本质思想是改善牛顿法每次需要求解复杂的Hessian矩阵的逆矩阵的缺陷，它使用正定矩阵来近似Hessian矩阵的逆，从而简化了运算的复杂度。拟牛顿法和最速下降法一样只要求每一步迭代时知道目标函数的梯度。通过测量梯度的变化，构造一个目标函数的模型使之足以产生超线性收敛性。这类方法大大优于最速下降法，尤其对于困难的问题。另外，因为拟牛顿法不需要二阶导数的信息，所以有时比牛顿法更为有效。如今，优化软件中包含了大量的拟牛顿算法用来解决无约束，约束，和大规模的优化问题。
　拟牛顿法的基本思想如下。首先构造目标函数在当前迭代xk的二次模型：
$m_k(p)=f(x_k)+\nabla f(x_k)^Tp+\frac{p^TB_kp}{2}$ $p_k=-B_k^{-1}\nabla f(x_k)$
这里 $B_k$ 是一个对称正定矩阵，于是我们取这个二次模型的最优解作为搜索方向，并且得到新的迭代点： $x_{k+1}=x_k+a_kp_k$ 其中我们要求步长 $a_k$ 满足Wolfe条件。这样的迭代与牛顿法类似，区别就在于用近似的Hesse矩阵 $B_k$ 代替真实的Hesse矩阵。所以拟牛顿法最关键的地方就是每一步迭代中矩阵 $B_k$ 的更新。现在假设得到一个新的迭代 $x_{k+1}$ ，并得到一个新的二次模型： $m_{k+1}(p)=f(x_{k+1})+\nabla f(x_{k+1})^Tp+\frac{p^TB_{k+1}p}{2}$ 我们尽可能地利用上一步的信息来选取 $B_k$ 。具体地，我们要求 $\nabla f(x_{k+1})-\nabla f(x_k)=a_kB_{k+1}p_k$ 从而得到 $B_{k+1}(x_{k+1}-x_k)=\nabla f(x_{k+1})-\nabla f(x_k)$ 这个公式被称为割线方程。常用的拟牛顿法有DFP算法和BFGS算法。

5.线性回归的评估指标

均方误差（MSE）

方均误差（Mean Squared Error）公式如下 $\frac{1}{m}\displaystyle\sum_{i=1}^m (y_i-\hat{y_i})^2$

均方根误差（RMSE）

均方根误差（Root Mean Squard Error）公式如下： $\sqrt{\smash[b]{\frac{1}{m}\displaystyle\sum_{i=1}^m (y_i-\hat{y_i})^2}}$

平均绝对误差(MAE）

平均绝对误差(Mean Absolute Error)公式如下： $\frac{1}{m}\displaystyle\sum_{i=1}^m \vert y_i-\hat{y_i}\vert$

R方（R Squared)

R方公式如下： $R^2=1-\frac{SS_{residual}}{SS_{total}}$

6. sklearn参数详解

聚类算法

class sklearn.cluster.KMeans
    (n_clusters=8, init='k-means++', n_init=10, max_iter=300, 
    tol=0.0001, precompute_distances='auto', verbose=0, 
    random_state=None, copy_x=True, n_jobs=1, algorithm='auto')

n_clusters:质心数量，也就是分类数，默认是8个。
init:初始化质心的选取方式，主要有下面三种参数可选，‘k-means++’、‘random’ or an ndarray，默认是’k-means++’。因为初始质心是随机选取的，会造成局部最优解，所以需要更换几次随机质心，这个方法在sklearn中通过给init参数传入=“k-means++”即可。
n_init:随机初始化的次数，kmeans质心迭代的次数。
max_iter:最大迭代次数，默认是300。
tol:误差容忍度最小值。
precompute_distances:是否需要提前计算距离，auto,True,False三个参数值可选。默认值是auto，如果选择auto，当样本数*质心数>12兆的时候，就不会提前进行计算，如果小于则会与提前计算。提前计算距离会让聚类速度很快，但是也会消耗很多内存。
copy_x:主要起作用于提前计算距离的情况，默认值是True,如果是True,则表示在源数据的副本上提前计算距离时，不会修改源数据。
algorithm：优化算法的选择，有auto、full和elkan三种选择。full就是一般意义上的K-Means算法，elkan是使用的elkan K-Means算法。默认的auto则会根据数据值是否是稀疏的(稀疏一般指是有大量缺失值)，来决定如何选择full和elkan。如果数据是稠密的，就选择elkan K-means，否则就使用普通的Kmeans算法。

Adaboost

class sklearn.ensemble.AdaBoostClassifier(base_estimator=None, 
	n_estimators=50, learning_rate=1.0, algorithm='SAMME.R', 
	random_state=None)

base_estimator:基分类器，默认是决策树，在该分类器基础上进行boosting，理论上可以是任意一个分类器，但是如果是其他分类器时需要指明样本权重。
n_estimators:基分类器提升（循环）次数，默认是50次，这个值过大，模型容易过拟合；值过小，模型容易欠拟合。
learning_rate:学习率，表示梯度收敛速度，默认为1，如果过大，容易错过最优值，如果过小，则收敛速度会很慢；该值需要和n_estimators进行一个权衡，当分类器迭代次数较少时，学习率可以小一些，当迭代次数较多时，学习率可以适当放大。
algorithm:boosting算法，也就是模型提升准则，有两种方式SAMME, 和SAMME.R两种，默认是SAMME.R，两者的区别主要是弱学习器权重的度量，前者是对样本集预测错误的概率进行划分的，后者是对样本集的预测错误的比例，即错分率进行划分的，默认是用的SAMME.R。
random_state:随机种子设置。
关于Adaboost模型本身的参数并不多，但是我们在实际中除了调整Adaboost模型参数外，还可以调整基分类器的参数，关于基分类的调参，和单模型的调参是完全一样的，比如默认的基分类器是决策树，那么这个分类器的调参和我们之前的Sklearn参数详解——决策树是完全一致。

GBDT

class sklearn.ensemble.GradientBoostingClassifier(loss='deviance',
	learning_rate=0.1, n_estimators=100, subsample=1.0, 
 	criterion='friedman_mse', min_samples_split=2,
 	 min_samples_leaf=1, min_weight_fraction_leaf=0.0, 
 	 max_depth=3, min_impurity_decrease=0.0, 
 	 min_impurity_split=None, init=None, random_state=None,
 	 max_features=None, verbose=0, max_leaf_nodes=None,
 	 warm_start=False,presort='auto')

loss:损失函数度量，有对数似然损失deviance和指数损失函数exponential两种，默认是deviance，即对数似然损失，如果使用指数损失函数，则相当于Adaboost模型。
criterion: 样本集的切分策略，决策树中也有这个参数，但是两个参数值不一样，这里的参数值主要有friedman_mse、mse和mae3个，分别对应friedman最小平方误差、最小平方误差和平均绝对值误差，friedman最小平方误差是最小平方误差的近似。
subsample:采样比例，这里的采样和bagging的采样不是一个概念，这里的采样是指选取多少比例的数据集利用决策树基模型去boosting，默认是1.0，即在全量数据集上利用决策树去boosting。
warm_start:“暖启动”，默认值是False，即关闭状态，如果打开则表示，使用先前调试好的模型，在该模型的基础上继续boosting，如果关闭，则表示在样本集上从新训练一个新的基模型，且在该模型的基础上进行boosting。

随机森林

class sklearn.ensemble.RandomForestClassifier（
    n_estimators=10, criterion='gini', max_depth=None, 
    min_samples_split=2, min_samples_leaf=1, 
    min_weight_fraction_leaf=0.0,
    max_features='auto', max_leaf_nodes=None, 
    min_impurity_decrease=0.0, 
    min_impurity_split=None, bootstrap=True, 
    oob_score=False, n_jobs=1, 
    random_state=None, verbose=0, warm_start=False, 
    class_weight=None)

n_estimators:随机森林中树的棵树，默认是10棵。
criterion:样本集切分策略，默认是gini指数，此时树模型为CART模型，当值选为信息增益的时候，模型就成了ID3模型，默认为CART模型。
bootstrap:是统计学中的一种重采样技术，可以简单理解成是有放回地抽样，默认是True,即采取有放回抽样这种策略，这不就是bagging的思想么。
oob_score:袋外估计(out-of-bag)，这个外是针对于bagging这个袋子而言的，我们知道，bagging采取的随机抽样的方式去建立树模型，那么那些未被抽取到的样本集，也就是未参与建立树模型的数据集就是袋外数据集，我们就可以用这部分数据集去验证模型效果，默认值为False。

LR模型

sklearn.linear_model.LogisticRegression(penalty='l2',
	 dual=False,tol=0.0001, C=1.0, fit_intercept=True,
	 intercept_scaling=1,class_weight=None, random_state=None, 
	 solver='liblinear',max_iter=100, multi_class='ovr', 
	 verbose=0, warm_start=False, n_jobs=1)‍

penalty:正则化选择参数，参数可选值为l1和l2，分别对应l1正则化和l2正则化，默认是l2正则化。
penalty参数的选择会影响我们损失函数优化算法的选择，即参数solver的选择，如果是l2正则化，可选的优化算法 {‘newton-cg’, ‘lbfgs’, ‘liblinear’, ‘sag’}都可以选择。但是如果penalty是L1正则化的话，就只能选择‘liblinear’了。这是因为L1正则化的损失函数不是连续可导的，而{‘newton-cg’, ‘lbfgs’,‘sag’}这三种优化算法时都需要损失函数的一阶或者二阶连续导数。而‘liblinear’并没有这个依赖。
dual:用来指明是否将原问题改成他的对偶问题，对偶问题可以理解成相反问题，比如原问题是求解最大值的线性规划，那么他的对偶问题就是转化为求解最小值的线性规划，适用于样本较小的数据集，因样本小时，计算复杂度较低。
tol:残差收敛条件，默认是0.0001，也就是只需要收敛的时候两步只差＜0.0001就停止，可以设置更大或更小。(逻辑回归模型的损失函数是残差平方和)
C:正则化系数，正则化强度的导数，必须是一个正数，值越小，正则化强度越大，即防止过拟合的程度更大。
fit_intercept:是否将截距/方差加入到决策模型中，默认为True。
class_weight:class_weight是很重要的一个参数，是用来调节正负样本比例的，默认是值为None，也就是正负样本的权重是一样的，你可以以dict的形式给模型传入任意你认为合适的权重比，也可以直接指定一个值“balanced”，模型会根据正负样本的绝对数量比来设定模型最后结果的权重比。比如，有一数据集的正负样本绝对数量比为4:6,如果你给参数class_weight赋予balanced值，那么最后模型结果中，正负样本的权重比就会变成6:4。
random_state:随机种子的设置，默认是None,如果设置了随机种子，那么每次使用的训练集和测试集都是一样的，这样不管你运行多少次，最后的准确率都是一样的；如果没有设置，那么每次都是不同的训练集和测试集，最后得出的准确率也是不一样的。
solver:用来指明损失函数的优化方法，默认是‘liblinear’方法

贝叶斯

高斯朴素贝叶斯

class sklearn.naive_bayes.GaussianNB(priors=None)

priors:先验概率大小，如果没有给定，模型则根据样本数据自己计算（利用极大似然法）。

多项式分布贝叶斯

class sklearn.naive_bayes.MultinomialNB(alpha=1.0, 
	fit_prior=True, class_prior=None)

alpha:先验平滑因子，默认等于1，当等于1时表示拉普拉斯平滑。
fit_prior:是否去学习类的先验概率，默认是True
class_prior:各个类别的先验概率，如果没有指定，则模型会根据数据自动学习，每个类别的先验概率相同，等于类标记总个数N分之一。

伯努利朴素贝叶斯

class sklearn.naive_bayes.BernoulliNB(alpha=1.0, 
	binarize=0.0, fit_prior=True, class_prior=None)

alpha:平滑因子，与多项式中的alpha一致。
binarize:样本特征二值化的阈值，默认是0。如果不输入，则模型会认为所有特征都已经是二值化形式了；如果输入具体的值，则模型会把大于该值的部分归为一类，小于的归为另一类。
fit_prior:是否去学习类的先验概率，默认是True
class_prior:各个类别的先验概率，如果没有指定，则模型会根据数据自动学习，每个类别的先验概率相同，等于类标记总个数N分之一。

决策树

sklearn.tree.DecisionTreeClassifier
        (criterion='gini', splitter='best', max_depth=None, 
        min_samples_split=2, min_samples_leaf=1,
        min_weight_fraction_leaf=0.0, max_features=None, 
        random_state=None, max_leaf_nodes=None, 
        min_impurity_decrease=0.0,min_impurity_split=None, 
        class_weight=None, presort=False)

criterion:特征选择的标准，有信息增益和基尼系数两种，使用信息增益的是ID3和C4.5算法（使用信息增益比），使用基尼系数的CART算法，默认是gini系数。
splitter:特征切分点选择标准，决策树是递归地选择最优切分点，spliter是用来指明在哪个集合上来递归，有“best”和“random”两种参数可以选择，best表示在所有特征上递归，适用于数据集较小的时候，random表示随机选择一部分特征进行递归，适用于数据集较大的时候。
max_depth:决策树最大深度，决策树模型先对所有数据集进行切分，再在子数据集上继续循环这个切分过程，max_depth可以理解成用来限制这个循环次数。
min_samples_split:子数据集再切分需要的最小样本量，默认是2，如果子数据样本量小于2时，则不再进行下一步切分。如果数据量较小，使用默认值就可，如果数据量较大，为降低计算量，应该把这个值增大，即限制子数据集的切分次数。
min_samples_leaf:叶节点（子数据集）最小样本数，如果子数据集中的样本数小于这个值，那么该叶节点和其兄弟节点都会被剪枝（去掉），该值默认为1。
min_weight_fraction_leaf:在叶节点处的所有输入样本权重总和的最小加权分数，如果不输入则表示所有的叶节点的权重是一致的。
max_features:特征切分时考虑的最大特征数量，默认是对所有特征进行切分，也可以传入int类型的值，表示具体的特征个数；也可以是浮点数，则表示特征个数的百分比；还可以是sqrt,表示总特征数的平方根；也可以是log2，表示总特征数的log个特征。
random_state:随机种子的设置，与LR中参数一致。
max_leaf_nodes:最大叶节点个数，即数据集切分成子数据集的最大个数。
min_impurity_decrease:切分点不纯度最小减少程度，如果某个结点的不纯度减少小于这个值，那么该切分点就会被移除。
min_impurity_split:切分点最小不纯度，用来限制数据集的继续切分（决策树的生成），如果某个节点的不纯度（可以理解为分类错误率）小于这个阈值，那么该点的数据将不再进行切分。
class_weight:权重设置，主要是用于处理不平衡样本，与LR模型中的参数一致，可以自定义类别权重，也可以直接使用balanced参数值进行不平衡样本处理。
presort:是否进行预排序，默认是False，所谓预排序就是提前对特征进行排序，我们知道，决策树分割数据集的依据是，优先按照信息增益/基尼系数大的特征来进行分割的，涉及的大小就需要比较，如果不进行预排序，则会在每次分割的时候需要重新把所有特征进行计算比较一次，如果进行了预排序以后，则每次分割的时候，只需要拿排名靠前的特征就可以了。

SVM

class sklearn.svm.LinearSVC(penalty='l2', loss='squared_hinge', 
	dual=True, tol=0.0001, C=1.0, multi_class='ovr', 
	fit_intercept=True, intercept_scaling=1, class_weight=None, 
	verbose=0, random_state=None, max_iter=1000)

penalty:正则化参数，L1和L2两种参数可选，仅LinearSVC有。
loss:损失函数，有‘hinge’和‘squared_hinge’两种可选，前者又称L1损失，后者称为L2损失，默认是是’squared_hinge’，其中hinge是SVM的标准损失，squared_hinge是hinge的平方。
dual:是否转化为对偶问题求解，默认是True。
tol:残差收敛条件，默认是0.0001，与LR中的一致。
C:惩罚系数，用来控制损失函数的惩罚系数，类似于LR中的正则化系数。
multi_class:负责多分类问题中分类策略制定，有‘ovr’和‘crammer_singer’ 两种参数值可选，默认值是’ovr’，'ovr’的分类原则是将待分类中的某一类当作正类，其他全部归为负类，通过这样求取得到每个类别作为正类时的正确率，取正确率最高的那个类别为正类；‘crammer_singer’ 是直接针对目标函数设置多个参数值，最后进行优化，得到不同类别的参数值大小。
fit_intercept:是否计算截距，与LR模型中的意思一致。
class_weight:与其他模型中参数含义一样，也是用来处理不平衡样本数据的，可以直接以字典的形式指定不同类别的权重，也可以使用balanced参数值。
verbose:是否冗余，默认是False.
random_state:随机种子的大小。
max_iter:最大迭代次数，默认是1000。

你可能感兴趣的:(线性回归算法梳理)

算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
NGS测序基础梳理02-簇生成（Cluster Generation）及flow cell介绍 qq_21478261 #生物信息生物信息学
本文图解Illumina测序平台，flowcell表面簇生成（ClusterGeneration）过程。写作时间：2020，有问题可留言或者我的公众号。本文将了解到什么？1flowcell2簇生成为何要进行簇生成？簇生成步骤1）文库与flowcell表面P5杂交与互补链合成2）双链变性3）桥式PCR扩增4）反链切除5）DNA链3'封闭参考资料：1flowcell为何要先介绍flowcell？因为簇
【证明】对极几何：本质矩阵内在性质 Powerful_QI slam 线性代数矩阵
--这是目录--1.本质矩阵内在性质表述2.预备知识2.1线性代数基础2.1.1奇异值与特征值的关系2.1.2矩阵加减单位阵后特征值的变化2.2引理：一个常用的矩阵变换3.证明1.本质矩阵内在性质表述本质矩阵(EssentialMatrix)EEE是一个3阶方阵，满足E=t∧RE=t^{\land}RE=t∧R其中RRR为旋转矩阵，ttt为平移量，t∧t^{\land}t∧运算定义如下（参考了
C++STL-set s15335 C++STL c++开发语言
一.基础概念set也是一种容器，像vector,string这样，但它是树形容器。在物理结构上是二叉搜索树，逻辑上还是线性结构。set容器内元素不可重复，multiset内容器元素可以重复；这两个容器，插入的元素都是有序排列。二.基础用法1.set对象创建1.默认构造函数sets1;2.初始化列表sets2_1={9,8,7,6,5};//56789sets2_2({9,8,7,7,6,5});/
C++ 标准库＜numeric＞
以下对C++标准库中头文件所提供的数值算法与工具做一次系统、深入的梳理，包括算法功能、示例代码、复杂度分析及实践建议。一、概述中定义了一组对数值序列进行累加、内积、差分、扫描等操作的算法，以及部分辅助工具（如std::iota、std::gcd/std::lcm等）。所有算法均作用于迭代器区间，符合STL风格，可与任意容器或原始数组配合使用。从C++17、20起，又陆续加入了并行友好的std::r
线性代数同济教材每一部分的现实意义 ZhuBin365 其它算法
一、行列式(Determinants)的现实意义：不仅仅是数字，而是“尺度”和“特性”行列式虽然计算结果是一个数值，但它绝不是一个孤立的数字，它在现实世界中代表着“尺度”和“特性”的重要信息：现实意义核心：“衡量变化的能力”和“判定系统特性”“尺度”：衡量体积/面积的缩放比例：在现实世界中，很多变换都会改变物体的形状和大小。行列式就像一个“尺度”，衡量了线性变换对面积(二维)或体积(三维及以上)的
不同行业的 AI 数据安全与合规实践：7 大核心要点全解析观熵人工智能 DeepSeek 私有化部署
不同行业的AI数据安全与合规实践：7大核心要点全解析关键词AI数据安全、行业合规、私有化部署、数据分类分级、国产大模型、隐私保护、DeepSeek部署摘要随着国产大模型在金融、医疗、政务、教育等关键领域的深入部署，AI系统对数据安全与行业合规提出了更高要求。本文结合DeepSeek私有化部署实战，系统梳理当前各行业主流的数据安全合规标准与落地策略，从数据分类分级、访问控制、审计追踪到敏感信息识别与
技术演进中的开发沉思-32 MFC系列：生命周期 chilavert318 熬之滴水穿石 windows c++
今天，我们继续MFC以一种更亲近的方式，梳理这个框架的脉络，看看一个MFC程序从诞生到运行的完整故事。一、MFC类层次结构昨天已经梳理过MFC的类层次了，今天梳理其生命周期，还是要提一下。因为它确实很重要，如果把MFC比作一个庞大的家族，那类层次结构就是它的族谱。最顶层的CObject就像家族的老祖宗，所有成员都流淌着它的血液——封装了最基础的功能，比如对象的创建与销毁、序列化等。往下分，就像家族
OpenCV图像数据处理:convertTo,normalize和scaleAdd luofeiju OpenCV函数实战 opencv
在OpenCV图像处理的世界里，有几个函数进行一些基本数据变换：cv::convertTo()：类型转换与线性缩放；cv::normalize()：归一化处理；cv::scaleAdd()：加权叠加运算。cv::addWeighted():与scaleAdd相似，进行加权叠加运算；一、cv::convertTo()：线性变换+数据类型转换voidcv::Mat::convertTo(OutputA
使用tensorflow的线性回归的例子（七） lishaoan77 tensorflow tensorflow 线性回归人工智能
L1与L2损失这个脚本展示如何用TensorFlow求解线性回归。在算法的收敛性中，理解损失函数的影响是很重要的。这里我们展示L1和L2损失函数是如何影响线性回归的收敛性的。我们使用iris数据集,但是我们将改变损失函数和学习速率来看收敛性的改变。importmatplotlib.pyplotaspltimportnumpyasnpimporttensorflowastffromsklearnim
使用tensorflow的线性回归的例子（十二） lishaoan77 tensorflow tensorflow 线性回归人工智能戴明回归
DemingRegression这里展示如何用TensorFlow求解线性戴明回归。=+y=Ax+b我们用iris数据集,特别是:y=SepalLength且x=PetalWidth。戴明回归Demingregression也称为totalleastsquares,其中我们最小化从预测线到实际点(x,y)的最短的距离。最小二乘线性回归最小化与预测线的垂直距离，戴明回归最小化与预测线的总的距离，这种
华为L1-L6流程体系核心框架 jmoych 华为大数据数据库
最近项目上讨论流程体系比较多，结合前面笔者发布的关于流程的文章，今天将华为的L1-L6流程体系简单分享一下，该体系是企业级流程管理的核心框架，通过分层设计实现战略到执行的垂直贯通。想获取完整资料的朋友，可加入知识星球，会员可无限制下载所有资料。流程分类框架体系设计应该梳理到L5还是L6?面向离散制造企业复杂业务，流程体系建设覆盖从L1到L5/L6的全层级框架？以下从架构设计、功能定位、层级关系三个
SQL 视图与事务知识点详解及练习题云朵大王数据库 java 大数据
在数据库操作中，视图和事务是非常重要的概念，它们在数据管理和操作一致性方面发挥着关键作用。下面我们将详细介绍视图和事务的相关知识，并通过练习题来巩固理解。一、知识点梳理（一）视图作用：常用于保存复杂的SQL语句，是一张虚拟表。格式：createorreplaceview视图名称asselect......withcheckoption操作：可进行select、insert、update、delet
数据库备份、导入、开窗函数及优化方式全解析云朵大王数据库
在数据库的日常管理和操作中，备份与导入是保障数据安全的重要手段，开窗函数能提升数据处理的灵活性，而合理的优化方式则是保证数据库高效运行的关键。今天，我们就来全面梳理这些知识点，并通过例题加深理解。一、数据库备份与导入（一）核心知识点数据库备份，简单来说就是通过转存SQL文件，将数据库的结构和数据完整保存下来。这就好比给数据库做了一个“快照”，一旦数据出现丢失、损坏等问题，这个“快照”就能派上大用场
SQL 索引与日志知识点详解及练习题
索引和日志在数据库的高效运行和数据安全中扮演着重要角色。下面我们详细梳理索引和日志的相关知识，并通过练习题加深理解。一、知识点梳理（一）索引基本概念：索引是为了加速查询的数据结构，其数据结构为B+树。B代表Balance（平衡），数据保存在叶子结点中。分类主键索引：唯一标识一行，不允许为空，一张表只能有一个主键。唯一索引：标识一行，允许为空，一张表可以有多个唯一索引。普通索引：允许重复和空值。联合
JavaBean与Map互转
一、摘要在实际开发过程中，经常碰到需要进行对象与map之间互转的问题，其实对于对象、Map之间进行互转有很多种方式，下面我们一起来梳理一下：利用JSON工具包，将对象转成字符串，之后再转成Map，这种需要转换2次，相对来说效率比较底；利用Java反射，获取Bean类的属性和值，再转换到Map对应的键值对中，相对来说这种方法效率高些，在实现上比较麻烦；利用Java的内省(Introspector)实
软件开发最早期规划与需求梳理清单 Hy行者勇哥绿色智造 ·产品设计与管理架构物联网个人开发
目录✅摘要✅1️⃣规划阶段所需【图表清单】✅2️⃣规划阶段所需【文档清单】✅实施建议✅结论✅摘要本清单适用于快速开发核心管理系统项目。系统需包含登录、用户管理、设备管理、仪表盘、报表、API管理页面，并支持后续对接外购模块。本文将前期规划阶段所需的图表与文档分别整理成两个独立表格，每个条目都含「优先级、名称、功能、用途」四要素，确保能按表实施，顺序清晰、一目了然。✅1️⃣规划阶段所需【图表清单】序
初阶数据结构之栈的实现 CodePracticer 数据结构数据结构开发语言笔记
前言：实现栈之前，先来了解一下什么是栈。1.栈的概念栈是一种特殊的线性表，只允许在固定一端插入和删除操作，进行数据插入和删除操作的一端称为栈顶，另一端称为栈底。栈中的数据元素遵守先进后出，后进先出LIFO（LastInFirstOut）的原则。压栈：栈的插入操作叫做进栈（压栈，入栈），入数据在栈顶。出栈：栈的删除操作叫做出栈，出数据也在栈顶。2.栈的底层结构如何选择现在我们已经了解了栈的结构特性了
李群与李代数2：李代数求导和李群扰动模型龙焰智能 SLAM数学基础自动驾驶高等数学李群李代数 BCH公式微分模型扰动模型相似变换群
李群与李代数2：李代数求导和李群扰动模型1.整体误差最小化引出求导问题2.BCH公式与近似形式2.1BCH公式2.2BCH线性近似2.3BCH近似的意义3.微分模型——李代数求导4.扰动模型求导（左乘）4.1SO(3)上的扰动模型求导4.2SE(3)上的扰动模型求导4.3伴随性质5.相似变换群相关5.1相似变换群Sim(3)Sim(3)Sim(3)5.2李代数sim(3)\mathfrak{sim
线性稳压电路：从理论到实践的全维度深度解析陆冠旭澪622 数学建模
摘要本文提出创新的"电源完整性四维分析法"，系统性地解构线性稳压器设计。通过建立量子-经典混合稳压模型，开发动态压差补偿算法和PSRR频率折叠技术，解决了纳米级工艺下的稳压挑战。包含12个设计黄金法则、23个跨领域应用案例和完整的验证方法论，为工程师提供从基础到前沿的全套解决方案。**关键词**：四维电源分析、量子稳压、自愈合LDO、动态热管理、光子-电子协同##1.量子化稳压理论###1.1载流
深度学习交互式图像分割技术演进与突破 wang1776866571 深度学习交互式分割深度学习人工智能交互式分割
说明本文为作者读研期间基于交互式图像分割领域公开文献的系统梳理与个人理解总结，所有内容均为原创撰写（ai辅助创作），未直接复制或抄袭他人成果。文中涉及的算法、模型及实验结论均参考自领域内公开发表的学术论文（具体文献见文末参考文献列表）。本文旨在为交互式图像分割领域的学习者提供一份结构化的综述参考，内容涵盖技术演进、核心方法、关键技术优化及应用前景，希望能为相关研究提供启发。摘要：本文系统综述了基于
《Unitree RL Gym 从 0 到 1 全解析》宇树G1机器人rl_gym、legged_game 与 rsl_rl 开源项目代码详解&&逻辑梳理
前言：此文将对宇树的RL_Gym进行详细介绍。为什么写这篇文章？首先对于这个项目来说，目前网上很难找到能讲明白的，其次，兼顾打工生活&知识分享需要些动力；因此，我决定推出这一篇付费文章，从纯小白视角出发，深入剖析该项目（大佬们请轻喷），这篇文章主要进行难点解析、代码分析与解释、整体的逻辑梳理。这篇付费文章耗费了我7h+的撰写，希望能为读者解开长期困扰的难题，带来启发与收获。开源项目链接：https
多维度数据资产测绘技术在安全管控平台中的应用实践 KKKlucifer 安全数据库
一、数据资产治理困境：从“黑箱”到“可见性”的行业挑战在数字化转型加速的当下，企业数据资产呈现爆发式增长，而传统资产梳理手段因维度单一、时效性差，导致“资产黑箱”问题频发。某省级运营商曾在安全评估中发现，其核心系统中40%的数据资产处于未知状态，敏感数据分布模糊、接口调用链路缺失，直接引发376起未授权访问事件。这类问题的本质在于：资产维度碎片化：仅从网络端口或数据库层面单一测绘，无法关联业务系统
中药细粒度图像分类小lo想吃棒棒糖分类数据挖掘人工智能
在细粒度图像分类（FGVC）领域，BilinearCNN（BCNN）模型因其能够捕捉图像中的局部特征交互而受到广泛关注。该模型通过双线性池化操作将两个不同CNN提取的特征进行外积运算，从而获得更加丰富的特征表示，这对于区分外观相似但属于不同子类别的物体尤其有效。然而，BCNN通常计算成本较高，限制了其在移动设备或资源受限环境下的应用。为了实现轻量化并保持高精度的细粒度分类，可以考虑将MobileN
华为OD技术面试高频考点（算法篇、AI方向）
一、Transformer核心机制：自注意力(Self-Attention)公式:Attention=softmax(QK^T/√d_k)v运作原理：1.Q/K/V矩阵：输入向量通过线性变换生成Query(查询）、Key(键）、Value(值)2.注意力权重:Softmax(QKT/√d_k)→计算词与词之间的关联度3.输出：权重与Value加权求和→捕获长距离依赖-优势：并行计算、全局上下文感知
机器学习与光子学的融合正重塑光学器件设计范式 m0_75133639 光电智能电视二维材料电子半导体人工智能顶刊 nature
Nature/Science最新研究表明，该交叉领域聚焦六大前沿方向：光子器件逆向设计、超构材料智能优化、光子神经网络加速器、非线性光学芯片开发、多任务协同优化及光谱智能预测。系统掌握该领域需构建四维知识体系：1、基础融合——从空间/集成光学系统切入，解析机器学习赋能光学的理论必然性，涵盖光学神经网络构建原理2、逆向设计革命——通过AnsysOptics实战，掌握FDTD算法与粒子群/拓扑优化技术
Python 网络爬虫中 robots 协议使用的常见问题及解决方法
在Python网络爬虫开发中，robots协议的正确应用是保证爬虫合规性的关键。然而，在实际使用过程中，开发者常会遇到各种问题，若处理不当，可能导致爬虫被封禁或引发法律风险。本文将梳理robots协议使用中的常见问题，并提供针对性的解决方法。一、协议解析不准确导致的合规性问题1.1误读User-agent通配符范围问题表现：将User-agent:*错误理解为适用于所有场景，忽略了特定爬虫的单独规
Leetcode刷题笔记——栈篇 code_lover_forever Leetcode刷题笔记 leetcode 笔记算法 python
Leetcode刷题笔记——栈篇栈的简介栈是一种先进后出的数据结构(FirstInLastOut)，栈作为一种数据结构，是一种只能在一端进行插入和删除操作的特殊线性表，这里我不做过多介绍，栈的应用和练习算是面试中的高频考点了，接下来看下我们来看一下Leetcode关于栈的常见面试题题型，每道题都附上了简单明了的python解法，大家重点关注算法思想即可一、栈在括号匹配中的应用第一题：括号的最大嵌套
带印章的财务报表有什么工具可以解析？ TextIn智能文档云平台文档解析人工智能 textin
TextIn的文档解析工具可以解决财务报表的精准解析。不止印章，TextIn文档解析可以将文档中的复杂表格、手写笔记、图片印章等进行梳理，转换成大模型友好的内容格式（Markdown）。日常财务报表中常见手写签名、批注及各类印章覆盖，对传统OCR识别构成巨大挑战。TextIn文档解析具备强大的图像处理与文字识别能力，能有效分离背景印章干扰，清晰辨识覆盖文字，并对潦草、连笔的手写体保持较高的识别准确
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号