boywaiter

chapter 4 Training Models

as# OReilly.Hands-On Machine Learning with Scikit-Learn and TensorFlow读书笔记

ch4 Training Models

以线性回归（Linear Regression）为例，介绍两种训练模型的方式：

使用“封闭”方程直接计算出最佳模型参数（在训练集上使得损失函数最小的参数）
使用称为梯度下降（Gradient Descent，GD）的迭代优化方法来逐步调整模型参数，以最小化训练集上的损失函数，最终与第一种方法收敛到相同的参数集合。

然后，以多项式回归为例，介绍如何利用学习曲线检测过拟合，以及如何利用正则化减少过拟合。

最后，Logistic回归和Softmax回归。

4.1 线性回归

Equation 4-1. Linear Regression model prediction
$\hat y=\theta_0+\theta_1x_1+\theta_2x_2+\cdots+\theta_nx_n$

$\hat y$ 是预测值
$n$ 是特征数量
$x_i$ 是第 $i$ 个特征值
$\theta_j$ 是第 $j$ 个模型参数（包括偏置项 $\theta_0$ 和特征权重 $\theta_1,\theta_2,\cdots,\theta_n$ ）

Equation 4-2. Linear Regression model prediction (vectorized form)
$\hat y=h_\theta(\textbf{x})=\theta^T\cdot\textbf{x}$

$\theta$ 是模型的参数向量（包括偏置项 $\theta_0$ 和特征权重 $\theta_1,\theta_2,\cdots,\theta_n$ ）
$\theta^T$ 是 $\theta$ 的转置（ $\theta$ 是列向量， $\theta^T$ 是行向量）
$\textbf{x}$ 是特征向量的实例，包括 $x_0, x_1,\cdots,x_n$ ，其中 $x_0$ 总是等于1
$\theta^T\cdot\textbf{x}$ 是 $\theta^T$ 和 $\textbf{x}$ 的点积
$h_\theta$ 是以模型参数 $\theta$ 为参数的假设函数

Equation 4-3. MSE cost function for a Linear Regression model
$\textrm{MSE}(\textbf{X},h_\theta)=\frac{1}{m}\sum_{i=1}^m\left(\theta^T\cdot \textbf{x}^{(i)}-y^{(i)}\right)^2$

$\textrm{MSE}(\textbf{X},h_\theta)$ 可以简写为MSE( $\theta$ )

均方根误差RMSE（Root Mean Square Error）是最常见的回归模型的性能度量方法。在实际操作中，选用更简单的MSE（Mean Square Error）。通常，我们会让学习算法优化一个与性能度量不同的函数以评价模型。原因在于，该函数更容易计算，该函数具有性能度量所缺乏的微分属性，或者我们希望在训练过程中使用正则化约束模型。

4.1.1 正规方程（Normal Equation）

可以从中得到封闭解的方程，称为正规方程。

Equation 4-4. Normal Equation
$\hat\theta=\left(\textbf{X}^T\cdot \textbf{X}\right)^{-1}\cdot \textbf{X}^T\cdot \textbf{y}$

$\hat \theta$ 是使得损失函数最小化的 $\theta$ 值
$\textbf{y}$ 是目标值向量，包含 $y^{(1)}$ 到 $y^{(m)}$

import numpy as np
X=2*np.random.rand(100,1) #随机生成一个训练集
y=4+3*X+np.random.randn(100,1)

X_b = np.c_[np.ones((100, 1)), X] # add x0 = 1 to each instance
theta_best = np.linalg.inv(X_b.T.dot(X_b)).dot(X_b.T).dot(y)
#使用正规方程解出最优解
theta_best
#array([[4.25376544],
#       [2.41907629]])

#预测
X_new=np.array([[0],[2]])
X_new_b=np.c_[np.ones((2,1)),X_new]
y_predict=X_new_b.dot(theta_best)
y_predict
#array([[4.25376544],
#       [9.09191802]])

#绘制数据散点图
import matplotlib.pyplot as plt
plt.plot(X, y, "b.")#数据散点图
plt.plot(X_new,y_predict,"r-")#根据测试数据和预测值绘制的直线
plt.xlabel("$X$", fontsize=18)
plt.ylabel("$y$", rotation=0, fontsize=18)
plt.axis([0, 2, 0, 15])
plt.show();

使用Scikit-Learn代码达到同样的效果：

from sklearn.linear_model import LinearRegression
lin_reg=LinearRegression()
lin_reg.fit(X,y)
lin_reg.intercept_,lin_reg.coef_
#(array([4.25376544]), array([[2.41907629]]))
lin_reg.predict(X_new)
#array([[4.25376544],
#       [9.09191802]])

4.1.2 计算复杂度

如果 $\textbf{X}$ 为 $n\times n$ 矩阵，则求 $\left(\textbf{X}^T\cdot \textbf{X}\right)^{-1}$ 的计算复杂度是 $O(n^{2.4})$ 到 $O(n^3)$ 。当特征数量变大，正规方程变得很慢。

好的方面是，正规方程关于训练集实例数量 $m$ 是线性的，即 $O (m)$ ，只要训练集可以放入内存。

预测相对于实例数量和特征数量都是线性的。

如果特征数量过大，或者训练集无法放入内存，需要寻找其他方法来训练线性回归模型。

4.2 梯度下降

比喻：山脚可以看做全局最低点，最快的下山路线是一直沿着最陡峭的方向。

梯度下降的前提是损失函数是可微的凸函数。

4.2.1 批量梯度下降

使用所有样本（m个）计算损失函数关于每个模型参数 $\theta_j$ 的偏导数（partial derivative）。

Equation 4-5. Partial derivatives of the cost function
$\frac{\partial}{\partial \theta_j}\textrm{MSE}(\theta)=\frac{2}{m}\sum_{i=1}^m\left(\theta^T\cdot \textbf{x}^{(i)}-y^{(i)}\right)x_j^{(i)}$
Equation 4-6. Gradient vector of the cost function
$\nabla_\theta \textrm{MSE}(\theta)=\left(\begin{array}{c}\frac{\partial}{\partial \theta_0}\textrm{MSE}(\theta)\\\frac{\partial}{\partial \theta_1}\textrm{MSE}(\theta)\\\vdots \textrm{ }\textrm{ }\textrm{ }\textrm{ }\textrm{ }\textrm{ }\textrm{ }\textrm{ }\textrm{ }\\\frac{\partial}{\partial \theta_n}\textrm{MSE}(\theta)\\\end{array}\right)=\frac{2}{m}\textbf{X}^T\cdot(\textbf{X}\cdot \theta-\textbf{y})$
Equation 4-7. Gradient Descent step
$\theta^{(\textrm{next step})}=\theta-\eta\nabla_\theta\textrm{MSE}(\theta)$

eta=0.1
n_iteration=1000
m=100
theta=np.random.randn(2,1)#随机初始化
for iteration in range(n_iteration):
    gradients=2/m*X_b.T.dot(X_b.dot(theta)-y)
    theta=theta-eta*gradients
theta
#array([[4.25376544],
#       [2.41907629]])

4.2.2 随机梯度下降

如果训练集很大，批量梯度下降因为每一步（包括计算梯度和更新模型参数）要使用所有样本计算梯度而变慢。

随机梯度下降（Stochastic Gradient Descent）每一步在训练集中随机选取一个实例计算梯度，速度更快。另一方面，因为每次随机选择实例，会造成损失函数忽高忽低。因此，算法到达最小值后，仍然会继续在这个值附近摆动。好处是更有机会通过这种摆动找到全局最小值而不是停在局部最小值上。

随机性有助于离开局部最优点，但难以停在全局最优点。解决办法之一是逐渐减小学习率。这一过程称为模拟退火（simulated annealing）。决定每次迭代过程中学习率的函数称为学习计划（learning schedule）。学习率减少太快，容易陷入局部最小值，或到达局部最小值之前就半路停止了。学习率减少太慢，会在最小值附近摆动很长时间，如果过早终止训练，会停在次优解上。

n_epochs=50
t0,t1=5,50

def learning_schedule(t):
    return t0/(t+t1)
theta=np.random.rand(2,1)

for epoch in range(n_epochs):
    for i in range(m):
        random_index = np.random.randint(m)
        xi=X_b[random_index:random_index+1]
        #注意切片与取元素值的区别，目的是令xi的shape是(2,1)，转置后是(1,2)
        yi=y[random_index:random_index+1]
        gradients=2*xi.T.dot(xi.dot(theta)-yi)
        eta=learning_schedule(epoch*m +i)
        theta=theta-eta*gradients

从上面代码的双层循环可以看出，算法执行多轮迭代，每轮迭代称为一个epoch，每个epoch包含在整个数据集上的 $m$ 个迭代。批量梯度下降在整个训练集上迭代1000 次，而随机梯度下降一般在整个训练集上迭代50次就可以达到一个比较好的结果。

Sciki-Learn提供了SGDRegressor类实现线性回归，缺省使用平方误差（squared error）作为损失函数。

from sklearn.linear_model import SGDRegressor
sgd_reg=SGDRegressor(n_iter=50,penalty=None,eta0=0.1)
sgd_reg.fit(X,y.ravel())#将fit()的第二个参数从(100,1)转换为(100,)

4.2.3 小批量梯度下降

既不像批处理梯度下降在整个数据集上计算梯度，也不像随机梯度下降在单个实例上计算梯度，小批量梯度下降在一个实例的小批量随机集合上计算梯度。

与SGD相比，主要优势在于可以通过对矩阵操作的硬件优化，如GPU，获得大规模的性能提升。

比SGD更易收敛到最小值，但更难离开局部最小值。

Algorithm	Large m	Out-of-core support	Large n	Hyperparams	Scaling required	Scikit-Learn
Normal Equation	Fast	No	Slow	0	No	LinearRegression
Batch GD	Slow	No	Fast	2	Yes	n/a
Stochastic GD	Fast	Yes	Fast	$\ge 2$	Yes	SGDRegression
Mini-batch GD	Fast	Yes	Fast	$\ge 2$	Yes	n/a

4.3 多项式回归

将特征的幂作为新的特征，然后在扩展的特征集合上训练一个线性模型。这个技术称为多项式回归（Polynomial Regression）。

#随机生成非线性关联数据
m=100
X=6*np.random.rand(m,1)-3
y=0.5*X**2+2+np.random.randn(m,1)
#绘制散点图
plt.plot(X,y,'b.')
plt.xlabel("X")
plt.ylabel("y")
#预处理
from sklearn.preprocessing import PolynomialFeatures
poly_features=PolynomialFeatures(degree=2,include_bias=False)#最高2次
X_poly=poly_features.fit_transform(X)
#查看预处理前后，数据变化
X[0]#array([1.63210985])
X_poly[0]#array([1.63210985, 2.66378256])
#利用线性回归模型训练
lin_reg=LinearRegression()
lin_reg.fit(X_poly,y)
lin_reg.intercept_,lin_reg.coef_
#(array([2.02146742]), array([[-0.10915689,  0.51436093]]))

4.4 学习曲线

利用交叉验证可以粗略估计出模型的泛化能力。如果模型在训练集上表现良好，但通过交叉验证发现其泛化能力很差，则模型过拟合了。如果模型在训练集和交叉验证中都很差，则模型欠拟合。由此可知模型是太简单还是太复杂了。

另一种方式是绘制学习曲线（learning curves）：模型分别在训练集和验证集上的性能指标，是以训练集大小为自变量的函数。

import matplotlib.pyplot as plt
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
def plot_learning_curves(model,X,y):
    X_train,X_val,y_train,y_val=train_test_split(X,y,test_size=0.2)
    train_errors,val_errors=[],[]
    for m in range(1,len(X_train)):
        model.fit(X_train[:m],y_train[:m])
        y_train_predict=model.predict(X_train[:m])
        y_val_predict=model.predict(X_val)
        train_errors.append(mean_squared_error(y_train_predict,y_train[:m]))
        val_errors.append(mean_squared_error(y_val_predict,y_val))
    plt.plot(np.sqrt(train_errors),"r-+",linewidth=2,label="Train set")
    plt.plot(np.sqrt(val_errors),"b-",linewidth=3,label="Validation set")
    plt.xlabel('Training set size',fontsize=18)
    plt.ylabel('RMSE')
    plt.xlim(0,80.0)
    plt.ylim(0,3.0)
    plt.legend()
    plt.show()
#绘制线性回归模型的学习曲线    
lin_reg=LinearRegression()
plot_learning_curves(lin_reg,X,y)
#绘制相同数据上10次多项式回归模型拟合的学习曲线
from sklearn.pipeline import Pipeline
polynomial_regression=Pipeline((
    ("poly_features",PolynomialFeatures(degree=10,include_bias=False)),
    ("sgd_reg",LinearRegression())
))
plot_learning_curves(polynomial_regression,X,y)

通过观察和比较线性回归模型和多项式回归模型的学习曲线，

在训练集上，多项式回归模型的误差要比线性回归模型低得多
多项式回归模型图中两条曲线之间有间隔，意味模型在训练集上的表现要比验证集上好得多，这也是模型过拟合的显著特点。如果使用了更大的训练数据集，这两条曲线最后会非常接近

统计学和机器学习领域的一个重要结论是，模型的泛化误差可以表示为三种误差的和：

偏差（bias）：由于错误假设导致的误差，例如假设数据是线性的，而实际是二次的。通常导致欠拟合。

方差（variance）：这部分误差是由于模型对训练数据的微小变化过于敏感。一个多自由度的模型（例如一个高阶多项式模型）更容易有高的方差，因此会导致模型过拟合。模型过拟合，会使得泛化误差（测试时）增大，即对于新的数据拟合不好，方差高。

不可约误差：这部分误差源于数据本身的噪声。降低这部分误差的唯一方法就是进行数据清洗（例如：修复数据源，如坏的传感器，或者识别和剔除异常值）。

4.5 正则化的线性模型

正则化多项式模型的一个简单方式是减少多项式的次数。

正则化线性模型一般采取约束模型权重。岭回归（Ridge Regression）、Lasso回归和弹性网络（Elastic Net）是约束权重的三种典型方式。

4.5.1 岭回归

岭回归（又称为Tikhonov regularization）是线性回归的正则化版本：向损失函数中添加 $\alpha \sum_{i=1}^n \theta_i^2$ 的正则化项。要求学习算法不仅拟合数据，还要令权重尽可能小。注意，正则化项只在训练过程中添加到损失函数中。训练结束，使用无正则化的性能度量方法来评价模型性能。

训练时的损失函数和测试时的性能度量方法通常不同。除正则化外，另一个原因是损失函数应该在优化过程中易于求导，而性能度量应该尽可能接近于最终目标。例如，训练分类器时使用对数损失函数，而测试时使用准确率/召回率。

超参数 $\alpha$ 控制正则化的程度。 $\alpha=0$ ，则岭回归就是线性回归。如果 $\alpha$ 很大，则所有权重都接近于0，并将得到一个通过训练数据均值的水平直线。

Equation 4-8. Ridge Regression cost function
$J(\theta)=\textrm{MSE}(\theta)+\alpha \frac{1}{2}\sum_{i=1}^n \theta_i^2$
注意，偏差项 $\theta_0$ 没有正则化。如果定义 $\textbf{w}$ 为权重向量（从 $\theta_1$ 到 $\theta_n$ ），则正则化项等于 $\alpha/2(||\textbf{w}||_2)^2$ ，其中 $||\cdot||_2$ 表示 $l_2$ 范式。对于梯度下降，只需向MSE梯度向量中（Equation 4-6等式最右侧）添加 $\alpha\textbf{w}$ （即正则化项关于参数向量 $\textbf{w}$ 的导数）。

在执行岭回归之前，需要缩放数据（例如，使用StandardScaler），因为岭回归对输入特征值的大小敏感。对于大多数正则化模型来说都是如此。

Equation 4-9. Ridge Regression closed-form solution
$\hat\theta=\left(\textbf{X}^T\cdot \textbf{X}+\alpha\textbf{A}\right)^{-1}\cdot \textbf{X}^T\cdot \textbf{y}$

$\textbf{A}$ 是一个 $n\times n$ 单位矩阵，除了对角线上左上角元素为0，代表偏差项 $\theta_0$

下面是另一种Cholesky提出的使用矩阵分解求封闭解的方法，是Equation 4-9的一个变种。

from sklearn.linear_model import Ridge
ridge_reg=Ridge(alpha=1,solver="cholesky")
ridge_reg.fit(X,y)
ridge_reg.predict([[1.5]])#array([[3.44729363]])

下面是使用随机梯度下降方法，其中penalty超参数指定正则化项为权重向量的 $l_2$ 范式，这正是岭回归。

sgd_reg=SGDRegressor(penalty="l2")
sgd_reg.fit(X,y.ravel())
sgd_reg.predict([[1.5]])#array([2.60265113])

4.5.2 Lasso回归

Lasso Regression（Least Absolute Shrinkage and Selection Operator Regression）是线性回归的另一个正则化版本。与岭回归类似，但正则化项是 $l_1$ 范式。

Equation 4-10. Lasso Regression cost function
$J(\theta)=\textrm{MSE}(\theta)+\alpha\sum_{i=1}^n|\theta_i|$
Lasso回归倾向于完全消除最不重要特征的权重（例如，设为0）。换句话说，Lasso回归自动进行特征选择并输出一个稀疏模型（只有很少非零权重）。

尽管Lasso损失函数在 $\theta_i=0, i=1,2,\cdots, n$ 处不可微，但在任何 $\theta_i=0$ 时，使用一个子梯度向量（subgradient vector） $\textbf{g}$ 替换梯度向量，梯度下降仍然好用。可以将不可微点的子梯度向量想象为该点周围梯度向量之间的中间向量。

Equation 4-11. Lasso Regression subgradient vector
$g(\theta,J)=\nabla_\theta \textrm{MSE}(\theta)+\alpha\left( \begin{array}{c} \textrm{sign}(\theta_1)\\ \textrm{sign}(\theta_2)\\ \vdots\\ \textrm{sign}(\theta_n)\\ \end{array} \right), \textrm{where sign}(\theta_i)= \left\{\begin{array}{rl} -1,& \textrm{ if }\theta_i<0\\ 0,& \textrm{ if }\theta_i=0\\ 1,& \textrm{ if }\theta_i>0 \end{array}\right.$

from sklearn.linear_model import Lasso
lasso_reg=Lasso(alpha=0.1)
lasso_reg.fit(X,y)
lasso_reg.predict([[1.5]])#array([3.49614412])

4.5.3 弹性网络

介于岭回归和Lasso回归两者之间，其正则化项是两者的混合，可以控制混合比率 $r$ 。

Equation 4-12. Elastic Net cost function
$J(\theta)=\textrm{MSE}(\theta)+r\alpha\sum_{i=1}^n|\theta_i|+\frac{1-r}{2}\alpha\sum_{i=1}^n\theta_i^2$
如何确定何时使用线性回归、岭回归、Lasso回归和弹性网络：缺省使用岭回归，如果怀疑只有少数特征有用，选择Lasso回归或弹性网络，可以将无用特征的权重降为0。一般来说，选用弹性网络优于Lasso回归，因为在特征数量远大于训练实例数量或多个特征强相关时，Lasso回归常常犯错。

from sklearn.linear_model import ElasticNet
elastic_net=ElasticNet(alpha=1,l1_ratio=0.5)
elastic_net.fit(X,y)
elastic_net.predict([[1.5]])#array([3.52605147])

4.5.4 提前终止

迭代学习算法（例如梯度下降）正则化的一种特殊方式是在验证误差到达最小值时停止训练。

使用随机梯度和小批量梯度下降的迭代学习算法的验证误差曲线不是平滑曲线，很难知道是否达到最小值。一种解决方案是，在验证误差高于最小值一段时间后（确信该模型不会变得更好了）才停止，之后将模型参数回滚到验证误差取得最小值的位置。

from sklearn.preprocessing import StandardScaler
from sklearn.base import clone

np.random.seed(42)
m = 100
X = 6 * np.random.rand(m, 1) - 3
y = 2 + X + 0.5 * X**2 + np.random.randn(m, 1)
X_train, X_val, y_train, y_val = train_test_split(X[:50], y[:50].ravel(), 
                                                  test_size=0.5, random_state=10)

poly_scaler = Pipeline([
        ("poly_features", PolynomialFeatures(degree=90, include_bias=False)),
        ("std_scaler", StandardScaler()),
    ])

X_train_poly_scaled = poly_scaler.fit_transform(X_train)
X_val_poly_scaled = poly_scaler.transform(X_val)

#注意：当 warm_start=True，调用 fit()方法后，训练会从停下来的地方继续，而不是从头开始。
sgd_reg=SGDRegressor(n_iter=1,warm_start=True,penalty=None,
                     learning_rate="constant",eta0=0.0005)
minimum_val_error=float("inf")
best_epoch=None
best_model=None
for epoch in range(1000):
    sgd_reg.fit(X_train_poly_scaled,y_train)
    y_val_predict=sgd_reg.predict(X_val_poly_scaled)
    val_error=mean_squared_error(y_val_predict,y_val)
    if val_error<minimum_val_error:
        minimum_val_error=val_error
        best_epoch=epoch
        best_model=clone(sgd_reg)
best_epoch, best_model
#(243,
 SGDRegressor(alpha=0.0001, average=False, early_stopping=False, epsilon=0.1,
        eta0=0.0005, fit_intercept=True, l1_ratio=0.15,
        learning_rate='constant', loss='squared_loss', max_iter=None,
        n_iter=1, n_iter_no_change=5, penalty=None, power_t=0.25,
        random_state=None, shuffle=True, tol=None, validation_fraction=0.1,
        verbose=0, warm_start=True))

4.6 Logistic Regression

某些回归算法可以用于分类。Logistic回归（又称Logit回归）常用于估计实例属于某个类的概率。如果估计的概率大于某个阈值（如50%），则预测实例属于该类（称为正类positive class，标记为“1”），否则不属于该类（属于负类negative class，标记为“0”）。这时Logistic回归是一个二分类器。

4.6.1 概率估计

与线性回归模型一样，Logistic回归模型也计算输入特征的加权和（加上偏差项），但不像线性回归模型那样直接输出计算结果，而是输出结果的logistic。

Equation 4-13. Logistic Regression model estimated probability (vectorized form)
$\hat p=h_\theta(\textbf{x})=\sigma(\theta^T\cdot\textbf{x})$
Logistic，又称logit，表示为 $\sigma(\cdot)$ ，是一个sigmoid函数（即图像呈S形的函数），该函数输出介于0和1之间的数值。

Equation 4-14. Logistic function
$\sigma(t)=\frac{1}{1+\exp(-t)}$
根据Equation 4-13计算出来的概率 $\hat p$ ，可以预测实例的标签。

Equation 4-15. Logistic Regression model prediction
$\hat y=\begin{cases} 0, \textrm{ if } \hat p<0.5\\ 1, \textrm{ if } \hat p\ge0.5\\ \end{cases}$
注意，当 $t < 0$ 时 $\sigma(t)<0.5$ ，当 $t\ge 0$ 时 $\sigma(t)\ge 0.5$ ，因此当 $\theta^T\cdot \textbf{x}$ 是正数时，Logistic回归模型输出 1，反之则输出 0。

4.6.2 训练和损失函数

训练的目标是找到这样的参数向量 $\theta$ ，使得对于正例（ $y = 1$ ）得到高概率，对于负例（ $y = 0$ ）得到低概率。Equation 4-16中单个训练实例 $\textbf{x}$ 的损失函数表现了这一思想。

Equation 4-16. Cost function of a single training instance
$c(\theta)=\begin{cases} -\log(\hat p), \textrm{ if } y=1\\ -\log(1-\hat p), \textrm{ if } y=0\\ \end{cases}$
这个损失函数是合理的，因为 $-\log(t)$ 在 $t$ 接近0时变得非常大，所以如果模型将一个正例的概率估计为接近0，则损失函数变得很大。如果模型将一个负例的概率估计为接近1，则损失函数同样变得很大。另一方面，在 $t$ 接近1时， $-\log(t)$ 接近0，所以如果模型将一个负例的概率估计为接近0或正例的概率接近1，则损失函数接近0，正是我们所需要的。

在整个训练集上的损失函数不过是在所有训练实例上的平均损失。可以将其写作Equation 4-17的形式，称为对数损失（log loss）：

Equation 4-17. Logistic Regression cost function (log loss)
$J(\theta)=-\frac{1}{m}\sum_{i=1}^m\left[y^{(i)}\log\left(\hat p^{(i)}\right)+\left(1-y^{(i)}\right)\log\left(1-\hat p^{(i)}\right)\right]$
尽管没有等价的正规方程来计算 $\theta$ 的封闭解，但损失函数是凸函数，可以使用梯度下降等优化算法找到全局最小值。

Equation 4-18. Logistic cost function partial derivatives
$\frac{\partial \sigma(t)}{\partial t}=\frac{\partial}{\partial t}\left(\frac{1}{1+\exp(-t)}\right)=\frac{\exp(-t)}{(1+\exp(-t))^2}=\sigma(t)-\sigma^2(t)=\sigma(t)(1-\sigma(t))\\ \frac{\partial}{\partial \theta_j}\hat p^{(i)}=\frac{\partial}{\partial \theta_j}\sigma(\theta^T\cdot \textbf{x}^{(i)})=\frac{\partial \sigma(t)}{\partial t}\frac{\partial t}{\partial \theta_j}=\sigma(t)(1-\sigma(t))\textbf{x}_j^{(i)}=\hat p^{(i)}(1-\hat p^{(i)})\textbf{x}_j^{(i)},\\ \textrm{where } \sigma(t)=\hat p^{(i)}, t=\theta^T\cdot \textbf{x}^{(i)}\\ \frac{\partial}{\partial \theta_j}J(\theta)=-\frac{1}{m}\sum_{i=1}^m\left[y^{(i)}\frac{\partial}{\partial \theta_j}\log\left(\hat p^{(i)}\right)+\left(1-y^{(i)}\right)\frac{\partial}{\partial \theta_j}\log\left(1-\hat p^{(i)}\right)\right]\\ =-\frac{1}{m}\sum_{i=1}^m\left[\frac{y^{(i)}}{\hat p^{(i)}}\frac{\partial}{\partial \theta_j}\hat p^{(i)}+\frac{1-y^{(i)}}{1-\hat p^{(i)}}\frac{\partial}{\partial \theta_j}\left(1-\hat p^{(i)}\right)\right]\\ =-\frac{1}{m}\sum_{i=1}^m\left[y^{(i)}(1-\hat p^{(i)})-(1-y^{(i)})\hat p^{(i)} \right]\textbf{x}_j^{(i)}\\ =\frac{1}{m}\sum_{i=1}^m\left(\sigma\left(\theta^T\cdot\textbf{x}^{(i)}\right)-y^{(i)}\right)\textbf{x}_j^{(i)}$
其中， $\textbf{x}_j^{(i)}$ 表示训练集中第 $i$ 个实例 $\textbf{x}^{(i)}$ 的第 $j$ 个特征值。

Equation 4-18与Equation 4-5很相似：对于每个实例，计算预测误差，并将其与第 $j$ 个特征值相乘，再在所有实例上计算均值。一旦得到包含所有偏导数的梯度向量，就可以在梯度向量上使用批量梯度下降算法。也就是知道如何训练 Logistic 回归模型。对于随机梯度下降，只需要每一次使用一个实例，对于小批量梯度下降，每一次使用一个小批量实例集。

4.6.3 决策边界

Sciki-Learn中LogisticRegression模型中控制正则化强度的超参数不是alpha，而是其倒数C。C越大，正则化程度越低。

#载入鸢尾花数据集
from sklearn.datasets import load_iris
iris=load_iris()
list(iris.keys())
#['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename']

X=iris['data'][:,3:]#取所有行，第3列以后的所有列，即petal width列
y=(iris['target']==2).astype(np.int)#1 if Iris-Virginica, else 0

from sklearn.linear_model import LogisticRegression
log_reg=LogisticRegression()
log_reg.fit(X,y)

X_new=np.linspace(0,3,1000).reshape(-1,1)#reshape to a column vector
#reshape(1,-1) reshape to a row vector
y_proba=log_reg.predict_proba(X_new)
plt.plot(X_new,y_proba[:,1],"g-",label="Iris-Virginica")
plt.plot(X_new,y_proba[:,0],"b--",label="Not Iris-Virginica")

log_reg.predict([[1.7], [1.5]])#array([1, 0])

4.6.4 Softmax回归

Logistic模型可以泛化为支持多分类，无需（像Chapter 3介绍的）训练和结合多个二分类器。这称为Softmax回归，或多项式Logistic回归。

思想很简单：给定一个实例 $\textbf{x}$ ，Softmax模型首先为每个类计算一个得分 $s_k(\textbf{x})$ 。然后，对所有分数应用softmax函数（也称为归一化指数normalized exponential）以估计实例属于每个类的概率。

Equation 4-19. Softmax score for class k
$s_k(\textbf{x})=\theta_k^T\cdot \textbf{x}$
注意，每个类都有单独的参数向量 $\theta_k$ 。每个参数向量一行，构成参数矩阵 $\Theta$ 。

Equation 4-20. Softmax function
$\hat p_k =\sigma(\textbf{s}(\textbf{x}))_k=\frac{\exp(s_k(\textbf{x}))}{\sum_{j=1}^K\exp(s_j(\textbf{x}))}$

$K$ 是类别数目
$\textbf{s}(\textbf{x})$ 是由实例 $\textbf{x}$ 在每个类的得分构成的向量
$\sigma(\textbf{s}(\textbf{x}))_k$ 是根据实例 $\textbf{x}$ 在每个类别 $k$ 的得分估算出来的实例属于类别的概率

Equation 4-21. Softmax Regression classifer prediction
$\hat y=\arg\max_k\sigma(\textbf{s}(\textbf{x}))_k=\arg\max_k s_k(\textbf{x})=\arg\max_k\left(\theta_k^T\cdot \textbf{x}\right)$
模型训练的目标是令目标类拥有高概率，其它类低概率。损失函数使用交叉熵（cross entropy）。

Equation 4-22. Cross entropy cost function
$J(\Theta)=-\frac{1}{m}\sum_{i=1}^m\sum_{k=1}^Ky_k^{(i)}\log\left(\hat p_k^{(i)}\right)$

如果第 $i$ 个实例的目标类是 $k$ ，则 $y_k^{(i)}$ 等于1，否则等于0

交叉熵是概率密度 $p (x)$ 的熵 $H (p)$ 与KL散度 $D_{KL}(p||q)$ 的和，即
$H(p,q)=H(p)+D_{KL}(p||q)=-\mathbb{E}_{X\sim p}\log p(x)+\mathbb{E}_{X\sim p}\log \frac{p(x)}{q(x)}\\=-\sum_xp(x)\log q(x)\\ D_{KL}(p||q)=H(p,q)-H(p)$
KL散度度量了当用预测的分布 $q (x)$ 代替真实分布 $p (x)$ 所造成的信息量的差异。交叉熵 $H (p, q)$ 度量了当用预测的分布 $q (x)$ 代替（未知的）真实分布 $p (x)$ 的平均信息量。因此，KL散度更适合作为损失函数，优化目标是找到模型参数，使得KL散度最小。KL散度中包含的 $H (p)$ 不包含模型参数，因此可以省略掉，于是优化KL散度等价于优化交叉熵，因此选用交叉熵作为损失函数。

Equation 4-22中 $y_k^{(i)}$ 即为真实分布 $p (x)$ ，因为训练集中标签只有0和1。

Equation 4-23. Cross entropy gradient vector for class k
$\nabla_{\theta_k}J(\Theta)=\frac{1}{m}\sum_{i=1}^m \left(\hat p_k^{(i)}-y_k^{(i)}\right)\textbf{x}^{(i)}$

X=iris['data'][:,(2,3)]
y=iris['target']

softmax_reg=LogisticRegression(multi_class="multinomial",
                               solver="lbfgs",C=10)
softmax_reg.fit(X,y)
softmax_reg.predict([[5,2]])#array([2])
softmax_reg.predict_proba([[5,2]])
#array([[6.38014896e-07, 5.74929995e-02, 9.42506362e-01]])

你可能感兴趣的:(Hands-On,Machine,Learning,with,Scik,python,机器学习,深度学习)

AIGC视频生成模型：ByteDance的PixelDance模型好评笔记 AIGC 音视频机器学习人工智能深度学习计算机视觉 transformer
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍ByteDance的视频生成模型PixelDance，论文于2023年11月发布，模型上线于2024年9月，同时期上线的模型还有Seaweed（论文未发布）。热门专栏机器学习机器学习笔记合集深度学习深度学习笔记合集优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录热门专栏机器学习深度学习
PythonWeb——Django框架 Error_exception_worn Python基础数据库 Python django
框架介绍1.什么是框架?框架就是程序的骨架，主体结构，也是个半成品。2.框架的优缺点可重用、成熟,稳健、易扩展、易维护3.Python中常见的框架大包大揽Django被官方称之为完美主义者的Web框架。力求精简web.py和Tornado新生代微框架Flask和Bottle4.Web框架中的一些概念MVC（模型-视图-控制器）和MVT（模型-视图-模板）Django框架介绍Django是一个高级的
1.动手学习深度学习课程安排及深度学习数学基础 Unknown To Known 动手学习深度学习深度学习人工智能
视频资源B站：动手学习深度学习——李沐目录目标内容将学到什么1.N维数组样例2.访问2维数组元素3.数据操作4.线性代数5.矩阵计算6.自动求导目标介绍深度学习景点和最新模型LeNetAlexNetVGGResNetLSTMBERT…机器学习基础损失函数，目标函数，过拟合，优化实践使用pytorch实现介绍的知识点在真实数据上体验算法效果内容深度学习基础——线性神经网络，多层感知机卷积神经网络——
【报错】zipfile.BadZipFile: File is not a zip file Jude_lennon 报错 python
pythonpd.read_excel(excel_path,sheet_name='Sheet1',engine='openpyxl',header=None)出现报错zipfile.BadZipFile:Fileisnotazipfile原代码：data_list=[load_graph_data(file)forfileindata_directory.glob("*.xlsx")]经过de
动手学深度学习V2.0(Pytorch)——10.感知机（激活函数）吨吨不打野动手学深度学习pytorch pytorch 深度学习机器学习
文章目录1.感知机2.多层感知机2.1异或问题2.2单隐藏层2.3激活函数2.3.1logistics函数/sigmoid激活函数2.3.2tanh函数2.3.3sigmoid函数和tanh函数的异同/优缺点2.3.4relu2.4多类分类2.5多隐藏层3Q&A3.1神经网络中一层的定义是什么3.2感知机无法解决XOR问题，多层感知机虽然可以解决，但是还是被SVM替代是为什么?3.3不同任务的激活
Python实现链表反转：迭代与递归双解法详解达不溜先生 ୧⍢⃝୨ python 数据结构链表算法 leetcode
目录一、问题描述二、核心代码实现2.1迭代法实现迭代法中的prev初始值是None的原因：关键步骤图解2.2递归法实现递归法中要设置head.next=None的原因递归过程拆解三、方法对比与选择建议一、问题描述链表反转是数据结构中的基础算法问题，常见于面试和算法题库（如LeetCode#206）。要求将单向链表的节点顺序完全倒置二、核心代码实现2.1迭代法实现时间复杂度：O(n)空间复杂度：O(
Python机器学习实战：使用Flask构建机器学习API AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战：使用Flask构建机器学习API作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在数据科学和机器学习领域，模型训练和部署一直是重要的挑战。传统的机器学习项目往往采用独立的脚本或复杂的流程，难以实现模型的自动化、可视化和复现。为了解决这一问题，将机器学习模型封装成可访问的API变得越来越流行。Fla
Django框架的全面指南：从入门到高级步入烟尘 Python超入门指南全册 django sqlite 数据库
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
Sijia_y的个人经历以及计算机行业发展 Sijia_y python
如今互联网发展的速度甚是快，以至于技术都在更新迭代。稍有不注意可能就会被淘汰甚至是替代。作为一名中专生，我的成绩也是很差。因为高中考不上的缘故，来到了江苏上学。计算机行业我了解的并不是很多，当时只是听说工资高，铁饭碗。我是一个很懒的人，也是很贪玩。并没有学习很高的兴趣。我接触编程语言，完全是因为我的朋友。因为他是自学C语言的，后面他参加比赛得奖了。我就觉得非常厉害。我就开始学习Python，学会一
为什么Python使用者远远大于perl perlpython
不认为两者的语法差异是造成如此局面的主要原因.perl的语法虽然比较特立独行,但也不是很难.总结如下原因:library(或者叫package)的使用如果是本语言原生的library,那没有问题.如果是需要调用外部函数/过程的package的话,那么就会有巨大的差异.python是预编译然后从pypi上下载python(pip)将package下载到本地然后解压后将package内容安装到不同的指
AI 问答系统实战：用 Python + Flask + LLM 打造你的智能对话机器人！ Leaton Lee 人工智能 python flask
开篇互动：你是否想拥属于自己的AI问答机器人？“你是否想过拥有一个可以随时为你解答问题、提供建议的AI助手？”随着大语言模型（LLM）的快速发展，打造一个智能问答系统已经成为可能！本文将手把手教你如何利用Python和Flask快速搭建一个属于自己的AI问答系统，并集成强大的语言模型（如OpenAI的GPT-3.5或HuggingFace的LLaMA）。无论是技术小白还是有一定经验的开发者，都能轻
【TVM教程】为 Mobile GPU 自动调优卷积网络
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：LianminZheng,EddieYan针对特定设备的自动调优对于获得最佳性能至关重要。本文介绍如何调优整个卷积网络。TVM中MobileGPU的算子实现是以template形式编写的。该template有许多可调参数（tile因子
入坑 Python 全能实战小白训练营，470 集干货 12.9G 大揭秘！七七知享 Python python 开发语言 pandas numpy matplotlib java php
家人们，我最近挖到了一个Python学习的宝藏——Python全能实战小白训练营。整整470集，内容超丰富，资源包有12.9G，完全就是为咱们这些想系统学习Python的小白量身定制的。接下来就给大家好好唠唠。随着课程深入，会涉及到Python的各种高级特性，比如面向对象编程、模块与包的使用。在讲面向对象编程时，老师通过打造一个小型游戏角色系统，把类、对象、继承、多态这些抽象概念诠释得生动形象，让
深度学习训练中GPU内存管理 @Mr_LiuYang 遇到过的问题内存管理内存溢出 out of memory GPU内存
文章目录概述常见问题1、设备选择和数据迁移2、显存监控函数3、显存释放函数4、自适应batchsize调节5、梯度累积概述在深度学习模型训练中，主流GPU显存通常为8GB~80GB，内存不足会导致训练中断或BatchSize受限，GPU内存管理是优化性能和避免OutOfMemoryError的关键挑战。本博客简介PyTorch中GPU内存管理的核心函数、用法和实战技巧，帮助开发者高效利用显存资源。
深度学习pytorch之简单方法自定义9类卷积即插即用 @Mr_LiuYang 计算机视觉基础卷积类型非对称卷积深度卷积空洞卷积组卷积深度可分离卷积动态卷积
本文详细解析了PyTorch中torch.nn.Conv2d的核心参数，通过代码示例演示了如何利用这一基础函数实现多种卷积操作。涵盖的卷积类型包括：标准卷积、逐点卷积（1x1卷积）、非对称卷积（长宽不等的卷积核）、空洞卷积（扩大感受野）、深度卷积（逐通道滤波）、组卷积（分组独立处理）、深度可分离卷积（深度+逐点组合）、转置卷积（上采样）和动态卷积（动态生成卷积核），帮助读者理解如何通过调整参数灵活
PyCharm 对接 DeepSeek 大模型的详细操作流程程之编 pycharm ide python
以下是使用PyCharm对接DeepSeek大模型的详细操作流程，基于Python开发环境。假设你已具备DeepSeekAPI的访问权限（需提前申请APIKey）：步骤1：PyCharm环境准备创建新项目打开PyCharm→NewProject→选择纯Python项目→指定项目路径→创建虚拟环境（建议选Virtualenv）。安装依赖库打开终端（Terminal）执行以下命令：pipinstall
一学就会的深度学习基础指令及操作步骤（5）使用预训练模型小圆圆666 深度学习人工智能 python 卷积神经网络
文章目录使用预训练模型加载预训练模型图像加载与预处理预测使用预训练模型查看模型库和常用模型加载预训练模型fromtorchvision.modelsimportvgg16#VGG16模型架构的定义fromtorchvision.modelsimportVGG16_Weights#VGG16的预训练权重配置#loadtheVGG16network*pre-trained*ontheImageNetd
深度学习PyTorch之数据加载DataLoader @Mr_LiuYang 计算机视觉基础深度学习 pytorch 人工智能
深度学习pytorch之简单方法自定义9类卷积即插即用文章目录数据加载基础架构1、Dataset类详解2、DataLoader核心参数解析3、数据增强数据加载基础架构核心类关系图torch.utils.data├──Dataset(抽象基类)├──DataLoader(数据加载器)├──Sampler(采样策略)├──BatchSampler(批量采样)└──IterableDataset(流式数
量子计算如何颠覆能源优化领域：从理论到实践 Echo_Wish 人工智能前沿技术量子计算能源
量子计算如何颠覆能源优化领域：从理论到实践大家好，我是Echo_Wish，一个热爱探索前沿技术的人工智能与Python领域的技术分享者。今天，我们将深入探讨一个激动人心的话题——量子计算在能源优化中的应用。这不仅是科技领域的全新趋势，也可能为全人类的能源利用效率带来革命性突破。从理论模型到实际应用，量子计算已经在一些能源相关领域崭露头角，例如电网优化、可再生能源分配和物流节能规划。以下，让我们一步
XGBoost常见面试题（五）——模型对比月亮月亮要去太阳机器学习经验分享
XGBoost与GBDT的区别机器学习算法中GBDT和XGBOOST的区别有哪些？-知乎基分类器：传统GBDT以CART树作为基分类器，xgboost还支持线性分类器，这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归（分类问题）或者线性回归（回归问题）。导数：传统GBDT在优化时只用到一阶导数信息，xgboost则对代价函数进行了二阶泰勒展开，同时用到了一阶和二阶导数。同时xgboo
Kibana 单机与集群部署教程闲人编程大数据集群部署教程大数据集群单机部署 Kibana 日志分析数据可视化
目录Kibana单机与集群部署教程第一部分：Kibana概述第二部分：Kibana单机部署教程1.安装Kibana1.1安装依赖项1.2下载和安装Kibana1.3启动Kibana2.单机案例代码实现（Python）3.常见问题及解决方法3.1无法启动Kibana服务3.2Kibana无法连接到Elasticsearch第三部分：Kibana集群部署教程1.配置集群节点1.1配置Elasticse
INCA二次开发GUI实例化智海行舟 python 个人开发
【摘要】本文基于ETASINCA二次开发实践，深入探讨如何构建完整的自动化测试GUI系统。通过Python语言结合COM接口技术，实现从软件架构设计到功能模块开发的完整闭环，为汽车电子领域工程师提供可复用的开发范式。一、INCA二次开发技术背景1.1行业应用需求在汽车电子开发领域，ETASINCA作为行业标准标定工具，其自动化测试需求日益增长。传统的手动操作模式存在以下痛点：重复性操作耗时严重（单
如何通过API用Python获取北向资金流向数据？量化问财量化软件 QMT 量化交易 Python 量化炒股 PTrade QMT 量化交易量化软件 deepseek
推荐阅读：《【最全攻略】免费的量化软件有哪些？券商的交易接口怎么获取？》如何通过API用Python获取北向资金流向数据？北向资金指的是通过沪港通和深港通渠道，从香港市场流入A股市场的资金。对于投资者来说，了解北向资金流向对于把握市场趋势和投资决策具有重要意义。本文将介绍如何通过API用Python获取北向资金流向数据。理解北向资金流向数据北向资金流向数据主要包括以下几个方面：资金流入量：指通过沪
go执行java -jar 完成DSA私钥解析并签名 DavidSoCool java jar golang
起因，最近使用go对接百度联盟api需要使用到DSA私钥完成签名过程，在百度提供的代码示例里面没有go代码的支持，示例中仅有php、python2和3、java的代码，网上找了半天发现go中对DSA私钥解析支持不友好，然后决定使用在java中完成签名计算过程，生成可执行jar后由外部传入参数获取签名数据。百度联盟api文档说明：1）权限开通后，登录百度联盟媒体平台（union.baidu.com）
【30天玩转python】项目实战：从零开始开发一个Python项目爱技术的小伙子 30天玩转python linux 运维服务器
项目实战：从零开始开发一个Python项目在学习Python的过程中，开发一个完整的项目是非常重要的实战练习。它不仅能够帮助你巩固所学的知识，还能提高实际编程能力。本文将带领你从零开始开发一个Python项目，介绍从项目规划、环境搭建、代码实现到项目发布的完整过程。我们将以一个简单的“任务管理系统”为例，逐步讲解如何构建、测试和优化这个项目。1.项目规划1.1项目简介我们将开发一个基于命令行的任务
Python从0到100（七十六）：计算机视觉-直方图和自适应直方图均衡化是Dream呀 python 计算机视觉开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
python递推法_如何使用Python递归函数中的递推？热茶走 python递推法
我们大家都知道，一个函数可能存在多种不同的用法，很少是有函数只针对一个方式，那么基于一种函数，我们肯定要了解多个方式，今日针对递归函数里的递推内容给大家介绍哦~递归是什么？是指函数/过程/子程序在运行过程序中直接或间接调用自身而产生的重入现象。下面是个人理解：递归就是在函数内部调用自己的函数被称之为递归。实例：#直接调用自己：deffunc:print('fromfunc')funcFunc#间接
python递推式_Python 递推式构造列表(List Comprehensions) man One python递推式
你需要构造一个新的列表,列表中的元素是从一个已知列表中的元素计算而得到的.比如你要创建一个列表,里面的元素是另一个列表中的元素加23后得到的.使用递推式构造列表是最理想的方法:thenewlist=[x+23forxintheoldlist]如果你希望用一个列表中大于5的元素构造一个新的列表,使用递推式也是很方便的:thenewlist=[xforxintheoldlistifx>5]如果你希望将
Dash 简介 tankusa dash
Dash是一个基于Python的开源框架，专门用于构建数据分析和数据可视化的Web应用程序。Dash由Plotly团队开发，旨在帮助数据分析师、数据科学家和开发人员快速创建交互式的、基于数据的Web应用，而无需深入掌握前端技术（如HTML、CSS和JavaScript）。Dash的核心优势在于其简单易用性和强大的功能。通过Dash，用户可以使用纯Python代码来构建复杂的Web应用，而无需编写繁
视频下载插件：yt-dlp 小怪兽长大啦 python
Yt-dlp插件使用下载方法方法一：Python插件下载使用pip工具安装即可:pipinstallyt-dlp.Python已经配置过环境变量，下载yt-dlp时不需要配置。方法二：直接下载EXE可执行文件网上下载yt-dlp应用程序：https://github.com/yt-dlp/yt-dlp/releases配置环境变量。常用使用命令（配置好环境变量后，控制台下输入命令即可）直接下载视频
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓