DoubleS!

【机器学习】DS的基础学习笔记2：逻辑回归与正则化

文章目录

逻辑回归与正则化
- 2.1 逻辑回归
- - 2.1.1 分类问题
  - 2.1.2 假说表示与决策边界
  - 2.1.3 代价函数及其简化形式
  - 2.1.4 梯度下降以及高级优化
  - 2.1.5 多类别分类：一对多
- 2.2 正则化(Regularization)
- - 2.2.1 过拟合的问题
  - 2.2.2 线性回归中的正则化
  - 2.2.3 逻辑回归中的正则化
- 2.3 配套作业的Python实现
- - 2.3.1 逻辑回归
  - 2.3.2 逻辑回归的正则化

逻辑回归与正则化

2.1 逻辑回归

2.1.1 分类问题

在本专栏第一篇文章里介绍的线性回归，是一种解决回归问题的有力算法。在本篇文章中，要介绍一种叫做逻辑回归的算法来解决同为监督学习的分类问题。不同于回归，分类问题所需要预测的 $y$ 值往往是离散型数据。

分类问题在实际生活中也很常见：比如判断一封电子邮件是非垃圾邮件(0)还是垃圾邮件(1)，肿瘤是良性的(0)还是恶性的(1)……
我们将从最简单的二元分类开始讨论，我们将 $y$ 可能属于的两个类分别称为负类与正类，因此有 $\in \{0,1\}$ ，其中0表示负类，1表示正类。

以吴恩达老师视频中所举的肿瘤为例，来探讨一下线性回归对于分类问题的可行性。

假设我们利用线性回归作出了假设函数 $h_\theta(x)$ （如图粉色直线），并有规定阈值为0.5：凡假设出的 $y\ge 0.5$ ，则肿瘤为恶性； $y < 0.5$ ，则肿瘤为良性。这对于初始的8个数据点（图中左侧的八个样本）看似是一个比较好的分类器，但一旦加入了一个比较“夸张”的样本（图中最右侧的样本），则再次利用线性回归算法得到的假设函数会变化（如图蓝色直线）这样可能使得某些恶性的样本会被线性回归判定为“良性”（左数第5、6个样本均在阈值左侧）。与此同时，我们发现当对某些尺寸的肿瘤进行分类时，利用线性回归算法所得到的 $y$ 可能远大于1或远小于0，输出值与离散值相差甚远。综上，我们可以得出线性回归算法不适用于分类问题的结论。

究其原因，线性回归算法无法将预测值控制在离散值范围内，因此我们需要一种算法，可以保证我们的预测值在分类所需要的离散值范围内（在二元分类即保证在0到1之间）我们从而要学习逻辑回归算法，这里需要说明逻辑回归所得到的假设函数满足 $0\le h_\theta(x)\le 1$ .

2.1.2 假说表示与决策边界

逻辑回归要求输出变量范围在0到1之间，因此逻辑回归的模型假设是 $h_\theta(x)=g(\theta^T x)$ ，其中 $x$ 代表特征向量， $g$ 代表逻辑函数。
逻辑函数是一个形如S的函数，公式为：
$g(z)=\frac{1}{1+e^{-z}}$
函数图像大致为：

我们可以发现逻辑函数正是我们想要的假设，全部控制在0到1之间。因此假设函数可表示为：
$h_\theta(x)=\frac{1}{1+e^{-\theta^Tx}}$
$h_\theta(x)$ 在分类问题中的意义为根据输入特征向量 $x$ 预测 $y = 1$ 的可能性，即 $h_\theta(x)=P(y=1|x;\ \theta)$ . 由于 $P(y=0|x;\ \theta)+P(y=1|x;\ \theta)=1$ ，因此可以轻松计算出在特征向量为 $x$ 时 $y = 0$ 的可能性为 $P(y=0|x;\ \theta)=1-P(y=1|x;\ \theta)=1-h_\theta(x)$ .

接下来我们将从可视化角度来探讨假设函数的作用，即几何意义。由逻辑函数的图像可知，当 $z = 0$ 时， $g (z) = 0.5$ ； $z > 0$ 时， $g (z) > 0.5$ ； $z < 0$ 时， $g (z) < 0.5$ .又因为 $z=\theta^Tx$ ，有 $\theta^Tx\ge0$ 时，预测 $y = 1$ ； $\theta^Tx<0$ 时，预测 $y = 0$ .

假设我们已有一个模型：
且已经通过某些方法得到向量： $\theta= \begin{bmatrix} -3\quad 1 \quad 1 \end{bmatrix}$ ，因此 $-3+x_1+x_2\ge0$ ，即 $x_1+x_2\ge 3$ 时，预测值 $y = 1$ . 我们可在图像中加入直线 $x_1+x_2= 3$ ，便是决策边界，将 $y = 1$ 与 $y = 0$ 的区域分开。

同理，当遇到比较复杂的模型时，可引入平方项特征，如图所示。

假设函数可设为 $h_\theta(x)=g(\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_1^2+\theta_4x_2^2)$ ，通过某些方法得到向量 $\theta= \begin{bmatrix} -1\quad 0 \quad 0\quad 1\quad 1 \end{bmatrix}$ ，因此可以得到决策边界为 $x_1^2+x_2^2=1$ 的圆形。我们可以用复杂的多项式得到形状复杂的决策边界。

2.1.3 代价函数及其简化形式

在逻辑回归中，我们同样有代价函数来评价当前参数向量 $\theta$ 是否合理，来衡量当前分类器的准确性。逻辑回归的代价函数可写成如下形式：
$J(\theta)=\frac{1}{m}\sum_{i=1}^mCost(h_\theta(x^{(i)}),\ y^{(i)})\\ Cost(h_\theta(x),\ y)= \begin{cases} -ln(h_\theta(x)) &\text{if } y=1 \\ -ln(1-h_\theta(x)) &\text{if } y=0 \end{cases}\\ Note:y=0\ or\ 1\ always.$
我们很容易发现，在Cost函数中当 $y = 1$ 时 $h_\theta(x)$ 越趋向1的过程中， $C o s t$ 在趋向于0，而 $h_\theta(x)$ 越趋向0的过程中， $C o s t$ 在趋向于无穷大，当 $y = 0$ 时同理。之所以抛弃线性回归中的代价函数是因为原来的代价函数是一个非凸函数（因为sigmoid函数的非线性），有多个局部最小值，因此不利于梯度下降法的展开。逻辑回归的代价函数可以证明是一个凸函数，没有局部最优值，适宜使用梯度下降法。但是目前的 $C o s t$ 还是一个分段函数，不够直接，我们可以写出其简化形式：
$Cost(h_\theta(x),\ y)=-y\cdot ln(h_\theta(x))-(1-y)\cdot ln(1-h_\theta(x))$
因此简化的代价函数为：
$J(\theta)=-\frac{1}{m}\sum_{i=1}^m[y^{(i)}\cdot ln(h_\theta(x^{(i)}))+(1-y^{(i)})\cdot ln(1-h_\theta(x^{(i)}))]$

2.1.4 梯度下降以及高级优化

我们想要拟合出参数 $\theta$ ，就需要使得代价函数 $J(\theta)$ 最小，这里我们用到的算法是梯度下降法。同样地，特征缩放依然重要。逻辑回归的梯度下降算法为：
$Repeat\\ \theta_j=\theta_j-\alpha\frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}\\ simultaneously\ update\ all\ \theta_j$
原理为 $\theta_j=\theta_j-\alpha\frac{\partial}{\partial \theta_j}J(\theta).$ 关键是求出 $\frac{\partial}{\partial \theta_j}J(\theta)$ ，推导过程如下：
$\begin{aligned} \frac{\partial}{\partial \theta_j}J(\theta)&=\frac{\partial}{\partial \theta_j}[-\frac{1}{m}\sum_{i=1}^m[y^{(i)}\cdot ln(h_\theta(x^{(i)}))+(1-y^{(i)})\cdot ln(1-h\theta(x^{(i)}))]\\ &=\frac{\partial}{\partial \theta_j}[-\frac{1}{m}\sum_{i=1}^m[y^{(i)}\cdot ln(\frac{1}{1+e^{-\theta^Tx^{(i)}}})+(1-y^{(i)})\cdot ln(1-\frac{1}{1+e^{-\theta^Tx^{(i)}}})]\\ &=\frac{\partial}{\partial \theta_j}[-\frac{1}{m}\sum_{i=1}^m[-y^{(i)}\cdot ln(1+e^{-\theta^Tx^{(i)}})-(1-y^{(i)})\cdot ln(1+e^{\theta^Tx^{(i)}})]\\ &=-\frac{1}{m}\sum_{i=1}^m[-y^{(i)}\frac{-x_j^{(i)}e^{-\theta^Tx^{(i)}}}{1+e^{-\theta^Tx^{(i)}}}-(1-y^{(i)})\frac{x_j^{(i)}e^{\theta^Tx^{(i)}}}{1+e^{\theta^Tx^{(i)}}}]\\ &=-\frac{1}{m}\sum_{i=1}^m[y^{(i)}\frac{x_j^{(i)}e^{-\theta^Tx^{(i)}}}{1+e^{-\theta^Tx^{(i)}}}-(1-y^{(i)})\frac{x_j^{(i)}e^{\theta^Tx^{(i)}}}{1+e^{\theta^Tx^{(i)}}}]\\ &=-\frac{1}{m}\sum_{i=1}^m\frac{y^{(i)}x_j^{(i)}-x_j^{(i)}e^{\theta^Tx^{(i)}}+y^{(i)}x_j^{(i)}e^{\theta^Tx^{(i)}}}{1+e^{\theta^Tx^{(i)}}}\\ &=-\frac{1}{m}\sum_{i=1}^m\frac{y^{(i)}(1+e^{\theta^Tx^{(i)}})-e^{\theta^Tx^{(i)}}}{1+e^{\theta^Tx^{(i)}}}x_j^{(i)}\\ &=-\frac{1}{m}\sum_{i=1}^m(y^{(i)}-\frac{e^{\theta^Tx^{(i)}}}{1+e^{\theta^Tx^{(i)}}})x_j^{(i)}\\ &=-\frac{1}{m}\sum_{i=1}^m(y^{(i)}-\frac{1}{1+e^{-\theta^Tx^{(i)}}})x_j^{(i)}\\ &=-\frac{1}{m}\sum_{i=1}^m[y^{(i)}-h_\theta(x^{(i)})]x_j^{(i)}\\ &=\frac{1}{m}\sum_{i=1}^m[h_\theta(x^{(i)})-y^{(i)}]x_j^{(i)}\\ \end{aligned}$
如果你对上一篇文章印象深刻的话，可以发现逻辑回归的梯度下降的形式居然与线性回归中的一模一样，但由于假设函数 $h_\theta(x)$ 的不同，这两个算法实际上是两个不同的算法，只是 $\frac{\partial}{\partial \theta_j}J(\theta)$ 计算结果一致产生的结果。

在算法实现的过程中可以像第一篇文章中一样利用两次 for 循环，一次用来记录 iter 迭代次数，一次用来记录不同的参数 $\theta_j$ 把结果保存在temp中，退出循环后再一次性赋值给新的 $\theta$ 。当然也可以利用向量化的方法一次性将向量 $\theta$ 更新。

然而梯度下降算法并不是唯一算法，还有一些更复杂更高级的算法帮助我们拟合参数 $\theta$ ，比如BFGS 共轭梯度法（变尺度法）、L-BFGS 限制变尺度法等。这些高级算法的优点有无需手动选择学习率 $\alpha$ ，它可以利用内部的线性搜索算法自动尝试不同的 $\alpha$ ，并自动选择一个合适的 $\alpha$ ；并且这些高级算法的收敛速度往往快于梯度下降法。我们可以合理的利用库去找到 $\theta$ ，从而代替梯度下降法，比如MATLAB的fminunc函数，Python的spicy库中的scipy.optimize.minimize函数等等。

2.1.5 多类别分类：一对多

上文中的分析都是基于二元分类，而现实中往往都是多元分类。比如生活中的邮件：工作、朋友、家人，可以分别用 $y = 1$ , $y = 2$ , $y = 3$ 表示。

我们的处理方法是将其分成3个二元分类问题。实际上我们可以创建一个“伪训练集”：类型1设为正类，类型2和类型3设为负类。同理，依次将类型2、类型3单独设为正类，也就得到3个二元分类问题。我们可以将每个模型简记为 $h_\theta^{(i)}(x)=P(y=i|x; \theta).$ 在分类时，我们输入 $x$ 到3个模型中，最终我们选择使得 $h_\theta^{(i)}(x)$ 最大的 $i$ .

2.2 正则化(Regularization)

2.2.1 过拟合的问题

我们已经学习了线性回归与逻辑回归两种算法，在实现这些算法时，选择特征是一个关键步骤。在上一篇文章中，正规方程法可能出现不可逆的情况，有可能是因为特征过多导致，而我们当时提到了一个有力的解决方法是正则化。我们需要了解欠拟合，过拟合的相关概念。

上面两个例子中，第一幅图都是欠拟合的情况，原因是特征量过少；第三幅图选择特征过多，过于强调拟合数据，从而削弱了预测新数据的功能，这种情况我们称作过拟合；因此中间的模型更加合适。

如果发现了过拟合的问题，我们可以从两个角度入手考虑：

丢弃一些不能帮助我们正确预测的特征。可以手工选择，也可以借助一些算法选择(如PCA），这种方法可能让我们失去一些有用信息。
正则化，保留所有特征，减小参数大小，从而让每个特征都为最终的模型作出一些贡献。

2.2.2 线性回归中的正则化

我们需要应用正则化于代价函数中，帮助我们防止过拟合的情况。新的代价函数为：
$J(\theta)=\frac{1}{2m}[\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2+\lambda\sum_{j=1}^n\theta_j^2]$
需要说明的是，我们不对 $\theta_0$ 进行缩小。经过正则化后的模型与过拟合情况的模型对比如图所示。

上式中的 $\lambda$ 称作正则化参数，如果 $\lambda$ 过大，则会把除 $\theta_0$ 外的所有参数近似为0，从而 $h_\theta(x)=\theta_0$ ，也就是上图红线所示的情况，造成欠拟合。

因为代价函数的变化，线性回归的梯度下降算法也要有一定的变化。
$Repeat\ until\ convergence\\ \theta_0=\theta_0-\alpha\frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x_0^{(i)}\\ \begin{aligned} \theta_j&=\theta_j-\alpha[\frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}+\frac{\lambda}{m}\theta_j]\\ &=\theta_j(1-\alpha\frac{\lambda}{m})-\alpha\frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)} \end{aligned}$
可以看出，正则化对梯度下降的影响是对每个 $\theta_j$ 都减小了一个额外值。

同样地，正则化也对正规方程的形式产生了变化。
$\theta=\Bigg(X^TX+\lambda\begin{bmatrix} 0\\ &1\\ &&1\\ &&&…\\ &&&&1 \end{bmatrix} \Bigg)^{-1}X^Ty$
公式中的矩阵维度是 $(n+1)\times (n+1)$ . 推导过程如下：
$\begin{aligned} J(\theta)&=\frac{1}{2m}[\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2+\lambda\sum_{j=1}^n\theta_j^2]\\ &=\frac{1}{2m}[(X\theta-y)^T(X\theta-y)+\lambda \theta'^T\theta]\\ &=\frac{1}{2m}(\theta^TX^TX\theta-\theta^TX^Ty-y^TX\theta+y^Ty+\lambda\theta'^T\theta) \end{aligned}$
注意：因为我们不需要对 $\theta_0$ 正则化，所以这里的 $\theta'=\begin{bmatrix} 0\\ \theta_1\\ …\\ \theta_n \end{bmatrix}=\begin{bmatrix} 0\\ &1\\ &&1\\ &&&…\\ &&&&1 \end{bmatrix}\theta$ 此外需要用到矩阵求导公式
$\begin{gathered} \frac{\partial x^Tx}{\partial x}=2x\\ \frac{\partial Ax}{x}=A^T\\ \frac{\partial x^TB}{x}=B\\ \frac{\partial x^TAx}{\partial x}=(A+A^T)x \end{gathered}$
因此对 $J(\theta)$ 求偏导 $\theta$
$\begin{gathered} \frac{\partial J(\theta)}{\partial \theta}=\frac{1}{m}(X^TX\theta-X^Ty+\lambda \begin{bmatrix} 0\\ &1\\ &&1\\ &&&…\\ &&&&1 \end{bmatrix}\theta)=0\\ \theta=\Bigg(X^TX+\lambda\begin{bmatrix} 0\\ &1\\ &&1\\ &&&…\\ &&&&1 \end{bmatrix} \Bigg)^{-1}X^Ty \end{gathered}$

2.2.3 逻辑回归中的正则化

与线性回归类似，把正则化思想与逻辑回归结合，得到新的代价函数公式：
$J(\theta)=-\frac{1}{m}\sum_{i=1}^m[y^{(i)}\cdot ln(h_\theta(x^{(i)}))+(1-y^{(i)})\cdot ln(1-h\theta(x^{(i)}))]+\frac{\lambda}{2m}\sum_{j=1}^n\theta_j^2$
为了得到最小化的代价函数的 $\theta$ ，得到新的梯度下降算法：
$Repeat\\ \theta_0=\theta_0-\alpha\frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x_0^{(i)}\\ \theta_j=\theta_j-\alpha[\frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}+\frac{\lambda}{m}\theta_j]\\ for\ j\ =1,2…,n\\ simultaneously\ update\ all\ \theta_j$
同样地，梯度下降算法的公式与线性回归中的形式一样，但是因为我们知道逻辑回归中的 $h_\theta(x)$ 与线性回归不同，从而有本质区别。除此之外， $\theta_0$ 同样不参与正则化。

2.3 配套作业的Python实现

2.3.1 逻辑回归

1. 问题背景

本练习需要我们建立一个逻辑回归模型来预测一个学生是否会被大学录取。假设你是一个大学管理员，有历史申请人的两次考试结果与录取结果作为训练集。构建的模型可以使得基于两次考试分数给出入学概率。

2. 数据可视化

首先我们要导入所需的包。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use("fivethirtyeight")  # 样式美化
from sklearn.metrics import classification_report  # 评价报告

再初步预览数据集。

data = pd.read_csv('ex2data1.txt', names=['exam1', 'exam2', 'admitted'])
data.head()#看前五行

data.describe()

对数据集进行可视化处理。

sns.set(context="notebook", style="darkgrid", palette=sns.color_palette("RdBu", 2))
sns.lmplot(x='exam1', y='exam2', hue='admitted', data=data,
           height=6,
           fit_reg=False,
           scatter_kws={"s": 50}
           )
plt.show()

接下来，我们需要对数据进行处理，以便建立模型。在这里我们分别得到ndarray形式的X与y. 其次也需要注意是否特征缩放。

def get_X(df):
    ones = pd.DataFrame({'ones': np.ones(len(df))})
    data = pd.concat([ones, df], axis=1)  # 按列合并数据
    return data.iloc[:, :-1].values


def get_y(df):
    return np.array(df.iloc[:, -1])

def normalize_frature(df):
    return df.apply(lambda column:(column - column.mean()) / column.std())  # 特征缩放


X = get_X(data)
print(X.shape)
y = get_y(data)
print(y.shape)

(100, 3)
(100,)

3. sigmoid 函数
回顾前文提到的sigmoid函数：
$h_\theta(x)=\frac{1}{1+e^{-\theta^Tx}}$

def sigmoid(z):
    return 1 / (1 + np.exp(-z))

我们可以对该函数进行可视化处理。

fig, ax = plt.subplots(figsize=(8, 6))
ax.plot(np.arange(-10, 10, step=0.01),
        sigmoid(np.arange(-10, 10, step=0.01)))
ax.set_ylim((-0.1, 1.1))
ax.set_xlabel('z', fontsize=18)
ax.set_ylabel('g(z)', fontsize=18)
ax.set_title('sigmoid function', fontsize=18)
plt.show()

4. 代价函数与梯度下降
$J(\theta)=\frac{1}{m}\sum_{i=1}^m[-y^{(i)}\cdot ln(h_\theta(x^{(i)}))-(1-y^{(i)})\cdot ln(1-h_\theta(x^{(i)}))]$
首先初始化 $\theta$

theta = theta=np.zeros(3)

def cost(theta, X, y):
    ''' cost fn is -l(theta) for you to minimize'''
    return np.mean(-y * np.log(sigmoid(X @ theta)) - (1 - y) * np.log(1 - sigmoid(X @ theta)))
    # X @ theta与X.dot(theta)等价

可计算出 $\theta=[0,0,0]$ 时的代价函数值为0.6931471805599453.
梯度下降算法为
$Repeat\\ \theta_j=\theta_j-\alpha\frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}\\ simultaneously\ update\ all\ \theta_j$
因此我们首先计算梯度
$\frac{\partial}{\partial \theta_j}J(\theta)=\frac{1}{m}\sum_{i=1}^m[h_\theta(x^{(i)})-y^{(i)}]x_j^{(i)}$
等价的批量计算梯度方法
$\frac{1}{m}\cdot X^T\cdot [sigmoid(X \theta)-y]$

def gradient(theta, X, y):
    """
    这个写法不够批量化，可直接用矩阵实现同样效果
    grad_theta_0 = np.mean(X[:,0] * (sigmoid(X @ theta) - y))
    grad_theta_1 = np.mean(X[:,1] * (sigmoid(X @ theta) - y))
    grad_theta_2 = np.mean(X[:,2] * (sigmoid(X @ theta) - y))
    grad = np.array([grad_theta_0, grad_theta_1, grad_theta_2])
    return grad
    """
    def gradient(theta, X, y):
    return (1 / len(X)) * X.T @ (sigmoid(X @ theta) - y)

可计算出此时梯度为[ -0.1, -12.00921659, -11.26284221]

def gradientDescent(X, y, theta, alpha, iters):
    temp = np.zeros(theta.size)
    parameters = theta.size

    for i in range(iters):
        for j in range(parameters):
            temp[j] = theta[j] - alpha * gradient(theta, X, y)[j]

        theta = temp
    return theta


alpha = 0.001
iters = 100000

theta = gradientDescent(X, y, theta, alpha, iters)
print(theta)
print(cost(theta, X, y))
# 可能因为学习率与迭代次数的问题，效果不理想

因此我们采用参数拟合的高级优化方法，直接得到理想参数，使用scipy.optimize.minimize方法。

import scipy.optimize as opt
res = opt.minimize(fun=cost, x0=theta, args=(X, y), method='Newton-CG', jac=gradient)

使用训练集验证模型。

def predict(x, theta):
    y_pred = (sigmoid(x @ theta) > 0.5).astype(int)
    return y_pred

final_theta = res.x
y_pred = predict(X, final_theta)

print(classification_report(y, y_pred))

5.寻找决策边界

print(res.x) # this is final theta

最终 $\theta=[-25.15632676\quad0.20619166\quad0.20143109]$ .
我们知道在sigmoid函数中z值大于0，判定为1；小于等于0，判定为0.因此决策边界为 $x\theta=0$
$\theta_0+\theta_1x_1+\theta_2x_2=0\\ \\ \quad \\ x_2=-\frac{\theta_1}{\theta_2}x_1-\frac{\theta_0}{\theta_2}$

coef = -(res.x / res.x[2])  # find the equation
print(coef)

x = np.arange(130, step=0.1)
y = coef[0] + coef[1]*x

sns.set(context="notebook", style="ticks", font_scale=1.5)

sns.lmplot(x='exam1', y='exam2', hue='admitted', data=data,
           height=6,
           fit_reg=False,
           scatter_kws={"s": 25}
          )

plt.plot(x, y, 'grey')
plt.xlim(0, 130)
plt.ylim(0, 130)
plt.title('Decision Boundary')
plt.show()

2.3.2 逻辑回归的正则化

1.问题背景

利用逻辑回归正则化预测制造厂的微芯片是否通过质量保证 (QA)。在 QA 期间，每个微芯片都经过各种测试，以确保它运行正常。假设你是工厂的产品经理，你有一些微芯片在两种不同测试中的测试结果。从这两个测试中，您想确定是否应接受微芯片或拒绝。为了帮助您做出决定，您有一个测试结果数据集在过去的微芯片上，您可以从中构建逻辑回归模型。

2.数据可视化

df = pd.read_csv('ex2data2.txt', names=['test1', 'test2', 'accepted'])
df.head()

sns.set(context="notebook", style="ticks", font_scale=1.5)

sns.lmplot(x='test1', y='test2', hue='accepted', data=df, 
           height=6, 
           fit_reg=False, 
           scatter_kws={"s": 50}
          )

plt.title('Regularized Logistic Regression')
plt.show()

3.特征映射(feature mapping)
通过将数据可视化可得出决策边界不再是一条简单直线的结论，因此我们需要用多项式来得到合适的决策边界。

def feature_mapping(x, y, power, as_ndarray=False):
     """return mapped features as ndarray or dataframe"""

    data = {"f{}{}".format(i - p, p): np.power(x, i - p) * np.power(y, p)
                for i in np.arange(power + 1)
                for p in np.arange(i + 1)
            }

    if as_ndarray:
        return pd.DataFrame(data).values
    else:
        return pd.DataFrame(data)


x1 = np.array(df.test1)
x2 = np.array(df.test2)
data = feature_mapping(x1, x2, power=6)
print(data.shape)
data.head()

以6次为例，我们得到了28个特征。

4.正则化逻辑回归代价函数与正则化梯度

theta = np.zeros(data.shape[1])# f00即多加的常数项
X = feature_mapping(x1, x2, power=6, as_ndarray=True)
print(X.shape)

y = get_y(df)
print(y.shape)

$J(\theta)=-\frac{1}{m}\sum_{i=1}^m[y^{(i)}\cdot ln(h_\theta(x^{(i)}))+(1-y^{(i)})\cdot ln(1-h\theta(x^{(i)}))]+\frac{\lambda}{2m}\sum_{j=1}^n\theta_j^2$

def regularized_cost(theta, X, y, l=1):
    
    theta_j1_to_n = theta[1:]# 不需要将theta_0正则化
    regularized_term = (l / (2 * len(X))) * np.power(theta_j1_to_n, 2).sum()

    return cost(theta, X, y) + regularized_term

def regularized_gradient(theta, X, y, l=1):  
    
    theta_j1_to_n = theta[1:]
    regularized_theta = (l / len(X)) * theta_j1_to_n

    # by doing this, no offset is on theta_0
    regularized_term = np.concatenate([np.array([0]), regularized_theta])
    return gradient(theta, X, y) + regularized_term

同样地，我们利用scipy.optimize找到最优参数。

import scipy.optimize as opt
print('init cost = {}'.format(regularized_cost(theta, X, y)))

res = opt.minimize(fun=regularized_cost, x0=theta, args=(X, y), method='Newton-CG', jac=regularized_gradient)
print(res)

final_theta = res.x
y_pred = predict(X, final_theta)

print(classification_report(y, y_pred))

5. 使用不同的 $\lambda$ ，画出决策边界

与第一题不同，此题项数为28个！不易直接得到x2与x1之间的关系式，因此我们通过建立一系列网格，找到那些足够优秀的点（近似于0），标出即可，如果网格足够密集，那么绘制出的图形便是连续的。

def draw_boundary(power, l):
#     """
#     power: polynomial power for mapped feature
#     l: lambda constant
#     """
    density = 1000
    threshhold = 2 * 10**-2.4

    final_theta = feature_mapped_logistic_regression(power, l)
    x, y = find_decision_boundary(density, power, final_theta, threshhold)

    df = pd.read_csv('ex2data2.txt', names=['test1', 'test2', 'accepted'])
    sns.lmplot(x='test1', y='test2', hue='accepted', data=df, height=6, fit_reg=False, scatter_kws={"s": 100})

    plt.scatter(x, y, c='r', s=10)
    plt.title('Decision boundary')
    plt.show()


def feature_mapped_logistic_regression(power, l):
#     """for drawing purpose only.. not a well generealize logistic regression
#     power: int
#         raise x1, x2 to polynomial power
#     l: int
#         lambda constant for regularization term
#     """
    df = pd.read_csv('ex2data2.txt', names=['test1', 'test2', 'accepted'])
    x1 = np.array(df.test1)
    x2 = np.array(df.test2)
    y = get_y(df)

    X = feature_mapping(x1, x2, power, as_ndarray=True)
    theta = np.zeros(X.shape[1])

    res = opt.minimize(fun=regularized_cost,
                       x0=theta,
                       args=(X, y, l),
                       method='TNC',
                       jac=regularized_gradient)
    final_theta = res.x

    return final_theta


def find_decision_boundary(density, power, theta, threshhold):
    t1 = np.linspace(-1, 1.5, density)
    t2 = np.linspace(-1, 1.5, density)

    cordinates = [(x, y) for x in t1 for y in t2]
    x_cord, y_cord = zip(*cordinates)
    mapped_cord = feature_mapping(x_cord, y_cord, power)  # this is a dataframe

    inner_product = mapped_cord.values @ theta

    decision = mapped_cord[np.abs(inner_product) < threshhold]

    return decision.f10, decision.f01

draw_boundary(power=6, l=1)     #set lambda = 1

draw_boundary(power=6, l=0)  # set lambda < 0.1 过拟合

draw_boundary(power=6, l=50)  # set lambda > 10 欠拟合

你可能感兴趣的:(Double,S的机器学习基础笔记,机器学习,逻辑回归)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
芦花鞋一四许叶晗
又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
想家爆米花机
也许不同于大家对家乡的思念，我对家乡甚至是疯狂的不舍。还未踏出车站就感觉到幸福，我享受这里的夕阳、这里的浓烈柴火味、这里每一口家常菜。我是宅女，我贪恋家的安逸。刚刚踏出大学校门，初出茅庐，无法适应每年只能国庆和春节回家。我焦虑、失眠、无端发脾气，是无法适应工作的节奏，是无法接受我将一步步离开家乡的事实。我不想承认自己胸无大志，选择再次踏上征程。图片发自App
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
小丽成长记（四十三）玲玲54321
小丽发现，即使她好不容易调整好自己的心态下一秒总会有不确定的伤脑筋的事出现，一个接一个的问题，人生就没有停下的时候，小问题不断出现。不过她今天看的书，她接受了人生就是不确定的，厉害的人就是不断创造确定性，在Ta的领域比别人多的确定性就能让自己脱颖而出，显示价值从而获得的比别人多的利益。正是这样的原因，因为从前修炼自己太少，使得她现在在人生道路上打怪起来困难重重，她似乎永远摆脱不了那种无力感，有种习
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
瑶池防线谜影梦蝶
冥华虽然逃过了影梦的军队，但他是一个忠臣，他选择上报战况。败给影梦后成逃兵，高层亡尔还活着，七重天失守......随便一条，即可处死冥华。冥华自然是知道以仙界高层的习性此信一发自己必死无疑，但他还选择上报实情，因为责任。同样此信送到仙宫后，知道此事的人，大多数人都认定冥华要完了，所以上到仙界高层，下到扫大街的，包括冥华自己，全都准备好迎接冥华之死。如果仙界现在还属于两方之争的话，冥华必死无疑。然而
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置