ChanZany

机器学习系列笔记九: 逻辑回归

文章目录

机器学习系列笔记九: 逻辑回归
- Intro
- Logistic Regression原理
- - 激活函数
  - 逻辑回归的损失函数
- 实现逻辑回归算法
- 决策边界
- 在逻辑回归中使用多项式特征
- - 代码实现
- 逻辑回归中使用正则化
- - scikit-learn中的逻辑回归
- 二分类算法改进作用于多分类问题
- - 代码实现
  - - OvO/OvR作为参数传入二分类算法
    - OvR/OvO作为类，二分类算法作为参数
- 总结
- 参考致谢

Intro

为了说明逻辑回归的重要性，先post一张图：

这是kaggle在2017年对工作最常用的数据科学方法的排名统计，可以看到逻辑回归LogicRegression是各个行业中(除了军事和安全领域)最为常用的数据科学方法。这也说明对于机器学习算法并不见得是越复杂越好的，要根据实际的使用场景选择最合适的算法。

没有免费午餐定理：并没有哪个算法比哪个算法更好，只是在特定的场景中的效果有差别。

那么逻辑回归是什么？其实如果修过吴恩达的机器学习课程的同学都不陌生，在此做一个系统的总结。

首先明确一个容易混淆的概念：逻辑回归是解决二分类问题的。

Logistic Regression原理

逻辑回归的原理是将样本特征和样本发生的概率联系起来，由于概率是一个数，所以称之为回归，然后会根据这个发生概率是否高于阈值(p=0.5)来把结果划分为0,1两个固定的结果(类别)，所以解决的是一个二分类问题。

假设通过回归计算得出的结果 $\hat{y}$ 是一个数,为了将之转换为概率我们通常需要在回归的结果上通过一个激活函数(比如sigmoid)使之映射到0~1区间。
$\sigma(\hat{y})=>\hat{p}\in(0,1)$
然后通过判断 $\hat{p}$ (该样本发生的概率)是否在50%以上做一个划分
$\hat{y}=\begin{cases} 0& \hat{p}<0.5\\ 1& \hat{p}>0.5\\ \end{cases}$
所以最终结果就变为了类别0或者类别1这样的结果。

逻辑回归就是在线性回归的基础上通过激活函数把结果映射为概率值

激活函数

在逻辑回归中，如何寻找合适的激活函数将回归结果映射为概率就成为了一个重要问题，通常可以采用sigmoid函数作为激活函数 $\sigma(t)$ ：
$\sigma(t)=\frac{1}{1+e^{-t}}$
该函数的图像如下：

可以看到这个函数的值域是(0,1)，这符合概率的值域，当t>0时,p>0.5,t<0则p<0.5.所以分界点就是t=0.

考虑将线性回归的结果带入t中可以得出一个结论：在使用sigmoid函数处理线性回归结果之前，我们需要将回归结果进行标准化处理，使之均值为0,而这个0就是所谓的决策边界。

逻辑回归的损失函数

不同于线性回归中所采用的损失函数 $MSE=(\hat{y}-y)^2$ ,对于逻辑回归，因为其最终结果非0即1，所以要对损失函数的定义进行一个转换（这里有一点绕，需要在逻辑上进行一个类比）:

然后，我们希望通过一个函数来表达这样的一个损失cost:
$\cos t=\begin{cases} -\log \left( \hat{p} \right)& if\ \ y=1\\ -\log \left( 1-\hat{p} \right)& if\ \ y=0\\ \end{cases}$

将上式稍作修改就变成了如下形式:
$\cos t=-y\log \left( \hat{p} \right) -\left( 1-y \right) \log \left( 1-\hat{p} \right)$
进而最终对于逻辑回归的损失函数定义如下：
$J\left( \theta \right) =-\frac{1}{m}\sum_i^m{y^{\left( i \right)}}\log \left( \hat{p}^{\left( i \right)} \right) -\left( 1-y^{\left( i \right)} \right) \log \left( 1-\hat{p}^{\left( i \right)} \right)$

$y^{(i)}$ 表示第i个样本的真实分类
$\hat{p}^{(i)}=\sigma(X_b^{i}\theta)$ 表示对于第i个样本模型的预测结果。

由于大多数激活函数非线性，所以对于逻辑回归的损失函数是没有公式解的，只能用梯度下降法求解。而对于该损失函数的梯度求解结果如下：
$\frac{J\left( \theta \right)}{\theta _j}=\frac{1}{m}\sum_{i=1}^m{\left( \sigma \left( X_{b}^{\left( i \right)}\theta \right) -y^{\left( i \right)} \right) X_{j}^{\left( i \right)}}$

向量化梯度:
$\nabla J\left( \theta \right) =\frac{1}{m}\cdot X_{b}^{T}\cdot \left( \sigma \left( X_b\theta \right) -y \right)$

实现逻辑回归算法

import numpy as np
from sklearn.metrics import accuracy_score


class LogicRegression:

    def __init__(self):
        """初始化Logic Regression 模型"""
        self.coef_ = None
        self.intercept_ = None
        self._theta = None

    def _sigmoid(self, t):
        return 1 / (1 + np.exp(-t))

    def fit(self, X_train, y_train, eta=0.01, n_iters=1e4):
        """根据训练数据集X_train,y_train,使用梯度下降法训练逻辑回归模型"""
        assert X_train.shape[0] == y_train.shape[0], \
            "the row-size of X_train must be equal to y_train"

        def J(theta, X_b, y):
            y_hat = self._sigmoid(X_b.dot(theta))
            try:
                return np.sum(y * np.log(y_hat) + (1 - y) * np.log(1 - y_hat)) / len(y)
            except:
                return float("inf")

        def dJ(theta, X_b, y):
            return X_b.T.dot(self._sigmoid(X_b.dot(theta)) - y) / len(X_b)

        def gradient_descent(X_b, y, initial_theta, eta, n_iters=1e4, epsilon=1e-8):
            theta = initial_theta
            cur_iter = 0
            while cur_iter < n_iters:
                gradient = dJ(theta, X_b, y)
                last_theta = theta
                theta = theta - eta * gradient
                if (abs(J(theta, X_b, y) - J(last_theta, X_b, y)) < epsilon):
                    break
                cur_iter += 1
            return theta

        X_b = np.hstack([np.ones((len(X_train), 1)), X_train])
        initial_theta = np.zeros(X_b.shape[1])
        self._theta = gradient_descent(X_b, y_train, initial_theta, eta, n_iters)
        self.coef_ = self._theta[1:]
        self.intercept_ = self._theta[0]
        return self


    def predict_proba(self,X_predict):
        X_b = np.hstack([np.ones((len(X_predict), 1)), X_predict])
        return self._sigmoid(X_b.dot(self._theta))
    def predict(self,X_predict):
        proba = self.predict_proba(X_predict)
        return np.array(proba >=0.5,dtype=np.int)

    def score(self,X_test,y_test):
        y_predict = self.predict(X_test)
        return accuracy_score(y_test,y_predict)

    def __repr__(self):
        return "LogisticRegression()"

使用鸢尾花数据集测试逻辑回归

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets

iris = datasets.load_iris()

X = iris.data
y = iris.target
# 因为实现的逻辑回归暂时只能解决二分类问题，所以将数据处理为两类 
X = X[y<2,:2]
y = y[y<2]

X.shape

(100, 2)

y.shape

(100,)

plt.scatter(X[y==0,0],X[y==0,1],color='red')
plt.scatter(X[y==1,0],X[y==1,1],color='blue')
plt.show()

使用逻辑回归

from relatedCode.LogicRegression import LogicRegression
from sklearn.model_selection import train_test_split

X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=666)
log_reg = LogicRegression()
log_reg.fit(X_train,y_train)
log_reg.score(X_test,y_test)

1.0

可以看到逻辑回归的分类效果还是相当不错的

log_reg.predict_proba(X_test)

array([0.93292947, 0.98717455, 0.15541379, 0.01786837, 0.03909442,
       0.01972689, 0.05214631, 0.99683149, 0.98092348, 0.75469962,
       0.0473811 , 0.00362352, 0.27122595, 0.03909442, 0.84902103,
       0.80627393, 0.83574223, 0.33477608, 0.06921637, 0.21582553,
       0.0240109 , 0.1836441 , 0.98092348, 0.98947619, 0.08342411])

log_reg.predict(X_test)

array([1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0,
       1, 1, 0])

决策边界

在前面Intro中提到，对于使用sigmoid函数作为激活函数的逻辑回归模型，其决策边界为0，即
$\theta^T \cdot x_b=0$

如果X有两个特征： $\theta_0+\theta_1x_1+\theta_2x_2=0$ ,则可以求出两个特征之间的等式：

$x_2 = \frac{-\theta_0-\theta_1x_1}{\theta_2}$

def x2(x1):
    return (-log_reg.coef_[0]*x1-log_reg.intercept_)/log_reg.coef_[1]

x1_plot = np.linspace(4,8,1000)
x2_plot = x2(x1_plot)
plt.plot(x1_plot,x2_plot)
plt.scatter(X[y==0,0],X[y==0,1],color='red')
plt.scatter(X[y==1,0],X[y==1,1],color='blue')
plt.show()

可以看到，求出来的决策边界大体上将数据分为了红蓝两方，如果新送入逻辑回归模型的数据位于这条决策边界的上方则归类为0，下方则分类为1

接下来为方便测试，将绘制决策边界封装为一个方法：

def plot_decision_boundary(model, axis):
    
    x0, x1 = np.meshgrid(
        np.linspace(axis[0], axis[1], int((axis[1]-axis[0])*100)).reshape(-1, 1),
        np.linspace(axis[2], axis[3], int((axis[3]-axis[2])*100)).reshape(-1, 1),
    )
    X_new = np.c_[x0.ravel(), x1.ravel()]

    y_predict = model.predict(X_new)
    zz = y_predict.reshape(x0.shape)

    from matplotlib.colors import ListedColormap
    custom_cmap = ListedColormap(['#EF9A9A','#FFF59D','#90CAF9'])
    
    plt.contourf(x0, x1, zz, linewidth=5, cmap=custom_cmap)

import warnings
warnings.filterwarnings("ignore")

plot_decision_boundary(log_reg, axis=[4, 7.5, 1.5, 4.5])
plt.scatter(X[y==0,0], X[y==0,1])
plt.scatter(X[y==1,0], X[y==1,1])
plt.show()

借此，我们看看KNN算法的决策边界是什么

from sklearn.neighbors import KNeighborsClassifier

knn_clf = KNeighborsClassifier()
knn_clf.fit(X_train,y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=5, p=2,
                     weights='uniform')

knn_clf.score(X_test,y_test)

1.0

plot_decision_boundary(knn_clf, axis=[4, 7.5, 1.5, 4.5])
plt.scatter(X[y==0,0], X[y==0,1])
plt.scatter(X[y==1,0], X[y==1,1])
plt.show()

在此基础上，我们看看对于有三个分类的鸢尾花原始数据，KNN的决策边界是什么样的

knn_clf_all = KNeighborsClassifier()
knn_clf_all.fit(iris.data[:,:2],iris.target)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=5, p=2,
                     weights='uniform')

plot_decision_boundary(knn_clf_all,axis=[4,8,1.5,4.5])
plt.scatter(iris.data[iris.target==0,0],iris.data[iris.target==0,1])
plt.scatter(iris.data[iris.target==1,0],iris.data[iris.target==1,1])
plt.scatter(iris.data[iris.target==2,0],iris.data[iris.target==2,1])
plt.show()

可以看到黄蓝之间的决策边界十分不规则，这是过拟合的现象，对于KNN算法而言，定义的n_neighbors越小，模型越复杂，模型越复杂就越容易出现过拟合，所以我们设置n_neighbors=50，再绘制一次决策边界

knn_clf_all = KNeighborsClassifier(n_neighbors=50)
knn_clf_all.fit(iris.data[:,:2],iris.target)
plot_decision_boundary(knn_clf_all,axis=[4,8,1.5,4.5])
plt.scatter(iris.data[iris.target==0,0],iris.data[iris.target==0,1])
plt.scatter(iris.data[iris.target==1,0],iris.data[iris.target==1,1])
plt.scatter(iris.data[iris.target==2,0],iris.data[iris.target==2,1])
plt.show()

在逻辑回归中使用多项式特征

根据前面的推导与验证，我们发现，对于逻辑回归，其内部实现的线性回归算法导致其拟合的决策边界是一条直线，而且对于非线性分布的数据分类效果就会大打折扣，如下图的数据分布：

那么有没有办法可以解决逻辑回归的这个问题呢？那就是前面学到过的使用多项式特征来改进线性回归算法，使得逻辑回归的内部回归算法为多项式回归。

代码实现

import numpy as np
import matplotlib.pyplot as plt

np.random.seed(666)
X = np.random.normal(0,1,size=(200,2))
y = np.array((X[:,0]**2+X[:,1]**2)<1.5,dtype=int)

plt.scatter(X[y==0,0],X[y==0,1])
plt.scatter(X[y==1,0],X[y==1,1])
plt.show()

接下来使用逻辑回归来对上面的数据进行分类

from relatedCode.LogicRegression import LogicRegression

logic_reg = LogicRegression()
logic_reg.fit(X,y)
logic_reg.score(X,y)

0.605

可以看到这个分类的准确度是比较低的

import warnings
warnings.filterwarnings("ignore")
def plot_decision_boundary(model, axis):
    
    x0, x1 = np.meshgrid(
        np.linspace(axis[0], axis[1], int((axis[1]-axis[0])*100)).reshape(-1, 1),
        np.linspace(axis[2], axis[3], int((axis[3]-axis[2])*100)).reshape(-1, 1),
    )
    X_new = np.c_[x0.ravel(), x1.ravel()]

    y_predict = model.predict(X_new)
    zz = y_predict.reshape(x0.shape)

    from matplotlib.colors import ListedColormap
    custom_cmap = ListedColormap(['#EF9A9A','#FFF59D','#90CAF9'])
    
    plt.contourf(x0, x1, zz, linewidth=5, cmap=custom_cmap)
    
plot_decision_boundary(logic_reg,axis=[-4,4,-4,4])
plt.scatter(X[y==0,0],X[y==0,1])
plt.scatter(X[y==1,0],X[y==1,1])
plt.show()

可以看到没有添加多项式特征的逻辑回归使用了一条直线来对特征空间进行划分，结果不尽人意

接下来我们通过使用pipline为逻辑回归添加多项式特征

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import StandardScaler

def PolynomialLogisticRegression(degree):
    return Pipeline([
        ('poly',PolynomialFeatures(degree=degree)),
        ('std_scaler',StandardScaler()),
        ('logic_regression',LogicRegression())
    ])

poly_log_reg = PolynomialLogisticRegression(degree=2)
poly_log_reg.fit(X,y)

Pipeline(memory=None,
         steps=[('poly',
                 PolynomialFeatures(degree=2, include_bias=True,
                                    interaction_only=False, order='C')),
                ('std_scaler',
                 StandardScaler(copy=True, with_mean=True, with_std=True)),
                ('logic_regression', LogisticRegression())],
         verbose=False)

我们看看此时的分类准确度

poly_log_reg.score(X,y)

0.95

绘制决策边界

plot_decision_boundary(poly_log_reg,axis=[-4,4,-4,4])
plt.scatter(X[y==0,0],X[y==0,1])
plt.scatter(X[y==1,0],X[y==1,1])
plt.show()

如果特征项添加过多，也会出现过拟合的情况

poly_log_reg2 = PolynomialLogisticRegression(degree=20)
poly_log_reg2.fit(X,y)
plot_decision_boundary(poly_log_reg2,axis=[-4,4,-4,4])
plt.scatter(X[y==0,0],X[y==0,1])
plt.scatter(X[y==1,0],X[y==1,1])
plt.show()

为解决这种过拟合的情况，在前面多项式回归的总结中有总结两种方案：

减少特征(PCA),降低模型复杂度
使用模型正则化

逻辑回归中使用正则化

在多项式回归中对模型正则化做了一系列阐述，其本质就是通过在原本损失函数上添加L1/L2子项，在损失函数最小化的同时使得模型参数也跟着缩小。
$C\cdot J(\theta)+L1$

$C\cdot J(\theta)+L2$

Ridge Regression中损失函数的附加项 $\sum^n_{i=1}(\theta_i)^2$ 也称之为L2正则项
LASSO Regression中损失函数的附加项 $\sum^n_{i=1}|\theta_i|$ 也称之为L1正则项

在scikit-learn中非常推崇使用模型正则化的方式对避免模型过拟合。

接下来，我们就通过使用scikit-learn所提供的API来实现逻辑回归模型的正则化

scikit-learn中的逻辑回归

首先模拟数据

import numpy as np
import matplotlib.pyplot as plt
np.random.seed(666)
X = np.random.normal(0,1,size=(200,2))
y = np.array((X[:,0]**2+X[:,1])<1.5,dtype=int)
# 增加噪声
for _ in range(20):
    y[np.random.randint(200)]=1
    
plt.scatter(X[y==0,0],X[y==0,1])
plt.scatter(X[y==1,0],X[y==1,1])
plt.show()

分割数据集

from sklearn.model_selection import train_test_split

X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=666)

使用scikit learn中的逻辑回归

import warnings
warnings.filterwarnings("ignore")
from sklearn.linear_model import LogisticRegression

log_reg = LogisticRegression()
log_reg.fit(X_train,y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='warn', n_jobs=None, penalty='l2',
                   random_state=None, solver='warn', tol=0.0001, verbose=0,
                   warm_start=False)

log_reg.score(X_test,y_test)

0.86

可视化决策边界

def plot_decision_boundary(model, axis):
    
    x0, x1 = np.meshgrid(
        np.linspace(axis[0], axis[1], int((axis[1]-axis[0])*100)).reshape(-1, 1),
        np.linspace(axis[2], axis[3], int((axis[3]-axis[2])*100)).reshape(-1, 1),
    )
    X_new = np.c_[x0.ravel(), x1.ravel()]

    y_predict = model.predict(X_new)
    zz = y_predict.reshape(x0.shape)

    from matplotlib.colors import ListedColormap
    custom_cmap = ListedColormap(['#EF9A9A','#FFF59D','#90CAF9'])
    
    plt.contourf(x0, x1, zz, linewidth=5, cmap=custom_cmap)
    
plot_decision_boundary(log_reg,axis=[-4,4,-4,4])
plt.scatter(X[y==0,0], X[y==0,1])
plt.scatter(X[y==1,0], X[y==1,1])
plt.show()

使用多项式逻辑回归

from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline

def PolymialLogicRegression(degree):
    return Pipeline([
        ('poly',PolynomialFeatures(degree=degree)),
        ('std_scaler',StandardScaler()),
        ('logistic_regression',LogisticRegression())
    ])

poly_reg = PolymialLogicRegression(degree=2)
poly_reg.fit(X_train,y_train)

Pipeline(memory=None,
         steps=[('poly',
                 PolynomialFeatures(degree=2, include_bias=True,
                                    interaction_only=False, order='C')),
                ('std_scaler',
                 StandardScaler(copy=True, with_mean=True, with_std=True)),
                ('logistic_regression',
                 LogisticRegression(C=1.0, class_weight=None, dual=False,
                                    fit_intercept=True, intercept_scaling=1,
                                    l1_ratio=None, max_iter=100,
                                    multi_class='warn', n_jobs=None,
                                    penalty='l2', random_state=None,
                                    solver='warn', tol=0.0001, verbose=0,
                                    warm_start=False))],
         verbose=False)

poly_reg.score(X_test,y_test)

0.94

可视化决策边界

plot_decision_boundary(poly_reg, axis=[-4, 4, -4, 4])
plt.scatter(X[y==0,0], X[y==0,1])
plt.scatter(X[y==1,0], X[y==1,1])
plt.show()

增加样本特征(more degree)

poly_reg2 = PolymialLogicRegression(degree=20)
poly_reg2.fit(X_train,y_train)
poly_reg2.score(X_test,y_test)

0.92

plot_decision_boundary(poly_reg2, axis=[-4, 4, -4, 4])
plt.scatter(X[y==0,0], X[y==0,1])
plt.scatter(X[y==1,0], X[y==1,1])
plt.show()

在scikit-learn提供的logisticRegression提供了参数C来进行模型的正则化

class sklearn.linear_model.LogisticRegression(penalty='l2', *, dual=False, tol=0.0001, C=1.0, fit_intercept=True, intercept_scaling=1, class_weight=None, random_state=None, solver='lbfgs', max_iter=100, multi_class='auto', verbose=0, warm_start=False, n_jobs=None, l1_ratio=None)

C float, default=1.0

Inverse of regularization strength; must be a positive float. Like in support vector machines, smaller values specify stronger regularization.

正则化强度的倒数；必须是正浮点数。和支持向量机一样，较小的值表示正则化更强。

def PolynomialLogisticRegression_C(degree,C):
    return Pipeline([
        ('poly',PolynomialFeatures(degree=degree)),
        ('std_scaler',StandardScaler()),
        ('logistic_regression',LogisticRegression(C=C))
    ])

poly_reg3 = PolynomialLogisticRegression_C(degree=20,C=0.1)
poly_reg3.fit(X_train,y_train)

Pipeline(memory=None,
         steps=[('poly',
                 PolynomialFeatures(degree=20, include_bias=True,
                                    interaction_only=False, order='C')),
                ('std_scaler',
                 StandardScaler(copy=True, with_mean=True, with_std=True)),
                ('logistic_regression',
                 LogisticRegression(C=0.1, class_weight=None, dual=False,
                                    fit_intercept=True, intercept_scaling=1,
                                    l1_ratio=None, max_iter=100,
                                    multi_class='warn', n_jobs=None,
                                    penalty='l2', random_state=None,
                                    solver='warn', tol=0.0001, verbose=0,
                                    warm_start=False))],
         verbose=False)

poly_reg3.score(X_train,y_train)

0.8533333333333334

poly_reg3.score(X_test,y_test)

0.92

plot_decision_boundary(poly_reg3, axis=[-4, 4, -4, 4])
plt.scatter(X[y==0,0], X[y==0,1])
plt.scatter(X[y==1,0], X[y==1,1])
plt.show()

penalty {‘l1’, ‘l2’, ‘elasticnet’, ‘none’}, default=’l2’

Used to specify the norm used in the penalization. The ‘newton-cg’, ‘sag’ and ‘lbfgs’ solvers support only l2 penalties. ‘elasticnet’ is only supported by the ‘saga’ solver. If ‘none’ (not supported by the liblinear solver), no regularization is applied.

指定模型正则化使用的附加项

def PolynomialLogisticRegression_penalty(degree,C,penalty='l2'):
    return Pipeline([
        ('poly',PolynomialFeatures(degree=degree)),
        ('std_scaler',StandardScaler()),
        ('log_reg',LogisticRegression(penalty=penalty))
    ])

poly_reg4 = PolynomialLogisticRegression_penalty(degree=20,C=0.1,penalty='l1')
poly_reg4.fit(X_train,y_train)

Pipeline(memory=None,
         steps=[('poly',
                 PolynomialFeatures(degree=20, include_bias=True,
                                    interaction_only=False, order='C')),
                ('std_scaler',
                 StandardScaler(copy=True, with_mean=True, with_std=True)),
                ('log_reg',
                 LogisticRegression(C=1.0, class_weight=None, dual=False,
                                    fit_intercept=True, intercept_scaling=1,
                                    l1_ratio=None, max_iter=100,
                                    multi_class='warn', n_jobs=None,
                                    penalty='l1', random_state=None,
                                    solver='warn', tol=0.0001, verbose=0,
                                    warm_start=False))],
         verbose=False)

poly_reg4.score(X_train,y_train)

0.94

poly_reg4.score(X_test,y_test)

0.94

plot_decision_boundary(poly_reg4, axis=[-4, 4, -4, 4])
plt.scatter(X[y==0,0], X[y==0,1])
plt.scatter(X[y==1,0], X[y==1,1])
plt.show()

二分类算法改进作用于多分类问题

为了使得以逻辑回归为首的二分类算法可以用于多分类问题的解决，通常可以采用两种手段来实现：

OvR(One vs Rest)
OvO(One vs One)

OvR

OvO

代码实现

import numpy as np
import matplotlib.pyplot as plt
import warnings
from sklearn import datasets
from sklearn.model_selection import train_test_split
warnings.filterwarnings("ignore")


iris = datasets.load_iris()
X = iris.data[:,:2]
y = iris.target
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=666)

OvO/OvR作为参数传入二分类算法

scikit-learn的LogisticRegression为我们实现了OvO与OvR,默认为OvR模式

multi_class {‘auto’, ‘ovr’, ‘multinomial’}, default=’auto’

If the option chosen is ‘ovr’, then a binary problem is fit for each label. For ‘multinomial’ the loss minimised is the multinomial loss fit across the entire probability distribution, even when the data is binary. ‘multinomial’ is unavailable when solver=’liblinear’. ‘auto’ selects ‘ovr’ if the data is binary, or if solver=’liblinear’, and otherwise selects ‘multinomial’.

New in version 0.18: Stochastic Average Gradient descent solver for ‘multinomial’ case.

Changed in version 0.22: Default changed from ‘ovr’ to ‘auto’ in 0.22.

from sklearn.linear_model import LogisticRegression

log_reg = LogisticRegression()
log_reg.fit(X_train,y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='warn', n_jobs=None, penalty='l2',
                   random_state=None, solver='warn', tol=0.0001, verbose=0,
                   warm_start=False)

 log_reg.score(X_test,y_test)

0.6578947368421053

def plot_decision_boundary(model, axis):
    
    x0, x1 = np.meshgrid(
        np.linspace(axis[0], axis[1], int((axis[1]-axis[0])*100)).reshape(-1, 1),
        np.linspace(axis[2], axis[3], int((axis[3]-axis[2])*100)).reshape(-1, 1),
    )
    X_new = np.c_[x0.ravel(), x1.ravel()]

    y_predict = model.predict(X_new)
    zz = y_predict.reshape(x0.shape)

    from matplotlib.colors import ListedColormap
    custom_cmap = ListedColormap(['#EF9A9A','#FFF59D','#90CAF9'])
    
    plt.contourf(x0, x1, zz, linewidth=5, cmap=custom_cmap)

plot_decision_boundary(log_reg,axis=[4,8.5,1.5,4.5])
plt.scatter(X[y==0,0],X[y==0,1])
plt.scatter(X[y==1,0],X[y==1,1])
plt.scatter(X[y==2,0],X[y==2,1])
plt.show()

通过OvO改进逻辑分类

log_reg2 = LogisticRegression(multi_class='multinomial',solver='newton-cg')

log_reg2.fit(X_train,y_train)
log_reg2.score(X_test,y_test)

0.7894736842105263

plot_decision_boundary(log_reg2,axis=[4,8.5,1.5,4.5])
plt.scatter(X[y==0,0],X[y==0,1])
plt.scatter(X[y==1,0],X[y==1,1])
plt.scatter(X[y==2,0],X[y==2,1])
plt.show()

使用数据的所有特征看看分类的结果

X = iris.data
y = iris.target
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state = 666)

OvR的方式

log_reg = LogisticRegression()
log_reg.fit(X_train,y_train)
log_reg.score(X_test,y_test)

0.9473684210526315

OvO的方式

log_reg2 = LogisticRegression(multi_class='multinomial',solver='newton-cg')
log_reg2.fit(X_train,y_train)
log_reg2.score(X_test,y_test)

1.0

使用手写数据集测试分类的结果

准备数据

from sklearn.datasets import fetch_mldata
mnist = fetch_mldata("MNIST original")

mnist

{'DESCR': 'mldata.org dataset: mnist-original',
 'COL_NAMES': ['label', 'data'],
 'target': array([0., 0., 0., ..., 9., 9., 9.]),
 'data': array([[0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0],
        ...,
        [0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0]], dtype=uint8)}

X,y = mnist['data'],mnist['target']
X.shape

(70000, 784)

X_train = np.array(X[:6000],dtype=float)
y_train = np.array(y[:6000],dtype=float)
X_test = np.array(X[6000:7000],dtype=float)
y_test = np.array(y[6000:7000],dtype=float)

from sklearn.decomposition import PCA
pca = PCA(0.9)
pca.fit(X_train)
X_train_reduction = pca.transform(X_train)
X_test_reduction = pca.transform(X_test)

X_train_reduction.shape

(6000, 62)

使用默认OvR的方式

%%time
log_reg = LogisticRegression()
log_reg.fit(X_train_reduction,y_train)
log_reg.score(X_test_reduction,y_test)

Wall time: 944 ms

0.988

使用OvO的方式

%%time
log_reg2 = LogisticRegression(multi_class='multinomial',solver='newton-cg')
log_reg2.fit(X_train_reduction,y_train)
log_reg2.score(X_test_reduction,y_test)

Wall time: 1.87 s

0.991

OvR/OvO作为类，二分类算法作为参数

%%time
from sklearn.multiclass import OneVsRestClassifier
ovr = OneVsRestClassifier(log_reg)
ovr.fit(X_train_reduction,y_train)
ovr.score(X_test_reduction,y_test)

Wall time: 972 ms

0.988

%%time
from sklearn.multiclass import OneVsOneClassifier
ovo = OneVsOneClassifier(log_reg)
ovo.fit(X_train_reduction,y_train)
ovo.score(X_test_reduction,y_test)

Wall time: 866 ms

0.988

总结

参考致谢

liuyubobo:https://github.com/liuyubobobo/Play-with-Machine-Learning-Algorithms

liuyubobo:https://coding.imooc.com/class/169.html

莫烦Python:https://www.bilibili.com/video/BV1xW411Y7Qd?from=search&seid=11773783205368546023

吴恩达机器学习：https://zh.coursera.org/learn/machine-learning

你可能感兴趣的:(神经网络机器学习,算法,python,机器学习,人工智能)

智慧交通是什么，可以帮助我们解决什么问题? Guheyunyi 运维大数据人工智能信息可视化前端
智慧交通是什么？智慧交通（SmartTransportation）是指利用物联网（IoT）、大数据、人工智能（AI）、云计算、5G通信等先进技术，对交通系统进行智能化管理和优化，以提高交通效率、减少拥堵、降低事故率、提升出行体验，并实现交通资源的合理配置和可持续发展。智慧交通的核心是通过数据采集、分析和应用，实现交通系统的智能化、自动化和协同化，从而构建一个高效、安全、绿色、便捷的交通生态系统。智
LeetCode 热题 100_跳跃游戏（78_55_中等_C++）（贪心算法） Dream it possible！ LeetCode 热题 100 leetcode c++贪心算法算法
LeetCode热题100_跳跃游戏（78_55）题目描述：输入输出样例：题解：解题思路：思路一（贪心算法）：代码实现代码实现（思路一（贪心算法））：以思路一为例进行调试题目描述：给你一个非负整数数组nums，你最初位于数组的第一个下标。数组中的每个元素代表你在该位置可以跳跃的最大长度。判断你是否能够到达最后一个下标，如果可以，返回true；否则，返回false。输入输出样例：示例1：输入：num
Python逆向爬取Tik Tok，MsToken,X-Bogus以及signature 才华是浅浅的耐心 python javascript 前端
自5月起，抖音正式开放Web接口，并不断升级风控机制。从最初的_signature参数，到增加滑块验证，再到如今的JSVM混淆处理，以及mstoken和x-bougs等参数的引入。分析发现，部分国内接口仅需提供Cookie即可访问，无需额外验签，而获取Cookie的方式多种多样，其中利用OpenCV识别滑块验证码是一种简单可行的方法。相比之下，TikTok的接口无需Cookie，但对签名的校验更加
Browser-Use WebUI项目启动指南思考在马桶上人工智能 chatgpt 经验分享 python
摘要此前发布《Browser-UseWebUI使用体验》博文后，鉴于部分朋友运行时出现问题，重新运行并整理相关内容。本文详细记录WebUI项目启动全过程，涵盖Python3.11+、Chrome浏览器及APIKeys等环境要求，Python环境检查、依赖安装等环境配置步骤，.env文件中环境变量的设置方法。同时，针对启动中如lxml.html.clean依赖缺失、连接被拒等问题给出解决方案，介绍启
第十四届蓝桥杯省赛C++C组——子矩阵（蓝桥杯篇章完结撒花） Dawn_破晓蓝桥杯一个月速成日志蓝桥杯 c++c语言
本来想写的速成日志也没写多少，cb国二，最后一题树形DP调了一小时发现h数组没置-1，最后无果，如果没马虎可能有国一水平了，正儿八经准备用了两个月，因为要考研，每天只学2-3小时的算法，一共刷了300多道题吧，由于之前选过ACM（实验课因为周六去，懒得去还给我挂了）和算法分析课，所以还是有点基础的，如果算上一年前刷的题总共加起来也就400多道题吧。说一下历程吧，一年前的题都是老师布置的作业，迫不得
医疗行业的数据安全怎么防护？ jinan886 网络大数据安全开源软件数据分析
医疗行业的数据安全防护是一个系统工程，需要政府、医疗机构、技术提供商及社会各界共同努力，形成合力。通过构建全方位、多层次的数据安全防护体系，不断提升数据安全防护能力，才能为患者提供更加安全、高效的医疗服务，同时保障医疗行业的稳健发展。医疗行业的数据安全防护至关重要，以下是一些关键措施：1.数据加密传输加密：使用SSL/TLS等协议保护数据传输。存储加密：采用国标算法256位等上邦加密软件算法。2.
Linux篇1-初识Linux 逃跑的机械工 Linux linux
1.Linux能干什么Linux能够进行各种语言的开发工作，基本主要以后端语言为主C++，JAVA,python;Linux能进行各种指令操作，从而完成各种的文件相关的管理工作2.Linux基本指令2.1ls指令在Linux中，以.开头的文件，叫做隐藏文件；ls-a显示隐藏文件隐藏文件：Linux配置文件，可以隐藏起来，防止误操作，起到保护作用；ls-l列出文件的详细信息-d将目录象文件一样显示，
【C++篇】排队的艺术：用生活场景讲解优先级队列的实现 far away4002 C++c++stl 优先级队列向下（向上）调整算法
文章目录须知欢迎讨论：如果你在学习过程中有任何问题或想法，欢迎在评论区留言，我们一起交流学习。你的支持是我继续创作的动力！点赞、收藏与分享：觉得这篇文章对你有帮助吗？别忘了点赞、收藏并分享给更多的小伙伴哦！你们的支持是我不断进步的动力！分享给更多人：如果你觉得这篇文章对你有帮助，欢迎分享给更多对C++感兴趣的朋友，让我们一起进步！深入理解与实现：C++优先级队列的模拟实现1.引言在算法和数据结构中
Python获取tiktok视频数据信息 api 爬虫程序媛了了 python 开发语言
Tiktok通过ID爬取视频信息api采集页面如图：https://www.tiktok.com/@basketwithball2.0/video/7273119444522650912?q=irving&t=1706683319923请求APIhttp://api.xxxx.com/tt/video/info?video_id=7273119444522650912&token=test请求参数
实战LLM强化学习——使用GRPO（DeepSeek R1出圈算法）大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
引言近年来，深度强化学习（DRL）已经成为解决复杂决策问题的一个强有力工具，尤其是在自然语言处理（NLP）领域的广泛应用。通过不断优化决策策略，DRL能在大量数据中学习最佳行为，尤其是大型语言模型（LLM）在任务中展现出的巨大潜力。然而，随着模型规模的扩大和任务复杂性的增加，传统的强化学习算法开始暴露出训练效率低、收敛速度慢等问题。为了解决这些挑战，DeepSeek公司提出了一个新的强化学习算法—
量子密码学技术架构解析与程序员视角算法
量子计算威胁模型分析传统公钥密码体系（RSA/ECC）的安全假设基于：大数分解问题的计算复杂度（RSA）椭圆曲线离散对数问题（ECC）有限域离散对数问题（DSA）Shor算法的时间复杂度为O((logN)^3)，当量子比特数达到阈值时：2048位RSA可在8小时内破解（理论值）ECC-256的破解时间将降至多项式级别Grover算法对对称密码的影响：AES-256的有效安全性降至2^128哈希函数
在线视频创作平台（Vidnami） deepdata_cn 视频生成视频剪辑视频创作
Vidnami是一款功能强大的在线视频创作平台，前身为ContentSamurai，于2015年推出，2020年更名为Vidnami。它运用人工智能技术，能够分析输入的文本，自动从大量素材中选取合适的图像和视频片段，将文字快速转化为具有专业外观的视频，无需用户具备视频编辑经验。该平台提供多种视频模板、全主题定制功能以及内置的免版权媒体库，包括3000万张图片和3万首音乐，还支持自动配音，用户可以录
【初学者】用Python语言来解释指针的用例与应用场景 lisw05 python python 开发语言
李升伟整理Python本身并不直接支持指针的概念，因为Python是一种高级语言，内存管理由解释器自动处理。不过，Python提供了一些机制（如引用、可变对象等）来实现类似指针的功能。以下是Python中“指针”的用例和应用场景。1.引用机制（类似指针）在Python中，变量是对对象的引用，而不是直接存储对象的值。这种引用机制类似于指针的概念。示例：a=10#a是对整数对象10的引用b=a#b也引
OpenCV第1课OpenCV 介绍及其树莓派下环境的搭建嵌入式老牛树莓派之OpenCV opencv 人工智能计算机视觉
1.机器是如何“看”的我们人类可以通过眼睛看到五颜六色的世界，是因为人眼的视觉细胞中存在分别对红、绿、蓝敏感的3种细胞。其中的光感色素根据光线的不同进行不同比例的分解，从而让我们识别到各种颜色。对人工智能而言，学会“看”也是非常关键的一步。那么机器人是如何看到这个世界的呢？这就涉及到人工智能方向重要的分支--机器视觉。机器视觉即用机器人代替人眼来做测量和判断，通过机器视觉产品（即图像摄取装置，分C
python、JavaScript 、JAVA等实例代码演示教你如何免费获取股票数据（实时数据、历史数据、CDMA、KDJ等指标数据）配有股票数据API接口说明文档详解参数说明蝶澈乐乐 python javascript java 股票数据接口 api 开发语言
近一两年来，股票量化分析逐渐受到广泛关注。而作为这一领域的初学者，首先需要面对的挑战就是如何获取全面且准确的股票数据。因为无论是实时交易数据、历史交易记录、财务数据还是基本面信息，这些数据都是我们进行量化分析时不可或缺的宝贵资源。我们的核心任务是从这些数据中挖掘出有价值的信息，为我们的投资策略提供有力的支持。在寻找数据的过程中，我尝试了多种途径，包括自编网易股票页面爬虫、申万行业数据爬虫，以及同花
31天Python入门——第7天:集合·字典你真的懂了吗? 安然无虞 Python手把手教程 python 开发语言后端
你好，我是安然无虞。文章目录1.集合1.1集合的定义1.2集合的常用操作1.3集合练习2.字典2.1字典的定义2.2嵌套字典和字典的取值2.3字典的常用操作补充知识:字典的优势是查找值效率高2.4字典推导式2.5字典练习很重要的补充练习:希望你能掌握练习一练习二1.集合在之前的章节中,我们学习了列表,元组,字符串.已经可以覆盖七成的使用场景了.那么为什么还要学习集合类型呢.列表:有序可变,元素可重
Opencv计算机视觉编程攻略-第一节图像读取与基本处理 weixin_44242403 深度学习 opencv 计算机视觉
1.图像读取导入依赖项的h文件#include#include#include#include项目Valuecore.hpp基础数据结构和操作（图像存储、矩阵运算、文件I/O）highgui.hpp图像显示、窗口管理、用户交互（图像/视频显示、用户输入处理、结果保存）imgproc.hpp图像处理算法（图像滤波、几何变换、边缘检测、形态学操作）二读取图片Matimage;//图像矩阵std::co
什么是hessian矩阵红廉骑士兽矩阵线性代数算法机器学习 numpy
Hessian矩阵是一个数学概念，是用来表示函数关于其自变量的二阶偏导数的矩阵。它是一个实对称矩阵，对于多元函数来说，每一个元素是对应自变量关于该函数的二阶偏导数。Hessian矩阵在优化算法和最优化等领域有着重要的应用。
HPC综合-心得与笔记【19】 sakura_sea HPC and 3D Graphics Engine 线性规划
Dijkstra算法【2】基础距离数组dist，设置起点距离为0，其他节点距离为无穷大（∞）用最小堆创建优先队列，将起点放入队列。从队列中取出当前距离最小的节点u。遍历u的每个邻接节点v，计算从起点到v的路径长度：alt=dist[u]+weight(u,v)。如果altdist[u]:continue#遍历邻接节点forv,weightingraph[u].items():alt=dist[u]
打造城市二手房分析与可视化系统+聚类分析+58爬虫+线性回归 OverlordDuke 聚类算法数据可视化爬虫线性回归算法
打造城市二手房分析与可视化系统+聚类分析+58爬虫+线性回归利用数据实现全面分析数据分析与可视化功能创新的聚类分析功能结语在如今房地产市场日益复杂的背景下，对于投资者、购房者和市场分析师来说，了解市场动态并做出明智的决策至关重要。基于此，我们开发了一款基于Python的城市二手房分析与可视化系统，为用户提供了强大的工具，帮助他们深入了解当地房地产市场。利用数据实现全面分析我们的系统利用爬取的58同
centos7输入python -m bitsandbytes报错CUDA Setup failed despite GPU being available. Please run the follo 小太阳，乐向上 python 开发语言
在centos7.9系统中安装gpu驱动及cuda，跑大模型会报错，提示让输入python-mbitsandbytes依然报错：CUDASETUP:Loadingbinary/usr/local/python3/lib/python3.9/site-packages/bitsandbytes/libbitsandbytes_cuda117.so.../lib64/libstdc++.so.6:ve
神经网络之参数初始化硬水果糖人工智能神经网络人工智能深度学习
引言：参数初始化是训练深度神经网络的一个关键步骤，目的是给网络中权重（weights）和偏置（biases）赋予初始值。合适的参数初始化方法有助于提高训练速度、避免梯度消失/爆炸问题，并且加速网络的收敛。一、参数初始化目的避免梯度消失和梯度爆炸：在深度神经网络中，参数初始化对梯度流动非常重要。如果初始权重值太大或太小，可能导致梯度爆炸或梯度消失，从而增加网络的训练难度。加速收敛：良好的初始化可以帮
Linux安装Anaconda和Jupyter 硬水果糖人工智能 Linux linux jupyter 运维
一、了解Anaconda和Jupyter引言：Anaconda是一个流行的开源数据科学平台，广泛用于数据分析、机器学习、人工智能等领域。它是一个集成了大量科学计算和数据科学工具的Python和R编程语言环境。Anaconda的主要目标是简化数据科学和机器学习的开发流程，提供一个易于安装和管理的环境。而预装了大量常用的Python和R库，这些库涵盖了数据科学的各个方面，包括：数据分析：Pandas、
python-56-基于Vue和Flask进行前后端分离的项目开发示例实战皮皮冰燃 python3 python vue.js flask
文章目录1创建Vue前端项目1.1运行demo1.2实现需求2flask部署上述dist(前后端未分离)2.1代码app.py2.2运行访问3nginx部署(前后端分离)3.1nginx前端服务3.3.1windows安装nginx3.3.2修改nginx.conf配置文件3.3.3启动nginx3.3.3停止nginx3.2启动后端服务3.2.1app.py(去除前端渲染)3.2.2启动flas
爬虫基础--request库详解 amo的代码园_毕设 Java基础爬虫 java spring boot vue.js python 开发语言
爬虫基础–request库详解1.requests模块介绍request库中文文档：https://docs.python-requests.org/zh_CN/latest/user/quickstart.htmlrequests是一个非常流行的PythonHTTP第三方库，它允许你发送各种HTTP请求，处理cookies、会话、连接池、重定向、多种认证方式等，使得处理HTTP请求变得非常便捷，
基于百度翻译的python爬虫示例魂万劫 python 爬虫开发语言百度翻译
(今年java工作真难找啊，有广州java高级岗位招人的好心人麻烦推一下，拜谢。。）花了一周时间，从零基础开始学习了python，学有所获之后，就总想爬些什么，不然感觉不得劲，所以花了一天时间整出了个百度翻译的爬虫示例，主要卡点花在了找token、sign以及调试请求上。代码有点乱，毕竟是demo，但是功能是实现了的。importrequestsimportjs2pyimportrefromurl
高通成都linux engineer intern 一面面经 han_xue_feng java
题解|#KNN算法#在*******里有个叫《题解--2024华南理工校赛.pdf》的文件高通成都linuxengineerintern一面面经两个面试官共25min就结束了，面试氛围还可以，问的很快。1.自我介绍2.问对高通了解多少3.对牛客鼠人传（第四十四集，2024/4/22）刷题：尝试补昨天D，题解看了半天似懂非懂，遂放弃改天再补。做题老是把复杂的问题想简单，简单的问题想复京东物流管理培训
关于bitsandbytes安装报错跃跃欲试88 语言模型人工智能 transformer
RunTimeError:CUDASetupfaileddespiteGPUbeingavailable.InspecttheCUDASETUPoutputsabovetofixyourenvironment!ubuntu@VM-0-8-ubuntu:~$python-mbitsandbytesFalse===================================BUGREPORT===
ChatGPT、DeepSeek、GIS与Python机器学习强强联合！地质灾害风险评估、易发性分析、信息化建库及灾后重建 WangYan2022 DeepSeek ChatGPT 地下水地质灾害 DeepSeek ChatGPT GIS 灾后重建
在地质灾害频繁肆虐的当下，精准开展风险评价刻不容缓。如今，一门极具创新性的教程震撼登场，它将ChatGPT、DeepSeek等前沿技术与GIS、Python以及机器学习深度交融，为学员打造出前所未有的学习体验，助力大家在地质灾害风险评价领域强势突围，一路领先。前沿技术融合，铸就智能学习核心动力教程最闪耀的亮点之一，便是大胆引入了ChatGPT和DeepSeek技术。它们恰似无所不能的“数据魔法师”
python3实现爬取淘宝页面的商品的数据信息（selenium+pyquery+mongodb） flood_d mongodb python selenium pyquery 爬虫
1.环境须知做这个爬取的时候需要安装好python3.6和selenium、pyquery等等一些比较常用的爬取和解析库，还需要安装MongoDB这个分布式数据库。2.直接上代码spider.pyimportrefromconfigimport*importpymongofromseleniumimportwebdriverfromselenium.common.exceptionsimportT
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi