max_bay

机器学习实战笔记（六）：Logistic回归（Python3 实现）

1 Logistic回归介绍

假设现在有一些数据点，我们用一条直线对这些点进行拟合（该线称为最佳拟合直线），这个拟合过程就称作回归。利用Logistic回归进行分类的主要思想是：根据现有数据对分类边界线建立回归公式，以此进行分类。这里的“回归”一词源于最佳拟合，表示要找到最佳拟合参数集。训练分类器时的做法就是寻找最佳拟合参数，使用的是最优化算法。

1.1 Logistic回归的一般过程
(1) 收集数据：采用任意方法收集数据。
(2) 准备数据：由于需要进行距离计算，因此要求数据类型为数值型。另外，结构化数据格式则最佳。
(3) 分析数据：采用任意方法对数据进行分析。
(4) 训练算法：大部分时间将用于训练，训练的目的是为了找到最佳的分类回归系数。
(5) 测试算法：一旦训练步骤完成，分类将会很快。

(6) 使用算法：首先，我们需要输入一些数据，并将其转换成对应的结构化数值；接着，基于训练好的回归系数就可以对这些数值进行简单的回归计算，判定它们属于哪个类别；在这之后，我们就可以在输出的类别上做一些其他分析工作。

2 基于 Logistic 回归和 Sigmoid 函数的分类

2.1 Logistic回归特点
优点：计算代价不高，易于理解和实现。
缺点：容易欠拟合，分类精度可能不高。
适用数据类型：数值型和标称型数据。

import numpy as np


# Logistic 回归梯度上升优化算法
def load_data_set():
    # 创建两个列表
    data_mat = []
    label_mat = []
    fr = open('testSet.txt')
    for line in fr.readlines():
        # 对当前行去除首尾空格，并按空格进行分离
        line_arr = line.strip().split()
        data_mat.append([1.0, float(line_arr[0]), float(line_arr[1])])
        label_mat.append(int(line_arr[2]))
    return data_mat, label_mat


def sigmoid(inx):

    return 1.0 / (1 + np.exp(-inx))
    # return 0.5 * (1 + np.tanh(0.5 * inx))


def grad_ascent(data_mat_in, class_labels):
    data_matrix = np.mat(data_mat_in)  # convert to NumPy matrix
    label_mat = np.mat(class_labels).transpose()  # convert to NumPy matrix
    m, n = np.shape(data_matrix)
    alpha = 0.001
    max_cycles = 500
    weights = np.ones((n, 1))
    for k in range(max_cycles):  # heavy on matrix operations
        h = sigmoid(data_matrix * weights)  # matrix mult
        error = (label_mat - h)  # vector subtraction
        weights = weights + alpha * data_matrix.transpose() * error  # matrix mult
    return weights

2.2 分析数据：画出决策边界

# 画出数据集和Logistic回归最佳拟合直线的函数
def plot_best_fit(weights):
    import matplotlib.pyplot as plt
    data_mat, label_mat = load_data_set()
    data_arr = np.array(data_mat)
    n = np.shape(data_arr)[0]
    xcord1 = []
    ycord1 = []
    xcord2 = []
    ycord2 = []
    for i in range(n):
        if int(label_mat[i]) == 1:
            xcord1.append(data_arr[i, 1])
            ycord1.append(data_arr[i, 2])
        else:
            xcord2.append(data_arr[i, 1])
            ycord2.append(data_arr[i, 2])
    fig = plt.figure()
    ax = fig.add_subplot(111)
    ax.scatter(xcord1, ycord1, s=30, c='red', marker='s')
    ax.scatter(xcord2, ycord2, s=30, c='green')
    x = np.arange(-3.0, 3.0, 0.1)
    y = (-weights[0] - weights[1] * x) / weights[2]
    ax.plot(x, y)
    plt.xlabel('X1')
    plt.ylabel('X2')
    plt.show()

if __name__ == '__main__':
    dataMat, labelMat = load_data_set()
    weights = grad_ascent(dataMat, labelMat)
    plot_best_fit(weights.getA())

输出的结果如图1所示。

机器学习实战笔记（六）：Logistic回归（Python3 实现）_第1张图片

图1

这个分类结果相当不错，从图上看只错分了两到四个点。但是，尽管例子简单且数据集很小，这个方法却需要大量的计算（300次乘法）。因此下一节将对该算法稍作改进，从而使它可以用在真实数据集上。

2.3 训练算法：随机梯度上升

梯度上升算法在每次更新回归系数时都需要遍历整个数据集，该方法在处理100个左右的数
据集时尚可，但如果有数十亿样本和成千上万的特征，那么该方法的计算复杂度就太高了。一种
改进方法是一次仅用一个样本点来更新回归系数，该方法称为随机梯度上升算法。由于可以在新
样本到来时对分类器进行增量式更新，因而随机梯度上升算法是一个在线学习算法。与“在线学
习”相对应，一次处理所有数据被称作是“批处理”。
随机梯度上升算法可以写成如下的伪代码：
所有回归系数初始化为1
对数据集中每个样本
计算该样本的梯度
使用alpha × gradient更新回归系数值
返回回归系数值

以下是随机梯度上升算法的实现代码。

def stoc_grad_ascent0(data_matrix, class_labels):
    m, n = np.shape(data_matrix)
    alpha = 0.01
    weights = np.ones(n)  # initialize to all ones
    for i in range(m):
        h = sigmoid(sum(data_matrix[i] * weights))
        error = class_labels[i] - h
        weights = weights + alpha * error * data_matrix[i]
    return weights

if __name__ == '__main__':
    dataMat, labelMat = load_data_set()
    weights = stoc_grad_ascent0(np.array(dataMat), labelMat)
    plot_best_fit(weights)

执行完毕后将得到图2所示的最佳拟合直线图，该图与图1有一些相似之处。可以看到，拟合出来的直线效果还不错，但并不像图1那样完美。这里的分类器错分了三分之一的样本。

图2

# 改进的随机梯度上升算法
def stoc_grad_ascent1(data_matrix, class_labels, num_iter=150):
    m, n = np.shape(data_matrix)
    weights = np.ones(n)  # initialize to all ones
    for j in range(num_iter):
        data_index = list(range(m))
        for i in range(m):
            alpha = 4 / (1.0 + j + i) + 0.0001  # apha decreases with iteration, does not
            rand_index = int(np.random.uniform(0, len(data_index)))  # go to 0 because of the constant
            h = sigmoid(sum(data_matrix[rand_index] * weights))
            error = class_labels[rand_index] - h
            weights = weights + alpha * error * data_matrix[rand_index]
            del (data_index[rand_index])
    return weights

if __name__ == '__main__':
    dataMat, labelMat = load_data_set()
    weights = stoc_grad_ascent1(np.array(dataMat), labelMat)
    plot_best_fit(weights)

程序运行之后应该能看到类似图3的结果图。该分隔线达到了与GradientAscent()差不多的效果，但是所使用的计算量更少。

机器学习实战笔记（六）：Logistic回归（Python3 实现）_第3张图片

图3

3 示例：从疝气病症预测病马的死亡率

3.1 使用Logistic回归估计马疝病的死亡率过程
(1) 收集数据：给定数据文件。
(2) 准备数据：用Python解析文本文件并填充缺失值。
(3) 分析数据：可视化并观察数据。
(4) 训练算法：使用优化算法，找到最佳的系数。
(5) 测试算法：为了量化回归的效果，需要观察错误率。根据错误率决定是否回退到训练阶段，通过改变迭代的次数和步长等参数来得到更好的回归系数。

3.2 准备数据：处理数据中的缺失值

数据中的缺失值是个非常棘手的问题，有很多文献都致力于解决这个问题。那么，数据缺失究竟带来了什么问题？假设有100个样本和20个特征，这些数据都是机器收集回来的。若机器上的某个传感器损坏导致一个特征无效时该怎么办？此时是否要扔掉整个数据？这种情况下，另外19个特征怎么办？它们是否还可用？答案是肯定的。因为有时候数据相当昂贵，扔掉和重新获取都是不可取的，所以必须采用一些方法来解决这个问题。
下面给出了一些可选的做法：
 使用可用特征的均值来填补缺失值；
 使用特殊值来填补缺失值，如-1；
 忽略有缺失值的样本；
 使用相似样本的均值添补缺失值；

 使用另外的机器学习算法预测缺失值。

3.3 测试算法：用 Logistic 回归进行分类

使用Logistic回归方法进行分类并不需要做很多工作，所需做的只是把测试集上每个特征向量乘以最优化方法得来的回归系数，再将该乘积结果求和，最后输入到Sigmoid函数中即可。如果对应的Sigmoid值大于0.5就预测类别标签为1，否则为0。

# Logistic回归分类函数
def classify_vector(inx, weights):
    """
    它以回归系数和特征向量作为输入来计算对应的Sigmoid值。
    如果Sigmoid值大于0.5函数返回1，否则返回0。
    """
    prob = sigmoid(sum(inx * weights))
    if prob > 0.5:
        return 1.0
    else:
        return 0.0


def colic_test():
    fr_train = open('horseColicTraining.txt')
    fr_test = open('horseColicTest.txt')
    training_set = []
    training_labels = []
    for line in fr_train.readlines():
        curr_line = line.strip().split('\t')
        line_arr = []
        for i in range(21):
            line_arr.append(float(curr_line[i]))
        training_set.append(line_arr)
        training_labels.append(float(curr_line[21]))
    train_weights = stoc_grad_ascent1(np.array(training_set), training_labels, 1000)
    error_count = 0
    num_test_vec = 0.0
    for line in fr_test.readlines():
        num_test_vec += 1.0
        curr_line = line.strip().split('\t')
        line_arr = []
        for i in range(21):
            line_arr.append(float(curr_line[i]))
        if int(classify_vector(np.array(line_arr), train_weights)) != int(curr_line[21]):
            error_count += 1
    error_rate = (float(error_count) / num_test_vec)
    print("the error rate of this test is: %f" % error_rate)
    return error_rate


def multi_test():
    num_tests = 10
    error_sum = 0.0
    for k in range(num_tests):
        error_sum += colic_test()
    print("after %d iterations the average error rate is: %f" % (num_tests, error_sum / float(num_tests)))

if __name__ == '__main__':
    # dataMat, labelMat = load_data_set()
    # weights = grad_ascent(dataMat, labelMat)
    # weights = stoc_grad_ascent1(np.array(dataMat), labelMat)
    # plot_best_fit(weights)
    multi_test()

输出结果：

D:\ProgramData\Anaconda2\envs\python3\python.exe E:/study_code/ML_in_action_code/logistic_regression/logRegres.py
E:/study_code/ML_in_action_code/logistic_regression/logRegres.py:27: RuntimeWarning: overflow encountered in exp
  return 1.0 / (1 + np.exp(-inx))
the error rate of this test is: 0.328358
the error rate of this test is: 0.298507
the error rate of this test is: 0.313433
the error rate of this test is: 0.358209
the error rate of this test is: 0.313433
the error rate of this test is: 0.253731
the error rate of this test is: 0.417910
the error rate of this test is: 0.313433
the error rate of this test is: 0.253731
the error rate of this test is: 0.298507
after 10 iterations the average error rate is: 0.314925

Process finished with exit code 0

从上面的结果可以看到， 10次迭代之后的平均错误率为31%。事实上，这个结果并不差，因为有30%的数据缺失。当然，如果调整colic_test()中的迭代次数和stoch_grad_ascent1()中的步长，平均错误率可以降到20%左右。

注意：运行中有个警告：

RuntimeWarning: overflow encountered in expreturn 1.0 / (1 + np.exp(-inx))，可以转换成如下等价形式后算法会更稳定：return 0.5 * (1 + np.tanh(0.5 * x)) 参考《基于RBM的推荐算法》

3.4 完整代码

# encoding: utf-8
"""
@author:max bay 
@version: python 3.6
@time: 2018/6/2 20:55
"""

import numpy as np


# Logistic 回归梯度上升优化算法
def load_data_set():
    # 创建两个列表
    data_mat = []
    label_mat = []
    fr = open('testSet.txt')
    for line in fr.readlines():
        # 对当前行去除首尾空格，并按空格进行分离
        line_arr = line.strip().split()
        data_mat.append([1.0, float(line_arr[0]), float(line_arr[1])])
        label_mat.append(int(line_arr[2]))
    return data_mat, label_mat


def sigmoid(inx):

    return 1.0 / (1 + np.exp(-inx))
    # return 0.5 * (1 + np.tanh(0.5 * inx))


def grad_ascent(data_mat_in, class_labels):
    data_matrix = np.mat(data_mat_in)  # convert to NumPy matrix
    label_mat = np.mat(class_labels).transpose()  # convert to NumPy matrix
    m, n = np.shape(data_matrix)
    alpha = 0.001
    max_cycles = 500
    weights = np.ones((n, 1))
    for k in range(max_cycles):  # heavy on matrix operations
        h = sigmoid(data_matrix * weights)  # matrix mult
        error = (label_mat - h)  # vector subtraction
        weights = weights + alpha * data_matrix.transpose() * error  # matrix mult
    return weights


# 画出数据集和Logistic回归最佳拟合直线的函数
def plot_best_fit(weights):
    import matplotlib.pyplot as plt
    data_mat, label_mat = load_data_set()
    data_arr = np.array(data_mat)
    n = np.shape(data_arr)[0]
    xcord1 = []
    ycord1 = []
    xcord2 = []
    ycord2 = []
    for i in range(n):
        if int(label_mat[i]) == 1:
            xcord1.append(data_arr[i, 1])
            ycord1.append(data_arr[i, 2])
        else:
            xcord2.append(data_arr[i, 1])
            ycord2.append(data_arr[i, 2])
    fig = plt.figure()
    ax = fig.add_subplot(111)
    ax.scatter(xcord1, ycord1, s=30, c='red', marker='s')
    ax.scatter(xcord2, ycord2, s=30, c='green')
    x = np.arange(-3.0, 3.0, 0.1)
    y = (-weights[0] - weights[1] * x) / weights[2]
    ax.plot(x, y)
    plt.xlabel('X1')
    plt.ylabel('X2')
    plt.show()


def stoc_grad_ascent0(data_matrix, class_labels):
    m, n = np.shape(data_matrix)
    alpha = 0.01
    weights = np.ones(n)  # initialize to all ones
    for i in range(m):
        h = sigmoid(sum(data_matrix[i] * weights))
        error = class_labels[i] - h
        weights = weights + alpha * error * data_matrix[i]
    return weights


# 改进的随机梯度上升算法
def stoc_grad_ascent1(data_matrix, class_labels, num_iter=150):
    m, n = np.shape(data_matrix)
    weights = np.ones(n)  # initialize to all ones
    for j in range(num_iter):
        data_index = list(range(m))
        for i in range(m):
            alpha = 4 / (1.0 + j + i) + 0.0001  # apha decreases with iteration, does not
            rand_index = int(np.random.uniform(0, len(data_index)))  # go to 0 because of the constant
            h = sigmoid(sum(data_matrix[rand_index] * weights))
            error = class_labels[rand_index] - h
            weights = weights + alpha * error * data_matrix[rand_index]
            del (data_index[rand_index])
    return weights


# Logistic回归分类函数
def classify_vector(inx, weights):
    """
    它以回归系数和特征向量作为输入来计算对应的Sigmoid值。
    如果Sigmoid值大于0.5函数返回1，否则返回0。
    """
    prob = sigmoid(sum(inx * weights))
    if prob > 0.5:
        return 1.0
    else:
        return 0.0


def colic_test():
    fr_train = open('horseColicTraining.txt')
    fr_test = open('horseColicTest.txt')
    training_set = []
    training_labels = []
    for line in fr_train.readlines():
        curr_line = line.strip().split('\t')
        line_arr = []
        for i in range(21):
            line_arr.append(float(curr_line[i]))
        training_set.append(line_arr)
        training_labels.append(float(curr_line[21]))
    train_weights = stoc_grad_ascent1(np.array(training_set), training_labels, 1000)
    error_count = 0
    num_test_vec = 0.0
    for line in fr_test.readlines():
        num_test_vec += 1.0
        curr_line = line.strip().split('\t')
        line_arr = []
        for i in range(21):
            line_arr.append(float(curr_line[i]))
        if int(classify_vector(np.array(line_arr), train_weights)) != int(curr_line[21]):
            error_count += 1
    error_rate = (float(error_count) / num_test_vec)
    print("the error rate of this test is: %f" % error_rate)
    return error_rate


def multi_test():
    num_tests = 10
    error_sum = 0.0
    for k in range(num_tests):
        error_sum += colic_test()
    print("after %d iterations the average error rate is: %f" % (num_tests, error_sum / float(num_tests)))


if __name__ == '__main__':
    # dataMat, labelMat = load_data_set()
    # weights = grad_ascent(dataMat, labelMat)
    # weights = stoc_grad_ascent1(np.array(dataMat), labelMat)
    # plot_best_fit(weights)
    multi_test()

4 总结

Logistic回归的目的是寻找一个非线性函数Sigmoid的最佳拟合参数，求解过程可以由最优化算法来完成。在最优化算法中，最常用的就是梯度上升算法，而梯度上升算法又可以简化为随机梯度上升算法。
随机梯度上升算法与梯度上升算法的效果相当，但占用更少的计算资源。此外，随机梯度上升是一个在线算法，它可以在新数据到来时就完成参数更新，而不需要重新读取整个数据集来进行批处理运算。
机器学习的一个重要问题就是如何处理缺失数据。这个问题没有标准答案，取决于实际应用中的需求。现有一些解决方案，每种方案都各有优缺点。

5 参考及阅读资料

[1] 机器学习实战

[2] 机器学习实战之logistic回归

[3] Python3《机器学习实战》学习笔记（六）：Logistic回归基础篇之梯度上升算法

[4] Python3《机器学习实战》学习笔记（七）：Logistic回归实战篇之预测病马死亡率

[5] python机器学习实战 getA()函数详解

[6] python3中报错：TypeError: 'range' object doesn't support item deletion

[7] 机器学习4logistic回归

机器学习实战笔记5——线性判别分析绍少阿机器学习笔记可视化机器学习 python 人工智能
任务安排1、机器学习导论8、核方法2、KNN及其实现9、稀疏表示3、K-means聚类10、高斯混合模型4、主成分分析11、嵌入学习5、线性判别分析12、强化学习6、贝叶斯方法13、PageRank7、逻辑回归14、深度学习线性判别分析（LDA）Ⅰ核心思想对于同样一件事，站在不同的角度，我们往往会有不同的看法，而降维思想，亦是如此。同上节课一样，我们还是学习降维的算法，只是提供了一种新的角度，由上
《机器学习实战笔记--第一部分分类算法：决策树 3》 z新一机器学习决策树 python
构造分类器：我们在构造了决策树之后，可以用于实际的分类了。在执行分类的时候需要决策树以及用于构造树的标签向量。程序比较测试数据与决策树上的数值，递归执行该过程直到进入叶子节点；最后将测试数据定义为叶子节点所属的类型。defclassify(inputTree,featLabels,testVec):#featLabels特征标签列表firstStr=list(inputTree.keys())[0
机器学习实战笔记（三）：使用k-近邻算法的手写识别系统（Python3 实现） max_bay 机器学习实战笔记机器学习实战笔记 kNN 手写数字识别系统 Python
完整代码及数据地址：https://github.com/cqulun123/Machine-Learning-in-Action0使用k-近邻算法的手写识别系统的步骤(1)收集数据：提供文本文件。(2)准备数据：编写函数classify0()，将图像格式转换为分类器使用的list格式。(3)分析数据：在Python命令提示符中检查数据，确保它符合要求。(4)训练算法：此步骤不适用于k-近邻算法。
机器学习实战笔记（蜥蜴书）—— 第二章：端到端项目 Crayon鑫笔记机器学习机器学习笔记人工智能
目录前言机器学习前的准备工作1、机器学习需要用到的库：安装：文件导入库2、所用工具数据准备1、获取数据2、检查数据3、创建训练/测试集数据可视化数据预处理1、缺失值处理2、文本属性处理3、数据集添加其他列4、数值缩放5、得到预处理的数据模型建立1、线型模型2、决策树模型3、随机森林模型模型验证1、简单均方根误差验证2、使用交叉验证模型保存模型调整模型评估前言“蜥蜴书”是我机器学习的启蒙书，现在开始
机器学习实战笔记（一）机器学习基础三千侵天机器学习机器学习人工智能算法
什么是机器学习？机器学习能让我们从数据集中受到启发。我们会利用计算机来彰显数据背后的真实含义，这才是机器学习的真实含义。机器学习就是把无序的数据转换成有用的信息。可以这么说，机器学习对于任何需要解释并操作数据的领域都有所裨益。机器学习领域的关键术语下表是用于区分不同鸟类需要使用的四个不同的属性值。现实中，你可能会想测量更多的值。通常的做法是测量所有可测属性，然后再挑选出重要部分。上面测量的这四种值
《机器学习实战笔记》-逻辑回归-梯度上升法代码太难敲啊喂深度学习实战-自学笔记机器学习逻辑回归人工智能
主要难点：公式推导和边界函数的设定importmatplotlib.pyplotaspltimportnumpyasnp'''求函数f（x）=-x^2+4x的最大值'''defgradient_Ascent_test():deff_prime(x_old):return-2*x_old+4#'f(x)的导数=-2x+4'#初始化：old小于newnew从曲线（0，0）开始，学习率为0.01误差值为
机器学习实战笔记——第十三章 DaMeng999 机器学习 tensorflow 机器学习 python
一、数据API使用tf.data.Dataset.from_tensor_slices创建一个数据集：dataset=tf.data.Dataset.from_tensor_slices(tf.range(10))print(dataset,tf.range(10))foritemindataset:print(item)结果如下：from_tensor_slices该函数创建一个给定张量的切片（
机器学习实战笔记--决策树 Azoobie 机器学习 python 决策树机器学习 python 决策树
本文为《机器学习实战》学习笔记1.决策树简介决策树可以从数据集合汇总提取一系列的规则，创建规则的过程就是机器学习的过程。在构造决策树的过程中，不断选取特征划分数据集，直到具有相同类型的数据均在数据子集内。1.1划分数据集由于不同属性的数据类型不同，其对应的测试条件也不同。即非叶子节点的每条出边代表的含义不同。二元属性产生两个可能的输出。标称属性具有多个属性值。可以根据属性值的数量产生多路划分，每个
机器学习实战笔记（二）KNN算法 chenyonwu同学机器学习机器学习算法人工智能
文章目录算法概念、基本思想和应用概念基本思想应用实例三个基本要素K的取值距离度量分类决策规则特征归一化很重要算法描述与优缺点参考博客算法概念、基本思想和应用概念官方概念：所谓K近邻算法，即是给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例，这K个实例的多数属于某个类，就把该输入实例分类到这个类中。简单来说，根据待分类点的周围邻居来判断类别，邻居大多数属于哪一类，就将待
机器学习实战笔记（一）威士忌燕麦拿铁算法大数据 python 机器学习人工智能
1机器学习概览1.什么是机器学习机器学习是通过编程让计算机从数据中进行学习的科学(和艺术)。机器学习是让计算机具有学习的能力，无需进行明确编程。(亚瑟·萨缪尔，1959)计算机程序利用经验E学习任务T，性能是P，如果针对任务T的性能P随着经验E不断增长，则称为机器学习(汤姆·米切尔，1997)2.为什么要进行机器学习需要进行大量手工调整或者需要拥有长串规则才能解决的问题：机器学习算法通常可以简化代
机器学习实战笔记--kNN Azoobie 机器学习 python 机器学习 python knn分类器
本文为《机器学习实战》学习笔记1.相关数据类型&函数介绍SciPy基于Python生态系统提供了数学运算、科学和工程的开源软件，主要包括基本N维数组包NumPy，科学计算基本库SciPylibrary，用于2D绘图的Matplotlib，交互式控制台IPython，用于符号数学Sympy，用于数据结构和分析的pandas。1.1NumPyNumPy是python科学计算的基础包。包括强大的N维数组
Pandas入门笔记 Sehr_Gut pandas
笔记参照课程唐宇迪python数据分析与机器学习实战笔记方便自己今后回顾和查看，需要详细了解各自Pandas操作，建议学习上述课程Pandas数据结构pandas是基于numpy的数据处理库。其数据的基本结构从小到大依次为numpy.array,pandas.core.series.Series以及pandas.core.frame.DataFrame.简单的pandas特有的结构为series和
机器学习实战笔记(Python实现)-02-决策树 lengyuyan007 机器学习
决策树原理简单来说就是：1，先计算所有列概率，及概率log值，据此求出整体的信息熵A；2，取出数据集中的每一列，计算剩余特征值的信息熵ai,并计算差值，也就是信息熵增益：bi=A-ai,除去自己这列，算的信息熵越小，信息增益越大，表示自己这列越重要；3,选出最重要的列，作为主要特征，作为根节点，依次比较，直到创建分类树；4，拿测试集来测试，从根节点开始检测，最后分类；决策树须知概念信息熵&信息增益
《机器学习实战笔记--第一部分分类算法：决策树 4》 z新一机器学习 python 决策树决策树连续值处理
之前的决策树分类部分只完成了对离散值的分类，当遇到有某些属性值是连续的时候就需要一些其他的方法了。由于连续值的可取值数目不再有限，因此不能直接根据连续属性的可取值来对节点进行划分。此时就需要连续属性的离散化，最简单的策略是采用二分法对连续属性进行处理，这正是C4.5决策树算法中采用的机制。下面我们以周志华老师的西瓜书为例画一个带有连续值分类的决策树。给定样本集D和连续属性a，假定a在D上出现了n个
机器学习实战笔记8—随机森林业余狙击手19 ML
注：此系列文章里的部分算法和深度学习笔记系列里的内容有重合的地方，深度学习笔记里是看教学视频做的笔记，此处文章是看《机器学习实战》这本书所做的笔记，虽然算法相同，但示例代码有所不同，多敲一遍没有坏处，哈哈。（里面用到的数据集、代码可以到网上搜索，很容易找到。）。Python版本3.6机器学习十大算法系列文章：机器学习实战笔记1—k-近邻算法机器学习实战笔记2—决策树机器学习实战笔记3—朴素贝叶斯机
机器学习实战笔记——决策树 yuexiahandao 机器学习机器学习
决策树-ID3决策树也是经常使用的数据挖掘算法。这张图所示就是一个决策树。长方形代表判断模块，椭圆形代表终止模块。从判断模块引出的左右箭头称作分支。决策树的一个重要任务是为了理解数据中所蕴含的知识信息，因此决策树可以使用不熟悉的数据集合，并从中提取出一系列，这些机器根据数据集创建规则的过程，就是机器学习的过程。训练出来的数据可以使用Matplotlib来绘制决策树图。决策树构造算法特点：优点：计算
TYD2019python机器学习实战笔记，初识 numpy 和 pandas 南征_北战算法
目录目录第一章：入学指南及其杂项.ipynb文件如何打开python库安装工具第二章：python科学计算库numpy第三章：python数据分析处理库—Pandas第一章：入学指南及其杂项在校生更偏重底层算法推导，而不仅仅是会用。自己做笔记很重要，要用自己的话说，用自己的话写，用别人的容易忘。最好的资源站点GitHub，kaggle（找数据的，竞赛网站）。案例积累很重要，因为实际接手项目时，都不
python实现线性回归预测_机器学习实战笔记(Python实现)-08-线性回归 weixin_39653078 python实现线性回归预测
---------------------------------------------------------------------------------------本系列文章为《机器学习实战》学习笔记，内容整理自书本，网络以及自己的理解，如有错误欢迎指正。-------------------------------------------------------------------
python神经网络分析案例_python神经网络实战 weixin_39776344 python神经网络分析案例
机器学习实战笔记(Python实现)-04-Logistic回归转自：机器学习实战笔记(Python实现)-04-Logistic回归转自：简单多元线性回归(梯度下降算法与矩阵法)转自：人工神经网络(从原理到代码)Step01感知器梯度下降文章晴天哥2018-01-28742浏览量书籍:机器学习和图像处理实战PracticalMachineLearningandImageProcessing-20
机器学习实战笔记 Solarzhou 机器学习 Python 机器学习实战
文章目录2k近邻算法2.1实施kNN算法代码清单1：测试，结果：2.2使用kNN改进约会网站的配对效果2.2.1准备数据，从文本中解析数据2.2.2分析数据：使用Matplotlib创建散点图2.2.3准备数据：归一化数值测试算法：作为完整程序验证2.3使用算法：构建完整可用系统2.3.1准备数据：将图像转换为测试向量2.3.2测试算法：使用kNN近邻算法识别手写数字3决策树3.1决策树构造3.1
机器学习实战笔记——第十一章 DaMeng999 机器学习神经网络机器学习深度学习
目录一、梯度消失与梯度爆炸1.1Glorot和He初始化1.1.1tf.keras.initializers.VarianceScaling1.2非饱和激活函数1.2.1tf.keras.layers.LeakyReLU1.2.2tf.keras.layers.PReLU1.3批量归一化1.4梯度裁剪1.4.1tf.keras.optimizers.SGD二、重用预训练层——解决训练数据不同2.1
机器学习实战笔记——第十章 DaMeng999 机器学习神经网络机器学习深度学习
目录一、神经网络基础1.1反向传播训练算法1.2回归MLP1.3分类MLP二、利用tf.keras搭建神经网络2.1加载数据2.2顺序API创建分类模型2.2.1tf.keras.Sequential2.2.2tf.keras.layers.Flatten2.2.3tf.keras.layers.Dense()2.3顺序API创建回归模型2.4函数式API创建复杂模型2.4.1tf.keras.I
机器学习实战笔记5—支持向量机业余狙击手19 ML
注：此系列文章里的部分算法和深度学习笔记系列里的内容有重合的地方，深度学习笔记里是看教学视频做的笔记，此处文章是看《机器学习实战》这本书所做的笔记，虽然算法相同，但示例代码有所不同，多敲一遍没有坏处，哈哈。（里面用到的数据集、代码可以到网上搜索，很容易找到。）。Python版本3.6机器学习十大算法系列文章：机器学习实战笔记1—k-近邻算法机器学习实战笔记2—决策树机器学习实战笔记3—朴素贝叶斯机
机器学习实战笔记（1） sunnnnman 学习笔记机器学习算法 python
机器学习实战笔记（1）一、k-近邻算法1、算法主要实现步骤计算已知类别数据集中的点与当前点之间的距离（欧式距离公式）；按照距离递增次序排序；选取与当前点距离最小的K个点；确定前K个点所在类别出现频率；返回前K个点出现频率最高的类别作为当前的点的预测分类；2、示例1约会配对（1）数据散点图对数据1、2列属性值绘制散点图如下（三种分类采用颜色区分）(2)判断所属分类defclassify0(inX,d
机器学习实战笔记二_Python3 艾欧尼亚归我了机器学习
程序清单2-2个人程序注释+Python3部分代码改造（针对int（listFromLine[-1]）编译不通过的调整）先贴2-2的伪代码函数：[python]viewplaincopydeffile2matrix(filename):#openafile,default:'r'eadfr=open(filename)#一次读取所有行arrayOLines=fr.readlines()#得到行数n
机器学习实战笔记——利用KNN算法改进约会网站的配对效果 zhihua_bupt Machine Learning Python 图像超分辨率技术机器学习实战笔记
利用KNN算法改进约会网站的配对效果一、案例背景我的朋友海伦一直使用在线约会网站寻找合适自己的约会对象。尽管约会网站会推荐不同的人选，但她并不是喜欢每一个人。经过一番总结，她发现曾交往过三种类型的人：（1）不喜欢的人；（2）魅力一般的人；（3）极具魅力的人；尽管发现了上述规律，但海伦依然无法将约会网站推荐的匹配对象归入恰当的分类，她觉得可以在周一到周五约会那些魅力一般的人，而周末则更喜欢与那些极具
Python数据分析与机器学习实战笔记（4）- Seaborn grinningGrace
文章目录Seaborn1.Seaborn简介2.整体布局风格设置3.风格细节设置4.调色板4.1调色板4.2分类色板4.3圆形画板4.4调色板颜色设置4.4.1使用xkcd颜色来命名颜色4.4.2连续色板4.4.3cubehelix_palette()调色板4.4.4light_palette()和dark_palette()调用定制连续调色板5.单变量分析绘图5.1数据分布情况5.2根据均值和协
Python数据分析与机器学习实战笔记(5) - K近邻算法 grinningGrace
文章目录K近邻算法1.K近邻算法概述1.1读取数据1.2KnearestNeighbor算法1.3（欧式）距离的定义1.4模型评估1.4.1首先制定好训练集和测试集1.4.2基于单变量预测价格1.4.3RootMeanSquaredError均方根误差1.4.4不同的变量效果会不会不同呢1.4.5数据标准化，归一化1.4.6多变量距离的计算1.4.7多变量KNN模型2.sklearn库与功能2.1
Python数据分析与机器学习实战笔记(9) - 案例实战python实现逻辑回归 grinningGrace
文章目录案例实战python实现罗辑回归1.任务概述1.1Thelogisticregression1.2要完成的模块1.2.1sigmoid函数1.2.2model1.2.3cost损失函数1.2.4gradient计算梯度1.2.5descent进行参数更新1.2.5.1不同的停止策略1.2.5.2对比不同的梯度下降方法1.2.7计算精度案例实战python实现罗辑回归1.任务概述Thedat
Python数据分析与机器学习实战笔记(10) - 项目实战（交易数据异常检测） grinningGrace
文章目录项目实战（交易数据异常检测）1.信用卡欺诈检测1.1任务流程：1.2主要解决问题：2.项目总结项目实战（交易数据异常检测）1.信用卡欺诈检测基于信用卡交易记录数据建立分类模型来预测哪些交易记录是异常的哪些是正常的。1.1任务流程：a.加载数据，观察问题b.针对问题给出解决方案c.数据集切分d.评估方法对比e.逻辑回归模型f.建模结果分析g.方案效果对比1.2主要解决问题：（1）在此项目中，
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓