wang_zuel

机器学习笔记——logistics的python实现

机器学习笔记——logistics的python实现

参考书籍
方法优缺点
sigmod函数
梯度上升算法
python实现

样本数据生成
logistics程序介绍

数据读取
sigmod函数
梯度上升迭代求最佳系数

小结

对于logistics回归，能利用回归的方法实现对目标数据的分类（0或1，这取决于sigmod函数的特性），是一种非常有用的分类方法，下面对其实现过程进行介绍。

参考书籍

参考书籍：人民邮电出版社——图灵程序设计丛书《机器学习实战》

方法优缺点

优点：计算代价不高，易于理解和实现
缺点：容易欠拟合，分类精度不高

适用于数值型和标称型数据

sigmod函数

要用连续回归的方法实现二值型数据输出，就要借助这个sigmod函数，同时肯定不能随意的使用一个函数来进行操作，这个函数要满足一个条件，参数输入后输出的结果为0或者1，这里使用的是如下的函数：

$\frac{1}{1+e^{-z}}$

可以观察一下这个函数，其图形如下：

可以看到在x=0时，函数值为0.5；在 $x\to+\infty$ 时，取值接近1，在 $x\to-\infty$ 时，取值接近0。那么通过将特征值与系数相乘转换为z，则可将样本映射在此连续函数上，映射至区间[0,1]，若 $g (z) > 0.5$ ，则分类为1；若 $g (z) < 0.5$ ，则分类为0。

其中特征映射至连续函数的过程如下：

$z=w_0x_0+w_1x_1+...+w_nx_n$

那么下一步要考虑的问题就是如何确定最佳系数 $w_i$ ，如何在最大的概率下将样本进行正确的分类，这就要用到梯度上升算法了，有兴趣可以搜索一下论坛中的文章，论坛中有对梯度上升算法的证明及通俗理解的讲解，这里不做过多的赘述。

梯度上升算法

梯度上升算法的公式如下：

$:=w+\bigtriangledown_w g(wx)$

如何对样本进行梯度计算呢？这就要设计到上述提到的数学证明了，证明结果中，可将上述的参数定义公式转化为如下形式：

$\alpha \sum_{i=1}^{n} (y^i-g_w(x^i))·x_j^i$

即如下：

$\alpha \sum_{i=1}^{n}$ (样本实际的分类 - 模型计算的分类)·样本特征值

其中，样本实际的分类 - 模型计算的分类即根据模型计算的误差，由误差来重新定义参数 $w_i$ ，再次计算误差；通过不断的迭代，最后达到要求的精度（精度达到要求或者达到一定的迭代次数）。 $\alpha$ 为迭代的步长，大致可以理解为对参数修正的幅度。

python实现

解决了参数的迭代问题，那么就剩下代码的实现了，代码的实现过程如下：

样本数据生成

由于没有找到书中及网上常用的样本数据，就自己生成了一组随机数据，特征 $x_1$ 和 $x_2$ 为[5,20]的随机浮点数，根据 $y = x$ 此直线分类数据类别，即 $x_1<x_2$ 时，归类为类别1； $x_1>x_2$ 时，归类为类别0。

同时添加了一列为 $x_0$ ，为什么添加此列呢？我说下个人的理解：在我们的实际应用中，我们要画条线对样本进行分类，那么假如不加 $x_0$ ，两个参数 $w_i(i=1,2)$ 生成的直线为 $w_1x_1+w_2x_2$ ，显然这是不合理的，因为虽然我们这里生成的样本是按照 $y = x$ 作为界限进行分类的，但是不是所有情况都没有截距项的，且若分类直线没有截距项，就是截距为0的情况。

但是实际分类样本中并没有 $x_0$ 这一项，如何确定呢？其实只要随意定一个就行，原因如下：首先分类的重点其实在 $x_1$ 和 $x_2$ ，同样无论将 $x_0$ 设置为什么，在不断迭代的过程中将会不断的修正系数。这里添加时将 $x_0$ 设置为1.0，试想一下，假如正确的 $x_0$ 系数为1，那设置成2.0时，系数就为0.5。

生成样本的代码如下：

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

data = np.zeros((100,4))
x1 = []
y1 = []
x2 = []
y2 = []

# 随机数生成样本
data[:,0] = np.random.uniform(1,1,100)
data[:,1] = np.random.uniform(5,20,100)
data[:,2] = np.random.uniform(5,20,100)
# 按照y=x为界限将样本分类
for ii in range(data.shape[0]):
    if data[ii,2] >= data[ii,1]:
        x1.append(data[ii,1])
        y1.append(data[ii,2])
        data[ii,3] = 1
    else:
        x2.append(data[ii,1])
        y2.append(data[ii,2])
        data[ii,3] = 0

fig = plt.figure()
ax = fig.add_subplot(111)
ax.scatter(x1,y1,marker='*')
ax.scatter(x2,y2)
# 画出y=x分类界限
x = [4,21]
y = x
ax.plot(x,y)
# 可视化参数设置
plt.xlim(3,22)
plt.ylim(3,22)
plt.title('样本生成')
plt.text(20,20,'分类直线：y=x')
plt.show()

#data = pd.DataFrame(data,columns=['x0','x1','y1','classlabel'])
#data.to_excel('./program/data/machine_learning/logistic_eg.xlsx',index=False)

样本如下：

得到的样本数据，需要保存至如下的格式，方便统一用于logistics的处理，将样本的特征放在前面，将分类结果放在最后一列，格式如下：

logistics程序介绍

数据读取

由上述的样本格式，这里选择用pandas方式读取数据，个人习惯，数据读取后将样本特征 $x_i(i=0,1,2)$ 和样本分类分割出来分别返回。

def load_data(filepath):
    """
    数据读取
    """
    data = pd.read_excel(filepath)
    feature_data = data.iloc[:,:-1]		# 将样本特征数据分割出来
    data_label = data.iloc[:,-1]		# 将样本分类结果分割出来
    
    return feature_data,data_label

sigmod函数

这个就比较简单了，不多说，这里处理用的是numpy（因为涉及到矩阵的相乘）：

def sigmod(parameter):
    """
    sigmod函数
    """
    
    return 1/(1+np.exp(-parameter))

梯度上升迭代求最佳系数

def grad_Acent_1(featureData,classLabel,cycles=500):
    """
    梯度上升算法1：每次要计算整个矩阵，样本量大、特征多时计算复杂程度较高
    此处默认迭代500次
    """
    dataMat = np.mat(featureData)				# 转化为矩阵形式
    labelMat = np.mat(classLabel).transpose()	# 转化为矩阵形式
    m,n = dataMat.shape
    alpha = 0.01
    weights = np.ones((n,1))
    for ii in range(cycles):
        test = sigmod(dataMat*weights)
        test_error = labelMat - test		# 根据计算的误差来调整weights
        weights = weights + alpha*dataMat.transpose()*test_error	# 这里不清楚的可以参考一下矩阵相乘的规则，weights为n*1的矩阵，要迭代，就应该为(n*m)*(m*1)=n*1
    
    return weights

得到结果如下：

>>> data_path = './program/data/machine_learning/logistic_eg.xlsx'
>>> feature_data,data_label = load_data(data_path)
>>> weights = grad_Acent_1(feature_data,data_label)
# 结果：
[[  0.61014592]
 [-13.3813473 ]
 [ 13.38748865]]

迭代的划分结果如下：

可视化的代码如下：

def plot_result(featuredata,datalabel,weights):
    """
    分类结果展示：此函数只适用于二维数据
    """
    featuredata = np.array(featuredata)
    datalabel = np.array(datalabel)
    # logistics分类
    x1 = []
    y1 = []
    x2 = []
    y2 = []
    for ii in range(featuredata.shape[0]):
        if datalabel[ii] == 1:
            x1.append(featuredata[ii,1])
            y1.append(featuredata[ii,2])
        else:
            x2.append(featuredata[ii,1])
            y2.append(featuredata[ii,2])
    
    # 可视化
    fig = plt.figure()
    ax = fig.add_subplot(111)
    ax.scatter(x1,y1,marker='*')
    ax.scatter(x2,y2)
    # 画出logistics分类界限
    x_fit = np.arange(4,21,0.1)
    y_fit = -(weights[0,0] + weights[1,0]*x_fit)/weights[2,0]
    ax.plot(x_fit,y_fit,color='r')
    # 可视化参数设置
    plt.title('logistics分类结果')
    plt.text(x_fit[0],y_fit[0],'分类界限：y=%.4fx+%.2f'%(-weights[1,0]/weights[2,0],-weights[0,0]/weights[2,0]))
	#plt.savefig('./program/data/machine_learning/logistic_eg_fit.png')
    plt.show()

在梯度上升算法中，可以设定迭代的次数，也可以设置循环结束的条件为系数达到一定精度，这里设置了默认迭代500次，可以看到结果并不是特别完美，我们在样本生成中使用的分类界限其实为 $y = x$ ，这里算出来的有些差别，但是分类的效果还是可以的，要是训练的样本更多，效果应该会更好。

小结

至此，已经使用python实现了logistics回归，但是在梯度上升算法中，使用时每次都要计算整个样本矩阵相乘，需要消耗大量的算力，所以在下一篇文章机器学习笔记——logistics梯度上升算法的改进中将介绍使用较为简洁的方式实现梯度上升算法。

你可能感兴趣的:(机器学习笔记)

李宏毅机器学习笔记——反向传播算法小陈phd 机器学习机器学习算法神经网络
反向传播算法反向传播（Backpropagation）是一种用于训练人工神经网络的算法，它通过计算损失函数相对于网络中每个参数的梯度来更新这些参数，从而最小化损失函数。反向传播是深度学习中最重要的算法之一，通常与梯度下降等优化算法结合使用。反向传播的基本原理反向传播的核心思想是利用链式法则（ChainRule）来高效地计算损失函数相对于每个参数的梯度。以下是反向传播的基本步骤：前向传播（Forwa
Python机器学习笔记：CART算法实战战争热诚
完整代码及其数据，请移步小编的GitHub传送门：请点击我如果点击有误：https://github.com/LeBron-Jian/MachineLearningNote前言在python机器学习笔记：深入学习决策树算法原理一文中我们提到了决策树里的ID3算法，C4.5算法，并且大概的了
机器学习笔记 rl染离机器学习笔记人工智能
什么是机器学习：机器学习是一门多学科交叉专业，涵盖概率论知识，统计学知识，近似理论知识和复杂算法知识，使用计算机作为工具并致力于真实实时的模拟人类学习方式，并将现有内容进行知识结构划分来有效提高学习效率。机器学习有下面几种定义：（1）机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。（2）机器学习是对能通过经验自动改进的计算机算法的研究。（3）
机器学习笔记（KNN算法）空木幻城机器学习 python 机器学习算法
情景分析现在一个二维平面上有众多点(x1,y1),(x2,y2)...(xn,yn)(x_1,y_1),(x_2,y_2)...(x_n,y_n)(x1,y1),(x2,y2)...(xn,yn)，我也知道它们所属哪个类别，现在给出一个点(x,y)(x,y)(x,y)，问这个点是属于哪个类的。这是一个典型的分类问题重要概念相邻点的个数K相邻点的个数Kknn中最重要的概念就是这个了，也是唯一需要理解
【机器学习笔记】 9 集成学习 RIKI_1 机器学习机器学习笔记集成学习
集成学习方法概述Bagging从训练集中进行子抽样组成每个基模型所需要的子训练集，对所有基模型预测的结果进行综合产生最终的预测结果：假设一个班级每个人的成绩都不太好，每个人单独做的考卷分数都不高，但每个人都把自己会做的部分做了，把所有考卷综合起来得到成绩就会比一个人做的高Boosting训练过程为阶梯状，基模型按次序一一进行训练（实现上可以做到并行），基模型的训练集按照某种策略每次都进行一定的转化
吴恩达机器学习全课程笔记第二篇亿维数组 Machine Learning 机器学习笔记人工智能学习
目录前言P31-P33logistics（逻辑）回归决策边界P34-P36逻辑回归的代价函数梯度下降的实现P37-P41过拟合问题正则化代价函数正则化线性回归正则化logistics回归前言这是吴恩达机器学习笔记的第二篇，第一篇笔记请见：吴恩达机器学习全课程笔记第一篇完整的课程链接如下：吴恩达机器学习教程（bilibili）推荐网站：scikit-learn中文社区吴恩达机器学习学习资料（gith
【机器学习笔记】7 KNN算法 RIKI_1 机器学习机器学习笔记算法
距离度量欧氏距离(Euclideandistance)欧几里得度量（EuclideanMetric）（也称欧氏距离）是一个通常采用的距离定义，指在维空间中两个点之间的真实距离，或者向量的自然长度（即该点到原点的距离）。在二维和三维空间中的欧氏距离就是两点之间的实际距离。曼哈顿距离(Manhattandistance)想象你在城市道路里，要从一个十字路口开车到另外一个十字路口，驾驶距离是两点间的直线
【机器学习笔记】14 关联规则 RIKI_1 机器学习机器学习笔记人工智能
关联规则概述关联规则（AssociationRules）反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系，那么，其中一个事物就能够通过其他事物预测到。关联规则可以看作是一种IF-THEN关系。假设商品A被客户购买，那么在相同的交易ID下，商品B也被客户挑选的机会就被发现了。有没有发生过这样的事：你出去买东西，结果却买了比你计划的多得多的东西？这是一种被称为
【机器学习笔记】13 降维 RIKI_1 机器学习机器学习笔记人工智能
降维概述维数灾难维数灾难(CurseofDimensionality)：通常是指在涉及到向量的计算的问题中，随着维数的增加，计算量呈指数倍增长的一种现象。在很多机器学习问题中，训练集中的每条数据经常伴随着上千、甚至上万个特征。要处理这所有的特征的话，不仅会让训练非常缓慢，还会极大增加搜寻良好解决方案的困难。这个问题就是我们常说的维数灾难。维数灾难涉及数字分析、抽样、组合、机器学习、数据挖掘和数据库
【机器学习笔记】8 决策树 RIKI_1 机器学习机器学习笔记决策树
决策树原理决策树是从训练数据中学习得出一个树状结构的模型。决策树属于判别模型。决策树是一种树状结构，通过做出一系列决策（选择）来对数据进行划分，这类似于针对一系列问题进行选择。决策树的决策过程就是从根节点开始，测试待分类项中对应的特征属性，并按照其值选择输出分支，直到叶子节点，将叶子节点的存放的类别作为决策结果。以下小美相亲的例子就是决策树决策树算法是一种归纳分类算法，它通过对训练集的学习，挖掘出
【机器学习笔记】 15 机器学习项目流程 RIKI_1 机器学习机器学习笔记人工智能
机器学习的一般步骤数据清洗数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。与问卷审核不同，录入后的数据清理一般是由计算机而不是人工完成。探索性数据分析(EDA探索性数据分析（EDA）是一个开放式流程，我们制作绘图并计算统计数据，以便探索我们的数据。目的是找到异常，模式，趋势或关系。这些可能是有趣的（例如，找到两个变量之间的相关性），或者它们可用
【机器学习笔记】5 机器学习实践 RIKI_1 机器学习机器学习笔记人工智能
数据集划分子集划分训练集（TrainingSet）：帮助我们训练模型，简单的说就是通过训练集的数据让我们确定拟合曲线的参数。验证集（ValidationSet）：也叫做开发集（DevSet），用来做模型选择（modelselection），即做模型的最终优化及确定的，用来辅助我们的模型的构建，即训练超参数，可选；测试集（TestSet）：为了测试已经训练好的模型的精确度。三者划分：训练集、验证集、
【机器学习笔记】11 支持向量机 RIKI_1 机器学习机器学习笔记支持向量机
支持向量机（SupportVectorMachine,SVM）支持向量机是一类按监督学习（supervisedlearning）方式对数据进行二元分类的广义线性分类器（generalizedlinearclassifier），其决策边界是对学习样本求解的最大边距超平面（maximum-marginhyperplane）。与逻辑回归和神经网络相比，支持向量机，在学习复杂的非线性方程时提供了一种更为清
【机器学习笔记】12 聚类 RIKI_1 机器学习机器学习笔记聚类
无监督学习概述监督学习在一个典型的监督学习中，训练集有标签，我们的目标是找到能够区分正样本和负样本的决策边界，需要据此拟合一个假设函数。无监督学习与此不同的是，在无监督学习中，我们的数据没有附带任何标签，无监督学习主要分为聚类、降维、关联规则、推荐系统等方面。主要的无监督学习方法聚类（Clustering）如何将教室里的学生按爱好、身高划分为5类？降维（DimensionalityReductio
【机器学习笔记】4 朴素贝叶斯 RIKI_1 机器学习机器学习笔记人工智能
贝叶斯方法贝叶斯分类贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。朴素贝叶斯分类是这一类算法中最简单的较为常见的算法。先验概率根据以往经验和分析得到的概率。我们用()来代表在没有训练数据前假设拥有的初始概率。后验概率根据已经发生的事件来分析得到的概率。以(|)代表假设成立的情下观察到数据的概率，因为它反映了在看到训练数据后成立的置信度。联合概率是指在多元的概率分
【机器学习笔记】 6 机器学习库Scikit-learn RIKI_1 机器学习机器学习笔记 scikit-learn
Scikit-learn概述Scikit-learn是基于NumPy、SciPy和Matplotlib的开源Python机器学习包,它封装了一系列数据预处理、机器学习算法、模型选择等工具,是数据分析师首选的机器学习工具包。自2007年发布以来，scikit-learn已经成为Python重要的机器学习库了，scikit-learn简称sklearn，支持包括分类，回归，降维和聚类四大机器学习算法。
【机器学习笔记】10 人工神经网络 RIKI_1 机器学习机器学习笔记人工智能
人工神经网络发展史1943年，心理学家McCulloch和逻辑学家Pitts建立神经网络的数学模型，MP模型每个神经元都可以抽象为一个圆圈，每个圆圈都附带特定的函数称之为激活函数，每两个神经元之间的连接的大小的加权值即为权重。1960年代，人工网络得到了进一步地发展感知机和自适应线性元件等被提出。M.Minsky仔细分析了以感知机为代表的神经网络的局限性，指出了感知机不能解决非线性问题，这极大影响
【机器学习笔记】3 逻辑回归 RIKI_1 机器学习机器学习笔记逻辑回归
分类问题分类问题监督学习最主要的类型，主要特征是标签离散，逻辑回归是解决分类问题的常见算法，输入变量可以是离散的也可以是连续的二分类先从用蓝色圆形数据定义为类型1，其余数据为类型2；只需要分类1次，步骤：①->②多分类问题先定义其中一类为类型1（正类），其余数据为负类（rest）；接下来去掉类型1数据，剩余部分再次进行二分类，分成类型2和负类；如果有类，那就需要分类-1次,步骤：①->②->③->
【百面机器学习笔记】模型评估葡萄肉多
模型评估指标准确率（Accuracy）准确率是指分类正确的样本占总样本个数的比例。Accuracy=n(correct)/n(total)当负样本占99%时，分类器把所有样本都预测为负样本也可以获得99%的准确率。所以，当不同类别的样本比例非常不均衡时，占比大的类别往往成为影响准确率的最主要因素。精确率（Precision）&召回率（Recall）精确率是指分类正确的正样本个数占分类器判定为正样本
李宏毅机器学习笔记 2.回归 Simone Zeng 机器学习机器学习
最近在跟着Datawhale组队学习打卡，学习李宏毅的机器学习/深度学习的课程。课程视频：https://www.bilibili.com/video/BV1Ht411g7Ef开源内容：https://github.com/datawhalechina/leeml-notes本篇文章对应视频中的P3。另外，最近我也在学习邱锡鹏教授的《神经网络与深度学习》，会补充书上的一点内容。通过上一次课1.机器
【机器学习笔记】基于实例的学习住在天上的云机器学习机器学习笔记学习 KNN 实例学习
基于实例的学习文章目录基于实例的学习1基本概念与最近邻方法2K-近邻（KNN）3距离加权KNN4基于实例/记忆的学习器5局部加权回归5多种回归方式对比6懒惰学习与贪婪学习动机：人们通过记忆和行动来推理学习。1基本概念与最近邻方法名词概念参数化设定一个特定的函数形式优点：简单，容易估计和解释可能存在很大的偏置：实际的数据分布可能不遵循假设的分布非参数化：分布或密度的估计是数据驱动的（data-dri
fast.ai 机器学习笔记（一）绝不原创的飞龙人工智能人工智能 python
机器学习1：第1课原文：medium.com/@hiromi_suenaga/machine-learning-1-lesson-1-84a1dc2b5236译者：飞龙协议：CCBY-NC-SA4.0来自机器学习课程的个人笔记。随着我继续复习课程以“真正”理解它，这些笔记将继续更新和改进。非常感谢Jeremy和Rachel给了我这个学习的机会。简要课程大纲根据时间和班级兴趣，我们将涵盖类似以下内容
fast.ai 机器学习笔记（四）绝不原创的飞龙人工智能人工智能 python
机器学习1：第11课原文：medium.com/@hiromi_suenaga/machine-learning-1-lesson-11-7564c3c18bbb译者：飞龙协议：CCBY-NC-SA4.0来自机器学习课程的个人笔记。随着我继续复习课程以“真正”理解它，这些笔记将继续更新和改进。非常感谢Jeremy和Rachel给了我这个学习的机会。使用SGD优化多层函数的回顾[0:00]这个想法是
机器学习笔记（3）：误差、复杂度曲线、学习曲线等链原力
本文来自之前在Udacity上自学机器学习的系列笔记。这是第3篇，介绍了模型的误差类型、误差的由来、找到模型适合的参数、以及避免欠拟合和过拟合的方法。1.诊断误差1.1.误差类型我们的预测或者分类的结果与实际结果相比较，会存在一定的误差，误差越小，表示结果越好。一般有两种误差来源，欠拟合和过拟合。将问题看得过于简单导致了欠拟合（Underfitting），将问题看得过于复杂导致了过拟合（Overf
fast.ai 机器学习笔记（三）绝不原创的飞龙人工智能人工智能 python
机器学习1：第8课原文：medium.com/@hiromi_suenaga/machine-learning-1-lesson-8-fa1a87064a53译者：飞龙协议：CCBY-NC-SA4.0来自机器学习课程的个人笔记。随着我继续复习课程以“真正”理解它，这些笔记将继续更新和改进。非常感谢Jeremy和Rachel给了我这个学习的机会。广义定义的神经网络视频/笔记本正如我们在上一课结束时讨
fast.ai 机器学习笔记（二）绝不原创的飞龙人工智能人工智能 python
机器学习1：第5课原文：medium.com/@hiromi_suenaga/machine-learning-1-lesson-5-df45f0c99618译者：飞龙协议：CCBY-NC-SA4.0来自机器学习课程的个人笔记。随着我继续复习课程以“真正”理解它，这些笔记将继续更新和改进。非常感谢Jeremy和Rachel给了我这个学习的机会。视频复习测试集，训练集，验证集和OOB我们有一个数据集
政安晨：示例演绎机器学习中（深度学习）神经网络的数学基础——快速理解核心概念（一）{两篇文章讲清楚} 政安晨政安晨的机器学习笔记神经网络人工智能深度学习 Python 数学基础机器学习 Conda
进入人工智能领域免不了与算法打交道，算法依托数学基础，很多小伙伴可能新生畏惧，不用怕，算法没那么难，也没那么玄乎，未来人工智能时代说不得人人都要了解算法、应用算法。本文试图以一篇文章，用程序演绎的方式给大家把这里面的数学基础先讲清楚，以便于咱们未来深入，呵呵。第一次接触机器学习的小伙伴，环境搭建参考我的这篇文章（只参考这个里面关于环境搭建的部分就可以）：政安晨的机器学习笔记——跟着演练快速理解Te
【机器学习笔记】贝叶斯学习住在天上的云机器学习机器学习笔记学习贝叶斯学习人工智能
贝叶斯学习文章目录贝叶斯学习1贝叶斯学习背景2贝叶斯定理3最大后验假设MAP(MaxAPosterior)4极大似然假设ML(MaximumLikelihood)5朴素贝叶斯NB6最小描述长度MDL1贝叶斯学习背景试图发现两件事情的关系（因果关系，先决条件&结论）。执果索因：肺炎→肺癌？不好确定，换成确诊肺癌得肺炎的概率2贝叶斯定理贝叶斯定理是一种用先验慨率来推断后验慨率的公式，它可以表示为：P(
【机器学习笔记】决策树住在天上的云机器学习机器学习笔记决策树
决策树文章目录决策树1决策树学习基础2经典决策树算法3过拟合问题1决策树学习基础适用决策树学习的经典目标问题带有非数值特征的分类问题离散特征没有相似度概念特征无序例子：SkyTempHumidWindWaterForecastEnjoySunnyWarmNormalStrongWarmSameYesSunnyWarmHighStrongWarmSameYesRainyColdHighStrongW
【机器学习笔记】回归算法住在天上的云机器学习笔记回归线性回归人工智能
回归算法文章目录回归算法1线性回归2损失函数3多元线性回归4线性回归的相关系数1线性回归回归分析(Regression)回归分析是描述变量间关系的一种统计分析方法例：在线教育场景因变量Y：在线学习课程满意度自变量X：平台交互性、教学资源、课程设计预测性的建模技术，通常用于预测分析，预测的结果多为连续值（也可为离散值，二值）线性回归(Linearregression)因变量和自变量之间是线性关系，就
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他