Aliang-SEU

LogisticRegression 原理学习与理解

最近在实习的时候小组组织了一个机器学习的讲座，说来也很惭愧，作为一个专业为模式识别的研究生，除了调调库，调调参，还真的没有认认真真的深入去研究过机器学习的算法原理。所以趁着这一次的作业机会，好好地推导理解了一下LogisticRegression的原理。

贝叶斯决策与最大似然估计

logistic回归是一种广义线性模型，这类模型因为因变量的不同定义的名称也不一样，如果是连续的，就是多重线性回归，如果是二项分布，就是logistic回归，其他的还有诸如passion回归，负二项回归等等之类。

logistic回归的因变量可以是二分非线性差分方程类的，也可以是多分类的，但是通常在实际当中二分类用的比较多，也可能是因为形式比较简单，容易理解吧。
为了说明清楚logistic回归的原理，我们先从一个简单的小例子说起来引入极大似然估计，当然这个例子也是看的网上一个博客的。

原文地址：深入浅出最大似然估计（Maximum Likelihood Estimation）

问题是这样的：在一个袋子里面装着白色和红色两种颜色的球，从袋子里面每次取出一个球然后放回去，这样重复取出10次之后得到的结果是白色球出现了7次，红色球出现了3次。问：随机取出一个球是白色球的概率为多少？

这个问题一看很简单嘛，由样本估计总体，所以白色球的概率为

p (w) = 7 / (7 + 3) = 0.7

的确这个计算结果是正确的，但是它是基于样本对于总体的一个估计得出的，我们有没有办法用理论的方法来显式的表达出同样的结果呢？当然是可以的。这就是极大似然估计（Maximum likelihood estimation, 简称MLE）提出的意义所在了。

极大似然估计是一种统计方法，它用来求一个样本集的相关概率密度函数的参数。这个方法最早是遗传学家以及统计学家罗纳德·费雪爵士在1912年至1922年间开始使用的。直观的意思就是说通过已知的样本来得出与已有的样本最相似的模型。具体是什么意思呢，先从贝叶斯分类器说起更加好理解。

贝叶斯决策

经典的贝叶斯公式为

p (w | x) = p ( x | w ) \times p ( w ) p ( x )

其中 p(w) 为先验概率，代表的意思是类别 w 分布的概率；p(x|w) 为条件概率，表示在类别 w 中，发生事件x的概率；而 p(w|x) 为后验概率，代表的意思是在事件 x 发生的情况下，该事件属于类别w的概率。而贝叶斯分类就是在这个后验概率的概念上对样本做出的一个分类判断，当后验概率越大，说明某个事件属于这个类别的可能性越大，那么我们就越有理由将它归于这个类别下。

概率论的概念忘了？没关系，我们来看一个非常直观易懂的例子来说明整个的计算过程。已知：在一个大学当中男生戴眼镜的概率为 23 ，女生戴眼镜的概率为 14 ，并且该大学当中男女比例为7:3，问：若你在大学当中遇到一个戴眼镜的童鞋，请问ta为男生或者女生的概率分别为多少？

我们来看看这个问题怎么解决：
首先假设： w1 代表男生, w2 代表女生， x 代表戴眼镜。
那么由问题当中已知的条件可以得到

先 验 概 率 : p (w 1) = 7 10 ， p (w 2) = 3 10 条 件 概 率 : p (x | ｗ 1) = 2 3, p (x | w 2) = 1 4

而男生和女生戴眼镜的事件相互独立，所以可以得到

p (x) = p (x | w 1) \times p (w 1) + p (x | w 2) \times p (w 2) = 7 10 \times 2 3 + 3 10 \times 1 4 = 13 24 (6) (7) (8)

根据贝叶斯公式计算得到遇到一个戴眼镜的童鞋属于男生与女生的概率分别为

p (w 1 | x) = p ( x | w 1 ) \times p ( w 1 ) p ( x ) = 2 3 \times 7 10 13 24 = 56 65 p (w 2 | x) = p ( x | w 2 ) \times p ( w 2 ) p ( x ) = 1 4 \times 3 10 13 24 = 9 65 (9) (10)

怎么样很简单吧！然而在实际的问题当中，我们大多时候是没办法清楚地知道先验概率和条件概率的，而只有一些抽样的样本是已知的。在这种情况下一种可行解决的办法就是利用样本来估计总体的先验概率与条件概率，然后再套用贝叶斯公式来求解。这也是贝叶斯分类器的实现原理。

先验概率的估计较简单，1、每个样本所属的自然状态都是已知的（有监督学习）；2、依靠经验；3、用训练样本中各类出现的频率估计。

类条件概率的估计（非常难），原因包括：概率密度函数包含了一个随机变量的全部信息；样本数据可能不多；特征向量x的维度可能很大等等。总之要直接估计类条件概率的密度函数很难。解决的办法就是，把估计完全未知的概率密度转化为估计参数。这里就将概率密度估计问题转化为参数估计问题，极大似然估计就是一种参数估计方法。当然了，概率密度函数的选取很重要，模型正确，在样本数量趋向无穷时，我们会得到较准确的估计值，如果模型都错了，那估计半天的参数，肯定也没啥意义了。下面的博客里面有更加详尽的解释

极大似然估计详解

为了直观的看懂什么是极大似然估计，我们再回到原先的红白球问题当中。

首先定义如下计算式

f (x 1, x 2 | θ) = f (x 1 | θ) \times f (x 2 | θ)

上式中 f(x|θ) 代表在参数 θ 下的模型，其中 x 代表样本的输入特征，式子的整体意义代表样本x1,x2分别所产生的输出的概率相乘的结果。

而其中 θ 是未知的，就是我们所需要估计的参数，这样我们可以定义极大似然估计公式为

L (θ | x 1, x 2) = f (x 1, x 2 | θ) = \prod i = 1 2 f (x i | θ)

如果上式求导不方便则可以对方程左右两边同时取对数得到求和的形式

ln (L (θ | x 1, x 2)) = ln (f (x 1, x 2 | θ)) = \sum i = 1 2 ln (f (x i | θ))

还有一个平均似然函数就是上面的对数似然函数进行一个平均操作

L^= 1 2 ln (L (θ | x 1, x 2))

求解最大似然函数的过程就是一个寻找最优参数 θ 使得模型最适合样本的过程，所以得到优化方程如下

θ^m l e = a r g m a x θ \in Θ L^(θ | x 1, x 2))

这里讨论的情况是2个样本的情形，扩展到多次采用的情形下

θ^m l e = a r g m a x θ \in Θ L^(θ | x 1, x 2, \dots, x n))

我们定义 M(x|θ)=θ 为模型（也就是之前公式中的 f )，该模型中只有一个参数表示抽到白球的概率为θ，那么抽到红球的概率为 (1−θ) ，因此10次抽取抽到白球7次的概率可以表示为

P (x 1, x 2, \dots, x 10 | M) = P (x 1 | M) \times P (x 2 | M) \times \dots \times P (x 10 | M) = θ 7 \times (1 - θ) 3

将其描述为平均似然可得

L^= 1 10 ln (P (x 1, x 2, \dots, x 10 | M)) = 1 10 ln [θ 7 \times (1 - θ) 3]

那极大似然估计就是找到一个合适的 θ ，使得平均似然函数的值最大。这里可以这么理解，当平均似然函数的值最大的时候代表这10个样本所产生的输出最接近样本的输出，即该模型最贴近样本的模型，而同样样本的模型可以用来估计总体的模型。因此我们可以对平均似然的公式对 θ 求导(当有多个参数求偏导)，并使得导数为0来求得极值点使得平均似然函数的值最大。

L^' (θ) = 7 10 (1 θ) - 3 10 (1 1 - θ) = 0 ⟹ θ = 0.7

由此可得，当抽取白球的概率为0.7时，最可能产生10次抽取抽到白球7次的事件。
以上就是极大似然估计的解释。

logistic回归

我们知道线性回归的模型求得是输入向量与输出之间的一个线性关系，即

z = θ 0 + θ 1 x 1 + θ 2 x 2 + \dots + θ n x n = θ T x

输出量是连续的，而logistic回归也是基于线性回归的的思想构建的，所以也叫广义线性回归模型。它的模型在线性方程上采用了一个激活函数sigmoid
sigmoid的输入输出关系如下所示

它的具体的公式为

y = 1 1 + e - x

应用到线性回归模型上面就是

z = h θ (x) = 1 1 + e - θ T x

于是，线性模型的输出被映射到了0-1之间，当线性模型输出为0时，激活函数的输出刚好位于 12 处，刚好将线性模型的平面分成了两部分。这也就为分类提供了依据。
当 hθ(x) <0.5 则说明当前数据属于A类
当 hθ(x) >0.5 则说明当前数据属于B类
所以我们可以将sigmoid函数看成是样本的概率密度函数。
所以我们可以得出

P (y = 1 | x; θ) = h θ (x) P (y = 0 | x; θ) = 1 - h θ (x) (11) (12)

其中 P(y=1|x;θ) 表示模型参数为 θ 时输入样本 x 的输出为类别1的概率。

有了以上的公式，我们就可以结合极大似然估计来求解模型的参数了
首相上面的概率公式可以写在一起为

P (y | x; θ) = (h θ (x)) y \times (1 - h θ (x)) 1 - y

因为样本数据独立，所以它们的联合分布可以表示为各边际分布的的乘积，于是得到似然函数

L (θ) = \prod i = 1 n P (y (i) | x (i); θ) = \prod i = 1 n (h θ (x (i))) y (i) \times (1 - h θ (x (i))) 1 - y (i) (13) (14)

相应的对数似然函数为

l (θ) = ln L (θ) = \sum i = 1 n ln P (y (i) | x (i); θ) = \sum i = 1 n ln (h θ (x (i))) y (i) + ln (1 - h θ (x (i))) 1 - y (i) = \sum i = 1 n y (i) ln (h θ (x (i))) + (1 - y (i)) ln (1 - h θ (x (i))) (15) (16) (17)

极大似然估计的求解就是求出使得似然函数取到最大值是时候 θ 值，也就是对 θ 求导数，这里 θ 是一个矩阵，于是要对矩阵中的各个参数求偏导数,并且令偏导数为0，求解出方程组来得到最佳参数。而求解偏导数的过程多多少少有些繁琐，这里我们也可以使用梯度下降法来求解。
具体的求解过程可以参考文章
[机器学习笔记1]Logistic回归总结

下面是我使用java实现的一个简单的logistic回归,数据集是使用的鸢尾花iris

/**
 * @author ALiang
 * @date 2018/06/14
 */
import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import java.util.Random;
import java.util.Scanner;

public class LogisticRegression {

    //训练数据
    private double[][] trainData;

    //样本的标签 二分类为 0 或 1
    private double[] label;

    //每次预测的值
    private double[] predict;

    //样本数量
    private int sampleNum;

    //样本的特征维度
    private int sampleDim;

    //模型参数 这里假设是线性模型 y = wx + b ; (b = 0)
    private double[] parameters;

    //梯度下降的步长
    private double sigma = 0.001;

    //模型停止的阈值
    private double epsilon = 1e-9;


    private void readData(double[][] trainData, double[] label) {
        if (trainData == null || label == null) {
            throw new RuntimeException("训练数据无效!");
        }

        sampleNum = trainData.length;
        sampleDim = trainData[0].length;

        //参数初始化 这里完全随机 更好可以使用一些分布
        parameters = new double[sampleDim];
        Random rand = new Random();
        for(int i = 0; i < parameters.length; i++){
            parameters[i] = rand.nextDouble();
        }

        this.trainData = trainData;
        this.label = label;
        this.predict = new double[sampleNum];
    }

    /**
     * 训练器
     * @param trainData
     * @param label
     * @param maxIters
     * @param debug
     */
    public void train(double[][] trainData, double[] label, int maxIters, boolean debug) {

        //准备数据
        readData(trainData, label);
        System.out.println("开始训练...");
        //训练
        for (int i = 0; i < maxIters ; i++) {

            //一次前向传播
            forward();

            double error =  calcError();
            if(debug){
                System.out.println("第" + i + "次的平均误差:" + error);
            }

            if(error < epsilon){
                break;
            }

            //一次反向参数更新
            backward();
        }

        System.out.println("训练完成...");
    }

    /**
     * 模型预测
     * @param data
     * @return
     */
    public double predict(double[] data){
        return sigmoid(forwardEachSample(data));
    }

    public double[] predict(double[][] data){
        double[] predict = new double[data.length];
        for(int i = 0; i < data.length; i++){
            predict[i] = sigmoid(forwardEachSample(data[i]));
        }
        return predict;
    }

    /**
     * 前向传播
     *
     * @return
     */
    private double[] forward() {

        for (int i = 0; i < sampleNum; i++) {
            predict[i] = sigmoid(forwardEachSample(trainData[i]));
        }
        return predict;
    }


    /**
     *  最大似然估计
     *  批量梯度下降求取参数
     */
    public void backward() {

        for (int i = 0; i < parameters.length; i++) {

            double f = 0.0;
            for (int j = 0; j < sampleNum; j++) {
                /**
                 * 推导公式 wj = wj + n * sigma(yi - zi) * xji;
                 */
                f += (label[j] - predict[j]) * trainData[j][i];
            }
            parameters[i] += sigma * f;
        }
    }

    /**
     * 向量相乘
     * @param a
     * @return
     */
    public double forwardEachSample(double[] a) {
        double sum = 0.0d;
        for (int i = 0; i < a.length; i++) {
            sum += a[i] * parameters[i];
        }
        return sum;
    }

    /**
     * 激活函数
     * @param a
     * @return
     */
    public double sigmoid(double a) {
        return 1 / (1 + Math.exp(-a));
    }

    /**
     * 计算每次迭代误差
     * @return
     */
    public double calcError() {

        double error = 0.0d;

        for (int i = 0; i < predict.length; i++) {
            error += Math.abs(predict[i] - label[i]);
        }

        return error / predict.length;
    }

    public double calcPredictError(double[] label, double[] predict){
        assert (label.length == predict.length);
        double sumError = 0.0d;
        int sumErrorCount = 0;
        for(int i = 0; i < label.length; i++){
            sumError += Math.abs(label[i] - predict[i]);
            if((int)label[i] != (int)Math.round(predict[i])){
                sumErrorCount ++;
            }
        }
        System.out.println("总的误差为:" + sumError);
        System.out.println("平均误测误差为:" + sumError / label.length);
        System.out.println("预测正确数目:" + (label.length - sumErrorCount) + "/" + label.length);
        System.out.println("预测正确率:" + (1 - sumErrorCount * 1.0 / label.length));
        return sumError / label.length;
    }

    /**
     * 测试程序
     * @param args
     * @throws IOException
     */
    public static void main(String[] args) throws IOException {
        Scanner sc = new Scanner(new File("src/irisData/data.txt"));
        String[] names = {"Iris-setosa","Iris-versicolor", "Iris-virginica"};
        List list = new ArrayList<>();
        while(sc.hasNextLine()){
            list.add(sc.nextLine());
        }
        double[][] train_data = new double[list.size()][4];
        double[] label = new double[list.size()];
        int idx = 0;
        for(String s : list){
            String[] data = s.split(",");
            for(int i = 0; i < 4; i++){
                train_data[idx][i] = Double.parseDouble(data[i]);
            }
            if(data[4].equals(names[2])){
                label[idx] = 1;
            }else
                label[idx] = 0;
            idx++;
        }

        LogisticRegression lr = new LogisticRegression();
        lr.train(train_data, label, 50000, true);
        double[] predict = lr.predict(train_data);

        lr.calcPredictError(label, predict);
    }
}

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
python语法——三目运算符 HappyRocking python python 三目运算符
在java中，有三目运算符，如：intc=(a>b)?a:b表示c取两者中的较大值。但是在python，不能直接这样使用，估计是因为冒号在python有分行的关键作用。那么在python中，如何实现类似功能呢？可以使用ifelse语句，也是一行可以完成，格式为：aifbelsec表示如果b为True，则表达式等于a，否则等于c。如：c=(aif(a>b)elseb)同样是完成了取最大值的功能。
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
python怎么将png转为tif_png转tif weixin_39977276
发国外的文章要求图片是tif，cmyk色彩空间的。大小尺寸还有要求。比如网上大神多，找到了一段代码，感谢！https://www.jianshu.com/p/ec2af4311f56https://github.com/KevinZc007/image2Tifimportjava.awt.image.BufferedImage;importjava.io.File;importjava.io.Fi
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul

LogisticRegression 原理学习与理解

贝叶斯决策与最大似然估计

logistic回归

下面是我使用java实现的一个简单的logistic回归,数据集是使用的鸢尾花iris

你可能感兴趣的:(机器学习,贝叶斯分类,极大似然估计,logistic回归,java)