luchi007

Michael Nielsen 's 神经网络学习之一

最近看到了一个比较好的神经网络和深度学习的网站，http://neuralnetworksanddeeplearning.com/，其实也不算是网站，算是Michael Nielsen的书籍电子版，写的算是比较生动简介，我这部分系列的文章算是一个跟书笔记，也算是半吊子翻译和代码注释工，恩，背景介绍到这里（大神直接看原文就行了，可以不用看后面的渣文了）。

没接触神经网络之前，我觉得神经网络非常神奇，各种层次网络结构和之前接触的机器学习有所不同，Michael Nielsen的书写的非常浅显易懂，也让我渐渐明白了，其实神经网络和之前了解的监督机器学习方法并没有本质不同，尽管使用了不同的模型，但是归根到底还是训练参数的过程，而之前机器学习的方法在这里也是可以使用的。当然，神经网络里面有其自身的启发式算法，如BP算法遗传算法等，但这也不算复杂难懂，总之，神经网络之所以难理解我觉得主要在于其训练过程比常见的机器学习方法要稍微复杂一点，但是原理并不是那么难以明白。

跟着Michael Nielsen的书的节奏，开始探秘神经网络

step1：从感知器谈到神经元

最早的神经元是被称之为感知器，在20世纪五六十年代由Frank Rosenblatt发明，看一眼感知器的组成：

简单的说，就是给定一系列二进制序列，x1-x3，输出一个指定的二进制值output，当然这里的输入可多可少，为了举例方便，这里就只是说三个输入，我们给三个输入值各给定一个权重weight，然后取定一个阈值threshold，所以将output定义为：

如上面的式子，当权重和输入值的乘积和超过阈值的时候就输出1，反之输出0，这就是感知器全部的工作原理了。也许问题就来了，这玩意儿有啥用，感觉没有任何的有用之处。慢着，其实上面已经算是一个决策机了，其输入是影响因子，权重是影响因子对于结果的重要性，然后阈值决定了做出决定的难易度。下面会有个例子介绍这个玩意儿的有意思之处。

假设你要去参加一个圣诞趴，有三个因素需要考虑：

1，天气是不是好

2，有没有男票（或者女票）一起去

3，交通是不是方便

我们把这三个值设定为x1,x2,x3，当x1=1的时候表示天气是好的，当x1=0的时候表示天气不好，其他两个可以类推：x2=1表示有男票(女票)一起去，x2=1表示没有，x3类似。假如你非常想参加圣诞趴但是非常忌惮天气，你可以将threahold设置为5,w1为6,w2为2，w3为2，这个表示，只要天气好，其他两个因素就都无所谓了，当然你也可以将threshold设置为3，表示如果天气好，或者如果有男票（女票）且交通便利，这两种情况只要发生了一种，就可以去参加了

当然又会有声音出现：这玩意儿我小学就会了，你现在给我算这个干甚？慢着，且慢慢徐来。上面表示这个感知器已经能够做一些基本决定了，而且通过变换权重和阈值我们会有不同的决策系统，这算不上神奇，但是我们可以联想到我们的大脑，一个神经元是个很小的东西，只能靠生物电传递一些电位信息，但是我们人类大脑的数亿计的神经元组合起来就能完成很多复杂的功能。也就是说，当感知器多了之后，我们就相当于有了许多的决策机，当把这么多的决策机组合起来做决策之后，效果是惊人的，这也是神经网络算法的基本思路。

回到感知器身上，为了表述简单，我们将感知器的基本模型改为：

其中b=-threshold，直白的说，b值表示的是这个感知器得到positive（正）的难易程度，如果b是非常大的正值，则表示这个感知器很容易做出positive（也就是得到1）的决策，如果b是非常小的负值，则表示这个感知器很容易做出negetive（也就是0）的决策，后面都会用b来代替threshold，在表述中，也将使用biase（偏移）来表示b

谈了这么久感知器，现在就应该谈到了神经元了，在常见的ANN（人工神经网络）中，使用最多的是sigmoid神经元，那么为什么使用sigmoid神经元而不是使用感知器呢，原因是在训练的过程中，需要反复修改w和b，但是对于感知器而言，由于结果只有两个值(0-1)，往往一个小的改动对于整个网络的改动会非常之大，出于平滑的考虑，使用了sigmoid 神经元，其实sigmoid神经元也不算什么稀奇的东西，在logistic回归中，sigmoid函数早就被使用了，首先来看看sigmoid方法是什么，方法定义

其图形是这样的

从图中容易看出，如果我们把sigmoid函数值小于0.5的定义为0，将大于0.5的函数值定义为1，那么这就和感知器是一样了的，但是sigmoid函数对于细微的参数改变，其函数值改变也是细微的，另外如果w*x+b是非常大的正值的话，那么sigmoid函数值也偏向于1，如果w*x+b值是很小的负值的话那么sigmoid函数是偏向于0的，这些都是我们想要的特性。如此一来，sigmoid神经元的计算方法就变成了：

step2：神经网络结构：

有了上面的基础，我们知道sigmoid神经元了，这个是神经网络的基本结构，接下来就可以构建基本简单的神经网络了。

如上图所示，基本的神经网络分为三层，第一层称之为输入层，第二层称之为hidden layer（隐藏层），第三层称之为输出层。需要说明的是

1，输入层虽然也被画成了神经元的样子，但是其实是一个常数（x1,x2,x3...），中间层和输出层都是实在的神经元，也就是带权重因此以及偏移biase

2，输入层和输出层以及中间层的神经元个数都是可以自定义的

3，隐藏层（hidden layer）如图中中间的层，其层数是可以自定义的，中间层越多训练就会越复杂，但是不是说加了中间层就会有好的效果，有时候甚至会相反

4，输出层的个数表示了判别的个数，比如下文要介绍的手写数字识别，那么output层就可以输出为10个数字（0-9）

神经网络训练的过程可以描述为：

1，初始化神经网络参数：包括神经网络的层数，每个层的神经元个数，w,b的初值等（这个过程其实也是相当难，并没有什么原则，比较靠经验）

2，将训练数据输入神经网络，将其输入结果与所希望得到的结果相比较，修改w,b参数以求更好地精度，修改w,b有多种算法可以实现，下文介绍的是比较简单易用的梯度下降法

3，重复2步骤直到精度比较好的结果

其实这么看，神经网络和一般的机器学习方法并没有太大的区别，但是神经网络的妙处就在，经过hidden layer处理了一遍之后，其实hidden layer到output layer的数据已经算是处理过后的了，也就是不是原始数据了，然后对处理后的数据进行训练、会达到不错的效果

下面我们就一个识别手写数字的例子做一个简单的神经网络的实现。

本例子中使用的手写图片数据来自http://yann.lecun.com/exdb/mnist/数据集，每张图片大小是28X28=784，使用其灰度值作为标注，结果输出为0-9的数字。

根据上面的思考，我们可以考虑使用三层神经网络，第一层为输入层，一共784个神经元；第二层是hidden层，我们可以自定义（以15举例），然后输出层是10个神经元，大概结构如下图：

那么这个网络如何得到结果呢，在输入数值之后，结汇相应的得到10个值，如果哪个数值输出最大，那么我们就可以说这个数字识别的结果是这个数值对应的output标签。

网络设计完毕了，现在就应该考虑使用什么方法来进行参数校正了，这里采用的方法是梯度下降法，关于梯度下降法我不想多做介绍，任何一个机器学习或者人工智能的领域这都是基本的方法，简单的说，原理大概可以描述为：调整参数设计，使整体误差最小。梯度下降的方法会将全部的数值都带进去计算，这样会增加计算量，本例中采用了随机梯度下降的方法，也就是每次迭代过程中随机选择一小波数据进行训练。计算方法如下：

在神经网络中，计算梯度下降时使用了BP算法，也就是反向信息传播算法（backpropagation），其实理解backpropagation算法也不算难，不过是一个链式求导法则罢了，推导可参看【1】，里面有详细的公式，关于这个BP算法的举例可以参考【2】，注意【2】中在从后端往前端推导的时候使用了之前的更新值w和b，但是在下面的代码里面，从后往前的推导还是使用最开始的w和b，我觉得Michael（也就是这段代码和这本书的实现者）的考虑是本例子中采用了mini-batch的梯度下降法，每个batch运行完之后才会对w和b进行一次更新，这样可以减小运算量，因为如果每一组数据带入进去都运算一遍的话，运算量还是很大的，当然【3】给我们展示了不一样的BP算法的视角，虽然整个链式法则没有变，但是里面的是为每个layer都计算误差，然后更新的结果是从头往尾更新，这一点和这本书的版本以及网上的一些版本不太一致，读者可以自行评估，当然【3】里面的图示还是很清晰的。

具体代码实现如下

# -*- coding: cp936 -*-
"""
network.py
author: Michael Nielsen
note by luchi
date:2016-1-3
~~~~~~~~~~

A module to implement the stochastic gradient descent learning
algorithm for a feedforward neural network.  Gradients are calculated
using backpropagation.  Note that I have focused on making the code
simple, easily readable, and easily modifiable.  It is not optimized,
and omits many desirable features.
"""

#### Libraries
# Standard library
import random

# Third-party libraries
import numpy as np

class Network(object):

    def __init__(self, sizes):
        
        """ 初始化神经网络，sizes输入格式为【第一层的神经元个数，第二层的神经元个数，第三个神经元】
        的个数】biase为每个神经元的偏移量，weight是神经元的权重数组"""
        self.num_layers = len(sizes)
        self.sizes = sizes
        self.biases = [np.random.randn(y, 1) for y in sizes[1:]]
        self.weights = [np.random.randn(y, x)
                        for x, y in zip(sizes[:-1], sizes[1:])]

    def feedforward(self, a):
        """ 计算神经网络的输出值，np.dot表示矩阵点乘 """
        for b, w in zip(self.biases, self.weights):
            a = sigmoid(np.dot(w, a)+b)
        return a

    def SGD(self, training_data, epochs, mini_batch_size, eta,
            test_data=None):
        
        """使用堆积梯度下降法训练神经网络的主要方法，训练数据集的格式是(x,y)其中x是输入\
        y是训练数据的标签，需要说明的是x是一个784维度数组"""
        if test_data: n_test = len(test_data)
        n = len(training_data)
        for j in xrange(epochs):
            random.shuffle(training_data)
            mini_batches = [
                training_data[k:k+mini_batch_size]
                for k in xrange(0, n, mini_batch_size)]
            for mini_batch in mini_batches:
                self.update_mini_batch(mini_batch, eta)
            if test_data:
                print "Epoch {0}: {1} / {2}".format(
                    j, self.evaluate(test_data), n_test)
            else:
                print "Epoch {0} complete".format(j)

    def update_mini_batch(self, mini_batch, eta):
        """随机梯度下降法，主要使用了self.backprop,也就是BP算法计算每个w和b的梯度值"""
        nabla_b = [np.zeros(b.shape) for b in self.biases]
        nabla_w = [np.zeros(w.shape) for w in self.weights]
        for x, y in mini_batch:
            delta_nabla_b, delta_nabla_w = self.backprop(x, y)
            nabla_b = [nb+dnb for nb, dnb in zip(nabla_b, delta_nabla_b)]
            nabla_w = [nw+dnw for nw, dnw in zip(nabla_w, delta_nabla_w)]
        self.weights = [w-(eta/len(mini_batch))*nw
                        for w, nw in zip(self.weights, nabla_w)]
        self.biases = [b-(eta/len(mini_batch))*nb
                       for b, nb in zip(self.biases, nabla_b)]

    def backprop(self, x, y):
        
        """返回梯度值（nable_b,nable_w）表示C-x的梯度值，可以看做是cost函数对w,b的求导结果"""
        nabla_b = [np.zeros(b.shape) for b in self.biases]
        nabla_w = [np.zeros(w.shape) for w in self.weights]
        # feedforward
        activation = x
        activations = [x] # list to store all the activations, layer by layer
        zs = [] # list to store all the z vectors, layer by layer
        for b, w in zip(self.biases, self.weights):
            z = np.dot(w, activation)+b
            zs.append(z)
            activation = sigmoid(z)
            activations.append(activation)
        # backward pass
        delta = self.cost_derivative(activations[-1], y) * \
            sigmoid_prime(zs[-1])
        nabla_b[-1] = delta
        nabla_w[-1] = np.dot(delta, activations[-2].transpose())
        # Note that the variable l in the loop below is used a little
        # differently to the notation in Chapter 2 of the book.  Here,
        # l = 1 means the last layer of neurons, l = 2 is the
        # second-last layer, and so on.  It's a renumbering of the
        # scheme in the book, used here to take advantage of the fact
        # that Python can use negative indices in lists.
        for l in xrange(2, self.num_layers):
            z = zs[-l]
            sp = sigmoid_prime(z)
            delta = np.dot(self.weights[-l+1].transpose(), delta) * sp
            nabla_b[-l] = delta
            nabla_w[-l] = np.dot(delta, activations[-l-1].transpose())
        return (nabla_b, nabla_w)

    def evaluate(self, test_data):
        """测试数据的正确性"""
        test_results = [(np.argmax(self.feedforward(x)), y)
                        for (x, y) in test_data]
        return sum(int(x == y) for (x, y) in test_results)

    def cost_derivative(self, output_activations, y):
        """返回cost值，也就是计算出的值和想要得到的结果的值"""
        return (output_activations-y)

#### Miscellaneous functions
def sigmoid(z):
    """sigmoid方法"""
    return 1.0/(1.0+np.exp(-z))

def sigmoid_prime(z):
    """sigmoid的求导."""
    return sigmoid(z)*(1-sigmoid(z))

测试结果如下如下：

课件识别率是非常之高的。代码其中的BP算法没有做详细介绍，下次肚子墨水多点之后再看看吧

全部的代码和数据见下面链接：http://pan.baidu.com/s/1qWRNgJy

参考文献：

【1】BP算法 http://blog.csdn.net/zhouchengyunew/article/details/6267193

【2】BP算法浅谈 http://blog.csdn.net/pennyliang/article/details/6695355

【3】图解神经网络 http://techeffigytutorials.blogspot.co.uk/2015/01/neural-network-illustrated-step-by-step.html

Chrome将网页保存为PDF的实战教程爱编程的喵喵 Python基础课程 Windows实用技巧 windows chrome 网页保存为PDF 实战教程
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了Chrome将网页保存为PDF的实战
Python机器学习舆情分析项目案例分享数澜悠客数字化转型 python 机器学习开发语言
数据收集与准备1.数据收集多样化数据源：从社交媒体平台（如微博、Twitter）、新闻网站、论坛等多渠道收集数据，以获取更全面的舆情信息。可以使用Python的requests库和网页解析库（如BeautifulSoup）进行网页数据爬取，使用Tweepy库获取Twitter数据。数据标注：对于监督学习，需要对收集到的数据进行标注，标记为积极、消极或中性等类别。可以使用人工标注的方式，也可以利用半
2月第五讲：深度剖析 Python 编程中的数据处理与机器学习应用 2501_90442144 python 机器学习开发语言
一、引言在当今数字化时代，编程已经成为推动各个领域发展的关键力量。Python作为一种高级编程语言，以其简洁、易读、功能强大等特点，在数据处理、机器学习、人工智能等众多领域得到了广泛的应用。本文将深入探讨Python在数据处理和机器学习方面的应用，通过实际案例展示其强大的功能和灵活性，帮助读者更好地理解和掌握Python编程在这些领域的应用技巧。二、Python基础概述2.1Python的特点与优
零基础入门机器学习 -- 第四章分类问题与逻辑回归山海青风 #机器学习机器学习分类逻辑回归 python 人工智能
4.1分类vs回归在机器学习中，任务通常分为两大类：回归（Regression）：用于预测连续数值，如房价、温度、工资等。例如：预测明天的气温（28.5°C）。预测一辆二手车的价格（30,000元）。分类（Classification）：用于预测离散类别，如垃圾邮件vs正常邮件。例如：判断一封邮件是否是垃圾邮件（“垃圾邮件”or“正常邮件”）。预测一个贷款申请是否会被批准（“批准”or“拒绝”）。
利用Blackbox AI让编程更轻松人工智能ai开发图像处理
引言随着人工智能技术的发展，AI已经成为工作中不可缺少的工具之一。俗话讲“术业有专攻”，对AI来说当然也是如此。由于训练集、调教等方面的差别，不同的AI适用的工作也不尽相同。在编程辅助方面，已经有一系列比较成熟的平台，但它们一方面价格昂贵，另一方面功能比较单一。Blackbox.ai是一个新出现的人工智能平台，它主要针对的是编程和机器学习方面的AI技术落地。和其他AI平台相比，它提供了简洁美观的界
Python中的决策树算法探索 Soft_Leader 算法 python 决策树
在Python中，决策树算法是一种常用的机器学习技术，用于分类和回归问题。下面我们将探索如何使用Python中的scikit-learn库来实现决策树算法，并简要介绍其基本概念和用法。1.安装必要的库如果你还没有安装scikit-learn库，你可以使用pip来安装它：bash复制代码pipinstall-Uscikit-learn2.导入必要的库和模块python复制代码fromsklearn.
多模态模型详解换个网名有点难深度学习人工智能计算机视觉
多模态模型是什么多模态模型是一种能够处理和理解多种数据类型（如文本、图像、音频、视频等）的机器学习模型，通过融合不同模态的信息来提升任务的性能。其核心在于利用不同模态之间的互补性，增强模型的鲁棒性和准确性。如何融合多个模型以下是多模态模型的融合方法及关键技术的详细解析：一、多模态模型的核心概念模态定义：单模态：单一类型的数据（如纯文本或纯图像）。多模态：多种类型数据的组合（如“图像+文本”“音频+
Pytorch学习之路（3） AAAx1anyu Pytorch学习之旅学习人工智能 pytorch 深度学习笔记
一.机器学习任务的整体流程1.数据预处理：数据格式统一、异常数据消除、必要数据转换，划分训练集、验证集、测试集2.选择模型3.设定损失函数、优化方法、对应的超参数4.用模型拟合训练集数据，在验证集/测试集上计算模型表现二.数据读入pytorch数据读入通过Dataset+DataLoader的方式完成，Dataset定义好数据的格式和数据变换形式，DataLoader用iterative的方式不断
【收藏不迷路】380种群智能优化算法-Matlab代码免费获取（截至2025.2.14） 88号技师智能优化算法算法 matlab 优化算法人工智能
群智能优化算法可以作为很好的工具来解决许多实际问题，如特征选择、图像分割、医学诊断，经济排放调度问题，植物病害识别，工程设计，PID优化控制，设备故障诊断，机器学习模型参数整定等等。在这个领域，有一个理论：没有免费午餐(NoFreeLunch，NFL)理论。它从逻辑上证明了不存在最适合解决所有优化问题的元启发式算法。换句话说，特定的元启发式可能在一组问题上显示出非常有希望的结果，但相同的算法可能在
python 并行框架_基于python的高性能实时并行机器学习框架之Ray介绍 weixin_39778582 python 并行框架
前言加州大学伯克利分校实时智能安全执行实验室(RISELab)的研究人员已开发出了一种新的分布式框架，该框架旨在让基于Python的机器学习和深度学习工作负载能够实时执行，并具有类似消息传递接口(MPI)的性能和细粒度。这种框架名为Ray，看起来有望取代Spark，业界认为Spark对于一些现实的人工智能应用而言速度太慢了;过不了一年，Ray应该会准备好用于生产环境。目前ray已经发布了0.3.0
【一起看花书1.3】——第5章机器学习基础应有光基础知识机器学习人工智能深度学习
先验是“知识”，是合理的假设本文内容对应于原书的5.7-5.11共5小节内容，其中知识性、结论性的内容偏多，也加入了点个人见解。目录：5.7监督学习5.8无监督学习5.9随机梯度下降5.10构建机器学习算法5.11深度学习发展的动力5.7监督学习监督学习，本质上是复杂函数的拟合，即给定特征xxx,我们需要得到标签yyy，这不就是求一个函数的拟合嘛？线性回归是比较简单的，从高代、概率论就可以理解，甚
《探秘Hogwild!算法：无锁并行SGD的神奇之路》人工智能深度学习
在深度学习和机器学习的领域中，优化算法的效率和性能一直是研究的重点。Hogwild!算法作为一种能够实现无锁并行随机梯度下降（SGD）的创新方法，受到了广泛关注。下面就来深入探讨一下Hogwild!算法是如何实现这一壮举的。基础原理铺垫随机梯度下降（SGD）算法是基于梯度下降算法产生的常见优化算法。其目标是优化损失函数，通过对每一个超参数求偏导得到当前轮的梯度，然后向梯度的反方向更新，不断迭代以获
VSCode通过跳板机免密连接远程服务器的解决方案爱编程的喵喵 Python基础课程 vscode 服务器跳板机免密连接解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了VSCode通过跳板机免密连接远程服
股票自动化交易 reset2021 python
股票自动化交易是指通过编写程序自动执行股票买卖操作，以减少人为干预，提高交易效率和准确性。Python作为一种功能强大且易于上手的编程语言，广泛应用于金融领域，尤其是在量化交易和自动化交易中。本文将介绍如何使用Python实现一个简单的股票自动化交易系统。1.自动化交易的基本流程股票自动化交易通常包括以下几个步骤：数据获取：从交易所或第三方API获取实时股票数据。策略制定：基于技术指标或机器学习模
零基础入门机器学习 -- 第一章什么是机器学习？山海青风 #机器学习机器学习人工智能 python
1.1机器学习的定义机器学习（MachineLearning,ML）是让计算机从数据中学习，然后在没有明确编程的情况下进行预测或决策的技术。传统编程：程序员写出明确的规则，例如“如果温度低于0℃，显示‘结冰’”。机器学习：计算机分析历史天气数据，自行找出“低温→可能结冰”的规律，然后对新数据进行预测。机器学习的核心思想是：数据+算法=经验+预测能力。1.2机器学习vs传统编程特点传统编程机器学习规
机器学习数学基础：21.特征值与特征向量 @心都机器学习概率论人工智能
一、引言在现代科学与工程的众多领域中，线性代数扮演着举足轻重的角色。其中，特征值、特征向量以及相似对角化的概念和方法，不仅是线性代数理论体系的核心部分，更是解决实际问题的有力工具。无论是在物理学中描述系统的振动模式，还是在计算机科学里进行数据降维与图像处理，它们都发挥着关键作用。本教程将深入且全面地对这些内容展开讲解，旨在帮助读者透彻理解并熟练运用相关知识。二、基础知识准备（一）对角矩阵的高次幂计
物流数字化转型：报关单ocr api应用场景、报关单识别接口 OCR_API 接口 ocr
在全球化贸易日益频繁的今天，物流行业的效率和准确性对于企业的竞争力至关重要。翔云报关单OCR（光学字符识别）API助力物流企业实现数字化转型。报关单识别接口是一种通过图像处理和机器学习技术自动识别并提取报关单信息的技术解决方案。它能够快速准确地从纸质或电子版报关单中读取关键数据，如货物名称、数量、金额等，并将其转换为结构化的数字格式。这不仅大大提高了工作效率，还减少了人为错误的可能性。应用场景示例
【机器学习】探索未来科技的前沿：人工智能、机器学习与大模型 E绵绵 Everything 人工智能科技机器学习大模型 python AIGC 应用
文章目录引言一、人工智能：从概念到现实1.1人工智能的定义1.2人工智能的发展历史1.3人工智能的分类1.4人工智能的应用二、机器学习：人工智能的核心技术2.1机器学习的定义2.2机器学习的分类2.3机器学习的实现原理2.4机器学习的应用2.5机器学习的示例代码2.6解释代码三、大模型：推动AI前沿发展的关键技术3.1大模型的定义3.2大模型的发展历程3.3深度学习与神经网络3.4大模型的优势与挑
大模型稀疏动态架构 deepdata_cn 垂域模型语言模型
DeepSeek应用稀疏动态架构（SparseDynamicArchitecture）是其大模型技术的核心创新点。大模型稀疏动态架构是一种用于构建大规模人工智能模型的先进架构，整体提高了模型的效率、灵活性和性能。一、发展历程1.早期探索阶段起源基础：20世纪8090年代的早期机器学习主要集中在决策树、SVM、KNN等经典算法，模型规模小，依赖手工特征。之后在2006年GeoffreyHinton提
《深度解析：批量、随机和小批量梯度下降的区别与应用》人工智能深度学习
在机器学习和深度学习的领域中，梯度下降算法是优化模型参数的核心工具之一。而批量梯度下降（BGD）、随机梯度下降（SGD）和小批量梯度下降（MBGD）是梯度下降算法的三种常见变体，它们在计算效率、收敛速度和准确性等方面各有特点。原理与计算方式批量梯度下降（BGD）：BGD在每次迭代时，都会使用整个训练数据集来计算损失函数的梯度，然后根据梯度更新模型参数。例如，若训练集中有1000个样本，那么每次迭代
【深度学习入门实战】基于Keras的手写数字识别实战（附完整可视化分析）机器学习司猫白深度学习深度学习 keras 人工智能机器学习 python
本人主页：机器学习司猫白ok，话不多说，我们进入正题吧项目概述本案例使用经典的MNIST手写数字数据集，通过Keras构建全连接神经网络，实现0-9数字的分类识别。文章将包含：关键概念图解完整实现代码训练过程可视化模型效果深度分析环境准备importnumpyasnpimportmatplotlib.pyplotaspltfromtensorflowimportkerasfromtensorflo
机器学习·逻辑回归 AAA顶置摸鱼 python 深度学习机器学习逻辑回归人工智能
前言逻辑回归虽然名称中有“回归”，但实际上用于分类问题。基于线性回归的模型，通过使用逻辑函数（如Sigmoid函数）将线性组合的结果映射到0到1之间的概率值，用于表示属于某个类别的可能性。一、逻辑回归vs线性回归特性逻辑回归线性回归任务类型分类（二分类为主）回归（预测连续值）输出范围(0,1)（概率值）(-∞,+∞)核心函数Sigmoid函数线性函数损失函数对数损失函数（交叉熵）均方误差（MSE）
Meta AI 最近推出了一款全新的机器学习框架ParetoQ，专门用于大型语言模型的4-bit 以下量化新加坡内哥谈技术人工智能语言模型自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/MetaAI最近推出了一款全新的机器学习框架——ParetoQ，专门用于大型语言模型的4
书籍-《机器学习数学基础》机器学习深度学习数学
书籍：MathematicsforMachineLearning作者：MarcPeterDeisenroth，A.AldoFaisal，ChengSoonOng出版：CambridgeUniversityPress编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《机器学习数学基础》01书籍介绍理解机器学习所需的基本数学工具包括线性代数、解析几何、矩阵分解、向量微积分、最优化、概率论和统计学。这
零基础入门机器学习 -- 第三章第一个机器学习模型——线性回归山海青风 #机器学习人工智能机器学习回归线性回归 python
3.1线性回归的概念在现实生活中，许多事情都遵循某种线性关系，比如：房价vs面积：房子的面积越大，价格通常越高。工资vs工作经验：工作经验越多，薪资往往更高。汽车油耗vs车速：在一定范围内，车速越快，油耗可能越高。线性回归（LinearRegression）是机器学习中最基础的算法之一，它用于研究两个变量之间的线性关系，即一个变量（自变量）如何影响另一个变量（因变量）。3.2线性回归的数学直觉线性
零基础入门机器学习 -- 第二章机器学习的基本流程山海青风 #机器学习机器学习 python 人工智能
1.机器学习的五个基本步骤在机器学习项目中，我们通常遵循以下步骤：收集数据：获取数据集，例如从文件、数据库或在线资源。清洗和预处理数据：处理缺失值、去除异常数据、转换数据格式等。选择合适的模型：不同任务适合不同模型，如分类使用逻辑回归、决策树等。训练模型：让模型从数据中学习模式并调整参数。评估模型：检查模型的准确率，以判断效果是否良好。本章会通过电影评分预测的示例，帮助你快速体验从数据到模型的基本
数学到底在哪里支撑着编程数学
在编程的世界里，数学并非只是一个学科，它实际上是支撑整个编程基础的支柱之一。数学不仅为编程提供了理论框架，它的各种理论和方法被用来提升代码效率、优化算法、设计系统架构、分析数据、以及确保程序的正确性。编程中的很多技术，从数据结构的选择到算法的设计、从性能优化到人工智能的构建，都离不开数学的支撑。在这篇文章中，我们将从多个方面深入探讨数学如何在编程中发挥作用，包括算法设计、数据结构优化、机器学习、图
AI Agent智能应用从0到1定制开发Langchain+LLM全流程解决方案与落地实战 AI知识分享官人工智能 langchain 算法数据挖掘计算机视觉机器学习产品经理
大模型微调实战：精通、指令微调、开源大模型微调、对齐与垂直领域应用29套AI全栈大模型项目实战，人工智能视频课程-多模态大模型，微调技术训练营，大模型多场景实战，AI图像处理，AI量化投资，OPenCV视觉处理，机器学习，Pytorch深度学习，推荐系统，自动驾驶，训练私有大模型，LLM大语言模型，大模型多场景实战，Agent智能应用，AIGC实战落地，ChatGPT虚拟数字人，Djourney智
自然语言处理（NLP）入门：基础概念与应用场景 Ash Butterfield nlp 自然语言处理人工智能
什么是自然语言处理（NLP）？自然语言处理（NaturalLanguageProcessing,NLP）是人工智能（AI）的一个重要分支，研究如何让计算机理解、生成、分析和与人类语言进行交互。换句话说，NLP是让机器像人一样“读、写、听、说”的技术，它结合了语言学、机器学习、计算机科学等多学科知识。NLP的核心目标是将非结构化的自然语言（如文本和语音）转化为结构化数据，使机器能够高效处理、分析和生
机器学习算法工程师笔试选择题（1） Ash Butterfield 机器学习算法人工智能
1.关于梯度下降的说法正确的是：A.梯度下降法可以确保找到全局最优解。B.随机梯度下降每次使用所有数据来更新参数。C.批量梯度下降（BatchGradientDescent）通常收敛更快。D.学习率过大会导致梯度下降过程震荡。答案：D（学习率过大会导致不稳定，可能震荡或无法收敛）2.在以下算法中，哪种算法属于无监督学习？A.逻辑回归B.K-近邻算法C.支持向量机D.K-均值聚类答案：D（K-均值聚
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分

Michael Nielsen 's 神经网络学习之一

你可能感兴趣的:(机器学习,算法学习)