穿越文明

神经网络的数学基础：张量和梯度

阅读上一篇深度学习的“Hello World”
今天主要讲神经网络的数学基础，涉及的数学包括线性代数、矩阵分析、微积分和数理统计等科目。主要讲清楚两个概念张量和梯度，这两个概念对于了解和掌握机器学习(深度学习)尤为重要，在介绍这两个概念之前，我们来了解一下Google的神经网络游乐园。

开篇

Google是人工智能的领导者，在人工智能方面的建树，无需赘述了。Google官方有一个神经网站游乐园，可以让你形象直观的观察神经网络训练的过程，包括训练结果的变化，你可以修改神经网络的层数，以及相关的参数，再运行，看起来很直观，如果你感兴趣，还可以到Google官方的Github上下载该项目在本地运行,以下是从运行中截取的一张图：

你可以直观的看到数据在网络中流动的情形，Google的机器学习框架叫做 TensorFlow，这是个很形象的比喻，意思是 张量(Tensor)在神经网络中流动(Flow)，可以看出张量是多么重要！张量对这个领域非常重要，重要到Google 的TensorFlow 都以它来命名。下面我们就来谈谈张量。

张量

神经网络使用的数据存储在多维Numpy 数组中，也叫张量（tensor），所以张量其实就是多维数组，所以不能叫做矩阵，矩阵只是二维的数组，张量所指的维度是没有限制的。一般来说，当前所有机器学习系统都使用张量作为基本数据结构。那么什么是张量？张量这一概念的核心在于，它是一个数据容器。它包含的数据几乎总是数值数据，因此它是数字的容器。你可能对矩阵很熟悉，它是二维张量。张量是矩阵向任意维度的扩展。下面对0到3维张做一些描述和实验，以加深理解。

注意，张量的维度（dimension）通常叫作轴（axis）

1、标量(scalar)

仅包含一个数字的张量叫作标量（scalar，也叫标量张量、零维张量、0D 张量）。在Numpy中，一个float32 或float64 的数字就是一个标量张量（或标量数组）。你可以用ndim 属性来查看一个Numpy 张量的轴的个数。标量张量有0 个轴（ndim=0）。张量轴的个数也叫作阶（rank）。

2、向量(vector)

数字组成的数组叫作向量（vector）或一维张量（1D张量）。一维张量只有一个轴。

3、矩阵(matrix)

向量组成的数组叫作矩阵（matrix）或二维张量（2D 张量）。矩阵有2个轴（通常叫作行和列）。你可以将矩阵直观地理解为数字组成的矩形网格。

4、3D张量与更高维张量

将多个矩阵组合成一个新的数组，可以得到一个3D 张量，你可以将其直观地理解为数字组成的立方体。将多个3D 张量组合成一个数组，可以创建一个4D 张量，以此类推。深度学习处理的一般是0D 到4D 的张量，但处理视频数据时可能会遇到5D 张量。

张量的关键属性

张量是由以下三个关键属性来定义的:

轴的个数（阶）。例如，3D 张量有3个轴，矩阵有2个轴。这在 Numpy 等 Python 库中也叫张量的ndim。
形状(shape)。这是一个整数元组，表示张量沿每个轴的维度大小（元素个数）。例如，前面矩阵示例的形状为(3, 5)，3D 张量示例的形状为(3, 3, 5)。向量的形状只包含一个元素，比如(5,)，而标量的形状为空，即()。
数据类型（在 Python 库中通常叫作 dtype）。这是张量中所包含数据的类型，例如，张量的类型可以是float32、uint8、float64 等。在极少数情况下，你可能会遇到字符（char）张量。注意，Numpy（以及大多数其他库）中不存在字符串张量，因为张量存储在预先分配的连续内存段中，而字符串的长度是可变的，无法用这种方式存储。

练习

把一个数不断的加[]让它变成多维数组，以及演示如何取数组的元素。

>>> data = np.array(12)
>>> print(data.ndim, data.shape,data)
0 () 12
>>> data = np.array([data])
>>> print(data.ndim, data.shape,data)
1 (1,) [12]
>>> data = np.array([data,[13]])
>>> print(data.ndim, data.shape,data)
2 (2, 1) [[12][13]]
>>> data = np.array([data,data,data])
>>> print(data.ndim, data.shape,data)
3 (3, 2, 1) [[[12][13]][[12][13]][[12][13]]]
>>> data.ndim, data.shape,data
(3, (3, 2, 1), array([[[12],[13]],[[12],[13]],[[12],[13]]]))
>>> data[0]
array([[12],[13]])
>>> data[1]
array([[12],[13]])
>>> data[2]
array([[12],[13]])
>>> data[0][1][1]
Traceback (most recent call last):
  File "", line 1, in <module>
IndexError: index 1 is out of bounds for axis 0 with size 1
>>> data[0][1][0]
13

梯度

为了很好的理解梯度，我们先来回顾一下导数，偏导数的定义

导数

在高等数学中学过导数，导数就是表示某个瞬间的变化量，它可以定义成下面的式子：

$\frac{df(x)}{dx}=\lim_{x \to 0}\frac{f(x+h)-f(x)}{h}$

利用微小的差分求导数的过程称为数值微分(numerical differentiation)。

偏导数

有多个变量的函数的导数称为偏导数，比如一个有两个变量的函数：

$f(x0,x1) = x0^2 + x1^2$

在某一个具体的点（3，4），就有两个导数，用数学表达式表示如下： $\frac {\theta f}{\theta x0},\frac {\theta f}{\theta x1}$
该函数图像如下：

梯度

由全部变量的偏导数汇总而成的张量称为梯度(gradient)
我们按变量分别计算了x0 和 x1的偏导数。现在，我们希望一起计算x0和x1的偏导数。比如，我们来考虑求x0 =3,x1 =4时的偏导数： $(\frac {\theta f}{\theta x0},\frac {\theta f}{\theta x1})$
这样由所有变量的偏导数汇总而成的向量成为梯度。可以看出梯度实质是一个张量，内容是所有变量在某点的偏导数的集合，只不过使用张量一次性方便描述和计算。

练习

为量巩固对导数、偏导数、梯度的理解和认识，练习时最好的方式，以下是练习的全部代码，根据需要打开 Test Case部分的注释，代码已经自带解释了。

# coding: utf-8
import matplotlib.pylab as plt
import numpy as np

class Diff2Gradient(object):
    def numerical_diff(self, f, x):
        """
        函数求导数,实例是求1个自变量的函数
        :param f: 传递的参数可以是一个函数
        :param x: x 可以是多维数组，代表多个点
        :return: 返回x中点的导数，值是跟x.shape相同的数组
        """
        h = 1e-4  # 0.0001
        return (f(x + h) - f(x - h)) / (2 * h)

    def numerical_gradient(self, f, X):
        """
        求导数
        :param f:
        :param X: 可以是多维数组
        :return: 返回X.shape的导数值
        """
        if X.ndim == 1:
            return self._numerical_gradient_no_batch(f, X)
        else:
            grad = np.zeros_like(X)

            # 维度上循环
            for idx, x in enumerate(X):
                # print('{}->{}'.format(idx, x))
                grad[idx] = self._numerical_gradient_no_batch(f, x)

            return grad

    def _numerical_gradient_no_batch(self, f, x):
        """
        返回一行的导数值
        :param f: 一个自变量函数
        :param x: x 可以是一维数组
        :return:
        """
        h = 1e-4  # 0.0001
        grad = np.zeros_like(x)

        for idx in range(x.size):
            tmp_val = x[idx]
            x[idx] = float(tmp_val) + h
            # 这是把整个x变量带入函数，x里只有x[idx]值变了
            fxh1 = f(x)  # f(x+h)

            x[idx] = tmp_val - h
            fxh2 = f(x)  # f(x-h)
            grad[idx] = (fxh1 - fxh2) / (2 * h)

            x[idx] = tmp_val

        return grad

    def tangent_line(self, f, x):
        """
        求切线函数
        :param f: 原来函数
        :param x: 选的x点
        :return: 一个函数(形式 kx+b)
        """
        d = self.numerical_diff(f, x)
        y = f(x) - d * x

        return lambda t: d * t + y


def function_1(x):
    return 0.01 * x ** 2 + 0.1 * x

def function_2(x):
    if x.ndim == 1:
        return np.sum(x ** 2)
    else:
        return np.sum(x ** 2, axis=1)

if __name__ == '__main__':
    d2g = Diff2Gradient()

    # # Test Case 1: 自变量只有一个的情况
    # # 传入参数说明，传入1个值，返回一个值的导数，传入数组就返回数值中
    # # 每个值处的导数，这是Numpy看起来有点神奇的地方。
    # print(d2g.numerical_diff(function_1, 2.5))
    # print(d2g.numerical_diff(function_1, np.array([2.5])))
    # print(d2g.numerical_diff(function_1, np.array([2.5, 4, 5])))
    # print(d2g.numerical_diff(function_1, np.array([[2.5, 3, 5, 6], [12, 2.5, 4, 3]])))
    #
    # x = np.arange(0.0, 20.0, 0.1)
    # y = function_1(x)
    # plt.xlabel("x")
    # plt.ylabel("f(x)")
    #
    # tf = d2g.tangent_line(function_1, 5)
    # y2 = tf(x)
    #
    # # 绘制f(x)函数和切线，这里要理解函数可以作为
    # # 参数传递的技巧，再一次展现Python作为动态语
    # # 言的一个优势。
    # plt.plot(x, y)
    # plt.plot(x, y2)
    # plt.show()

    # Test Case 2:
    x0 = np.arange(-2, 2.5, 1)
    x1 = np.arange(-1, 3.5, 1)
    # 返回两个数组组成的数组，一个数组[x1.size * x0.size].
    # 每行是x0所有数值；第二个数组是[x1.size * x0.size],
    # 每1行的值是x1[0]第2行值是x1[1],以此类推。
    X, Y = np.meshgrid(x0, x1)
    X = X.flatten()
    Y = Y.flatten()
    points = np.array([X, Y])
    grad = d2g.numerical_gradient(function_2, points)

    c = np.random.randn(len(X))  # arrow颜色

    plt.figure()
    plt.quiver(X, Y, -grad[0], -grad[1], c, angles="xy")
    plt.xlim([-2, 2])
    plt.ylim([-2, 2])
    plt.xlabel('x0')
    plt.ylabel('x1')
    plt.grid()
    plt.legend()
    plt.draw()
    plt.show()

继续下一篇阅读神经网络的数学基础：张量运算

你可能感兴趣的:(机器学习系列)

机器学习系列12：反向传播算法 SuperFengCode 机器学习系列机器学习神经网络反向传播算法梯度检验机器学习笔记
当我们要运用高级算法进行梯度下降时，需要计算两个值，代价函数和代价函数的偏导数：代价函数我们之前已经知道怎么求了，现在只需要求代价函数的偏导数即可。采用如下方法，先进行前向传播算法，然后再进行反向传播算法（BackpropagationAlgorithm），反向传播算法与前向传播算法方向相反，它用来求代价函数的偏导数。具体过程看下图：用δ作为误差，计算方法为：有时我们在运用反向传播算法时会遇到bu
基于Python的机器学习系列（18）：梯度提升分类（Gradient Boosting Classification）会飞的Anthony 信息系统机器学习人工智能机器学习 python 分类
简介梯度提升（GradientBoosting）是一种集成学习方法，通过逐步添加新的预测器来改进模型。在回归问题中，我们使用梯度来最小化残差。在分类问题中，我们可以利用梯度提升来进行二分类或多分类任务。与回归不同，分类问题需要使用如softmax这样的概率模型来处理类别标签。梯度提升分类的工作原理梯度提升分类的基本步骤与回归类似，但在分类任务中，我们使用概率模型来处理预测结果：初始化模型：选择一个
基于Python的机器学习系列（17）：梯度提升回归（Gradient Boosting Regression）会飞的Anthony 人工智能信息系统机器学习机器学习 python 回归
简介梯度提升（GradientBoosting）是一种强大的集成学习方法，类似于AdaBoost，但与其不同的是，梯度提升通过在每一步添加新的预测器来减少前一步预测器的残差。这种方法通过逐步改进模型，能够有效提高预测准确性。梯度提升回归的工作原理在梯度提升回归中，我们逐步添加预测器来修正模型的残差。以下是梯度提升的基本步骤：初始化模型：选择一个初始预测器h0(x)，计算该预测器的预测值。计算残差：
基于Python的机器学习系列（16）：扩展 - AdaBoost 会飞的Anthony 信息系统机器学习人工智能 python 机器学习开发语言
简介在本篇中，我们将扩展之前的AdaBoost算法实现，深入探索其细节并进行一些修改。我们将重点修复代码中的潜在问题，并对AdaBoost的实现进行一些调整，以提高其准确性和可用性。1.修复Alpha计算中的问题在AdaBoost中，如果分类器的错误率e为0，则计算出的权重α将是未定义的。为了解决这个问题，我们可以在计算过程中向分母中添加一个非常小的值，以避免除零错误。2.调整学习率sklearn
线性回归（1） zidea
MachineLearninginMarketing感谢李宏毅《回归-案例研究》部分内容为听取李宏毅老师讲座的笔记，也融入了自己对机器学习理解，个人推荐李宏毅老师的机器学习系列课程，尤其对于初学者强烈推荐。课程设计相对其他课程要容易理解。在机器学习中算法通常分为回归和分类两种，今天我们探讨什么线性回归。以及如何设计一个线性回归模型。什么回归简单理解通过数据最终预测出来一个值。回归问题的实例就是找到
机器学习系列（8）——提升树与GBDT算法陌简宁机器学习
本文介绍提升树模型与GBDT算法。0x01、提升树模型提升树是以分类树或回归树为基本分类器的提升方法。提升树被认为是统计学习中性能最好的方法之一。提升方法实际采用加法模型（即基函数的线性组合）与前向分步算法，以决策树为基函数的提升方法称为提升树（boostingtree）。对分类问题决策树是二叉分类树，对回归问题决策树是二叉回归树。提升树模型可以表示为决策树的加法模型：其中，表示决策树，为决策树的
机器学习系列——（十三）多项式回归飞影铠甲机器学习机器学习回归人工智能
引言在机器学习领域，线性回归是一种常见且简单的模型。然而，在某些情况下，变量之间的关系并不是线性的，这时候我们就需要使用多项式回归来建模非线性关系。多项式回归通过引入高次项来扩展线性回归模型，从而更好地拟合数据。本文将详细介绍多项式回归的原理、应用场景和实现步骤，并通过一个实际案例演示如何使用多项式回归进行预测。一、原理多项式回归是一种形式上为多项式的函数与自变量之间的线性回归关系。其基本原理是通
机器学习系列——（二十二）结语飞影铠甲机器学习机器学习人工智能
随着我们的机器学习系列的探索画上句号，我们不禁感慨于这一领域的广阔和深邃。从最初的基础概念到复杂的算法，从理论的探讨到实际应用的示例，我们一起经历了一段非凡的旅程。机器学习不仅是当前技术创新的核心驱动力之一，也是塑造未来的关键因素。在这个结语中，让我们回顾这段旅程的亮点，并展望机器学习将如何继续改变我们的世界。回顾学习之旅我们的系列文章涵盖了机器学习的各个方面，从监督学习到无监督学习，从简单的线性
机器学习系列——（二十一）神经网络飞影铠甲机器学习机器学习神经网络人工智能
引言在当今数字化时代，机器学习技术正日益成为各行各业的核心。而在机器学习领域中，神经网络是一种备受瞩目的模型，因其出色的性能和广泛的应用而备受关注。本文将深入介绍神经网络，探讨其原理、结构以及应用。一、简介神经网络是一种受到人类神经系统启发而设计的计算模型。它由大量的人工神经元组成，这些神经元之间通过连接进行信息传递和处理。神经网络的主要目标是从数据中学习规律，并能够进行预测、分类、识别等任务。二
机器学习系列——（二十）密度聚类飞影铠甲机器学习机器学习聚类支持向量机
引言在机器学习的无监督学习领域，聚类算法是一种关键的技术，用于发现数据集中的内在结构和模式。与传统的基于距离的聚类方法（如K-Means）不同，密度聚类关注于数据分布的密度，旨在识别被低密度区域分隔的高密度区域。这种方法在处理具有复杂形状和大小的聚类时表现出色，尤其擅长于识别噪声和异常值。本文将详细介绍密度聚类的概念、主要算法及其应用。一、概述密度聚类基于一个核心思想：聚类可以通过连接密度相似的点
机器学习系列——（十九）层次聚类飞影铠甲机器学习机器学习聚类人工智能
引言在机器学习和数据挖掘领域，聚类算法是一种重要的无监督学习方法，它试图将数据集中的样本分组，使得同一组内的样本相似度高，不同组间的样本相似度低。层次聚类（HierarchicalClustering）是聚类算法中的一种，以其独特的层次分解方式，在各种应用场景中得到广泛应用，如生物信息学、图像分析、社交网络分析等。一、概述层次聚类算法主要分为两大类：凝聚的层次聚类（AgglomerativeHie
机器学习系列——（十七）聚类飞影铠甲机器学习机器学习聚类人工智能
引言在当今数据驱动的时代，机器学习已经成为了解锁数据潜能的关键技术之一。其中，聚类作为机器学习领域的一个重要分支，广泛应用于数据挖掘、模式识别、图像分析等多个领域。本文旨在深入探讨聚类技术的原理、类型及其应用，为读者提供一个全面而深入的了解。一、什么是聚类？聚类是一种无监督学习（UnsupervisedLearning）技术，它的目标是将相似的对象分组到一起，形成簇（Cluster）。与有监督学习
机器学习系列——（十八）K-means聚类飞影铠甲机器学习机器学习 kmeans 聚类
引言在众多机器学习技术中，K-means聚类以其简洁高效著称，成为了数据分析师和算法工程师手中的利器。无论是在市场细分、社交网络分析，还是图像处理等领域，K-means都扮演着至关重要的角色。本文旨在深入解析K-means聚类的原理、实现方式、优缺点及其应用，以期为读者提供全面而深入的理解。一、K-means聚类简介K-means是一种基于划分的聚类算法，它的目标是将n个对象根据属性分为k个簇，使
机器学习系列——（十五）随机森林回归飞影铠甲机器学习机器学习随机森林回归人工智能
引言在机器学习的众多算法中，随机森林以其出色的准确率、对高维数据的处理能力以及对训练数据集的异常值的鲁棒性而广受欢迎。它是一种集成学习方法，通过构建多个决策树来进行预测和分类。本文将重点介绍随机森林在回归问题中的应用，即随机森林回归(RandomForestRegression)。一、概念随机森林回归是基于决策树的集成学习技术。在这个模型中，我们构建多个决策树，并将它们的预测结果合并来得到最终的回
机器学习系列——（十六）回归模型的评估飞影铠甲机器学习机器学习回归人工智能
引言在机器学习领域，回归模型是一种预测连续数值输出的重要工具。无论是预测房价、股票价格还是天气温度，回归模型都扮演着不可或缺的角色。然而，构建模型只是第一步，评估模型的性能是确保模型准确性和泛化能力的关键环节。本文将详细介绍几种常用的回归模型评估方法。一、均方误差（MeanSquaredError,MSE）均方误差是最常用的回归评估指标之一，它计算了预测值与真实值之间差异的平方的平均值。公式如下：
机器学习系列——（十四）正则化回归飞影铠甲机器学习机器学习回归人工智能
引言在机器学习领域，正则化回归是一种常用的技术，旨在解决过拟合问题，提高模型的泛化能力。本文将简单探讨正则化回归的概念、类型和应用，帮助读者更好地理解和运用这一重要技术。一、概念正则化回归是一种通过引入额外信息（约束或惩罚项）来调整模型复杂度的方法，从而防止过拟合，提高模型的泛化能力。简单来说，正则化就是在模型训练过程中加入一个正则项，以限制模型参数的大小。那么，为什么需要正则化？在机器学习中，模
机器学习系列6-逻辑回归喜乐00 机器学习逻辑回归人工智能
重点：1.逻辑回归模型会生成概率。2.对数损失是逻辑回归的损失函数。3.逻辑回归被许多从业者广泛使用。#1.逻辑回归：计算概率**许多问题需要将概率估算值作为输出。逻辑回归是一种非常高的概率计算机制。**实际上，您可以通过以下两种方式之一使用返回的概率：*原样*已转换为二元类别。![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/e62e0256ba5a
机器学习系列——（十一）回归飞影铠甲机器学习机器学习回归人工智能
引言在机器学习领域，回归是一种常见的监督学习任务，它主要用于预测数值型目标变量。回归分析能够通过对输入特征与目标变量之间的关系建模，从而对未知数据做出预测。概念回归是机器学习中的一种监督学习方法，用于预测数值型目标变量。它通过建立特征与目标变量之间的关系模型，对未知数据做出预测。举个例子来说明回归的概念：假设我们希望根据房屋的面积来预测其价格。我们可以收集一组包含多个房屋的数据样本，每个样本包含房
机器学习系列——（十二）线性回归飞影铠甲机器学习机器学习线性回归人工智能
导言在机器学习领域，线性回归是最基础且重要的算法之一。它用于建立输入特征与输出目标之间的线性关系模型，为我们解决回归问题提供了有效的工具。本文将详细介绍线性回归的原理、应用和实现方法，帮助读者快速了解和上手这一强大的机器学习算法。一、线性回归简介线性回归是一种监督学习算法，适用于处理连续数值预测问题。其基本思想是通过拟合最佳直线（或超平面）来预测输出变量与输入特征之间的关系。线性回归的目标是找到最
机器学习系列——（九）决策树飞影铠甲机器学习机器学习决策树人工智能
简介决策树作为机器学习的一种经典算法，在数据挖掘、分类和回归等任务中广泛应用。本文将详细介绍机器学习中的决策树算法，包括其原理、构建过程和应用场景。原理决策树是一种基于树状结构的监督学习算法，它通过构建一棵树来对数据进行分类或回归预测。决策树的每个内部节点代表一个特征属性，每个叶子节点代表一个类别或数值。决策树的构建过程：特征选择：根据某种指标选择最佳特征，将数据集划分为不同的子集。决策节点生成：
机器学习系列——（十）支持向量机飞影铠甲机器学习支持向量机机器学习算法
一、背景支持向量机（SupportVectorMachine，SVM）是一种用于分类、回归和离群点检测等领域的监督学习方法。它最初由Vapnik和Cortes在1995年提出，被认为是机器学习领域中最成功的算法之一。二、原理2.1线性SVM我们先从最简单的线性支持向量机（LinearSVM）开始。对于一个二分类问题，假设训练数据集为D={(x1,y1),(x2,y2),...,(xn,yn)}，其
机器学习系列——（七）简单分类算法飞影铠甲机器学习机器学习分类人工智能
机器学习是目前人工智能领域最热门的分支之一，其中朴素贝叶斯分类算法是一种常用的分类算法。本文将详细介绍朴素贝叶斯分类算法的原理、应用以及优缺点。一、原理朴素贝叶斯分类算法是一种基于贝叶斯定理的分类算法。在分类问题中，我们需要根据给定的数据集，将不同的实例分成不同的类别。朴素贝叶斯分类算法的核心思想就是利用已知类别的训练数据来估计每个特征对于分类结果的影响，并通过这些特征值的联合概率分布来确定新实例
机器学习系列——（八）KNN分类算法飞影铠甲机器学习机器学习分类人工智能
当谈到机器学习中的分类算法时，K最近邻（K-NearestNeighbors，简称KNN）是一个简单而又常用的算法。在本篇博客中，我们将探讨KNN算法的原理、应用和优缺点。一、原理K最近邻算法是一种基于实例的学习方法，它通过利用已知类别的训练样本集来对新的实例进行分类。其核心思想是通过测量不同实例之间的距离来确定新实例的类别。具体来说，KNN算法的原理可以概括为以下几个步骤：数据准备：首先，我们需
机器学习系列——（五）数据清洗飞影铠甲机器学习机器学习人工智能
引言在机器学习领域，数据是训练模型的基础。然而，现实世界中的数据往往存在噪声、缺失值、异常值和不一致等问题，这些问题会对模型的性能产生负面影响。因此，数据清洗作为机器学习流程中至关重要的一步，可以帮助我们处理这些问题，提高模型的准确性和鲁棒性。本文将详细介绍机器学习中的数据清洗过程，以及常见的数据清洗方法和技术。一、概念和目标数据清洗是指通过一系列的操作和技术，对原始数据进行预处理，使其符合模型训
机器学习系列——（六）数据降维飞影铠甲机器学习机器学习人工智能大数据
引言在机器学习领域，数据降维是一种常用的技术，旨在减少数据集的维度，同时保留尽可能多的有用信息。数据降维可以帮助我们解决高维数据带来的问题，提高模型的效率和准确性。本文将详细介绍机器学习中的数据降维方法和技术，以及其在实际应用中的重要性。一、概念数据降维是指通过对原始数据进行变换或压缩，将其映射到一个低维空间中，从而减少特征的数量。数据降维的目标主要包括以下几个方面：减少计算复杂性：高维数据可能导
机器学习系列 - Mean Shift聚类学海一叶机器学习算法聚类机器学习 python 计算机视觉
文章目录前言一、原理前置知识点MeanShift计算步骤二、应用举例-图像分割三、聚类实战-简单实例bandwidth=1bandwidth=2总结前言MeanShift（均值漂移）是基于密度的非参数聚类算法，其算法思想是假设不同簇类的数据集符合不同的概率密度分布，找到任一样本点密度增大的最快方向（最快方向的含义就是MeanShift），样本密度高的区域对应于该分布的最大值，这些样本点最终会在局部
机器学习系列4-特征工程喜乐00 机器学习人工智能
机器学习系列4-特征工程学习内容来自：谷歌ai学习https://developers.google.cn/machine-learning/crash-course/framing/check-your-understanding?hl=zh-cn本文作为学习记录自己归纳整理的思维导图这里写目录标题机器学习系列4-特征工程一级目录二级目录三级目录1.数据集划分1.1将数据集划分为训练集和测试集1
机器学习系列——（二）主要任务飞影铠甲机器学习人工智能
导语：随着信息时代的到来，机器学习作为一项重要技术正逐渐渗透到我们的生活和工作中。它的主要任务是通过使用数据和算法，让计算机系统从中学习并改进性能，使其能够更智能地处理问题和做出决策。本文将详细介绍机器学习的主要任务，包括分类、回归、聚类和推荐系统等，让我们一同探索这个引领智能时代的关键技术。分类任务分类任务是机器学习中最常见的任务之一。它的目标是将数据分为不同的类别或标签。分类任务可以应用于各种
机器学习系列——（一）概述飞影铠甲机器学习机器学习人工智能
导语：在当今高度数字化和信息化的时代，机器学习作为一项核心技术，正日益渗透到我们生活的方方面面。它不仅为我们提供了更智能、更高效的解决方案，还给予了计算机系统从经验中学习和改进的能力。本文将带您深入了解机器学习的概念、原理以及应用，让我们一同探索这个引领智能时代的关键技术。第一部分：什么是机器学习？机器学习是一种通过利用数据和统计学方法，使计算机系统从中学习并改进性能的人工智能技术。它通过构建模型
机器学习系列-1基础概念喜乐00 机器学习人工智能
机器学习系列-1基础概念学习内容来自：谷歌ai学习https://developers.google.cn/machine-learning/crash-course/framing/check-your-understanding?hl=zh-cn本文作为学习记录1.什么是（监督式）机器学习？机器学习系统学习如何组合输入以对从未见过的数据生成有用的预测。2.机器学习的基本术语。2.1标签标签是指
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他