长路漫漫2021

Sigmoid型函数、ReLU函数

以下内容主要来自邱锡鹏老师的《神经网络与深度学习》第四章和博客的整理。

1 Sigmoid型函数

Sigmoid型函数是指一类S型曲线函数，为两端饱和函数。常用的Sigmoid型函数有Logistic函数和Tanh函数。

对于函数 $f (x)$ ，若 $\to −\infty$ 时，其导数 $'()\to 0$ ，则称其为左饱和。若 $\to +\infty$ 时，其导数 $\to 0$ ，则称其为右饱和。当同时满足左、右饱和时，就称为两端饱和。

1.1 Logistic函数

Logistic函数定义为
$\sigma(x) = \frac{1}{1+exp(-x)} \tag{1.1}$
其导数为
$\begin{aligned}\sigma^{′}(x) &=\frac{0-1·(-e^{-x})}{(1+e^{-x})^{2}}\\&=\frac{e^{-x}}{(1+e^{-x})^{2}}\\&=\frac{e^{-x}}{(1+e^{-x})}·\frac{1}{(1+e^{-x})}\\&=\frac{1+e^{-x}-1}{(1+e^{-x})}·\sigma(x)\\&=(1-\sigma(x))·\sigma(x)\end{aligned}\tag{1.2}$

Logistic函数可以看成是一个“挤压”函数，把一个实数域的输入“挤压”到(0, 1)。当输入值在0附近时，Sigmoid型函数近似为线性函数；当输入值靠近两端时，对输入进行抑制。输入越小，越接近于0；输入越大，越接近于1。这样的特点也和生物神经元类似，对一些输入会产生兴奋（输出为1），对另一些输入产生抑制（输出为0）。和感知器使用的阶跃激活函数相比，Logistic函数是连续可导的，其数学性质更好。

因为Logistic函数的性质，使得装备了Logistic激活函数的神经元具有以下两点性质：1）其输出直接可以看作概率分布，使得神经网络可以更好地和统计学习模型进行结合。2）其可以看作一个软性门（Soft Gate），用来控制其他神经元输出信息的数量。

下图左边是Logistic函数，右边是该函数的导数，由图像可发现：当输入值大于10或者小于-10时局部梯度都是0，非常不利于网络的梯度流传递。

Logistic函数作为激活函数的特点：

优点：平滑、易于求导。
缺点：

激活函数计算量大（在正向传播和反向传播中都包含幂运算和除法）；

反向传播求误差梯度时，求导涉及除法；

$\sigma(x)$ 导数取值范围是[0, 0.25]，当 $\sigma(x)$ 中 $x$ 较大或较小时，导数接近0，而反向传播的数学依，据是微积分求导的链式法则，当前层的导数需要之前各层导数的乘积，几个小数的相乘，结果会很接近0； $\sigma(x)$ 导数的最大值是0.25，这意味着导数在每一层至少会被压缩为原来的1/4，通过两层后被变为1/16，……，通过10层后为 $1/1048576\approx 0.000000954$ ，第10层的误差相对第一层卷积的参数[公式]的梯度将是一个非常小的值，这就是所谓的“梯度消失”（即Gradient Vanishing）。请注意这里是“至少”，导数达到最大值这种情况还是很少见的。

$\sigma(x)$ 的输出恒大于0（不是0均值，即zero-centered），这会导致模型训练的收敛速度变慢；也会导致后一层的神经元将得到上一层输出的非0均值的信号作为输入，随着网络的加深，会改变数据的原始分布。

详细数学分析见文章：http://neuralnetworksanddeeplearning.com/chap5.html

1.2 Tanh函数

Tanh函数也是一种Sigmoid型函数。其定义为
$tanh(x)=\frac{exp(x)-exp(-x)}{exp(x)+exp(-x)}\tag{1.3}$
Tanh函数可以看作放大并平移的Logistic函数，其值域是(−1, 1)。
$tanh(x)=2\sigma(2x)-1\tag{1.4}$

下图给出了Logistic函数和Tanh函数的形状。Tanh函数的输出是零中心化的（Zero-Centered），而Logistic函数的输出恒大于0。非零中心化的输出会使得其后一层的神经元的输入发生偏置偏移（Bias Shift），并进一步使得梯度下降的收敛速度变慢。

下图是Tanh函数的导数，与Logistic类似，局部梯度特性不利于网络梯度流的反向传递。

tanh函数作为激活函数的特点：

tanh函数的输出范围为(-1, 1)，解决了Logistic函数的不是zero-centered输出问题；但幂运算的问题仍然存在；

tanh导数范围在(0, 1)之间，相比 $\sigma(x)$ 的(0, 0.25)，梯度消失（gradient vanishing）问题会得到缓解，但仍然还会存在。

1.3 Hard-Logistic 函数

Logistic函数和Tanh函数都是Sigmoid型函数，具有饱和性，但是计算开销较大。因为这两个函数都是在中间（0 附近）近似线性，两端饱和。因此，这两个函数可以通过分段函数来近似。

以Logistic函数 $\sigma(x)$ 为例，其导数为 $\sigma{'}(x) = \sigma()(1 − \sigma())$ 。Logistic函数在0 附近的一阶泰勒展开（Taylor expansion）为
$g_l(x)\approx\sigma(0)+x \times \sigma{'}(0)\\ =0.25x+0.5\tag{1.5}$
这样Logistic函数可以用分段函数hard-logistic()来近似。
$\begin{aligned} hard-logisitc(x) &= \begin{cases} 1 & g_l(x) \geq 1 \\ g_l & 0 \leq g_l(x) \leq 1 \\ 0 & \text g_l(x) \leq 1 \end{cases} \\ &= max(min(g_l(x), 1)) \\ &= max(min(0.25x+0.5, 1), 0)\end{aligned}\tag{1.6}$

1.4 Hard-Tanh 函数

同样，Tanh 函数在0附近的一阶泰勒展开为
$\begin{aligned} g_t(x) &\approx tanh(0) + x \times tanh{'}(0) \\ &= x\end{aligned}\tag{1.7}$
这样Tanh 函数也可以用分段函数hard-tanh()来近似。
$\begin{aligned}hard-tanh(x) &= max(min(g_t(x), 1), -1)\\& = max(min(x, 1), -1)\end{aligned}\tag{1.8}$

下图给出了Hard-Logistic函数和Hard-Tanh函数的形状。

2 ReLU函数

ReLU（Rectified Linear Unit，修正线性单元），也叫Rectifier函数，是目前深度神经网络中经常使用的激活函数。ReLU实际上是一个斜坡（ramp）函数，定义为
$\begin{aligned} ReLU(x) &= \begin{cases} x & \text{if x > 0} \\ 0 & \text{if x ≤ 0} \end{cases} \\&= max(0, x) \end{aligned}\tag{2.1}$
优点： 采用ReLU的神经元只需要进行加、乘和比较的操作，计算上更加高效。ReLU函数也被认为具有生物学合理性（Biological Plausibility），比如单侧抑制、宽兴奋边界（即兴奋程度可以非常高）。在生物神经网络中，同时处于兴奋状态的神经元非常稀疏。人脑中在同一时刻大概只有1% ∼ 4% 的神经元处于活跃状态。Sigmoid型激活函数会导致一个非稀疏的神经网络，而ReLU却具有很好的稀疏性，大约50% 的神经元会处于激活状态。

在优化方面，相比于Sigmoid型函数的两端饱和，ReLU函数为左饱和函数，且在 $x > 0$ 时导数为1，在一定程度上缓解了神经网络的梯度消失问题，加速梯度下降的收敛速度。

缺点： ReLU函数的输出是非零中心化的，给后一层的神经网络引入偏置偏移，会影响梯度下降的效率。此外，ReLU神经元在训练时比较容易“死亡”。在训练时，如果参数在一次不恰当的更新后，第一个隐藏层中的某个ReLU神经元在所有的训练数据上都不能被激活，那么这个神经元自身参数的梯度永远都会是0，在以后的训练过程中永远不能被激活。这种现象称为死亡ReLU问题（Dying ReLU Problem），并且也有可能会发生在其他隐藏层。

下图分别是ReLU函数图像和导函数图像，可以发现：当输入大于0时，局部梯度永远不会为0，比较有利于梯度流的传递。

ReLU函数作为激活函数的特点：

优点：

解决了梯度消失问题 (在正区间)

计算速度非常快，只需要判断输入是否大于0

收敛速度远快于Logistic和Tanh
缺点：

ReLU的输出不是零中心化

Dead ReLU Problem，指的是某些神经元可能永远不会被激活，导致相应的参数永远不能被更新。有两个主要原因可能导致这种情况产生: (1) 非常不幸的参数初始化，这种情况比较少见 (2) 学习率太大导致在训练过程中参数更新太大，不幸使网络进入这种状态。解决方法是可以采用Xavier初始化方法，以及避免将学习率设置太大或使用adagrad等自动调节学习率的算法。

ReLU在 $x > 0$ 下，导数为常数1的好处就是在链式法则中不会出现梯度消失，但梯度下降的强度就完全取决于权值的乘积，这样就可能会出现梯度爆炸问题。解决这类问题：一是控制权值，让它们在（0，1）范围内；二是做梯度裁剪，控制梯度下降强度，如 $R e L U (x) = m i n (6, m a x (0, x))$

在实际使用中，为了避免上述情况，有几种ReLU的变种也会被广泛使用，如下：

2.1 带泄露的ReLU

        带泄露的ReLU（Leaky ReLU）在输入 $x < 0$ 时，保持一个很小的梯度 $\gamma$ 。这样当神经元非激活时也能有一个非零的梯度可以更新参数，避免永远不能被激活。带泄露的ReLU的定义如下：
$\begin{aligned} LeakyReLU(x) &= \begin{cases} x & \text{if x > 0} \\ \gamma x & \text{if x ≤ 0} \end{cases} \\&= max(0, x) + \gamma min(0, x) \end{aligned}\tag{2.2}$
        其中 $\gamma$ 是一个很小的常数，比如0.01。当 $\gamma < 1$ 时，带泄露的ReLU也可以写为
$\gamma x) \tag{2.3}$
        相当于是一个比较简单的maxout单元。

当 $\gamma=0.01$ 时， $L e a k y R e L U (x) = m a x (x, 0.01 x)$ ，函数和导函数的图像分别如下，可以发现：基本没有“死区”，也就是梯度永远不会为0。之所以说“基本”，是因为函数在0处没有导数。

理论上来讲，Leaky ReLU有ReLU的所有优点，外加不会有Dead ReLU问题，但是在实际操作当中，并没有完全证明Leaky ReLU总是好于ReLU。

2.2 带参数的ReLU

带参数的ReLU（Parametric ReLU，PReLU）引入一个可学习的参数，不同神经元可以有不同的参数。对于第个神经元，其PReLU的定义为
$\begin{aligned} PReLU_i(x) &= \begin{cases} x & \text{if x > 0} \\ \gamma_i x & \text{if x ≤ 0} \end{cases} \\&= max(0, x) + \gamma_i min(0, x) \end{aligned}\tag{2.4}$
其中 ${\gamma}_i$ 为 $x \leq 0$ 时函数的斜率。因此，PReLU是非饱和函数。如果 ${\gamma}_i=0$ ，那么PReLU就退化为ReLU。如果 ${\gamma}_i$ 为一个很小的常数，则PReLU可以看作带泄露的ReLU。PReLU可以允许不同神经元具有不同的参数，也可以一组神经元共享一个参数。

2.3 ELU 函数

ELU（Exponential Linear Unit，指数线性单元）是一个近似的零中心化的非线性函数，由Djork等人提出，被证实有较高的噪声鲁棒性，其定义为
$\begin{aligned} ELU(x) &= \begin{cases} x & \text{if x > 0} \\ \gamma{(exp(x)-1)} & \text{if x ≤ 0} \end{cases} \\&= max(0, x) + min(0, \gamma{(exp(x)-1)}) \end{aligned}\tag{2.5}$

其中 $\gamma ≥ 0$ 是一个超参数，决定 $x \leq 0$ 时的饱和曲线，并调整输出均值在0 附近。

ELU也是为解决ReLU存在的问题而提出，显然，ELU有ReLU的基本所有优点，还不会有Dead ReLU问题，输出的均值接近0，zero-centered。但缺点在于需要计算指数，计算量稍大。类似于Leaky ReLU，理论上虽然好于ReLU，但在实际使用中目前并没有好的证据ELU总是优于ReLU。该函数和导数的图像如下图所示：

2.4 Softplus 函数

Softplus函数可以看作Rectifier函数的平滑版本，其定义为
$log(1+exp(x))\tag{2.6}$
Softplus函数其导数刚好是Logistic函数。Softplus函数虽然也具有单侧抑制、宽兴奋边界的特性，却没有稀疏激活性。

激活函数尽量选择ReLU函数或者Leakly ReLU函数，相对于Logistic/tanh，ReLU函数或者Leakly ReLU函数会让梯度流更加顺畅，训练过程收敛得更快，但要注意初始化和学习率的设置。

3 其他函数

3.1 Swish 函数

Swish函数是一种自门控（Self-Gated）激活函数，定义为
$x\sigma(\beta x)\tag{3.1}$
其中 $\sigma(⋅)$ 为Logistic函数， $\beta$ 为可学习的参数或一个固定超参数。 $\sigma(⋅)\in (0, 1)$ 可以看作一种软性的门控机制。当 $\sigma(\beta x)$ 接近于1 时，门处于“开”状态，激活函数的输出近似于 $x$ 本身；当 $\sigma(\beta x)$ 接近于0 时，门的状态为“关”，激活函数的输出近似于0。

下图给出了Swish函数的示例

当 $\beta = 0$ 时，Swish函数变成线性函数 $x / 2$ 。当 $\beta = 1$ 时，Swish函数在 $x > 0$ 时近似线性，在 $x < 0$ 时近似饱和，同时具有一定的非单调性。当 $\beta \to +\infty$ 时， $\sigma(\beta x)$ 趋向于离散的0-1函数，Swish函数近似为ReLU函数。因此，Swish函数可以看作线性函数和ReLU函数之间的非线性插值函数，其程度由参数 $\beta$ 控制。

3.2 GELU 函数

        GELU（Gaussian Error Linear Unit，高斯误差线性单元）也是一种通过门控机制来调整其输出值的激活函数，和Swish函数比较类似。
$\leq x)\tag{3.2}$
        其中 $P (X \leq x)$ 是高斯分布 $N(\mu, \sigma^2)$ 的累积分布函数，其中 $\mu, \sigma$ 为超参数，一般设 $\mu = 0, \sigma = 1$ 即可。由于高斯分布的累积分布函数为S型函数，因此GELU函数可以用Tanh函数或Logistic函数来近似，
$\approx 0.5x(1+tanh(\sqrt{\frac{\pi}{2}}(x+0.044715x^3)) \\或 GELU(x) \approx x\sigma(1.702x)\tag{3.3}$
        当使用Logistic函数来近似时，GELU相当于一种特殊的Swish函数．

3.3 Maxout 单元

Maxout单元也是一种分段线性函数。Sigmoid型函数、ReLU等激活函数的输入是神经元的净输入 $z$ ，是一个标量．而Maxout单元的输入是上一层神经元的全部原始输出，是一个向量 $\pmb{} = [x_1; x_2;\cdots; x_]$ 。

每个Maxout单元有 $K$ 个权重向量 $\pmb{w}_ \in \mathbb{R}^{D}$ 和偏置 $_ (1 ≤ ≤ )$ 。对于输入 $x$ ，可以得到 $K$ 个净输入 $z_{k}$ ， $1 \leq k \leq K$ 。
$z_k = \pmb{w}^T_k\pmb{x} + b_k\tag{3.4}$
其中 $\pmb{}_ = [_{,1},\cdots , _{,}]^T$ 为第 $k$ 个权重向量。

Maxout单元的非线性函数定义为
$\underset{k\in[1, K]}{max(z_k)}\tag{3.5}$
Maxout单元不单是净输入到输出之间的非线性映射，而是整体学习输入到输出之间的非线性映射关系。Maxout激活函数可以看作任意凸函数的分段线性近似，并且在有限的点上是不可微的。

4 小结

深度学习往往需要大量时间来处理大量数据，模型的收敛速度是尤为重要的。所以，总体上来讲，训练深度学习网络尽量使用zero-centered数据 (可以经过数据预处理实现) 和zero-centered输出。所以要尽量选择输出具有zero-centered特点的激活函数以加快模型的收敛速度。

Sigmoid和tanh的特点是将输出限制在(0,1)和(-1,1)之间，说明Sigmoid和tanh适合做概率值的处理，例如LSTM中的各种门；而ReLU就不行，因为ReLU无最大值限制，可能会出现很大值。同样，根据ReLU的特征，Relu适合用于深层网络的训练，而Sigmoid和tanh则不行，因为它们会出现梯度消失。

为什么在CNN等结构中将原先的sigmoid、tanh换成ReLU可以取得比较好的效果？为什么在RNN中，将tanh换成ReLU不能取得类似的效果？详细解答，请阅读：RNN 中为什么要采用 tanh，而不是 ReLU 作为激活函数？

参考

神经网络与深度学习——第四章前馈神经网络：https://nndl.github.io/nndl-book.pdf
激活函数(ReLU, Swish, Maxout) ：https://www.cnblogs.com/makefile/p/activation-function.html
深度学习的activation function：https://zhuanlan.zhihu.com/p/25110450
常用激活函数（激励函数）理解与总结：https://blog.csdn.net/tyhj_sf/article/details/79932893
激活函数-面面观(Activation Function)：https://blog.csdn.net/cyh_24/article/details/50593400
深度学习领域最常用的10个激活函数：https://m.thepaper.cn/baijiahao_11444171
ReLU(Rectified Linear Units)激活函数：https://www.cnblogs.com/neopenx/p/4453161.html
Maxout Networks：https://arxiv.org/pdf/1302.4389v4.pdf

你可能感兴趣的:(Deep,Learning,Machine,Learning,Sigmod型函数,Logistic函数,Tanh函数,ReLu函数,激活函数)

python pandas中apply()方法用法汇总 whale fall python进阶 python pandas 数据分析
apply函数是pandas中用于对DataFrame或Series中的每一行或每一列应用一个函数的强大工具。在apply()方法中，通常会传入一个函数作为参数，这个函数会应用到DataFrame的每一行或每一列上，或Series的每个元素上。下面是一些常见的用法示例：1.对Series使用apply()，传入一个函数如果你想对某一列（Series）应用函数，可以直接调用apply方法。impor
从负数绝对值的计算来看Ruby的一个“奇葩”行为
计算一个数的绝对值是非常基础的操作，几乎所有主流的编程语言都内置了相应的函数或方法。在PHP、Python、SQL等语言中，直接调用abs()函数即可，例如abs(-1)。到了Java、C#这类面向对象的语言中，abs()通常是Math类的静态方法，调用时要加上前缀Math.，即Math.abs(-1)。Go语言就要稍微麻烦一点了，因为math包中的Abs()函数仅支持float64类型的参数，如
特朗普家族搅局加密界：原以为的「正本清源」却成了深陷泥潭区块链web3比特币
作者：Techub精选编译原标题：Crypto’sFirstFamilyIsDeepeningtheSwamp撰文：LionelLaurent，彭博社观点专栏作家编译：J1N，TechubNews美国总统特朗普的次子EricTrump认为现在是购买以太坊的好时机，他认为由于他对以太坊的支持推动了币价的短暂上涨。但与此同时，现在也是政客和监管机构采取行动的好时机，以建立更严格的监管措施，针对特朗普家
【FAQ】HarmonyOS SDK 闭源开放能力 —Remote Communication Kit harmonyos-next
1.问题描述：DynamicDnsRule有没有示例？这个地址是怎么解析出来https://developer.huawei.com/consumer/cn/doc/harmonyos-refere...解决方案：'DynamicDnsRule'：表示优先使用函数中返回的地址。/***域名和端口会自行获取，不需要传入，这边需要开发者指定Ip地址数组*@paramhost域名*@param_端口*@
跟着案例一次搞定React-Hooks Coder螺丝钉 React react.js javascript 前端
1.ReactHooks是什么ReactHooks是ReactV16.8版本新增的特性，即在不编写类组件的情况下使用state以及React的新特性。React官网提供了10个HooksAPI,来满足我们在函数组件中定义状态，提供类似生命周期的功能和一些高级特性。2.Hooks的诞生背景2.1.类组件的不足状态逻辑难以复用：在旧版本的React中，想要实现逻辑的复用，需要使用到HOC或者Rende
攻克AWS认证机器学习工程师（AWS Certified Machine Learning Engineer） - 助理级别认证：我的成功路线图硅基创想家 AI-人工智能与大模型 aws 机器学习云计算 AWS认证
引言当我决定考取AWS认证机器学习工程师-助理（AWSCertifiedMachineLearningEngineer—Associate）级别证书时，我就预料到这将是一段充满挑战但回报颇丰的旅程。跟你说吧，它在这两方面都没让我失望。这项考试面向的是不仅理解机器学习原理，还对AWS生态系统有扎实基础认知的专业人士。如果你还未达到AWS认证解决方案架构师-助理级别的水平，那你得先夯实这些基础。一个不
机器翻译技术的演进与未来趋势：从规则到神经网络的革新 Echo_Wish 人工智能前沿技术机器翻译神经网络人工智能
随着全球化的不断推进和多语言交流的日益频繁，机器翻译（MachineTranslation,MT）技术的需求日益增长。机器翻译技术经历了从基于规则的方法到统计方法，再到如今的神经网络方法的发展历程。本文将探讨机器翻译技术的演进过程及其未来趋势，并结合Python代码示例，展示现代机器翻译技术的应用。一、机器翻译技术的发展历程1.基于规则的机器翻译（RBMT）早期的机器翻译技术主要基于规则（Rule
面试总结：Qt 信号槽机制与 MOC 原理 TravisBytes QT 编程问题档案面试 qt 职场和发展
目录1.基本概念1.1信号（Signal）1.2槽（Slot）1.3连接（Connect）2.MOC（Meta-ObjectCompiler）是什么？2.1为什么需要MOC2.2工作流程2.3`Q_OBJECT`宏的意义3.信号槽的底层原理3.1发射信号（emit）3.2调用槽函数3.3新旧语法的实现差异4.使用示例4.1常规：QObject子类中信号槽4.2Lambdas作为槽（现代写法）5.常
【JavaScript fetch API】简介和使用 williamdsy 前端 javascript 开发语言 ecmascript fetch api 简单使用
fetch是一个现代的JavaScriptAPI，用于获取资源，例如从网络服务器获取数据。它提供了一种比传统的XMLHttpRequest更简洁、更易于使用的机制来进行网络请求。fetch基于Promise，这使得异步操作更容易处理。核心概念:fetch(url,[options]):这是fetchAPI的核心函数。它接受一个URL作为第一个参数，可选地接受一个包含请求配置的options对象作为
DeepSeek与Web3：科技融合的新纪元人工智能深度学习
近年来，AI与Web3的融合正以前所未有的速度发展，而DeepSeek的出现加速了这一趋势。作为新一代LLM（大型语言模型），DeepSeek不仅在推理质量和成本上展现出优势，还重新定义了去中心化智能代理（AIAgent）的发展方向。从初期的技术突破到目前多个项目的集成应用，DeepSeek正在推动Web3生态迈向智能化的新阶段。LLM如何塑造Web3智能生态LLM作为AIAgent的核心技术之一
DeepSeek 实现原理探析 rockmelodies 人工智能 ai deepseek 深度学习
DeepSeek实现原理探析引言DeepSeek是一种基于深度学习的智能搜索技术，它通过结合自然语言处理（NLP）、信息检索（IR）和机器学习（ML）等多领域的技术，旨在提供更加精准、智能的搜索结果。本文将深入探讨DeepSeek的实现原理，分析其核心技术及其在实际应用中的表现。一、DeepSeek的核心技术自然语言处理（NLP）词嵌入（WordEmbedding）：DeepSeek使用如Word
职场人AI突围战：解密DeepSeek的36种反内耗姿势小momomo 人工智能
当你的周报被AI碾压，当同事用智能看板抢走升职机会，当00后实习生靠提示词工程赢得领导青睐——这个悄然降临的AI职场时代，正在重构我们的生存法则。**▍DeepSeek职场变形记**这不是你认知中的聊天机器人，而是一个会进化的数字同事：-**会议终结者**：自动生成带执行方案的会议纪要，智能识别7种无效讨论模型-**文档捕手**：跨平台抓取微信/钉钉/邮件文件，建立带知识图谱的智能档案馆-**数据
element plus 去掉select选择框的边框，并修改右侧图标 a濯 elementplus css 前端
1.去掉选择框边框::v-deep.el-select__wrapper{box-shadow:none;}::v-deep.is-hovering{box-shadow:none!important;}2.修改选择框右侧图标新建CaretBottom.vue文件内容：将新建的vue文件引入到select选择框所在的文件importCaretBottomfrom'../components/Car
[大模型]离线更新本地ollama模型，拷贝ollama模型到离线电脑中安装使用deepseekR1模型更新增量更新update models 工作不忙大模型 gpt python 开源软件 linux docker
情况说明因为我最近在离线的机器上部署了一个ollama+open—webui的方式，运行在公司电脑。过完年后，爆火的deepseekR1已经有模型下载了，于是就有了今天这个操作。之前是用的deepseekv2，也该更新了…方法步骤拉取ollama官网仓库中deepseekR1模型如果您的电脑能联网，仅需要执行一条命令即可，不需要后续的其他操作，可能需要重启ollama。ollamapulldeep
Django视图与URLs路由详解 m0_74824802 面试学习路线阿里巴巴 django 数据库 sqlite
在DjangoWeb框架中，视图（Views）和URLs路由（URLrouting）是Web应用开发的核心概念。它们共同负责将用户的请求映射到相应的Python函数，并返回适当的响应。本篇博客将深入探讨Django的视图和URLs路由系统，提供实际的代码示例和操作指导，确保读者能够具体而实际地了解如何使用这些功能来构建健壮的Web应用。目录Django视图与URLs路由详解一、理解Django视图
halcon三维点云数据处理（十三）reduce_object_model_3d_by_view mm_exploration Halcon 3d halcon 图像处理点云处理
目录一、reduce_object_model_3d_by_view函数二、reduce_object_model_3d_by_view函数调用过程首先说明一下这部分代码在find_box_3d这个例程中，非常好用的一个坐标系生成函数。一、reduce_object_model_3d_by_view函数通过将3D对象模型投影到虚拟视图并删除给定区域外的所有点来删除3D对象模型中的点。reduce_
神经网络常见激活函数 9-CELU函数亲持红叶神经网络常见激活函数深度学习机器学习人工智能数学建模神经网络 python
文章目录CELU函数+导函数函数和导函数图像优缺点pytorch中的CELU函数tensorflow中的CELU函数CELU连续可微指数线性单元：CELU（ContinuouslyDifferentiableExponentialLinearUnit）,是一种连续可导的激活函数，结合了ELU和ReLU的特点，旨在解决ELU在某些情况下的梯度问题。函数+导函数CELU函数CELU(x)={xx≥0α
将 DeepSeek 接入 WPS，办公效率飞起 deepseek01 AI工具 wps
一、效果预览接入DeepSeek后，WPS将新增一个“DeepSeek”选项卡。选中文本后，点击“调用DeepSeek”按钮，即可实现AI对话、写作、排版、绘画、校对、翻译、数据分析、公式执行等多种功能。二、申请APIKey访问官网：前往DeepSeek官网https://api-docs.deepseek.com/zh-cn/，点击“申请APIKey”。注册账号：注册并登录DeepSeek账号，
React（6）一路向前的月光 react.js javascript 前端
useEffect的基础使用useEffect是一个ReactHook函数，用于在React组件中创建不是由事件引起而是由渲染本身引起的操作,比如发送AJAX请求，更改DOM等等import{useEffect,useState}from"react";//是用于组件创建不是由时间引起而是渲染本身引起的操作比如发送请求//页面加载完成获取数据constURL='http://geek.itheim
详解javascript的bind方法北京王老师 js vue java javascript python
JS的bind()方法创建一个新的函数，在bind()被调用时，这个新函数的this被指定为bind()的第一个参数，而其余参数将作为新函数的参数，供调用时使用。通过bind可解决两个问题：1)以隐蔽和优雅的方式解决依赖注入的问题，可以将函数执行需要的上下文环境对象通过bind方法传递给函数，在函数内部直接使用this来引用。2)解决多层调用时this对象无法传递给内部函数的问题，实际是第一个问题
ORB-SLAM2源码学习：Tracking.cc：GrabImageStereo、GrabImageRGBD、GrabImageMonocular处理图像 PaLu-LvL 计算机视觉 #ORB-SLAM2 #局部建图线程计算机视觉人工智能 c++ubuntu 学习
前言该部分函数在Tracking.cc源文件中定义，用于处理图像。1.函数作用：1.GrabImageStereo函数的主要作用是处理输入的双目图像（左视图和右视图），进行必要的预处理（颜色转换），创建表示当前帧的对象，并执行跟踪操作，最后返回当前帧在世界坐标系下的变换矩阵。cv::MatTracking::GrabImageStereo(constcv::Mat&imRectLeft,const
IPython使用技巧整理 AI普惠行者 IT基础 ipython
以下是一些常见且有用的IPython使用技巧，整理如下：一、基本功能1.启动IPython：在终端输入`ipython`命令即可启动IPython环境。2.自动补全：使用`Tab`键进行变量和函数名的自动补全。例如，输入`pri`后按`Tab`键，会自动补全为`print`。二、魔法命令（MagicCommands）1.%timeit：用来计时小段代码的执行时间。```python%timeits
python版halcon 转numpy 虚假程序设计 python numpy opencv
新版Halcon支持python接口,Python函数和halcon函数名几乎完全相同,用python写一些对性能要求不高的插件还是很舒服的.(halcon-python环境配置可以看我之前的文章)众所周知python中图像是用numpy表示的,python常用的图像处理库matplotlib,pillow,opencv-python,Scipy,pgmagick....等等...所以图像转成nu
常见的深度学习模型总结编码时空的诗意行者深度学习人工智能
1.深度前馈神经网络(DeepFeedforwardNetworks)发明时间：2006年左右，随着计算能力的提升和大数据集的可用性增加，深度学习开始兴起。发明动机：解决传统机器学习模型在复杂数据上的局限性，如线性模型无法处理非线性关系的数据。模型特点：由多个隐藏层组成的神经网络，每一层的节点与下一层的节点完全连接。应用场景：分类、回归、语音识别、图像识别等。2.卷积神经网络(Convolutio
AI 终极十问！DeepSeek 如何颠覆开发者认知？ | DeepSeek 十日谈 AI科技大本营人工智能
如今的大模型和人类越来越像，初步掌握了“自我思考”的能力后，进而给出更为合理的解答。这类模型便被称之为推理模型，当下热议的DeepSeekR1以及之前OpenAI发布的o1都是典型的代表。以一个简单的数学问题为例，“如果一列火车以60英里每小时的速度行驶，行驶3小时后，它会走多远？”DeepSeekR1和通用多模态大模型GPT-4o或都能给出正确答案：但DeepSeekR1的不同之处在于它能够拆解
QT生成随机数 @hdd Qt
QT生成随机数和C语言差距不大，C语言用srand（）和rand（），QT是用Qsrand（）和qrand（）；QT生成随机数的格式是：qsrand(QTime(0,0,0).secsTo(QTime::currentTime()));qrand（）；这里因为有QTime（）所以要加头文件#include，而qsrand和qrand这两个函数则在#include里。qsrand用来设置一个种子，该
qt中文乱码 @hdd Qt
刚开始学习qt，经常会遇到中文输出乱码，在网上找了解决办法有下面这个两个办法QTextCodec::setCodecForCStrings(QTextCodec::codecForName("GB2312"));或QTextCodec::setCodecForCStrings(QTextCodec::codecForName("UTF-8"));我试过发现不行，然后翻阅书，发现这行代码可以在主函数
今晚直播，DeepSeek真的有意识了吗？｜DeepSeek十日谈 CSDN资讯人工智能
你是否曾凝视着ChatGPT，好奇Ta是否真的“听懂”了你的指令？你是否在科幻电影中，思考过机器人真的拥有情感吗？你是否惊讶于DeepSeek的分析过程，好奇它到底是「推理」还只是模拟人类思考的假象？这里不禁思考：AI是否真的有意识？在科幻巨著《云球》中，作者描绘了一个惊心动魄的未来——AI不再只是工具，而是拥有自我意识的存在。它们不仅能思考，还能创造，甚至形成自己的文明。书中预言，当AI的认知能
深入理解 Qt 信号与槽机制：原理、用法与优势 @hdd Qt qt
一、信号与槽的概念在Qt编程中，信号与槽机制是实现对象间通信的核心工具。信号：本质上是一种特殊的成员函数声明，它不包含函数体，仅用于通知其他对象某一事件的发生。例如，当用户点击界面上的按钮时，按钮对象就会发出clicked信号，告知系统“按钮被点击了”这一事件。槽：用于响应信号的普通成员函数。它与普通C++函数类似，可以有参数，也能被重载，并且可以定义在类的public、protected或pri
Python的pickle库的简单使用 _Ocean__ python 开发语言
pickle是Python中用于序列化和反序列化对象的标准库。它可以将对象转换为字节流，以便在存储或传输过程中使用，也可以将字节流重新转换回原始对象。基本使用方法如下：序列化对象：将对象转换为字节流的过程称为序列化。可以使用pickle.dump()函数将对象序列化并写入文件，或使用pickle.dumps()函数将对象序列化为字节流。pickle.dump(obj,file)：将对象 obj 序
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin