小鱼儿的博客

深度学习之--神经网络基础

一、前馈神经网络

概念：前馈神经网络、网络层数、输入层、隐藏层、输出层、隐藏单元、激活函数

前馈神经网络：前馈神经网络是一种最简单的神经网络，各神经元分层排列。每个神经元只与前一层的神经元相连。接收前一层的输出，并输出给下一层．各层间没有反馈。

网络层数：一般是指设置或者搭建的模型有多少层。以上图为例，网络层为3。注：一般不包括输入层。

输入层：一般指数据输入模型的一层，如图中 Layer L1 层。

输出层：一般指模型的最后一层，即Layer L4 层；

隐藏层：指除开输入层和输出层之外的中间层，如图Layer L2 层和 L３层；

隐藏单元：一般指隐藏层中的单元结构。

激活函数：一般指加权之后的值到输出之间函数，通过激活函数将上一层的输出作为下一层输入之前进行非线性变化，使模型不再是单一的线性变换。

二、简单的神经网络（tensorflow）

前期准备

通过二层的全连接网络，实现 mnist 数据集分类任务。

import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data

mnist_path = '/home/jie/Jie/codes/tf/datasets/MNIST_data/'
mnist = input_data.read_data_sets(mnist_path, one_hot=True)

# 定义超参数和其他常量
n_input = 784            # 28 * 28
n_classes = 10

max_epochs = 10000
learning_rate = 0.5
batch_size = 10
seed = 0
n_hidden = 30 

## Sigmoid 函数的导数
def sigmaprime(x):
    return tf.multiply(tf.sigmoid(x), tf.subtract(tf.constant(1.0), tf.sigmoid(x)))

# 为训练数据创建占位符
x_in = tf.placeholder(tf.float32, [None, n_input], name='x_in')
y = tf.placeholder(tf.float32, [None, n_classes], name='y')

# 创建模型
def multilayer_perceptron(x, weight, biases):
    h_layer_1 = tf.add(tf.matmul(x, weights['h1']), biases['h1'])
    out_layer_1 = tf.sigmoid(h_layer_1)

    h_out = tf.add(tf.matmul(out_layer_1, weights['h2']), biases['h2'])
    return tf.sigmoid(h_out), h_out, out_layer_1, h_layer_1

# 权重
weights = {
    'h1':tf.Variable(tf.random_normal([n_input, n_hidden], seed=seed)),
    'h2':tf.Variable(tf.random_normal([n_hidden, n_classes], seed=seed))}
# 偏置
biases = {
    'h1':tf.Variable(tf.random_normal([1, n_hidden], seed=seed)),
    'h2':tf.Variable(tf.random_normal([1, n_classes], seed=seed))}

# 正向传播
y_hat, h_2, o_1, h_1 = multilayer_perceptron(x_in, weights, biases)

# loss function
err = y - y_hat
loss = tf.reduce_mean(tf.square(err, name='loss'))

# 反向传播
delta_2 = tf.multiply(err, sigmaprime(h_2))
delta_w_2 = tf.matmul(tf.transpose(o_1), delta_2)

wtd_error = tf.matmul(delta_2, tf.transpose(weights['h2']))
delta_1 = tf.multiply(wtd_error, sigmaprime(h_1))
delta_w_1 = tf.matmul(tf.transpose(x_in), delta_1)

eta = tf.constant(learning_rate)

# 更新权重
train = [
    tf.assign(weights['h1'], tf.add(weights['h1'], tf.multiply(eta, delta_w_1))),
    tf.assign(biases['h1'], tf.add(biases['h1'], tf.multiply(eta, tf.reduce_mean(delta_1, axis=[0])))),
    tf.assign(weights['h2'], tf.add(weights['h2'], tf.multiply(eta, delta_w_2))),
    tf.assign(biases['h2'], tf.add(biases['h2'], tf.multiply(eta, tf.reduce_mean(delta_2, axis=[0]))))
]

# 定义精度
acc_mat = tf.equal(tf.argmax(y_hat, 1), tf.argmax(y, 1))
accuracy = tf.reduce_sum(tf.cast(acc_mat, tf.float32))

# train
init = tf.global_variables_initializer()

with tf.Session() as sess:
    sess.run(init)
    for epoch in range(max_epochs):
        batch_xs, batch_ys = mnist.train.next_batch(batch_size)
        _, loss1 = sess.run([train, loss], feed_dict={x_in: batch_xs, y: batch_ys})
        if epoch % 1000 == 0:
            print('Epoch: {0}   loss: {1}'.format(epoch, loss1))

    acc_test = sess.run(accuracy, feed_dict={x_in: mnist.test.images, y:mnist.test.labels})
    acc_train = sess.run(accuracy, feed_dict={x_in: mnist.train.images, y:mnist.train.labels})

    # 评估
    print('Accuracy Train%: {1}  Accuracy Test%: {2}'.format(epoch, acc_train / 600, (acc_test / 100)))

输出结果

Epoch: 0   loss: 0.3155866861343384
Epoch: 1000   loss: 0.023114416748285294
Epoch: 2000   loss: 0.017101742327213287
Epoch: 3000   loss: 0.01927866041660309
Epoch: 4000   loss: 0.019498592242598534
Epoch: 5000   loss: 0.017000144347548485
Epoch: 6000   loss: 0.006083908025175333
Epoch: 7000   loss: 0.018798980861902237
Epoch: 8000   loss: 0.04835653677582741
Epoch: 9000   loss: 0.0037784664891660213
Accuracy Train%: 84.58166666666666  Accuracy Test%: 92.65

三、激活函数

１、概述

主要作用：提供网络的非线性建模能力。
假设一个神经网络中仅包含线性卷积和全连接运算，那么该网络仅能够表达线性映射，即无论神经网络有多少层，输出都是输入的线性组合，与没有隐藏层效果相当。加入（非线性）激活函数之后，深度神经网络才具备了分层的非线性映射学习能力，几乎可以逼近任意函数。

激活函数的性质：

可微性：当优化方法是基于梯度的时候，这个性质是必须的。
单调性：当激活函数是单调的时候，单层网络能够保证是凸函数。
输出值的范围：当激活函数输出值是有限的时候，基于梯度的优化方法会更加稳定，因为特征的表示受有限权值的影响更显著;当激活函数的输出是无限的时候，模型的训练会更加高效，不过在这种情况小，一般需要更小的learning rate
常用的激活函数：

sigmoid
tanh
ReLU
Leaky ReLU
Maxout
ELU

２、sigmoid 激活函数

（１）定义

sigmoid sigmoidsigmoid 函数，即著名的 Logistic LogisticLogistic 函数，是常用的非线性激活函数，可将变量映射到 (0,1) (0,1)(0,1) 之间，公式如下：

几何图像如下：

（２）特点

能将输入的连续实值映射到 (0,1) (0,1)(0,1) 之间。特别的，若非常小的负值，输出为 0；非常大的正值，输出为１。

（３）缺点

缺点１：梯度爆炸和梯度消失

缺点２：Sigmoid 的 output 不是0均值（即zero-centered）

其值域在[0,1]之间，函数输出不是0均值的，权重更新效率降低，因为这会导致后层的神经元的输入是非0均值的信号，这会对梯度产生影响：假设后层神经元的输入都为正(e.g. x>0 x>0x>0 elementwise in ),那么对w求局部梯度则都为正，这样在反向传播的过程中w要么都往正方向更新，要么都往负方向更新，导致有一种捆绑的效果，使得收敛缓慢。当然了，若按batch去训练，那么每个batch可能得到不同的符号（正或负），那么相加一下这个问题还是可以缓解。因此，非0均值这个问题虽然会产生一些不好的影响，不过跟上面提到的梯度消失问题相比还是要好很多的。

缺点３：耗时

其解析式中含有幂运算，计算机求解时相对来讲比较耗时。对于规模比较大的深度网络，这会较大地增加训练时间。

缺点４：梯度弥散（死区）

受现有的梯度下降算法所限（严重依赖逐层的梯度计算值），Sigmoid函数对落入 (−∞,−5)∪(5,+∞) (-∞,-5) ∪ (5,+∞)(−∞,−5)∪(5,+∞)的输入值，梯度计算为 0 00，发生梯度弥散。因此该函数存在一正一负两块“死区”[蓝框区域]：

３、tanh函数

优点

ReLU解决了梯度消失的问题，至少 x xx 在正区间内，神经元不会饱和。
由于ReLU线性、非饱和的形式，在SGD中能够快速收敛。
计算速度要快很多。线性计算
缺点

ReLU的输出不是“零为中心”(Notzero-centered output)。
随着训练的进行，可能会出现神经元死亡，权重无法更新的情况。(不可逆转的死亡)
解释：训练神经网络的时候，一旦学习率没有设置好，第一次更新权重的时候，输入是负值，那么这个含有ReLU的神经节点就会死亡，再也不会被激活。
因为：ReLU的导数在x>0的时候是1，在x<=0的时候是0。如果x<=0，那么ReLU的输出是0，那么反向传播中梯度也是0，权重就不会被更新，导致神经元不再学习。也就是说，这个ReLU激活函数在训练中将不可逆转的死亡，导致了训练数据多样化的丢失。
在实际训练中，如果学习率设置的太高，可能会发现网络中40%的神经元都会死掉，且在整个训练集中这些神经元都不会被激活。所以，设置一个合适的较小的学习率，会降低这种情况的发生。为了解决神经元节点死亡的情况，有人提出了Leaky ReLU、P-ReLU、R-ReLU、ELU等激活函数。

4、ReLU函数

优点：

ReLU解决了梯度消失的问题，至少 x xx 在正区间内，神经元不会饱和。
由于ReLU线性、非饱和的形式，在SGD中能够快速收敛。
计算速度要快很多

缺点：

５、Leaky ReLU

Leaky ReLU 是 ReLU 激活函数的改进版本，公式如下：

优点

神经元不会出现死亡的情况。
对于所有的输入，不管是大于等于0还是小于0，神经元不会饱和。
由于Leaky ReLU线性、非饱和的形式，在SGD中能够快速收敛。
计算速度要快很多。只有线性关系。
缺点

Leaky ReLU函数中的 α αα，需要通过先验知识人工赋值，通常 α=0.01 \alpha=0.01α=0.01。
６、Maxout

优点

Maxout能够缓解梯度消失
规避了ReLU神经元死亡的缺点

缺点

增加了参数和计算量。

７、ELU

ELU（Exponential Linear Units，指数线性单元）。它试图将激活函数的输出平均值接近零，从而加快学习速度。同时，它还能通过正值的标识来避免梯度消失的问题。
公式如下:

其中，超参数 α 常被设定为 1

优点

完美解决了死区问题。
ELU激活函数的输出均值是接近于零的

缺点

计算较复杂。

８、激活函数的选择

（１）深度学习需要大量时间处理大量数据，模型的收敛速度尤为重要。所以，总体来讲，训练深度神经网络尽量使用 zero-centered 数据(预处理实现) 和 zero-centered 输出。
==》尽量选择输出具有 zero-centered 特点的激活函数来加速模型的收敛速度。
（２）在使用 ReLU 时，小心设置 learning_rate，而且注意不要出现很多神经元死亡。若不好解决，可尝试 Leaky ReLU、Maxout 等。
（３）最好不使用 sigmoid、tanh
（４）conv -> bn -> relu 标配的 module。

四、正则化

正则化是选择模型的一种方法，具体来说，选择经验风险与模型复杂度同时较小的模型（防止过拟合），这样可以较少泛化误差而不是训练误差。

常用正则化方法

参数范数惩罚：L1正则化、L2正则化；
数据集增强；
噪声添加；
early stop；
Dropout层

１、参数范数惩罚

参数范数惩罚通过对目标函数 J 添加一个参数范数惩罚 Ω(θ) ，限制模型的学习能力。

其中 α≥0 \alpha\geq0α≥0 是权衡范数惩罚项 Ω ΩΩ 和标准目标函数 J(X;θ) J(X;θ)J(X;θ) 相对贡献的超参数，通过调整 α \alphaα 的大小，可以获得不同的参数选择偏好。

注意：参数包括模型中每一层仿射变换的权重和偏置，我们通常只对权重做惩罚，而不对偏置做正则惩罚。因为精确拟合偏置所需的数据通常比权重少的多，正则化偏置参数可能会导致明显的欠拟合。

（１）相关定义

L0范数：权重向量 W WW 中非0的元素的个数，通常表示为 ∣∣W∣∣0 |。
L1范数：权值向量 W WW 中各个元素的绝对值之和，通常表示为 ∣∣W∣∣1 |。
L2范数：权值向量 W WW 中各个元素的平方的和的开方值，通常表示为 ∣∣W∣∣2 | 。

任何的规则化算子，如果它在 Wi=0 处不可微，并且可以分解为一个“求和”的形式，则该规则化算子就可以实现稀疏。

稀疏的好处

特征选择（Feature Selection）：能实现特征的自动选择
稀疏规则化算子会学习地去掉这些对最终输出结果没有关系或者不提供任何信息的特征，也就是把这些特征对应的权重置为0。

可解释性(Interpretability)
非零权重的特征为输出结果提供的信息是巨大的、决策性的。

（２）L0正则化
从直观上看，利用非零参数的个数，可以很好的来选择特征，实现特征稀疏的效果，具体操作时选择参数非零的特征即可。

但因为L0正则化很难求解，是个NP难问题，因此一般采用L1正则化。L1正则化是L0正则化的最优凸近似，比L0容易求解，并且也可以实现稀疏的效果。

（３）L1正则化
L1范数也称叫“稀疏规则算子”（Lasso regularization），L1范数和 L0范数可以实现稀疏，L1因具有比L0更好的优化求解特性而被广泛应用。

（４）L2正则化
L2范数，在回归中称为：“岭回归” (Ridge Regression) 或 “权值衰减weight decay”。

让L2范数的规则项 ∣∣W∣∣2 |最小，可以使得 W 的每个元素都很小，都接近于0（不会让它等于0）。而越小的参数说明模型越简单，越简单的模型则越不容易产生过拟合现象。

２、数据扩增（data agumentation）
较少过拟合的最简单方法：增加训练集样本，也称数据扩增（data agumentation）。但是由于标注数据昂贵，需要通过其他方式增加样本。

图像处理：旋转、翻转、放缩、平移等等。
GAN（对抗式生成网络）
３、噪声添加
噪声添加：将其直接添加到学习到的权重上。这项技术主要被用于循环神经网络的情况下。
在某些假设下，施加于权重的噪声可以被解释为与更传统的正则化形式等同，鼓励要学习的函数保持稳定。

４、Dropout
Dropout：在用前向传播算法和反向传播算法训练模型时，随机的从全连接DNN网络中去掉一部分隐含层的神经元。

两种理解：

减少神经元之间复杂的共适应关系：在每次训练的时候使用dropout，每个神经元有一定的概率被移除，这样可以使得一个神经元的训练不依赖于另外一个神经元，同样也就使得特征之间的协同作用被减弱。 Hinton认为，过拟合可以通过阻止某些特征的协同作用来缓解。
多模型效果平均的方式。对于减少测试集中的错误，我们可以将多个不同神经网络的预测结果取平均，而因为dropout的随机性，在每次dropout后，网络模型可看成不同结构的神经网络，而要训练的参数数目却是不变的，这就解脱了训练多个独立的不同神经网络的时耗问题。在测试输出的时候，将输出权重乘以保留概率1-p%，从而达到类似平均的效果。
左边的图为一个完全的全连接层，右边为应用dropout后的全连接层。

做法

训练阶段：每次更新参数之前，每个神经元有一定的概率被丢弃，假设为p%，p可以设为50或者根据验证集的表现来选取，输入层的p比较小，保留概率接近于1
测试阶段不dropout，保留所有单元的权重，而且要乘以保留概率1-p%，为了保证输出期望一致。
dropout不只用于前馈神经网络，还可以用于图模型，比如玻尔兹曼机。

５、早期停止(early stopping)
早期停止是一种交叉验证策略，将一部分数据集作为验证集（validation set）。

当我们看到验证集上的性能越来越差时，就停止对模型的训练。

kaggle-ISIC 2024 - 使用 3D-TBP 检测皮肤癌-学习笔记 supernova121 学习笔记
问题描述：通过从3D全身照片(TBP)中裁剪出单个病变来识别经组织学确诊的皮肤癌病例数据集描述：图像+临床文本信息评价指标：pAUC，用于保证敏感性高于指定阈值下的AUC主流方法分析（文本）基于CatBoost、LGBM和XGBoost三者的组合，为每个算法创建了XX个变体，总共XX个模型，进行集成学习。CatBoost在传统梯度提升决策树（GBDT）基础上，引入了一系列关键技术创新，以提升处理类
【杨乐昆何凯明AI论文】没有归一化的Transformer模型东临碣石82 人工智能 transformer 深度学习
摘要：归一化层在现代神经网络中无处不在，长期以来一直被视为不可或缺的组成部分。本研究表明，通过使用一种极其简单的技术，没有归一化的Transformer模型可以达到相同或更好的性能。我们引入了动态Tanh（DyT），这是一种逐元素操作，表示为DyT(x)=tanh(alphax)，作为Transformer中归一化层的即插即用替代品。DyT的灵感来源于这样一个观察：Transformer中的层归一
Autoleaders控制组——51单片机学习笔记（2） Autoleaders控制组邓翔 51单片机学习笔记
51单片机学习（2）1.模块化编程1.1模块化编程的意义在学习单片机的途中，随着我们的知识不断扩展，我们能写出的代码也越来越复杂，越来越长了，有时我们自己写出的很长的代码，出现了错误，需要调试，但奈何自己的代码实在是太长了，真的不好分析到底是哪里出错了。这是因为我们将太多的函数和代码放在一个main.c的文件里，导致代码过度堆积。如果我们能够条理清晰地去将不同作用的代码和函数放在不同的xxx.c文
深入探究YOLO系列的骨干网路编码实践 YOLO 深度学习计算机视觉
深入探究YOLO系列的骨干网路YOLO系列是目标检测领域中非常知名的算法。其通过将整个图像作为输入，并且直接在图像上通过一个单独的神经网络输出每个检测框的类别预测和边界框信息。为了更好地理解YOLO系列，我们需要先了解它所使用的骨干网路。骨干网络是深度学习模型中的核心部分，负责提取图像的特征。如今常用的骨干网络有VGG、ResNet和MobileNet等。YOLO系列算法采用的是Darknet骨干
如何用deepseek炒股 Real Man★ python 机器学习人工智能
使用DeepSeek进行炒股的核心思路是利用其强大的数据处理和预测能力，辅助投资决策。以下是具体的应用方法和步骤：一、数据收集与处理获取市场数据股票数据：通过API（如Tushare、YahooFinance）获取历史股价、成交量、财务数据等。新闻与舆情：使用DeepSeek的NLP能力分析新闻、社交媒体和公告，提取市场情绪和事件影响。宏观经济数据：收集GDP、利率、通胀等数据，分析其对股市的影响
AI开发 - 算法基础递归的概念和入门（三）递归的进阶学习 minstbe Python AI应用与观察算法学习深度优先
前面我们通过2篇文章，一起了解了递归，以及使用递归来解决汉诺塔问题。今天我们在这个基础上，进一步地熟悉和学习递归。这篇学习笔记将涵盖递归的基本概念、应用、优化技巧、陷阱及与迭代的对比，并通过具体的Python代码示例和大家一起来深入理解递归的使用。一、巩固基础1.递归的概念递归，简单来说就是函数自己调用自己。听起来有点绕，但其实就像俄罗斯套娃，一层套一层，直到遇到最小的那个娃娃（基线条件）才停止。
《Python深度学习》第四讲：计算机视觉中的深度学习 earthzhang2021 2025讲书课专栏 python 深度学习计算机视觉 1024程序员节 numpy 算法人工智能
计算机视觉是深度学习中最酷的应用之一，它让计算机能够像人类一样“看”和理解图像。想象一下，计算机可以自动识别照片中的物体、人脸，甚至可以读懂交通标志。这一切听起来是不是很神奇？其实，这一切都离不开深度学习中的卷积神经网络（CNN）。今天，我们就来深入了解一下CNN是如何工作的。5.1卷积神经网络简介先来看下卷积神经网络（CNN）是什么。CNN是一种专门用于处理图像数据的神经网络。它的灵感来源于人类
你的AI客服为何总抓不住客户核心诉求？（附特征优化方案）人工智能
1特征工程的意义nlp任务中，原始文本经数值映射后形成的词向量序列，难充分表达语言深层语义特征。就需引入文本特征增强技术：语义信息补全：突破单词语义局限，捕获词序关联特征模型适配优化：构建符合算法输入规范的矩阵结构评估指标提升：通过特征增强直接影响模型准确率、召回率等核心KPI如电商评论情感分析场景，单纯用词频特征可能导致"这个手机质量差得惊人"和"这个手机质量惊人地差"被判定为相同语义，此时bi
NLP复习3，手撕多头attention 地大停车第二帅 NLP学习自然语言处理人工智能
importmathimporttorchimportcollectionsimportnumpyasnpimporttorch.nnasnnclassMultiHeadAttention(nn.Module):def__init__(self,heads,d_model,dropout=0.1):super().__init__()#输入的特征维度self.d_model=d_model#每个头
FastDVDnet：基于深度学习的视频去噪框架陆可鹃Joey
FastDVDnet：基于深度学习的视频去噪框架项目地址:https://gitcode.com/gh_mirrors/fa/fastdvdnet项目介绍FastDVDnet是一个高效、开源的深度学习模型，专注于视频去噪。该项目由MatteoTassano开发并维护，旨在提供一种快速且有效的解决方案，以消除视频中的噪声，同时保持图像细节和自然纹理。它利用了时间域的连续性和深层神经网络的力量，确保在
【STM32】USART串口收发HEX数据包&收发文本数据包傍晚冰川 stm32 网络嵌入式硬件单片机笔记学习 c语言
有关串口知识参考：【STM32】USART串口协议&串口外设-学习笔记-CSDN博客HEX模式/十六进制模式/二进制模式：以原始数据的形式显示文本模式/字符模式：以原始数据编码后的形式显示参考上面文章查看ASCII编码表HEX数据包包头包尾和载荷数据重复问题的解决方法：解决思路方法文本数据包文本模式有大量的字符可以作为包头包尾，可以有效避免载荷数据和包头包尾重复的问题HEX数据包和文本数据包两者的
深度学习 Deep Learning 第2章线性代数 odoo中国 AI编程人工智能深度学习线性代数人工智能
深度学习第2章线性代数线性代数是深度学习的语言。张量操作是神经网络计算的基石，矩阵乘法是前向传播的核心，范数约束模型复杂度，而生成空间理论揭示模型表达能力的本质。本章介绍线性代数的基本内容，为进一步学习深度学习做准备。主要内容2.1标量、向量、矩阵和张量标量：单个数字，用斜体表示，通常赋予小写字母变量名。向量：数字数组，按顺序排列，用粗体小写字母表示，元素通过下标访问。矩阵：二维数字数组，用粗体大
深入理解C++内存管理机制 qzw1210 C++c++学习笔记
侯捷C++系列课程学习笔记：深入理解C++内存管理机制在侯捷老师的C++系列课程中，内存管理是一个极其重要且深刻的主题。通过对这部分内容的学习，我对C++的内存管理机制有了更深入的理解，特别是关于new/delete操作符、内存池设计以及智能指针的应用。一、C++内存分配的层次结构侯捷老师在课程中清晰地阐述了C++内存分配的层次结构，这让我对整个内存管理体系有了全局的认识：最底层：操作系统提供的内
elasticsearch analyzer 学习笔记 weixin_40455124 elasticsearch 代码分析及扩展 elasticsearch analyzer token
基本定义analyzer执行将输入字符流分解为token的过程使用场景在indexing的时候，也即在建立索引的时候在searching的时候，也即在搜索时，分析需要搜索的词语analysisCharacterfiltering(字符过滤器):使用字符过滤器转换字符Breakingtextintotokens(把文字转化为标记):将文本分成一组一个或多个标记Tokenfiltering：使用标记过
Assembly语言的自然语言处理花韵婷包罗万象 golang 开发语言后端
Assembly语言在自然语言处理中的应用引言自然语言处理（NaturalLanguageProcessing,NLP）作为人工智能的一个重要分支，致力于实现计算机与人类语言之间的互动。随着计算能力的提升以及大数据的蓬勃发展，NLP在各个领域的应用如火如荼。从语音识别、机器翻译到情感分析等，NLP正在改变我们与信息之间的互动方式。不过，当前主流的NLP研究通常是用高级编程语言（如Python、Ja
大语言模型原理与工程实践：大语言模型强化对齐 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：大语言模型强化对齐作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的迅猛发展，大语言模型（LargeLanguageModels，LLMs）如GPT-3、LaMDA等，在自然语言处理（NLP）领域取得了显著的突破。这些模型在问答、翻译、文本生成等方面展现出惊人的能力，但同时也引发了
第20篇：从零开始构建NLP项目之电商用户评论分析：模型训练阶段 Gemini技术窝自然语言处理人工智能深度学习 AIGC 机器学习 nlp langchain
大家好，今天我们继续探讨如何从零开始构建一个NLP项目，特别是电商用户评论分析中的模型训练阶段。模型训练是NLP项目的核心环节，通过合理的调参和优化，可以显著提升模型性能。本文将详细介绍模型训练的步骤，并展示如何使用LangChain库进行模型训练、调参和优化。文章目录项目的背景和目标模型训练的详细步骤安装依赖包流程图1.准备数据2.定义模型3.训练模型4.评估模型5.调参与优化常见错误和注意事项
NLP-二分类的应用-区分外卖评论好评/差评左岸Jason 算法 python kafka flink elasticsearch
目录一、概念二、二分类实战-划分好评/差评1.处理步骤2.实战代码一、概念文本分类一般可以分为二分类、多分类、多标签分类三种情况。二分类是指将一组文本分成两个类(0或1),比较常见的应用如垃圾邮件分类、电商网站的用户评价数据的正负面分类等,多分类是指将文本分成若干个类中的某一个类,比如说门户网站新闻可以归属到不同的栏目中(如政治、体育、社会、科技、金融等栏目)去。多标签分类指的是可以将文本分成若干
Python 爬虫实战：电影评论数据抓取与自然语言处理西攻城狮北 python 爬虫开发语言
引言作为一名对电影数据和自然语言处理感兴趣的内容创作者，我决定利用Python爬虫技术抓取IMDb上的电影评论数据，并进行自然语言处理分析。这不仅可以帮助我们了解观众对电影的反馈，还能为电影制作方提供有价值的参考。一、项目背景IMDb（互联网电影数据库）是全球最大的电影数据库，用户可以在上面查看电影信息和用户评论。本项目旨在爬取IMDb上的电影评论，并对评论进行自然语言处理（NLP），以提取情感、
《架构300讲》学习笔记（201-250） newProxyInstance 笔记架构
前言内容来自B站IT老齐架构300讲内容。201小心selectforupdate，有效规避索引选择性锁表202设计模式之建造者模式的用途20320分钟上手ELK日志监控系统分类：【ELK】204设计模式之门面模式Facade205设计模式之适配器模式Adapter206经典设计！如何让RabbitMQ支持消息延迟投递207Docker容器基于NFS实现跨容器文件共享208数据向上追溯场景该如何优
NPU的工作原理：神经网络计算的流水线绿算技术 NPU架构介绍神经网络人工智能深度学习
NPU的工作原理可以概括为以下几个步骤：1.模型加载·将训练好的神经网络模型加载到NPU的内存中。2.数据输入·输入数据（如图像、语音）通过接口传输到NPU。3.计算执行·NPU根据模型结构，依次执行卷积、池化、全连接等计算任务。·矩阵乘法单元和卷积加速器并行工作，高效完成计算。4.结果输出·计算完成后，输出结果（如分类标签、检测框）返回给主机或其他处理器。5.任务调度·在多任务场景下，NPU的任
模型蒸馏：从复杂到精简，AI技术的“瘦身”秘籍 lmtealily 人工智能
引言在人工智能的浪潮中，大型模型如BERT、GPT系列等在自然语言处理（NLP）、计算机视觉（CV）等领域取得了显著的成果。然而，这些“庞然大物”通常拥有数十亿甚至数千亿个参数，计算和存储成本极高，难以部署到资源受限的设备上。为了解决这一问题，模型蒸馏技术应运而生。模型蒸馏是一种将大型复杂模型的知识迁移到小型简单模型的技术，旨在保持高性能的同时大幅减少模型的参数量和计算复杂度。本文将带你深入了解模
Python自动化炒股：基于自然语言处理的股票新闻情感分析模型开发与优化的最佳实践云策量化 Python自动化炒股量化投资量化软件 python 量化交易 QMT PTrade 量化炒股量化投资 deepseek
推荐阅读：《程序化炒股：如何申请官方交易接口权限？个人账户可以申请吗？》Python自动化炒股：基于自然语言处理的股票新闻情感分析模型开发与优化的最佳实践在股市中，信息的力量是巨大的。一条新闻、一篇报道，甚至一条推文，都可能引发股价的波动。因此，利用自然语言处理（NLP）技术来分析股票新闻的情感倾向，可以帮助我们预测市场动向，从而做出更明智的投资决策。本文将带你了解如何开发和优化一个基于Pytho
信息技术基础专有名词和计算机硬件学习笔记 learning-striving 信息技术学习笔记信息技术计算机硬件
信息技术常见专有名词信息技术基础课程中常见的专有名词英文缩写或简称及其详细含义，按领域分类整理：硬件与存储CPU(CentralProcessingUnit)中央处理器，负责执行计算机指令和处理数据。GPU(GraphicsProcessingUnit)图形处理器，专用于处理图形和并行计算。RAM(RandomAccessMemory)随机存取存储器，临时存储运行中的程序和数据。ROM(Read-
OpenAI 团队组织架构和研发技术栈 AI天才研究院 ChatGPT 人工智能
OpenAI是一家致力于推动人工智能技术发展的公司，成立于2015年。其目标是确保人工智能技术造福全人类。为了实现这一目标，OpenAI采用了多种先进的技术和组织架构来推动其研发工作。目录OpenAI组织架构和研发技术栈概述1OpenAI团队的世界顶尖科学家IlyaSutskever：Ilya是OpenAI的联合创始人之一，也是深度学习领域的先驱。他在神经网络和深度学习方面的研究具有重要影响，曾与
CIR-DFENet：结合跨模态图像表示和双流特征增强网络进行活动识别是Dream呀神经网络计算机视觉人工智能神经网络深度学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学业升学和求职工作的先行者！【优惠信息】•新专栏订阅前200名享9.9元优惠•订阅量破200
百度快速收录2025最新科普 SEORoal 百度
跨境物流的智能突围战宁波某RCEP跨境物流平台接入214维特征矩阵后：✅'智能清关系统’72小时冲进TOP3✅'东盟电子报关’长尾词覆盖量暴涨4.2倍✅日均有效询盘突破300+技术三板斧：标题智能提取引擎（支持38种语义变异）动态阻抗参数混淆（误差≤0.15μΩ）实时工商特征同步（每2小时更新）2025生存指南：采用神经网络语义映射（NLP准确率98.2%）部署质量监控系统（误差率≤0.15%）加
数据标注工具及其对预训练模型性能的影响 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1预训练模型的崛起近年来，预训练模型（Pre-trainedModels）在自然语言处理（NLP）领域取得了显著的成功。这些模型通过在大规模无标注文本数据集上进行预训练，学习到丰富的语言知识和语义表示，并在下游任务中展现出优异的性能。BERT、GPT-3等预训练模型的出现，标志着NLP领域进入了一个新的时代。1.2数据标注的重要性尽管预训练模型展现出强大的能力，但它们仍然需要针对特
吴恩达机器学习笔记复盘（二）监督学习和无监督学习 wgc2k 机器学习机器学习笔记学习
监督学习经济价值以及定义监督学习是机器学习中创造了99%经济价值的类型，它是学习输入到输出映射的算法，关键在于给学习算法提供包含正确答案（即给定输入X的正确标签Y）的学习例子。生活中的例子邮件分类，输入是电子邮件，输出是判断邮件是否为垃圾邮件。语音识别，输入音频剪辑，输出文本记录。机器翻译，输入一种语言文本，输出其他语言的相应翻译。在线广告，输入广告和用户信息，预测用户是否点击广告，为公司带来大量
UNet 改进：添加Transformer注意力机制增强捕捉长距离依赖关系的能力听风吹等浪起 AI 改进系列 transformer 深度学习人工智能
目录1.Transformer注意力机制2.Unet改进3.代码1.Transformer注意力机制TransformerBlock是Transformer模型架构的基本组件，广泛应用于机器翻译、文本摘要和情感分析等自然语言处理任务。TransformerBlock是一个由两个子组件组成的构建块：多头注意力机制和前馈神经网络。这两个组件协同工作，处理和转换输入序列。多头注意力机制负责从输入序列中捕
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交