_苏沐

聊一聊深度学习--包括计算前馈网络的反向传播和卷积的反向传播

聊一聊深度学习（三天肝完深度学习基础，球球让我过吧！！）

- 引言
- - - 人工智能领域的流派
    - 机器学习流程（了解）
    - 表示学习
    - 语义鸿沟
    - - 好的数据表示
    - 语义表示
    - - 局部表示
      - 分布式表示
    - 学习过程
    - - 监督学习：有反馈
      - 无监督学习：无反馈
      - 强化学习：多步之后反馈
    - 神经网络的性质和能力
- 前馈神经网络
- - 线性&非线性
  - - 激活函数的性质
    - Sigmoid型函数
    - - Logistic
      - Tanh
    - Hard-Logistic
    - Relu
    - - 带泄露的Relu
      - 带参数的Relu
    - Swish
    - 万能近似定理
    - 梯度不稳定
    - 输出层和代价函数
    - Softmax
- 卷积神经网络
- - - 特征图与原图的关系
    - 特征图与原图的大小关系
    - 池化
    - - 卷积运算
      - 卷积计算量
      - 卷积与池化的问题

     最近有场考试！！所以来过一遍深度学习，记录一些笔记备考~

~~看老师的ppt与花书，双管齐下应对深度学习（保佑我不挂吧！！）废话结束！~~

引言

人工智能领域的流派

符号主义：逻辑主义，心理学派（推理期，心理期）
连接主义：仿生学派或生理学派
（殊途同归，各有所长）

机器学习流程（了解）

将输入信息处理，让计算机从数据（经验）中发现规律，构建一个映射函数，根据规律做出相应预测，完成某方面特定任务。
下面的都是非结构化数据;

例如西瓜书–>西瓜机器学习任务：
随机选取西瓜样本，列出所有特征（颜色，根蒂、产地……）以及确定甜度（回归问题）
那就需要一个学习算法：（机器学习一般流程）
原始数据 --> 特征处理（数据预处理（缺失值填充或删掉，文本特征数据化，独热编码）–> 特征提取 --> 特征转换）–>预测 -->结果
由于特征工程往往占工程的80%，并且会被工程师的个人偏好影响，我们希望能自动地学习有效特征，所以我们出现了表示学习。

表示学习

花书的引言中就提到了这四个过程：

基于规则：输入 — 手工制定程序 —输出（人工实现）
一般化机器学习：输入 — 手工制定程序 —由特征通过模型映射—获得输出预测
表示学习：输入 — 特征提取— 由特征通过模型映射— 获得输出预测
优化：输入 — 简单的特征提取— 更深一层特征提取抽象特征（多层） — 由特征通过模型映射— 获得输出预测（Deep Learing）

语义鸿沟

对于文本、图像中提取信息或从字符串或图像底部提取特征（计算机很难理解）
图像是一个三或四通道的图像矩阵，仅仅是数字不能被理解。

好的数据表示

有很强的表示能力（能够表达语义信息）
使后续的学习任务变简单（接上后边进行映射的模型，我们希望获得更有用的特征使后续简单）
具有一般性或者说通用性，是任务或领域独立的（不仅仅针对于西瓜二分类:甜与不甜，对于手写数字识别也能通用，便于迁移）

语义表示

局部表示

（离散表示、符号表示）
one-hot向量映射投入嵌入空间坐标系（如图是一个二维的嵌入空间即从三维压缩到二维）

新的数值表达就是一个压缩的、低维的、稠密向量的表达也就是下面的分布式表达，而之前的one-hot向量就是一个局部表示。
特点：：
优点：

这种离散的表示方式具有很好的解释性，有利于人工归纳和总结特征，并通过特征组合进行高效的特征工程；（与下面的相似度为0对应）
通过多种特征组合得到的往往是稀疏的二值向量，使线性模型计算效率很高。
缺点：
**维数很高，不能扩展，**往往新增一个数据就要增加维度。
对于不同特征，**相似度为0，**无法得到两两特征间的相似度。（对于智能推荐的相似度很明显）

分布式表示

嵌入：压缩、低维、稠密向量

从局部到分布式节省空间，例如
局部： A B C D表示为 0001 0010 0100 1000
分布式： A B C D表示为[0.3,0.5] [0.4,0.45][0.45,0.6][0.62,0.56]
同样更省空间可以保存新的值例如加入E则要用5个数表示ABCDE，而分布式只是在加一个小数数组。E[0.8,0.34]
嵌入的概念：嵌入通常指将一个度量空间中的一些对象映射到另一个低维的度量
空间中，并尽可能保持不同对象之间的拓扑关系。

学习过程

监督学习：有反馈

根据误差更新学习系统。

无监督学习：无反馈

自己总结数据中的规律，没有类别标签例如聚类问题

强化学习：多步之后反馈

学习和强化过程，与环境交互有关系
例如：自动驾驶没有标签

神经网络的性质和能力

1.非线性：
⼈⼯神经元可以是线性的，也可以是⾮线性的。
** ⾮线性是⼀个⾮常重要的特性，特别是当产⽣输⼊信号的内部物理机制是天⽣⾮线性的时候**
激活函数
2.输⼊输出映射：
即可进⾏监督学习同样的神经网络模型得到相同的结果
3.⾃适应性：
** 神经⽹络具有调整⾃身突触权值以适应外界环境变化的固有能⼒。**
4.证据响应：
在模式分类问题中，神经⽹络可以设计成不仅提供选择哪⼀个特定模型的息，还提供关于决策的置信度信息。后者可以⽤来拒判那些可能出现的过于模糊的模式，从⽽进⼀步改善⽹络的分类性能。
5.上下⽂信息：
神经⽹络的特定结构和激发状态代表知识。⽹络中每⼀个神经元都受⽹络中所有其他神经元全局活动的潜在影响。因此，神经⽹络很⾃然地能够处理上下⽂信息。
6.容错性：
神经⽹络在不利的运⾏条件下的性能是逐步下降的。⽐如⼀个神经元或其连接坏了，存储模式的记忆性在质量上会被削弱。但由于⽹络信息存储的分布特性，部分神经元的损坏不会造成灾难性的后果。
7. 超⼤规模集成实现：
神经⽹络的⼤规模并⾏性使它具有快速处理某些任务的潜在能⼒。
8.分析和设计的⼀致性：
神经⽹络作为信息处理器具有通⽤性。神经元，不管形式如何，在所有的神经⽹络中都代表⼀种相同成分。这种共性使得在不同应⽤中的神经⽹络共享相同的理论和学习算法成为可能。模块化⽹络可以⽤模块的⽆缝集成来实现。

前馈神经网络

深度前馈网络，也叫作前馈神经网络或者多层感知机，是典型的深度学习模型。
前馈网络是近似一个函数F，对于分类器：y = F(x) 将输入值映射到一个类别y，前馈网络是定义一个映射y=f(x,α），并且学习参数α的值，使它与最佳函数近似。
这样被称为前向的，因为信息流过x函数，流经用于定义f的中间计算过程，最终到达输出y。在输入和模型本身没有反馈连接，若扩展为包含反馈连接，则称为循环神经网络。

线性&非线性

对于数据的分布确定线性可分与线性不可分。
简单地栗子，可以是我们的AND OR XOR计算
前两个操作，都可以找到一条分割线将数据分开，而XOR运算并不能通过线性进行分隔，下面会详细介绍分隔方法。

线性变换和线性映射：
线性映射：从一个向量空间V到另一个向量空间W的映射并且保持加法运算和数量乘法运算；
线性变换：线性空间V到其自身的线性映射
线性变换：
变换前是直线的变换后仍然是直线
直线比例保持不变
变换前是原点的，变换后依然是原点

之前的数字图像处理中的仿射变换是一个非线性变换（因为原点位置发生了变化）
我们有三个函数f(1); f(2)和f(3)连接在一个链上以形成f(x) =f(3)(f(2)(f(1)(x)))。这些链式结构是神经网络中最常用的结构。在这种情况下，f(1)被称为网络的第一层，f(2)被称为第二层，以此类推。链的全长称为模型的深度。
对于前馈网络最后一层是输出层，它产生接近y的值。而中间，训练数据没有给出每一层所需的输出，那这些层就是隐藏层。
每个隐藏层都是向量值的，而这些隐藏层维数就决定的是模型宽度。

以一个XOR进行前馈网络学习：

对于输入为 4行2列的x值

当进行上述网络计算后，过程如下

此时我们得到的所有样本仍在斜率为1的直线上，不能线性可分，所以我们引入了rule线性变换，

使[0,-1]过滤为[0,0],变为折线，不在一条直线上，可以用线性模型解决了。

再乘以权重向量w
即对每一个样本都给出了正确结果。
该神经网络拓扑图为
Rosenblatt感知器模型结构和代码可见，我的这个博客

激活函数的性质

1.连续并可导的（允许少数点上不可导）的非线性函数
不可导：比如relu取0的时候
2.激活函数及其导函数要尽可能简单
提高网络计算效率
3.激活函数的导函数值域要在合适的区间内

Sigmoid型函数

sigmoid是两端饱和函数：

Logistic

“挤压”函数，将把一个实数域的输入“挤压”到 (0, 1)．
当输入值在0附近时，Sigmoid型函数近似为线性函数；
当输入值靠近两端时，对输入进行抑制．输入越小，越接近于 0；输入越大，越接近于 1．
导数：y’ = y(1 - y)

Tanh

非零中心化也是不好的性质：抑制和兴奋不明显，转换成零中心化使有兴奋有抑制。

两端饱和的激活函数好吗？
不好，应该找不饱和的，因为饱和是导数为0，梯度更新速度变慢，不利于更新

Hard-Logistic

解决以上两个开销较大的问题，采用分段函数来近似：

Relu

优点：
1.计算高效：仅进行加、乘和比较操作
2.一半进行抑制一半激活，具有生物学合理性（兴奋可以很高，又具有稀疏性）
3.相比于sigmoid函数，relu是左饱和函数，且在右半边导数为1，缓解梯度消失问题，加速收敛速度（缓解梯度消失和爆炸问题）
缺点
1.非零中心化，影响梯度下降效率
2.容易死亡：某一个神经元在一次不恰当更新后（w1很小会导致所有的求和后死亡下去），所有的训练数据都不能被激活，自身梯度也会永远是0（不仅会发生在第一层，有可能会发生在其他隐藏层）

为解决左饱和的问题提出带泄露的Relu

带泄露的Relu

其中γ是一个很小的常数，比如0.01．当γ < 1时，带泄露的
ReLU也可以写为LeakyReLU(x) = max(x, γx)

带参数的Relu

Swish

可以看这个博客
在深层模型上优于Relu
可作为自控们模型

万能近似定理

万能近似定理(universal approximation theorem)：一个前馈神经网络如果具有线性输出层和至少一层具有任何一种 “挤压” 性质（非线性）的激活函数的隐藏层，只要给予网络足够数量的隐藏单元，它可以以任意的精度来近似任何从一个有限维空间到另一个有限维空间的 Borel 可测函数。在 Rn 的有界闭集上的任意连续函数是 Borel 可测的，因此可以用神经网络来近似。

解决贡献度的过程：
先了解一下前馈网络符号定义：

w更新：

我写的是以一个神经元为例的微观计算，宏观的应该是列成这样的式子：

反向传播含义：第L层的一个神经元的误差项是所有与该神经元相连的第L+1层的神经元的误差项权重和，然后再乘上该神经元激活函数的梯度。

梯度不稳定

初始化W时，通常使W绝对值在1附近，太大爆炸，太小就消失。
激活函数的导函数也会影响，例如logistic值域(0,0.25] 大部分趋于0

梯度不稳定的缓解方法

使用合适的参数初始化方法。例如使用服从标准正态分布的随机数初始化。
使用合适的学习率。
使用更好的激活函数。
梯度裁剪，对过大的梯度进行限制
使用批规范化（Batch Normalization, BN）技术。

输出层和代价函数

以恒等映射为例的均方误差代价函数：h-y

以logistic函数的均方误差代价函数：（h-y）* logistic函数导数

以logistic函数和对数似然代价函数：

计算过程不难，可以计算得到。

交叉熵应用于多分类问题

Softmax

通过e^x 的函数曲线，可以看出将大于0的值扩大（x到y的映射）
多分类概率问题：softmax+交叉熵代价函数
作用：输出二分类或多分类任务中某一类的概率。
意义：将输入排序，并转换为概率表示。

卷积神经网络

使用不同的卷积核（即“边”）可以得到不同的特征图。
不同的特征图代表了不同特征（“边”）在原图中的分布情况。
n个卷积核卷积之后可以得到n个特征图，也被称为n个通道的特征图。
为了表述方便，使用“通道”代替图片与特征图，例如：
1个通道通过3次卷积生成3个通道。

特征图与原图的关系

卷积核保留了原图的局部特征信息。
特征图保留了局部特征的强弱和位置信息。
卷积核与特征图可以看做原图的另一种表达形式。

特征图与原图的大小关系

原图大小大于等于卷积得到特征图的大小
原图 i * i **卷积核 k ***
特征图大小 = （i - k + 1）/ s (s是步长）

卷积的本质是利用特征（卷积核）进行局部特征提取，得到特征分布图的过程。

池化

特征图作为模型输入的优缺点
 提取到了局部特征作为输出。
 卷积使得图像特征具有了一定的平移不变性。
 特征图展开破坏了高维的位置（全局）信息。
 直接使用特征图输入全连接神经网络时参数规模较大。
平移不变性：抖动或微微变动，移动一个像素对于两次卷积效果基本不变，影响不大（影响没有那么大）

特征图下采样：
最大池化：取一个区域最大值

卷积运算

卷积核要素：
1.卷积核shape
2.卷积核的值
3.卷积核滑动
对于卷积，通常外面套一个非线性激活函数
池化核要素：
1.池化核shape
2.滑动步长
3.池化方式（最大池化平均池化）
对于池化，外面无激活函数或线性激活函数

卷积计算量

计算量 = 卷积核大小 * 特征图大小
对特征图卷积的意义
特征提取：提取到了相对宏观的特征。
数据降维：多次卷积、池化使得数据的维度进一步降低。

卷积与池化的问题

1.卷积中不同元素参与卷积计算的次数不同（与当初设计网络的初衷不符）
2.卷积与池化的步长不同时，边界处如何计算？（填充0值）
边界处理方法：
valid边界，只利用有效数据，盛不下就不卷了
i - k + 1 / s = 个数
SAME边界，pad填充，使完全卷到


为了不卷到垃圾数！比如下图，左边填充两个值的时候，卷到的前两个数都是0，没有意义，都是垃圾数。

卷积网络的反向传播：
与全连接神经网络相比：
1.池化层的前一层残差计算
2.卷积层的前一层残差计算
3.卷积核中的参数的偏导数计算



有问题希望大家不吝赐教！！
后边没来得及整理完，求老师让过了吧！！

【动手学深度学习】4.10 实战Kaggle比赛：预测房价 XiaoJ1234567 《动手学深度学习》深度学习人工智能
目录4.10实战Kaggle比赛：预测房价1）数据预处理2）模型定义与训练3）模型评估与预测4）模型训练与预测提交5）示例超参数（可调）4.10实战Kaggle比赛：预测房价数据来源：Kaggle房价预测比赛.1）数据预处理读取数据importpandasaspdtrain_data=pd.read_csv('../data/kaggle_house_pred_train.csv')test_da
PyTorch 在 Python 自然语言处理中的运用 Python编程之道 Python编程之道 python pytorch 自然语言处理 ai
PyTorch在Python自然语言处理中的运用关键词：PyTorch，Python，自然语言处理，深度学习，文本分类，情感分析摘要：本文全面探讨了PyTorch在Python自然语言处理（NLP）领域的运用。首先介绍了相关背景知识，包括目的范围、预期读者等内容。接着详细阐述了核心概念，如词嵌入、循环神经网络等，并给出了相应的原理示意图和流程图。深入讲解了核心算法原理，结合Python代码进行详细
量化价值投资中的深度学习技术：TensorFlow实战
量化价值投资中的深度学习技术：TensorFlow实战关键词：量化价值投资,深度学习,TensorFlow,股票预测,因子模型,LSTM神经网络,量化策略摘要：本文将带你走进"量化价值投资"与"深度学习"的交叉地带，用小学生都能听懂的语言解释复杂概念，再通过手把手的TensorFlow实战案例，教你如何用AI技术挖掘股票市场中的价值宝藏。我们会从传统价值投资的痛点出发，揭示深度学习如何像"超级分析
ResNet：深度卷积神经网络的里程碑心想事“程” 小知识点 cnn 人工智能神经网络
一、引言在深度学习的发展历程中，深度卷积神经网络（CNN）不断演进，旨在提升对图像等数据的特征提取与分类能力。然而，随着网络层数的增加，传统CNN面临着梯度消失、梯度爆炸以及退化等棘手问题，训练变得愈发困难。2015年，由微软研究院提出的ResNet（ResidualNetworks，残差网络）横空出世，它以独特的残差学习思想，成功攻克了这些难题，在ImageNet竞赛中大放异彩，开创了深度神经网
视觉算法之卷积神经网络清风AI 深度学习算法详解及代码复现计算机视觉 cnn 神经网络深度学习 python 课程设计毕业设计
定义与特点卷积神经网络(ConvolutionalNeuralNetwork,CNN)是一种专为处理具有网格结构的数据而设计的深度学习模型。其独特的结构和功能使其在图像处理、语音识别等领域展现出卓越的性能:CNN的核心设计理念源于对生物视觉系统的模仿。通过模拟大脑皮层中视网膜和视觉皮层的层次化结构,CNN能够有效地捕捉图像中的局部特征并逐步抽象为高层语义信息。这种设计使得CNN特别擅长处理图像和音
卷积神经网络架构的演进：从AlexNet到EfficientNet t0_54manong 大数据与人工智能 cnn 架构人工智能个人开发
在过去的8.5年里，深度学习取得了飞速的进步。回溯到2012年，AlexNet在ImageNet上的Top-1准确率仅为63.3%，而如今，借助EfficientNet架构和师生训练法，我们已经能达到超过90%的准确率。本文将聚焦于卷积神经网络（CNN）架构的演变，深入探究其背后的基本原理。一些关键术语在深入了解各种架构之前，我们需要明确几个关键术语。更宽的网络意味着卷积层中有更多的特征图（滤波器
一文搞懂 Cursor 内部工作原理~ zz_jesse
介绍了Cursor，一个结合了AI技术的代码编辑器，它通过深度学习和语义索引的方式，提升了开发者的工作效率。Cursor通过与VSCode相似的界面和功能，以及自己的AI特性，实现了代码的智能化编辑和错误检查。译文从这开始～～你可能已经看到新闻：OpenAI正以高达30亿美元的价格收购Windsurf！与此同时，Cursor的母公司Anysphere也正在以90亿美元估值融资9亿美元！这对于代码生
目标检测YOLO实战应用案例100讲-基于深度学习的自动驾驶目标检测算法研究（续）林聪木目标检测 YOLO 深度学习
目录基于双蓝图卷积的轻量化自动驾驶目标检测算法5.1引言5.2DarkNet53网络冗余性分析5.3双蓝图卷积网络5.4实验结果及分析基于深度学习的自动驾驶目标检测算法研究与应用传统的目标检测算法目标检测基线算法性能对比与选择相关理论和算法基础2.1引言2.2人工神经网络2.3FCOS目标检测算法2.4复杂交通场景下的目标检测难点与FCOS改进方案基于FCOS的目标检测算法改进3.1引言3.2Re
AI人工智能遇上TensorFlow：技术融合新趋势 AI大模型应用之禅人工智能 tensorflow python ai
AI人工智能遇上TensorFlow：技术融合新趋势关键词：人工智能、TensorFlow、深度学习、神经网络、机器学习、技术融合、AI开发摘要：本文深入探讨了人工智能技术与TensorFlow框架的融合发展趋势。我们将从基础概念出发，详细分析TensorFlow在AI领域的核心优势，包括其架构设计、算法实现和实际应用。文章包含丰富的技术细节，如神经网络原理、TensorFlow核心算法实现、数学
深度学习核心知识简介和模型调参研术工坊深度学习知识和技巧深度学习人工智能 python
深度学习模型调优就像调制一道复杂的菜肴，需要掌握多种"调料"的用法。本文将为您详解这些关键"调料"，帮助您烹饪出高性能的模型。###核心参数及其影响####1️⃣Loss（损失函数）**基本介绍**：衡量模型预测与真实值差距的指标，是模型优化的指南针。**生活类比**：想象你在教小孩认识动物：-**完美情况**：小孩看到猫说"猫"，看到狗说"狗"→Loss=0-**有错误**：小孩看到猫说"狗"→
【小白入门必看】一文读懂深度学习计算机视觉技术及学习路线
一、什么是计算机视觉？计算机视觉，其实就是教机器怎么像我们人一样，用摄像头看看周围的世界，然后理解它。比如说，它能认出这是个苹果，或者那边有辆车。除此之外，还能把拍到的照片或者视频转换成有用的信息，帮我们做决定。整个过程就是为了让机器能看懂图像，然后根据这些图像来做出聪明的选择。二、计算机视觉实现起来难吗？人类依赖视觉，找辆汽车轻而易举，毕竟汽车那么大，一眼就能看出来，所以常误以为计算机视觉简单，
2025年跑深度学习电脑配置-深度学习显卡推荐 OpenCV图像识别人工智能深度学习智能电视人工智能
2025年跑深度学习任务，电脑配置需从处理器、内存、显卡、存储、散热与电源、扩展性、网络连接等多方面综合考量，以下是具体分析：处理器（CPU）多核高性能：深度学习涉及大量并行计算任务，需要处理器具备强大的多核处理能力。英特尔至强Scalable处理器（SapphireRapids或后续架构）和AMDEPYC处理器（Genoa或后续架构）是不错的选择。英特尔至强Scalable处理器提供卓越的单核性
【深度学习第六期深度学习中的归一化与正则化技术：原理、实践与应用】码上有前 Python 深度学习 Pytorch 深度学习人工智能 cnn
作者：“码上有前”文章简介：深度学习欢迎小伙伴们点赞、收藏⭐、留言深度学习中的归一化与正则化技术：原理、实践与应用摘要：本文深入探讨深度学习中批量归一化（BN）、层归一化（LN）、标准化以及正则化等关键技术。详细阐述它们的基本原理，包括如何调整数据分布、控制模型复杂度等；通过丰富的实例和对应代码，展示在不同网络架构中这些技术的具体实现方式，以及对模型训练和性能的影响；同时，对比分析各项技术的特点和
深度神经网络课程设计：从理论到实践 Vita Libre
本文还有配套的精品资源，点击获取简介：深度神经网络是深度学习预测的核心技术，本课程设计项目旨在教授学生如何构建和应用深度神经网络进行各种预测任务，包括图像识别和自然语言处理。学生将通过源代码示例学习从网络架构设计、数据预处理到模型训练与评估的完整流程，并掌握深度学习的基本概念、组件及技巧。1.深度神经网络定义和在深度学习预测中的角色深度神经网络（DeepNeuralNetworks,DNNs）是深
深度学习基础与应用：从理论到实战创新工场
本文还有配套的精品资源，点击获取简介：深度学习是人工智能的核心分支，通过模拟人脑神经网络处理大量数据以执行复杂任务。Python因其简洁性和强大的库支持成为深度学习研究的首选语言。本文概述了深度学习基础概念、核心算法、Python框架，并假设了一个包含教程、示例代码、数据集、交互式学习环境、性能评估指标和进阶主题的“deep-learning-study-main”压缩包内容，旨在帮助学习者深入理
大模型与智能体：螺旋共生，绘就智能新蓝图东锋17 人工智能大模型智能体人工智能
大模型与智能体：螺旋共生，绘就智能新蓝图在人工智能的前沿领域，大模型与智能体宛如两颗璀璨的星辰，以一种精妙的螺旋共生关系，重塑着智能世界的格局，深刻影响着我们生活与工作的方方面面。大模型：构筑智能大厦的基石大语言模型，像广为人知的GPT-4、通义千问等，凭借在海量数据中深度学习的锤炼，展现出卓越的语言理解与生成天赋。它们就像知识渊博的学者，能熟练应对各类自然语言任务。无论是洋洋洒洒的文章创作，还是
深度学习之迁移学习路溪非溪人工智能迁移学习机器学习
认识迁移学习迁移学习（TransferLearning）是机器学习中的一种重要技术，其核心思想是将在一个任务上学习到的知识（模型参数、特征表示等），迁移应用到另一个相关但不同的任务中，从而提升新任务的学习效率和性能，尤其是在新任务数据有限的情况下。一、迁移学习的核心动机传统机器学习通常要求为每个新任务收集大量标注数据并从头训练模型，但现实中面临以下挑战：数据稀缺：例如医疗影像分析（罕见疾病样本少）
【深度学习-Day 35】实战图像数据增强：用PyTorch和TensorFlow扩充你的数据集吴师兄大模型深度学习入门到精通深度学习 pytorch tensorflow 人工智能 python 大模型 LLM
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
【深度学习】【入门】Linear和flatten 学习中的阿陈深度学习人工智能
1.Linear1.Linear的概念Linear层，通常也被称为全连接层，是神经网络中一种经典且基础的层结构。它的核心特点是每一个神经元都与上一层的所有神经元相连接，这种全连接的方式使得信息能够在层与层之间充分传递和整合2.Linear层的作用Linear层在神经网络中主要承担着特征整合与输出映射的重任。在经过卷积、池化等层提取出数据的局部特征后，Linear层能够将这些分散的局部特征进行整合，
魔都AI医疗哪家强？全景揭秘科技创新与未来钱景！
引言上海作为中国科技创新的先锋城市，正在AI医疗领域崭露头角。根据2024年12月的数据，上海拥有34家专注于AI药物研发的公司，占全国预临床研究的60%和临床试验的47%。这些公司利用深度学习、大语言模型（LLM）和计算机视觉等技术，革新药物发现、医疗影像分析和数据治理，推动医疗行业的智能化转型。从全球首个人工智能医院“AgentHospital”到AI驱动的诊断系统，上海的AI医疗生态正在重塑
深度学习基础2 TY-2025 深度学习深度学习人工智能
5.张量索引操作（1）索引操作行列索引列表索引print(data[[0,2],[1,2]])#返回(0,1)，(2,2)两个位置的元素print(data[[[0],[1]],[1,2]])#返回0，1行的1，2列共4个元素范围索引print(data[:3,:2])#前3行前2列数据print(data[2:,:2])#第2行到最后的前2列数据布尔索引tensor([[0,7,6,5,9],[
Python 领域 vllm 安装与环境配置全攻略 Python编程之道 Python编程之道 python 开发语言 ai
Python领域vllm安装与环境配置全攻略关键词：Python、vllm、安装、环境配置、深度学习摘要：本文围绕Python领域中vllm的安装与环境配置展开，全面且深入地介绍了vllm的相关知识。首先阐述了背景信息，包括目的范围、预期读者、文档结构和术语表。接着详细讲解了vllm的核心概念与联系，分析其核心算法原理并给出具体操作步骤，还引入了相关数学模型和公式进行说明。通过项目实战，提供代码实
语义分割模型的轻量化与准确率提升研究 pk_xz123456 仿真模型深度学习算法 transformer 深度学习人工智能算法数据结构
语义分割模型的轻量化与准确率提升研究1.引言语义分割是计算机视觉领域的核心任务之一，它要求模型为图像中的每个像素分配一个类别标签。随着深度学习的发展，语义分割模型在多个领域得到了广泛应用，如自动驾驶、医学影像分析、遥感图像解译等。然而，现有的语义分割模型往往面临两个主要挑战：模型复杂度高导致难以部署在资源受限的设备上，以及准确率仍有提升空间以满足实际应用需求。本文将从模型轻量化和准确率提升两个角度
AIGC领域AI作画：在数字雕塑中的应用实践 AI原生应用开发 AI 原生应用开发 AIGC AI作画 ai
AIGC领域AI作画：在数字雕塑中的应用实践关键词：AIGC、AI作画、数字雕塑、生成对抗网络、3D建模、艺术创作、深度学习摘要：本文深入探讨了AIGC(人工智能生成内容)技术在数字雕塑领域的创新应用。我们将从技术原理、算法实现到实际案例，全面解析AI如何赋能传统数字雕塑创作流程。文章首先介绍AIGC在艺术创作中的背景和发展现状，然后详细讲解核心算法原理和数学模型，接着通过实际项目案例展示AI作画
Python深度学习实践：建立端到端的自动驾驶系统 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：建立端到端的自动驾驶系统1.背景介绍自动驾驶系统是当今科技领域最具挑战性和前景的应用之一。它融合了计算机视觉、深度学习、规划与控制等多个领域的先进技术,旨在实现车辆的自主感知、决策和操控。随着人工智能技术的不断发展,越来越多的公司和研究机构投入了大量资源来开发自动驾驶系统。Python作为一种高效、易学且开源的编程语言,在这一领域扮演着重要角色。本文将探讨如何利用Pyth
Python 爬虫实战：Selenium 爬取豆瓣相册（图片分类 + 标签提取）西攻城狮北 python 爬虫 selenium
一、引言豆瓣作为国内知名的社区平台，其相册功能允许用户上传和分享各类图片，涵盖电影海报、音乐专辑、生活记录等多个领域。这些图片数据对于了解用户兴趣、进行内容推荐和市场调研具有重要价值。然而，豆瓣对直接的数据访问设定了诸多限制，因此，本文将介绍如何通过Python爬虫技术结合Selenium自动化工具，合法高效地爬取豆瓣相册图片，并运用深度学习技术实现图片分类和标签提取。二、开发环境搭建（一）编程语
【深度学习】大模型GLM-4-9B Chat ，微调与部署(3) TensorRT-LLM、TensorRT量化加速、Triton部署 XD742971636 深度学习机器学习深度学习人工智能
文章目录获取TensorRT-LLM代码：构建docker镜像并安装TensorRT-LLM：运行docker镜像：安装依赖魔改下部分package代码：量化：构建图：全局参数插件配置常用配置参数测试推理是否可以代码推理CLI推理性能测试小结验证是否严重退化使用NVIDIATriton部署在线推理服务器代码弄下来编译镜像启动容器安装依赖量化构建trtengines图Triton模板说明实操发起Tr
大白话解释深度学习中多尺度特征融合及其意义来自宇宙的曹先生深度学习人工智能
想象一下，你正在看一幅城市街道的照片。在这张照片中，你可能会看到：远处的小汽车，它们在图像中看起来很小。近处的大巴士，它们在图像中看起来很大。还有一些行人，他们可能在不同的距离上，大小各异。假设你想训练一个计算机程序来识别和分割这些不同的物体（汽车、巴士、行人）。如果这个程序只能在一个固定的尺度上“看”图像，比如说只能处理大物体，它可能会错过那些远处的小汽车，因为这些小汽车在图像中占据的像素很少。
想要了解大模型，看懂这一篇就够了！大模型工作流程及核心参数介绍！ Gq.xxu qwen3 vllm transforms 大语言模型部署深度学习人工智能
若想深入探究大模型核心参数的效果与作用，就务必先弄清大模型的工作流程，明确核心参数在流程各阶段的效能与功能，知晓其具体含义。一，大模型的工作流程大模型运行时的工作原理可以概括为输入处理→特征提取→模型推理→结果生成四个核心阶段，整个过程融合了深度学习架构、自然语言处理技术以及分布式计算能力。从用户输入到大模型输出，整个工作的处理流程如下：输入文本→分词→嵌入+位置编码→Transformer多层处
深度学习-Tensor
Tensor张量：与numpy中的ndarray不同之处：tensor可以在GPU或其他专用硬件上运行，以加速计算。一、Tensor初始化1.直接从数据中创建data=[[1,2],[3,4]]x_data=torch.tensor(data)2.从numpy数组创建np_array=np.array(data)x_np=torch.from_numpy(np_array)3.从另一个Tensor
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本