种花家的德棍

深度学习基础知识和概念汇总（适合给小伙伴们查缺补漏）

深度学习基础知识和概念汇总

入门推荐
- 推荐课程
- 推荐书籍
- 其他推荐
概念汇总及简洁解析

本文为自己学习过程中，所做笔记，很多笔记是参考前人大佬的，如有侵权，请私聊，如转载注明出处就好。
如果本文对您有用，希望老哥帮忙点个赞。
随着本人的不断学习，将持续更新。

入门推荐

深度学习定义：用深度神经网络的方法来解决机器学习的问题
学好深度学习，一定要三条腿都足够硬。这三条腿分别是：数学，编程，算法。
数学：线性代数，工程矩阵，微积分，概率论
编程：python和C++（C++是高性能，面向底层硬件，非常快速的一种编程语义。Pytorch的底层是C++写的，然后加上一层python的接口，方便更多的人使用，调用。Python也被称为胶水语义，他能粘合其他语义和其他用户）。
算法。
希望一起入坑的小伙伴们，通过踏实的学习和训练把这三条腿都弄硬。

其他推荐

推荐的操作系统linux：代表着一个开源的世界，推荐利用终端不断的敲代码来学习。更代表一个开源世界，代表了开源理念，人人为我，我为人人**（学会了都说好）**
Tensorflow：直接百度搜索tensorflow，里面有很多非常好的初学者程序教学，并且有很好的说明文档，唯一缺点就是都是英文的，对英文不好的小伙伴不是很友好。
标注软件：
Labelme （图像分割中制作数据集）
Labellmg（图像检测中制作数据集）
Yolo_mark（图像检测中制作数据集）
Vatic（图像检测中制作数据集）(可以做视频的标注)
Sloth（图像检测中制作数据集）
Annotorious（图像检测中制作数据集）
等，可以参考：https://blog.csdn.net/chaipp0607/article/details/79036312
论文：经典 ->顶会或者竞赛最佳
最开始看论文要慢点看，仔细点看。
论文中的公式：80%的论文作者会故弄玄虚，故意让人不能马上一下子看懂，才能显得自己的论文有难度有水平。才更容易发更高水平的文章
leetcode

概念汇总及简洁解析

没有按照相应的顺序，看到啥名词，补充啥名词吧。

深度学习的三驾马车：Yoshua Bengio、Yann LeCun和Geoffrey Hinton（三位开创级别的大佬）
CNN的三大特点：
（1）权值共享（卷积核的权重）
（2）下采样（不断的将大图像，换成小图像（feature map））
（3）局部感受。（先局部再全局的顺序）（卷积核就是在局部区域进行提取特征的操作）
数据增强：通过对原始的数据进行变换，进行改变（如：旋转，裁剪，遮挡部分信息，改变光照强度，）然后和原始信息一同加入到深度学习的网络中，从而使得该网络训练出来的结果更具有鲁棒性。同时也大大减轻了过拟合，同时争抢了模型的泛化能力。
过拟合：数学上的定义：为了得到一致假设，而使假设变得过得复杂成为过拟合。
过拟合的外在表现是：该模型在训练集上的效果非常的好，但是一到测试集上效果非常的差，我们称这种现象为过拟合现象，同时也称，该模型的泛化能力很弱。
**过拟合的造成原因：**数据太少（可以用数据增强来处理）和模型太复杂
泛化能力:机器学习算法对新样本的适应能力。
池化层：（1）将大的特征地图，变成小的特征地图，减少计算量（2）进行一部分的模糊化，减少一部分的干扰，解决过拟合问题（3）引入平移不变性
现在的池化层也可以被某种卷积层代替了。
Dropout：能够随机的忽略一部分神经元，可以有效的缓解模型过拟合，一定程度上达到了正则化的效果。AlexNet是将其进行实际应用化的工作。
具体工作流程可以参考：
https://blog.csdn.net/program_developer/article/details/80737724
激活函数的作用：为深度学习引入非线性。（非线性才是自然界中最普遍的特性）
为什么要引入非线性：
深度学习用数学的例子来比喻：就像是用一堆的神经元来搭建出来一个未知的函数，通过大量的数据来反向拟合出这个函数，其中神经元的权重，就是这个函数的参数。如果这个函数中的所有东西都是线性的话，得出来的函数也就是个线性组合而已，并不能像人一样完成人现实生活中完成的任务，所以必须引入非线性的部分，（这就是激活函数的作用）
比方说人对物体的识别就是一个非线性模型，而激活函数就是将非线性模型引入上深度神经网络中。
常用激活函数：
一、ReLU（2001年起源于生物学家对闹信号的更精确激活模型）（线性整流函数）激活函数：（1）梯度是1，能够大大加大收敛速度，非常快，（2）完成很好的非线性的工作。（3）ReLU具有稀疏性（4）运算速度快（5）一定程度上避免了梯度爆炸和梯度消失
二、Sigmoid（二分类多）（相对使用较早）（是之前应用较为广泛的激活函数，但近几年来用的越来越少了）：（1）计算量大，是指数运算（2）容易出现梯度消失的情况，（两侧的位置，变换太缓慢，导数趋于0，所以相对来说较难生成觉深的网络）（停止反向传播的学习），当输入非常小或者输入非常大的时候，这些神经元的梯度是接近0的。
三、Tanh（是双曲正切函数）生成对抗和RNN中多）（是sigmoid的一种变种，）
Tanh的收敛速度比Sigmoid的收敛速度更快：他的梯度小时问题比sigmoid要轻许多。梯度过早消失，会使得收敛的速度较慢。
神经元的稀疏性是指：同时工作的只有部分神经元（少部分），其他神经元都被刻意屏蔽掉了，这样刻意提高学习的精度，同时缓解了过拟合现象的发生。Relu就具有稀疏性，通过Relu后，神经元能大量的发挥筛选作用，符合某一特征的就使劲放大，不符合的直接切掉。
梯度消失：在某些情况下，梯度趋近于0导致无法更新网络权重，一般情况是在反向传播过程中，由于梯度的累计，从后端到前端的过程中，梯度越来越小，使得前端的训练非常缓慢。在最坏的情况下，深圳能够完全停止神经网络的进一步训练。
梯度消失的影响是使得网络权重无法进行更新。网络无法进行进一步的训练。
梯度消失常出现的场合：（1）深层网络中（2）采用了不合适的损失函数。
梯度爆炸：也是在深度神经网络或者RNN中经常发生，误差梯度在更新中累积，然后变得非常大的梯度，最终导致网络权重大幅更新，并因此使得网络变得不稳定。在极端情况下，权重变得非常大，导致NaN值。网络层之间的梯度（值大于1）重复相乘，导致的指数级增长会产生梯度爆炸。
影响：导致学习过程不稳定。
解决梯度消失和梯度爆炸的方法：
（1）使用合适的激活函数：如ReLu、；eakrelu、elu等激活函数。
Relu激活函数，大于1的位置，导数都为1.所以就不存在梯度消失和梯度爆炸的问题。
（2）其他解决方法：有比较多，但是相对来说都没有换一个激活函数来得简单直接。
CSDN上有其他相应的参考文献。
正则化（可以理解为规则化，给模型训练加上一定的规则）的目的是限制参数过多或者过大，避免模型更加复杂。比如：为了防止过拟合，我们可以将高阶部分的权重，限制为0，这样高阶的函数就变成了低阶的函数，就不会产生过拟合现象。
神经网络所接收的数据最好是在0附近均匀分布的数据，而有些输入的数据，并不是这样的，所以我们通过正则化的变换，使得数据变成在0附近均匀分布的。
最终结果：一般会使网络的性能（准确性上升一些，Pytorch的课中的例子中上升了百分之10的点）
L1正则化：直观的解释：直接在原来的损失函数的基础上加上权重参数的绝对值。限制区域为正方形。
L2正则化：直观的结实：直接在原来的损失函数基础上加上权重参数的平方和。限制区域为圆形。
生成对抗网络（GAN），2014年由lan Goodfellow提出GAN（Generative adversarial Network），
直观理解：就是在对抗训练的过程中，提高性能。
生成对抗网络由两部分组成：生成模型G，和判别模型D
博弈的简单模式如下：生成模型生成一些图片->判别模型学习区分生成的图片和真实图片->生成模型根据判别模型改进自己，生成新的图片->判别模型再学习区分生成的图片和真实图片… 面的博弈场景会一直继续下去，直到生成模型和判别模型别无法提升自己，这样生成模型就会成为一个比较完美的模型。
解决假数据，看似是真的，但是不是真的，一般用对抗学习
卷积神经网络（CNN）：可以学习所有能转变为图片格式的输入。（推荐看子豪兄的大白话讲解卷积神经网络）
图卷积神经网络（GCN）：可以对图结构（拓扑结构）的输入进行深度学习，
循环神经网络（RNN）：可以对序列结构的数据进行深度学习（常用在自然语言处理方向上）
要想做好一个深度学习网络，完成很好的训练和训练结果，有三样东西很重要：数据，特征工程，深度学习网络。借用子豪兄的一个比喻：数据就是葡萄，特征工程就是压榨葡萄的机器，深度学习就是酿葡萄的工艺流程，所以想要酿好一瓶葡萄酒，这三样东西都必须要好。
还有一句话：好网络架不住烂数据。
特征工程是从原始数据中最大限度的提取出能表征原始数据信息的特征，深度学习中，数据和特征决定了机器学习的上限，算法和模型不过是逼近这个上限。
batch size：表示一次性输入GPU中数据的数量。实现对数据的并行输入计算
理论上我们设置的batch size的数值越大，GPU使用的越多，整体网络训练的时间就越短。但由于GPU的硬件限制，不能无限制的增加batch size
epoch：一个epoch表示对数据集中所有数据都遍历了一遍。
CUDA的作用是加速深度卷积网络的训练，GPU在深度学习中的作用是：提供强大的并行计算能力：（1）加快运算速度，（2）因为有并行计算的能力，所以才能引入batch size，通过使用batch size的平均梯度，能够实现更好地深度学习性能。
深度学习从某种角度来说是重实验的一门学科，
初始化：在深度学习中，神经网络的权重初始化方法对（weight initialization）对模型的收敛速度和性能有着至关重要的影响，甚至还能一定程度上避免梯度消失和梯度爆炸的现象。
在现在的神经网络中，隐层层经常使用ReLU进行激活函数，权重初始化常用He initialization（何式初始化方法）（何凯明大神，保送清华本科，同时高考900分满分，本科毕业，用了四年直接在香港中文大学博士毕业）
全连接层，主要起到了一个分类器的作用。
全连接层中的每个神经元与其前一层的所有神经元进行全连接，来整合前面的全部信息，然后进行分类。
1*1卷积的作用：（1）降维或者升维（2）夸通道信息交融（3）减少参数量（4）增加模型深度
Keras ：是一个用 Python 编写的高级神经网络 API，它能够以 TensorFlow, CNTK, 或者 Theano 作为后端运行。Keras 的开发重点是支持快速的实验。能够以最小的时延把你的想法转换为实验结果，是做好研究的关键。

如果你在以下情况下需要深度学习库，请使用 Keras：
1.允许简单而快速的原型设计（由于用户友好，高度模块化，可扩展性）。
2.同时支持卷积神经网络和循环神经网络，以及两者的组合。
3.在 CPU 和 GPU 上无缝运行。

特点：
1.用户界面友好
2.模块化：各模块可以进行组装，
3.易扩展性：
4.基于Python
中文文档：
https://keras.io/zh/

上采样（把小图片变成大图片）：双线性插值（直接把小图片拉大的操作），反卷积，
下采样：卷积操作就是下采样，把大像素的图片，经过卷积层，变成相对来说较小的feature map
网络轻量化：用2层33的可以代替55的提取效果，，3层33的可以代替77带卷积核。33的卷积核也可以被一个31的卷积核和一个1*3的卷积核来代替。
不同层提取的特征一般不一样，，底层的网络是提取底层的信息（颜色，线条）（像素的特征），高层的网络提取出来的是高级的特征（带语义的特征，，）最后一层，就是完全的语义特征，能完成分类的作用。
特征图feature map也可以进行可视化（利用反卷积的方法）。

php代码审计学习路线子非鱼999 杂记 php 学习开发语言
学习PHP代码审计可以帮助你识别和修复PHP应用中的安全漏洞，保护应用免受恶意攻击。以下是系统的PHP代码审计学习路线，从基础到高级逐步提升：一、基础阶段：打好编程和安全基础PHP基础学习PHP语言的基础知识，如变量、数据类型、数组、字符串处理、函数、类和对象等。学习PHP的常见操作：文件处理、会话管理、数据库操作（如MySQL）。推荐资源：PHP官方文档PHP相关学习网站（如菜鸟教程）Web安全
基于粒子群优化算法的微电网调度(光伏、储能、电动车、电网交互)（Matlab代码实现）宇哥预测优化代码学习 matlab
欢迎来到本博客❤️❤️❤️本文目录如下：⛳️⛳️⛳️目录1概述1.微电网概述2.粒子群优化算法（PSO）3.应用于微电网调度的优势4.研究内容光伏发电调度储能系统调度电动车充电调度与主电网交互5.实现挑战结论2基于粒子群算法的微电网调度结果4写在最后5Matlab代码实现1概述微电网（Micro-Grid）日前经济调度问题是指考虑电网的分时电价基础上，对常规负荷、光伏出力、电动车出力进行日前(未来
刷题前必学！时间复杂度和空间复杂度！用JavaScript学数据结构与算法
‍JavaScript算法与数据结构-HowieCong务必要熟悉JavaScript使用再来学！一、时间复杂度（1）下面代码，一共执行了几次？functiontraverse(arr){//最没有悬念的是函数里面的第一行代码，只会被执行1次varlen=arr.length//1.i的初始化语句，只有一次，只会被执行1次//2.iO(n)=1T(n)=3n^2+5n+3=>O(n)=n^2（4）
PID详解 Mr.Fu! PID stm32 单片机 mcu 51单片机嵌入式硬件
PID在控制领域应该是应用最为广泛的算法了，在工业控制，汽车电子等诸多领域中运用下面我用一个例子和算法过程来讲解PID的概念PID：P比例控制：基本作用就是控制对象以线性的方式增加，在一个常量比例下，动态输出缺点：会产生稳态误差I积分控制：基本作用就是用来消除稳态误差缺点：会增加超调D微分控制：基本作用就是减弱超调，加大惯性响应速度1、什么是PID及其作用上图描述:设定一个输出目标,反馈系统传回输
自定义数据集，使用scikit-learn 中K均值包进行聚类〖是♂我〗 scikit-learn 均值算法聚类
代码：#导入必要的库importmatplotlib.pyplotasplt#用于绘制图形fromsklearn.clusterimportKMeans#KMeans聚类算法importnumpyasnp#数值计算库#定义class1到class4的数据点，模拟四个不同的类（每个类7个二维点）class1_points=np.array([[1.9,1.2],[1.5,2.1],[1.9,0.5]
使用支持向量机和朴素贝叶斯对文本分类 SSeaflower 支持向量机分类算法机器学习 python
一、支持向量机文本分类1.1支持向量机分类器(SVC)支持向量机分类器（SupportVectorClassifier），缩写为SVC。SVC是sklearn.svm模块的一部分，提供了对支持向量机（SVM）算法的实现。SVM是一种监督学习模型，用于分类和回归任务。SVC是SVM用于分类的实现。1.2SVC的用法及参数通过以下方式创建SVC对象并进行训练：fromsklearn.svmimport
使用支持向量机（SVM）进行股票市场预测 m0_57781768 支持向量机算法机器学习
使用支持向量机（SVM）进行股票市场预测引言股票市场预测是金融领域的一个热门话题，也是一个充满挑战的研究领域。通过准确的市场预测，投资者可以做出更明智的决策，从而获得更高的回报。支持向量机（SVM）作为一种强大的机器学习算法，已被广泛应用于各种分类和回归问题。本文将详细介绍如何使用C++和支持向量机进行股票市场预测，并提供完整的代码示例。支持向量机简介支持向量机（SVM）是一种监督学习算法，最初用
DeepSeek：开启智能搜索与AI发展的新纪元 gs80140 AI 人工智能
在人工智能领域，DeepSeek正以其卓越的技术创新和强大的性能表现，成为全球瞩目的焦点。作为一款基于深度学习技术的智能搜索引擎和AI模型，DeepSeek不仅在技术上取得了重大突破，还在多个应用场景中展现了巨大的应用潜力，为用户带来了前所未有的智能体验。一、DeepSeek简介DeepSeek由杭州深度求索人工智能基础技术研究有限公司推出，是一款集自然语言处理（NLP）、计算机视觉（CV）、强化
【Java】已解决java.lang.ClassNotFoundException异常屿小夏 java 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
什么是PID控制？PID控制的原理深圳市青牛科技实业有限公司顶源科技单片机嵌入式硬件开发语言机器人
PID控制是一种经典的控制算法，用于调节系统的输出以使系统的反馈信号与设定值（或参考信号）尽可能接近。PID代表比例（Proportional）、积分（Integral）和微分（Derivative），它结合了这三种控制方式来实现对系统的控制。比例（Proportional）控制：比例控制根据系统当前偏差的大小来调节输出。假设设定值为SP，实际值为PV，那么比例控制器的输出可以表示为：[P=K_p
Megatron：深度学习中的高性能模型架构 gs80140 基础知识科谱 AI 机器学习人工智能
Megatron：深度学习中的高性能模型架构Megatron是由NVIDIA推出的深度学习大规模预训练模型框架，主要针对大规模Transformer架构模型的高效训练与推理。Megatron大多用于GPT（生成式预训练模型）、BERT等Transformer模型的预训练，擅长在大规模数据集和高性能计算资源上进行训练。Megatron的主要特点1.超大模型的高效训练模型并行（ModelParalle
数据结构基础1 四代目水门嵌入式面试数据结构排序算法算法
什么是稳定排序和不稳定排序稳定排序和不稳定排序是排序算法的两种分类。稳定排序算法保证在排序过程中，相同元素的相对位置不变。不稳定排序算法则不保证在排序过程中，相同元素的相对位置不变。常见的稳定排序算法包括：冒泡排序快速排序常见的不稳定排序算法包括：选择排序堆排序二叉树前、中、后序遍历的规则前序遍历：先访问根结点、再前序遍历左子树、最后前序遍历右子树；中序遍历：中序遍历左子树、访问根节点、中序遍历右
AIGC的底层框架和技术模块五岔路口 AIGC
AIGC（ArtificialIntelligenceGeneratedContent，人工智能生成内容）的底层框架和技术模块是构建其强大自然语言处理能力的核心组成部分。以下是对AIGC底层框架和技术模块的详细解析：底层框架AIGC的底层框架主要基于深度学习的语言模型，特别是Transformer模型及其变种，如GPT（GenerativePre-trainedTransformer）等。这些模型
101算法javaScript描述【3】 2401_89317507 算法 javascript java
通常情况下，不能出现超过连续三个相同的罗马数字并且罗马数字中小的数字在大的数字的右边。但也存在特例，例如4不写做IIII，而是IV。数字1在数字5的左边，所表示的数等于大数5减小数1得到的数值4。同样地，数字9表示为IX。这个特殊的规则只适用于以下六种情况：I可以放在V(5)和X(10)的左边，来表示4和9。X可以放在L(50)和C(100)的左边，来表示40和90。C可以放在D(500)和M(1
LeetCode—406.根据身高重建队列(Queue Reconstruction by Height)——分析及代码（Java）江南土豆数据结构与算法 LeetCode Java 题解
LeetCode—406.根据身高重建队列[QueueReconstructionbyHeight]——分析及代码[Java]一、题目二、分析及代码1.贪心算法（1）思路（2）代码（3）结果三、其他一、题目假设有打乱顺序的一群人站成一个队列。每个人由一个整数对(h,k)表示，其中h是这个人的身高，k是排在这个人前面且身高大于或等于h的人数。编写一个算法来重建这个队列。注意：总人数少于1100人。示
LeetCode：300.最长递增子序列 xiaoshiguang3 代码随想录-跟着Carl学算法 leetcode 算法 java 动态规划
跟着carl学算法，本系列博客仅做个人记录，建议大家都去看carl本人的博客，写的真的很好的！代码随想录LeetCode：300.最长递增子序列给你一个整数数组nums，找到其中最长严格递增子序列的长度。子序列是由数组派生而来的序列，删除（或不删除）数组中的元素而不改变其余元素的顺序。例如，[3,6,2,7]是数组[0,3,1,6,2,2,7]的子序列。示例1：输入：nums=[10,9,2,5,
LeetCode：674.最长连续递增序列 xiaoshiguang3 代码随想录-跟着Carl学算法 leetcode 算法 java 动态规划
跟着carl学算法，本系列博客仅做个人记录，建议大家都去看carl本人的博客，写的真的很好的！代码随想录LeetCode：674.最长连续递增序列给定一个未经排序的整数数组，找到最长且连续递增的子序列，并返回该序列的长度。连续递增的子序列可以由两个下标l和r（lnums[i-1])dp[i]=dp[i-1]+1publicintfindLengthOfLCIS(int[]nums){intlen=
Python机器学习实战：人脸识别技术的实现和挑战 AI天才研究院 AI大模型企业级应用开发实战大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python机器学习实战：人脸识别技术的实现和挑战作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：人脸识别技术,模型训练,多人识别,动态人脸检测,应用场景1.背景介绍1.1问题的由来随着科技的进步和互联网的普及，人脸识别技术因其在安全验证、生物特征识别、智能监控等多个领域的广泛应用而迅速崛起。从传统的门禁系统到现代的人脸支付、社交媒体的自动登
深度学习：基础原理与实践阿尔法星球深度学习 python 人工智能
1.深度学习概述1.1定义与发展历程深度学习是机器学习的一个分支，它基于人工神经网络的学习算法，特别是那些具有多层（深层）结构的网络。深度学习模型能够自动从原始数据中提取复杂的特征，而不需要人为设计特征提取算法。定义：深度学习可以定义为使用深层神经网络进行学习的过程，这些网络由多个非线性的变换组成，能够学习数据的多层次表示。发展历程：深度学习的起源可以追溯到1943年WarrenSturgisMc
代码随想录算法训练营Day38||完全背包问题、leetcode 518. 零钱兑换 II 、 377. 组合总和 Ⅳ 、70. 爬楼梯（进阶） jiegongzhu3z 算法 leetcode 职场和发展
一、完全背包问题相较于01背包，完全背包的显著特征是每个物品可以用无数次，遍历顺序也不需要为了保证每个物品只去一次而倒序遍历。#include#includeusingnamespacestd;intmain(){intN,V;cin>>N>>V;vectorweight(N+1,0);vectorvalue(N+1,0);for(inti=0;i>weight[i]>>value[i];}vec
探索神经网络的奥秘：从基础理论到Python实践仲毓俏Alanna
探索神经网络的奥秘：从基础理论到Python实践【下载地址】第一章神经网络如何工作附Python神经网络编程.pdf分享本资源文件提供了关于神经网络基础知识的详细介绍，并附带了一个Python神经网络编程的PDF文件。通过学习本资源，您将能够理解神经网络的基本工作原理，并掌握如何使用Python进行神经网络编程项目地址:https://gitcode.com/Resource-Bundle-Col
愿景：做机器视觉行业的颠覆者 gaoenyang760525 人工智能
一个愿景，两场战斗，专注制胜。一个愿景：做机器视觉行业的颠覆者。我给自己创业，立一个大的愿景：做机器视觉行业的颠覆者。两场战斗：无监督-大模型上半场，无监督。2025-2030，共五年。用无监督算法，颠覆现有缺陷检测方法，争取在2-3个场景落地。在以下几个场景中，选择最容易的场景落地，做细分场景的标准检测设备：1、视觉筛选机2、PCB相关3、半导体、芯片4、纺织服装5、包装印刷（激光打标、喷码、瓶
什么是MoE？ CM莫问深度学习人工智能算法常见概念人工智能算法 python 深度学习 MoE 混合专家模型机器学习
一、概念MoE（MixtureofExperts）是一种深度学习架构，它结合了多个专家模型（Experts）和一个门控机制（GatingMechanism）来处理不同的输入数据或任务。MoE的核心思想是将复杂的任务分解为多个子任务，由不同的专家网络来处理，以此来提升整体模型的性能和效率。MOE通过集成多个专家来显著提高模型的容量和表达能力，每个专家可以专注于学习输入数据的不同方面或特征，使得整个模
第三篇：模型压缩与量化技术——DeepSeek如何在边缘侧突破“小而强”的算力困局 python算法(魔法师版) 数据挖掘机器学习人工智能深度学习神经网络生成对抗网络边缘计算
——从算法到芯片的全栈式优化实践随着AI应用向移动终端与物联网设备渗透，模型轻量化成为行业核心挑战。DeepSeek通过自研的“算法-编译-硬件”协同优化体系，在保持模型性能的前提下，实现参数量与能耗的指数级压缩。本文从技术原理、工程实现到落地应用，完整解析其全链路压缩技术体系。第一章算法层创新：结构化压缩与动态稀疏化1.1非均匀结构化剪枝技术DeepSeek提出**“敏感度感知通道剪枝”（SAC
（每日一题）连续⼦数组最⼤和———＜动态规划-线性dp＞课堂随笔每日一题动态规划算法考研每日一题
1.题⽬链接：DP6连续⼦数组最⼤和2.题⽬描述：3.解法：算法思路：简单线性dp。i.状态表⽰：dp[i]表⽰：以i位置为结尾的所有⼦数组中，最⼤和是多少。ii.状态转移⽅程：dp[i]=max(dp[i-1]+arr[i],arr[i])C++算法代码：#include#includeusingnamespacestd;intmain(){//初始化intn;cin>>n;vectortemp
【书生·浦语大模型实战营】学习笔记（三）：“茴香豆” 搭建你的RAG 智能助理 GoAI 自然语言处理NLP 深入浅出AI 深入浅出LLM 深度学习 LLM 人工智能大模型
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接【书生·
linux进程调度HMP,HMP调度器和EAS调度器熙公主的爪牙 linux进程调度HMP
HMP调度器为了降低功耗，ARM开发了大小核架构处理器。Linux内核中的负载均衡算法基于SMP模型，并未考虑big.LITTLE模型，因此Linaro开发了一个HMP调度器用于支持这种架构，它也被用于Android5.x和Android6.x中，但这种调度器并没有被合入内核的基线中。该调度器的进程调度算法基本上和CFS一样，主要区别在于调度域和负载均衡的处理上。HMP调度域的实现比自带的CFS调
计算机视觉领域的轻量化模型——GhostNet 模型 DuHz 边缘计算轻量化模型计算机视觉人工智能算法深度学习神经网络边缘计算网络
GhostNet模型详解GhostNet是一个高效的轻量化卷积神经网络模型，专为资源受限的设备（如移动设备和嵌入式系统）设计。它的核心创新是Ghost模块，该模块通过生成更多的特征图来减少计算资源消耗。GhostNet适用于实时计算任务，如图像分类和物体检测，同时在保持较高准确率的基础上，优化了计算效率。目录GhostNet背景Ghost模块概述GhostNet网络架构Ghost模块的数学原理Gh
离散化、贪心、双指针、二分、倍增、构造、位运算那只狸花猫吖蓝桥杯算法
目录八、离散化1、离散化简介九、贪心1、贪心的概念十、双指针1、双指针简介2、对撞指针3、快慢指针十一、二分1、二分的概念2、二分的两种模板十二、倍增1、定义十三、构造1、定义十四、位运算1、位运算概述八、离散化1、离散化简介把无限空间中有限的个体映射到有限的空间中去，以此提高算法的时空效率。离散化是一种将数组的值域压缩，从而更加关注元素的大小关系的算法。当原数组中的数字很大、负数、小数时(大多数
Python——常见排序算法解析代码输入中... 算法排序算法数据结构 python 开发语言
概述十种常见排序算法可以分为两大类：非线性时间比较类排序：通过比较来决定元素间的相对次序，由于其时间复杂度不能突破O(nlogn)，因此称为非线性时间比较类排序。线性时间非比较类排序：不通过比较来决定元素间的相对次序，它可以突破基于比较排序的时间下界，以线性时间运行，因此称为线性时间非比较类排序。基础定义稳定：如果a原本在b前面，而a=b，排序之后a仍然在b的前面。不稳定：如果a原本在b的前面，而
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe

深度学习基础知识和概念汇总（适合给小伙伴们查缺补漏）

深度学习基础知识和概念汇总

入门推荐

推荐课程

推荐书籍

其他推荐

概念汇总及简洁解析

你可能感兴趣的:(基础知识,神经网络,卷积,算法,深度学习,机器学习)