Debroon

AI芯片：神经网络研发加速器、神经网络压缩简化、通用芯片 CPU 加速、专用芯片 GPU 加速

AI芯片：神经网络研发加速器、神经网络压缩简化、通用芯片 CPU 加速、专用芯片 GPU 加速

神经网络研发加速器

神经网络编译器

各自实现的神经网络编译器

神经网络加速与压缩（算法层面）

知识蒸馏

低秩分解

轻量化网络

剪枝

量化

通用芯片 CPU 加速

x86 加速

arm 加速

卷积优化

神经网络加速库

专用芯片 GPU 加速

dsp加速

faga加速

npu加速

K210人工智能微控制器

神经网络加速库： Vulkan图形计算

神经网络研发加速器

神经网络编译器组成：编译器、图表示、图优化、计算优化、代码生成。

神经网络编译器

问题: 如何将高级别的神经网络模型有效转换为在多种硬件上运行的优化代码？

ONNX的角色：

统一格式：ONNX提供了一个标准化的格式来表示不同深度学习框架中的模型。它使模型可以在不同的框架和工具之间轻松转换，从而增强了模型的可移植性和互操作性。
模型交换：ONNX使得开发者可以选择最适合他们需求的工具和框架来训练模型，并且能够轻松地将这些模型转换为ONNX格式，用于部署。

神经网络编译器的角色：

优化和转换：神经网络编译器接收特定格式（如ONNX）的深度学习模型，并将其编译和优化以在特定硬件上运行。这包括转换模型为硬件特定的指令集，进行图优化、算子融合等。
跨平台部署：编译器使得模型不仅可以在不同的框架中移植，还可以在不同的硬件平台上高效运行，如CPU、GPU、FPGA或专用AI加速器。

协同工作流程：

模型训练：

开始于：深度学习模型首先在特定的框架（如TensorFlow, PyTorch, MXNet等）中进行训练。
输出：训练完成后的模型通常以该框架的特定格式存储。

模型转换（使用ONNX）：

转换工具：使用ONNX提供的工具将模型从原始框架转换成ONNX格式。这一步骤涉及将模型的结构和权重导出到ONNX定义的统一格式中。
输出：转换后的模型现在在一个标准化的ONNX格式中，使得它可以跨不同的深度学习框架和工具共享。

模型优化和编译（使用神经网络编译器）：

编译器输入：编译器接收ONNX格式的模型。
优化过程：编译器对模型进行一系列优化，如算子融合、图优化、消除冗余计算等，以提高模型在目标硬件上的运行效率。
硬件特定优化：编译器还会针对特定的目标硬件（如CPU, GPU, FPGA等）进行优化，生成适合该硬件的低级代码。

部署和执行：

部署：优化后的模型被部署到目标硬件上。
执行：模型在目标设备上执行，进行推理任务，如图像识别、语音识别等。

总结：

ONNX的作用：提供了一个中间桥梁，允许不同框架中训练的模型被统一表示和共享。
神经网络编译器的作用：进一步优化ONNX格式的模型，确保它们在特定硬件上高效运行。

【图表示】：

ONNX 两个主要的 Protobuf 协议对象：TensorProto、AttributeProto。

TensorProto:
- 这个结构用于定义神经网络中的张量（多维数组），它包含张量的维度（dims）、数据类型（data_type）、数据本身（float_data, int32_data, string_data, int64_data, raw_data等），以及数据存储顺序（通常为行主序）。
- TensorProto可以包含任何类型的数据，包括原始的字节数据，这在存储复杂的或非标准格式的张量时非常有用。
AttributeProto:
- 用于定义图中节点属性的结构，它可以包含单个的数据值（如浮点数、整数、字符串、图、张量）或这些数据类型的数组。
- 每个属性都有一个名字（name）和一个类型（AttributeType），类型决定了属性值可以是哪种数据。

这些协议对象是ONNX标准的一部分，使得ONNX能够以一种跨平台、跨语言的方式精确地表示神经网络模型的结构和权重。

它们使得模型可以从一个框架转换并在另一个框架中使用，这对于深度学习模型的共享和部署至关重要。

【图优化】：

节点融合: 将多个操作符（Op）融合为单个复合操作符，以减少内存访问次数和计算开销。例如，将卷积、批量归一化和激活函数合并为一个操作。

常量折叠: 在编译时预计算那些以常量输入进行的操作，减少运行时的计算量。

死代码消除: 移除那些不会影响最终输出的操作，比如未使用的变量或操作。
公共子表达式消除: 检测并合并计算图中重复的表达式，以节省计算资源。
内存优化: 优化数据的存储和访问方式，减少内存使用量，例如通过就地操作（in-place operations）来减少不必要的数据复制。
层次融合: 类似节点融合，但在更高的层次上，比如将多层网络结构融合以减少中间数据的存储和传递。
操作调度: 优化操作的执行顺序，以提高硬件的使用效率，减少等待时间。
数据布局转换: 改变数据在内存中的排列方式（如NCHW到NHWC），以适配硬件特性，提高内存访问效率。
算子融合: 把能够一起执行的多个算子合并为一个算子，以减少内存访问和改善缓存使用。
精度优化: 根据需要将数据类型从高精度（如float64）降低到低精度（如float16或INT8），以加快计算速度并减少内存使用，特别是在支持低精度计算的硬件上。

所有这些优化都是为了减少计算量、提高执行速度、减少内存占用，并最大化硬件利用率。

【计算优化】：

向量化（Vectorization）:
- 利用SIMD指令集对操作进行向量化处理，同时处理多个数据点，提高了数据处理速率。

首先，三个独立的数据向量（A0, A1, A2, A3），（B0, B1, B2, B3），和（C0, C1, C2, C3）被加载到SIMD寄存器中。这通常使用如_mm_loadu_ps这样的指令完成，它可以从非对齐的内存地址加载多个浮点数到一个SIMD寄存器。
接下来，使用SIMD加法指令（如_mm_add_ps）对这些向量进行逐元素加法操作。这样，每个数据向量中相应的元素将被加在一起。
然后，使用SIMD水平加法指令（如_mm_hadd_ps），对加法的结果进行进一步的组合。水平加法将一个SIMD寄存器中的相邻元素加在一起。
最后，使用如_mm_store_ss这样的指令，将计算的结果存回内存中。

并行化（Parallelization）:
- 分布计算工作负载，利用多核CPU、GPU的多个计算单元，或者其他硬件加速器（如FPGA、TPU）的并行处理能力。

利用缓存，所需的数据可以被连续地加载到缓存中，而不是随机地从内存中读取，提取加速

循环展开（Loop Unrolling）:
- 展开循环结构以减少循环控制的开销，并可能使编译器能够进一步优化。
内存访问优化:
- 通过优化数据存储模式和访问模式来减少缓存未命中和内存延迟。
算术强度提升（Increase Arithmetic Intensity）:
- 通过减少内存操作和增加计算操作的比例，提高计算与内存传输的比率。
算子融合（Operator Fusion）:
- 将多个操作融合为一个复合操作，以减少内存访问次数和提高缓存利用率。
内核融合（Kernel Fusion）:
- 在GPU编程中，将多个内核操作融合成单个内核，减少GPU内核启动的开销。
延迟执行（Lazy Evaluation）:
- 操作只在必要时执行，避免不必要的计算，节省资源。
精确度与混合精度训练（Precision and Mixed-Precision Training）:
- 适当降低计算的精度来加快速度，如使用半精度浮点数（float16）代替全精度（float32）。
特定硬件优化:
- 根据目标硬件的特定特性（如GPU的共享内存大小、CPU的缓存行大小）进行优化。
编译时优化（Compile-time Optimizations）:
- 利用编译器的高级优化，如去除冗余计算、优化分支预测等。
动态张量重用（Dynamic Tensor Rematerialization）:
- 在运行时动态决定数据结构的生命周期，以减少内存占用。
消除重复计算：对于一个均值池化，那么橘色部分就是重复计算的，可以通过优化消除重复计算

各自实现的神经网络编译器

神经网络编译器组成：编译器、图表示、图优化、计算优化、代码生成。

所以，就有了 — 各自实现的神经网络编译器。

TVM 神经网络编译器
NCNN 神经网络推理框架
MNN 移动神经网络引擎

介绍：

TVM：https://tvm.apache.org/docs/install/index.html

是一个开源的神经网络编译器框架，它可以将各种深度学习模型（如TensorFlow、PyTorch、MXNet等的模型）编译成优化的代码，以在多种硬件上运行，包括CPU、GPU、FPGA等。

TVM特别强调自动化的性能优化，使用了一种叫做AutoTVM的系统自动调整模型参数以适应不同的硬件配置。
NCNN：https://github.com/Tencent/ncnn/wiki/how-to-build#build-for-linux

由腾讯优化的一个轻量级深度学习框架，专门用于移动设备和边缘计算设备。

它不依赖于第三方库，非常适合于移动应用。

NCNN特别关注于在低功耗设备上的高性能运行，它通过优化网络的内存使用和计算速度，使得模型在移动设备上能够快速且有效地执行。
MNN：https://www.yuque.com/mnn/cn

由阿里巴巴开源的深度学习框架，旨在帮助开发者在端侧设备上部署AI模型。

MNN的主要特点是支持多平台和多后端，能够在各种设备上运行，如iOS和Android手机、服务器和IoT设备。

它通过优化计算图，减少内存占用，并提供多种量化方案以适应不同的应用需求。

他们的结构就不一一拆解了。

神经网络加速与压缩（算法层面）

矩阵低秩分解
- 概念：将神经网络的参数（例如，全连接层的二维矩阵、卷积层的四维矩阵）通过矩阵分解和低秩近似，分解为多个计算总量更小的小矩阵。
- 目的：加速网络计算过程。
- 方法：例如SVD分解、Tucker分解。
- 影响：分解为多层可能增加数据读取次数，影响速度。
剪枝
- 类型：包括非结构化剪枝和结构化剪枝，以及自动化剪枝。
- 非结构化剪枝：去除权重矩阵中不重要的元素，形成稀疏矩阵，通过稀疏存储减少模型大小。
- 结构化剪枝：删除整个网络结构的一部分（如通道、过滤器、层），在现有框架上实现加速。
- 自动化剪枝：自动确定剪枝结构，如AMC（自动化模型压缩）和MetaPruning。
量化
- 概念：将网络参数和激活值从高精度（如FP32）转化为低精度（如INT8），以加快推理速度。
- 挑战：量化可能导致精度损失，需精心设计，如数值对齐、对称和非对称量化等。
知识蒸馏
- 概念：从大型模型（教师网络）到小型模型（学生网络）的知识迁移。
- 目的：保持小模型在减少计算量的同时获得较高性能。
- 发展：许多方法被提出，如FitNet、Attention Transfer，以及无数据网络压缩。
轻量化模型设计
- 目标：设计高效、轻量的网络，替代传统大型网络。
- 方法：使用高效操作，如深度可分离卷积，减少参数量。
- 代表模型：Google的MobileNet系列，旷视的ShuffleNet。

从结构调整到参数精度的多个层面。

目标是在保持模型性能的同时，减少模型的计算负担和存储需求，特别适用于资源受限的环境，如移动设备和边缘计算平台。

每种技术都有其独特的优点和适用场景，在实际应用中往往需要结合多种技术来达到最佳效果。

知识蒸馏

低秩分解

轻量化网络

剪枝

量化

通用芯片 CPU 加速

x86 加速

arm 加速

卷积优化

神经网络加速库

专用芯片 GPU 加速

dsp加速

faga加速

npu加速

K210人工智能微控制器

神经网络加速库： Vulkan图形计算

你可能感兴趣的:(#,深度学习,人工智能,神经网络,深度学习)

自然语言编程：用 Cursor 将需求转化为代码 drebander AI 编程 Cursor
引言在传统编程中，开发者需要精确掌握语法规则、API接口和框架特性才能实现功能需求。然而，随着人工智能技术的发展，以自然语言交互为核心的编程方式正在颠覆这一流程。Cursor作为一款智能编程助手，通过其自然语言编程功能，允许开发者直接通过文本描述生成代码，将模糊的需求快速转化为可执行的程序。本文将深入探讨Cursor的自然语言交互能力，并通过实际案例（如生成React组件、Python脚本等），展
模式识别与机器学习（Python实现）：基于sklearn朴素贝叶斯模型实现男女分类 CV视界模式识别机器学习与图像处理机器学习 python 人工智能
模式识别与机器学习（Python实现）：基于sklearn朴素贝叶斯模型和pazen窗方法实现男女分类欢迎大家来到安静到无声的《模式识别与人工智能（程序与算法）》，如果对所写内容感兴趣请看模式识别与人工智能（程序与算法）系列讲解-总目录，同时这也可以作为大家学习的参考。欢迎订阅，优惠价只需9.9元，请多多支持！目录标题模式识别与机器学习（Python实现）：基于sklearn朴素贝叶斯模型和paz
一文读懂自动编码器：类型、原理与应用人工智能
一文读懂自动编码器：类型、原理与应用近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM架构专栏知乎LLM专栏知乎【柏企】公众号【柏企科技说】【柏企阅文】目录自动编码器稀疏自动编码器K稀疏自动编码器收缩式自动编码器卷积自动编码器SequencetoSequence自动编码器降噪自动编码器变分自动编码器遮罩自动编码器自动编码器自动编码器是一种用于无监督学习和
智能优化算法应用：天鹰算法优化脉冲耦合神经网络的图像自动分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法神经网络人工智能
智能优化算法应用：天鹰算法优化脉冲耦合神经网络的图像自动分割文章目录智能优化算法应用：天鹰算法优化脉冲耦合神经网络的图像自动分割1.天鹰算法2.PCNN网络3.实验结果4.参考文献5.Matlab代码摘要：本文利用天鹰算法对脉冲耦合神经网络的参数进行优化，以信息熵作为适应度函数，提高其图像分割的性能。1.天鹰算法天鹰算法原理请参考：https://blog.csdn.net/u011835903/
️ 在 Windows WSL 上部署 Ollama 和大语言模型的完整指南20241206 Narutolxy 技术干货分享智浪初航 windows 语言模型人工智能
️在WindowsWSL上部署Ollama和大语言模型的完整指南引言随着大语言模型（LLM）和人工智能的飞速发展，越来越多的开发者尝试在本地环境中部署大模型进行实验。然而，由于资源需求高、网络限制多以及工具复杂性，部署过程常常充满挑战。本指南基于实际经验，详细讲解如何在WindowsWSL（WindowsSubsystemforLinux）上部署Ollama和大语言模型，同时解决端口转发等常见痛点
线性回归的简单实现 SkaWxp 深度学习深度学习机器学习 mxnet gluon
本文是《动手学深度学习》的笔记文章目录线性回归的简单实现生成随机数据集读取数据初始化模型参数定义模型定义损失函数定义优化算法训练模型线性回归的简洁实现生成数据集读取数据定义模型初始化模型参数定义损失函数定义优化算法训练模型线性回归的简单实现用了mxnet中的自动求导和数组结构frommxnetimportautograd,ndimportrandom生成随机数据集只有这个是用了自己造的数据，因为线
【论文笔记】基于图神经网络的多视角视觉重定位 GRNet CVPR 2020 论文笔记 phy12321 相机重定位
GRNet:LearningMulti-viewCameraRelocalizationwithGraphNeuralNetworks驭势科技,北京大学机器感知重点实验室,北京长城航空测控技术研究所本文提出了一种使用多视角图像进行相机重定位的图神经网络。该网络可以使得不连续帧之间进行信息传递，相比于只能在相邻前后帧之间进行信息传递的序列输入和LTSM，其能捕获更多视角信息以进行重定位。因此LSTM
【单层神经网络】基于MXNet库简化实现线性回归辰尘_星启神经网络 mxnet 线性回归
写在前面同最开始的两篇文章完整程序及注释'''导入使用的库'''#基本frommxnetimportautograd,nd,gluon#模型、网络frommxnet.gluonimportnnfrommxnetimportinit#学习frommxnet.gluonimportlossasgloss#数据集frommxnet.gluonimportdataasgdata'''生成测试数据集'''#
初入机器学习辰尘_星启机器学习人工智能深度学习 python mxnet
写在前面本专栏专门撰写深度学习相关的内容，防止自己遗忘，也为大家提供一些个人的思考一切仅供参考概念辨析深度学习：本质是建模，将训练得到的模型作为系统的一部分使用侧重于发现样本集中隐含的规律难点是认识并了解模型，合理设置初始模型，要对建模对象有比较深刻的认识依赖大量的准确训练样本强化学习：本质是系统，直接将训练得到的模型视作系统本身（激进的像“端到端”）侧重于最大化当前环境下的奖励，最终目标是寻找环
线性回归基础学习 Remoa 人工智能线性回归优化 gluon mxnet loss
线性回归基础学习目录：理论知识样例代码测试参考文献一、理论知识线性回归思维导图NDArray：MXNet中存储和变换数据的主要工具，提供GPU计算和自动求梯度等功能线性回归可以用神经网络图表示，也可以用矢量计算表示在Gluon中，data模块提供了有关数据处理的工具，nn模块定义了大量神经网络的层，loss模块定义了各种损失函数在MXNet的init模块(initializer)提供了模型参数化的
基于模糊RBF神经网络轨迹跟踪研究（Matlab代码实现） @橘柑橙柠桔柚神经网络 matlab mvc
‍个人主页欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述2运行结果3参考文献4Matlab代码实现1概述模糊控制（FuzzyControl）是1965年，由美国的Zadeh率先创立了模糊集合论，后来又提出了模糊逻辑控制器的概念和有关定理。于1974年第一次组成了模糊逻辑控制器，并使用于锅炉和汽轮机的控制系统
深度学习：基于MindNLP的RAG应用开发 Landy_Jay 深度学习人工智能
什么是RAG？RAG（Retrieval-AugmentedGeneration，检索增强生成）是一种结合检索（Retrieval）和生成（Generation）的技术，旨在提升大语言模型（LLM）生成内容的准确性、相关性和时效性。基本思想：通过外部知识库动态检索与用户查询相关的信息，并将检索结果作为上下文输入生成模型，辅助生成更可靠的回答。与传统LLM的区别：传统LLM仅依赖预训练参数中的静态知
深度学习篇---张量&数据流动处理 Ronin-Lotus 深度学习篇深度学习人工智能 python TensorFlow Pytorch 张量数据流动处理
文章目录前言第一部分：张量张量的基本概念1.维度标量（0维）向量（1维）矩阵（2维）三维张量2.形状张量运算1.基本运算加法减法乘法除法2.广播3.变形4.转置5.切片6.拼接7.矩阵分解8.梯度运算：深度学习框架中的张量运算1.自动求导2.硬件加速3.高度优化第二部分：数据流动与处理1.磁盘（硬盘或固态硬盘）读取数据写入数据2.内存（RAM）加载程序和数据数据交换3.缓存CPU缓存磁盘缓存4.数
PyTorch生态系统中的连续深度学习：使用Torchdyn实现连续时间神经网络
神经常微分方程（NeuralODEs）是深度学习领域的创新性模型架构，它将神经网络的离散变换扩展为连续时间动力系统。与传统神经网络将层表示为离散变换不同，NeuralODEs将变换过程视为深度（或时间）的连续函数。这种方法为机器学习开创了新的研究方向，尤其在生成模型、时间序列分析和物理信息学习等领域具有重要应用。本文将基于Torchdyn（一个专门用于连续深度学习和平衡模型的PyTorch扩展库）
基于CNN(一维卷积Conv1D)+LSTM+Attention 实现股票多变量时间序列预测(PyTorch版) 矩阵猫咪 cnn lstm pytorch 注意力机制卷积神经网络长短期记忆网络 Attention
前言系列专栏:【深度学习：算法项目实战】✨︎涉及医疗健康、财经金融、商业零售、食品饮料、运动健身、交通运输、环境科学、社交媒体以及文本和图像处理等诸多领域，讨论了各种复杂的深度神经网络思想，如卷积神经网络、循环神经网络、生成对抗网络、门控循环单元、长短期记忆、自然语言处理、深度强化学习、大型语言模型和迁移学习。在深度学习的众多模型中，卷积神经网络（CNN）和长短期记忆网络（LSTM）因其独特的优势
【车间调度】基于卷积神经网络的柔性作业车间调度问题的两阶段算法（Matlab代码实现）宇哥预测优化代码学习 cnn 算法 matlab
‍个人主页欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述两阶段算法概述第一阶段：特征提取与表示学习第二阶段：调度策略生成与优化研究挑战与前景2运行结果3参考文献4Matlab代码实现1概述该文提出一种基于卷积神经网络的有效两阶段算法，以求解具有机器故障的柔性作业车间调度问题（FJSP）。建立了以最大完成时间
Ollama 部署 DeepSeek - r1 教程：Windows 与 Linux 篇 Fgaoxing windows linux 人工智能
在人工智能技术飞速发展的今天，能够在本地部署并使用先进的模型成为许多技术爱好者和专业人士的追求。DeepSeek-r1以其出色的性能备受关注，借助Ollama工具，我们可以方便地在Windows和Linux系统上完成部署。下面就为大家详细介绍具体步骤。一、准备工作在开始部署之前，需要确保已经安装了Ollama。如果尚未安装，请按照以下对应系统的安装方法进行操作。（一）Windows系统安装Olla
【车间调度】基于卷积神经网络的柔性作业车间调度问题的两阶段算法（Matlab代码实现） Ps.729 cnn 算法 matlab
‍个人主页欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述两阶段算法概述第一阶段：特征提取与表示学习第二阶段：调度策略生成与优化研究挑战与前景2运行结果3参考文献4Matlab代码实现1概述该文提出一种基于卷积神经网络的有效两阶段算法，以求解具有机器故障的柔性作业车间调度问题（FJSP）。建立了以最大完成时间
图神经网络实战（2）——图论基础盼小辉丶图神经网络从入门到项目实战神经网络图论图神经网络 GNN
图神经网络实战（2）——图论基础0.前言1.图属性1.1有向图和无向图1.2加权图和非加权图1.3连通图和非连通图1.4其它图类型2.图概念2.1基本对象2.2图的度量指标2.2邻接矩阵表示法3.图算法3.1广度优先搜索3.2深度优先搜索小结系列链接0.前言图论(Graphtheory)是数学的一个基本分支，涉及对图研究。图是复杂数据结构的可视化表示，有助于理解不同实体之间的关系。图论提供了大量建
DeepSeek：开启智能搜索与AI发展的新纪元 gs80140 AI 人工智能
在人工智能领域，DeepSeek正以其卓越的技术创新和强大的性能表现，成为全球瞩目的焦点。作为一款基于深度学习技术的智能搜索引擎和AI模型，DeepSeek不仅在技术上取得了重大突破，还在多个应用场景中展现了巨大的应用潜力，为用户带来了前所未有的智能体验。一、DeepSeek简介DeepSeek由杭州深度求索人工智能基础技术研究有限公司推出，是一款集自然语言处理（NLP）、计算机视觉（CV）、强化
【Java】已解决java.lang.ClassNotFoundException异常屿小夏 java 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
【Python】一文教你快速遍历文件夹下所有文件鸽芷咕 python 开发语言
鸽芷咕：个人主页个人专栏:《C++干货基地》《粉丝福利》⛺️生活的理想，就是为了理想的生活!博主简介博主致力于嵌入式、Python、人工智能、C/C++领域和各种前沿技术的优质博客分享，用最优质的内容带来最舒适的阅读体验！在博客领域获得C/C++领域优质、CSDN年度征文第一、掘金2023年人气作者、华为云享专家、支付宝开放社区优质博主等头衔。个人社区&个人社群加入点击即可介绍加入链接个人社群社群
Megatron：深度学习中的高性能模型架构 gs80140 基础知识科谱 AI 机器学习人工智能
Megatron：深度学习中的高性能模型架构Megatron是由NVIDIA推出的深度学习大规模预训练模型框架，主要针对大规模Transformer架构模型的高效训练与推理。Megatron大多用于GPT（生成式预训练模型）、BERT等Transformer模型的预训练，擅长在大规模数据集和高性能计算资源上进行训练。Megatron的主要特点1.超大模型的高效训练模型并行（ModelParalle
小南每日 AI 资讯 |美国与日本企业联合投资“星际之门”项目| 罗永浩老师最新初创项目上线！ | 25/01/24 小南AI学院人工智能 microsoft
近期人工智能（AI）领域的重要动态随着人工智能技术的迅猛发展，多个领域涌现出令人瞩目的创新。以下是近期AI领域的几项重大进展，涵盖技术创新、行业合作以及AI在各个领域的应用：1.AI技术创新与产品发布DeepSeek发布开源模型R1，挑战传统开发模式中国初创公司深度求索（DeepSeek）于1月27日发布开源AI模型R1。该模型以低成本实现接近OpenAIGPT-3的性能，打破了“越大越好”的传统
AIGC的底层框架和技术模块五岔路口 AIGC
AIGC（ArtificialIntelligenceGeneratedContent，人工智能生成内容）的底层框架和技术模块是构建其强大自然语言处理能力的核心组成部分。以下是对AIGC底层框架和技术模块的详细解析：底层框架AIGC的底层框架主要基于深度学习的语言模型，特别是Transformer模型及其变种，如GPT（GenerativePre-trainedTransformer）等。这些模型
深度学习：基础原理与实践阿尔法星球深度学习 python 人工智能
1.深度学习概述1.1定义与发展历程深度学习是机器学习的一个分支，它基于人工神经网络的学习算法，特别是那些具有多层（深层）结构的网络。深度学习模型能够自动从原始数据中提取复杂的特征，而不需要人为设计特征提取算法。定义：深度学习可以定义为使用深层神经网络进行学习的过程，这些网络由多个非线性的变换组成，能够学习数据的多层次表示。发展历程：深度学习的起源可以追溯到1943年WarrenSturgisMc
什么是MOE架构？哪些大模型使用了MOE？明哲AI AIGC 架构人工智能大模型 MOE
在人工智能快速发展的今天，大语言模型（LLM）的规模越来越大，参数量动辄上千亿甚至万亿。然而，更大的模型往往意味着更高的计算成本和更多的资源消耗。混合专家模型（MixtureofExperts，简称MoE）作为一种创新的架构设计，为解决这一难题提供了一个优雅的解决方案。什么是混合专家模型？想象一下，如果把一个大语言模型比作一所综合性大学，传统的模型就像是让所有教授（参数）都参与每一次教学活动。而M
探索神经网络的奥秘：从基础理论到Python实践仲毓俏Alanna
探索神经网络的奥秘：从基础理论到Python实践【下载地址】第一章神经网络如何工作附Python神经网络编程.pdf分享本资源文件提供了关于神经网络基础知识的详细介绍，并附带了一个Python神经网络编程的PDF文件。通过学习本资源，您将能够理解神经网络的基本工作原理，并掌握如何使用Python进行神经网络编程项目地址:https://gitcode.com/Resource-Bundle-Col
什么是MoE？ CM莫问深度学习人工智能算法常见概念人工智能算法 python 深度学习 MoE 混合专家模型机器学习
一、概念MoE（MixtureofExperts）是一种深度学习架构，它结合了多个专家模型（Experts）和一个门控机制（GatingMechanism）来处理不同的输入数据或任务。MoE的核心思想是将复杂的任务分解为多个子任务，由不同的专家网络来处理，以此来提升整体模型的性能和效率。MOE通过集成多个专家来显著提高模型的容量和表达能力，每个专家可以专注于学习输入数据的不同方面或特征，使得整个模
【书生·浦语大模型实战营】学习笔记（三）：“茴香豆” 搭建你的RAG 智能助理 GoAI 自然语言处理NLP 深入浅出AI 深入浅出LLM 深度学习 LLM 人工智能大模型
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接【书生·
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他