花花少年

NVIDIA GPU显卡介绍

一、参考资料

NVCC学习笔记
NVIDIA GPU 架构演进
Nvidia GPU架构 - Cuda Core，SM，SP等等傻傻分不清？
请问英伟达GPU的tensor core和cuda core是什么区别？

二、相关概念

2.1 dGPU

dGPU（discrete GPU），独立显卡。

2.2 FLOPS（Floating-point operations per second）

每秒浮点运算次数（亦称每秒峰值速度）是每秒所运行的浮点运算次数；

一个MFLOPS（megaFLOPS）等于每秒一百万（10^6）次的浮点运算；
一个GFLOPS（gigaFLOPS）等于每秒十亿（10^9）次的浮点运算；
一个TFLOPS（teraFLOPS）等于每秒一兆/一万亿（10^12）次的浮点运算；
一个PFLOPS（petaFLOPS）等于每秒一千兆/一千万亿（10^15）次的浮点运算；
一个EFLOPS（exaFLOPS）等于每秒一百京/一百亿亿（10^18）次的浮点运算；

2.3 TOPS（Tera Operations Per Second）

1TOPS代表处理器每秒钟可进行一万亿次（10^12）操作。

2.4 SM流处理器

流式传输多元处理器。

2.5 SMP（SM Processing Block）

流处理块。比如GPU Pascal架构里，每个SM由两个SMP组成。

1 SM = 2个SMP = 64 CUDA Core + 1 RT Core + 8 Tensor Core

2.6 CUDA Core

CUDA Core(Shader processors)，也称为Streaming Processor（SP），是全能通吃型的浮点运算单元。CUDA Core名称正式出现的位置是在Fermi架构（2010年），在此之前称为processor core ，也称为streaming processors (SPs) 或者称为 thread processors。CUDA Core在显卡里是并行运行的，CUDA Core越多，算力越强。

CUDA Core包含了一个 integer arithmetic logic unit (ALU)整数运算单元和一个 floating point unit (FPU)浮点运算单元。CUDA Core能进行一种fused multiply-add (FMA)的操作，即一个加乘操作的融合。特点：在不掉精度的情况下，单指令完成乘加操作，并且这个是支持32-bit精度。

更通俗一点，比如公式：
$Z = W * X + b$

Volta GV100 Tensor Core 流程图

输出Z等于W乘以输入X加上bias，深度学习中，有大量这种运算。如果用常规的CPU，会怎么处理呢？先把寄存器里面的数据送入乘法器，然后把结果送回寄存器，然后再把寄存器的数据送入加法器。但是，在CUDA Core中，单指令完成该运算。

但是，对于一些场景，比如混合精度的矩阵操作，CUDA Core计算不是很高效，于是NVIDIA就开始专门针对tensor张量运算的硬件单元Tensor Core。

2.7 RT Core(光线追踪运算核心)

光线跟踪专用的运算单元。

2.8 Tensor Core(硬件核)

张量运算核心Tensor Core；
深度学习运算单元Tensor Core；
Tensor Core比流处理器更强大的专门针对深度学习矩阵操作有特别优化的一个运算核；
Tensor Core第一代是在volta架构上推出的，格外擅长加速矩阵—矩阵乘法，这是训练神经网络和推理功能的核心算法，换句话说，这就是机器学习所必须的硬件基础。

[pascal与volta对比](Nvidia GPU.assets/pascal与volta对比.mp4)

2.9 DLA单元（Deep Learning Accelerator）

深度学习加速器。

Nvidia DLA is designed specifically for the deep learning use case and is used for offload the inference effort from GPU.
These engines improve energy efficiency and free up the GPU to run more complex networks and dynamic tasks implemented by the user.

2.10 LD/ST（load store unit）

用来操作内存的。

2.11 SFU（Special function unit）

用来做cuda的intrinsic function的。

2.12 TensorRT(软件库)

加快推断(inference)的速度。

Nvidia：CUDA GPU，面向嵌入式的Jetson；
Intel：Movidius VPU（NCS2）；
Apple：A12处理器（及之后）上的NPU；
高通：骁龙处理器(上的AIE引擎，目前到了第5代);
华为：麒麟处理器（达芬奇架构);

2.13 NVIDIA的显卡架构出道顺序

Tesla1.0 （2006年, 代表GeForce8800)
Tesla2.0 (GT200)
Fermi(算力可以支撑深度学习啦)
Kepler(core增长)
Maxwell（core继续增长）
Pascal（算力提升）
Volta(第一代tensor core)
Turning(第二代 tensor core)
Ampere(第三代tensor core)

2.14 AI程序如何调用显卡计算资源

用户代码 -> AI框架（PyTorch/Tensorflow/Caffe等）-> CUDA lib -> Driver -> 显卡。

三、GPU架构

compute-capabilities

计算能力并不是描述GPU设备计算能力强弱的绝对指标，准确的说，这是一个架构的版本号。一般来说越新的架构版本号更高，计算能力的第一个数值也就最高(例如3080计算能力8.6)，而后面的6代表在该架构前提下的一些优化特性。

3.1 Fermi

Compute Capability: 2.0, 2.1。

Fermi 架构 SM

每个 SM 包含：

2 个 Warp Scheduler/Dispatch Unit；
32 个 CUDA Core（分在两条 lane 上，每条分别是 16 个）
- 每个 CUDA Core 里面是 1 个单精浮点单元（FPU）和 1 个整数单元（ALU），可以直接做 FMA 的乘累加；
- 每个 cycle 可以跑 16 个双精的 FMA；
16 个 LD/ST Unit；
4 个 SFU；

3.2 Kepler架构

Compute Capability: 3.0, 3.2, 3.5, 3.7；
Tesla K40；

Kepler 架构 SM

每个 SM包含：

4 个 Warp Scheduler，8 个 Dispatch Unit；
CUDA Core 增加到 192 个（4 * 3 * 16，每条 lane 上还是 16 个）；
单独分出来 64 个（4 * 16，每条 lane 上 16 个）双精运算单元。；
SFU 和 LD/ST Unit 分别也都增加到 32 个；

3.3 Maxwell（麦克斯韦架构）

Compute Capability: 5.0, 5.2, 5.3；

GTX 9 SERIES；

Tesla M40；

Maxwell架构 SM

每个SM包含：

4个 Warp Scheduler，8个 Dispatch Unit；
128个CUDA Core（4 * 32）；
32个 SFU 和 LD/ST Unit（4 * 8）；

每个 Process Block包含：

1个Warp Scheduler 和 2个 Dispatch Unit；
32个 CUDA Core；
8个 SFU 和 LD/ST Unit；

3.4 Pascal 架构

Compute Capability: 6.0, 6.1, 6.2；

GTX 10 SERIES；
Tesla P100；

Pascal架构是NVIDIA于 GTC 2016发布的GPU架构

CUDA Core在这一代终于有升级，硬件直接支持FP16的半精度计算，半精度性能是单精度的2倍，一个单精度单元用两个半精度计算。

Pascal 架构 SM

每个SM包含：

2个 Warp Scheduler，4个Dispatch Unit；
64个 CUDA Core（2 * 32）；
32个双精度浮点单元（2 * 16）;
16个 SFU 和 LD/ST Unit（2 * 8）；

每个 Process Block包含：

1个Warp Scheduler 和 2个 Dispatch Unit；
32个 CUDA Core；
多了16个 DP Unit；
8个SFU 和 LD/ST Unit；

3.5 Volta架构

参考资料：深度解析Volta架构，专为深度学习而生的Tensor Core

Compute Capability: 7.0, 7.2；

Tesla V100；

Volta架构是NVIDIA于 GTC 2013发布的GPU架构。

Volta架构专为计算和数据科学而打造，通过将 NVIDIA® CUDA® 和 Tensor 核心配合使用，可以在单个 GPU 中提供 AI 超级计算机的性能。

Volta 架构 SM

每个SM包含：

4 个 Warp Scheduler，4 个 Dispatch Unit；
64 个 FP32 Core（4 * 16）；
64 个 INT32 Core（4 * 16）；
32 个 FP64 Core（4 * 8）；
8 个 Tensor Core （4 * 2）；
32 个 LD/ST Unit（4 * 8）；
16 个 SFU；

每个 Process Block 包含：

1 个 Warp Scheduler，1 个 Dispatch Unit；
16 个 FP32 Core；
16 个 INT32 Core；
8 个 FP64 Core；
2 个 Tensor Core；
8 个 LD/ST Unit；
4 个 SFU；

3.6 Turning(图灵架构)

Compute Capability: 7.5；

RTX 20 SERIES；
Quadro RTX 8000；
Quadro RTX 6000；
Quadro RTX 5000；
Quadro RTX Server；

Turning架构是NVIDIA于在 SIGGRAPH 2018发布的GPU架构。

Turning 架构 SM

每个 SM 包含：

4 个 Warp Scheduler，4 个 Dispatch Unit；
64 个 FP32 Core（4 * 16）；
64 个 INT32 Core（4 * 16）；
8 个 Tensor Core（4 * 2）；
16 个 LD/ST Unit（4 * 4）；
16 个 SFU；

每个 Process Block 包含：

1 个 Warp Scheduler，1 个 Dispath Unit；
16 个 FP32 Core；
16 个 INT32 Core；
2 个 Tensor Core；
4 个 LD/ST Unit；
4 个 SFU；

Turning图灵架构的光线跟踪特性，实际上是旧有光线跟踪技术与近年兴起的人工智能（AI）、深度学习结合的产物，先是利用光线跟踪专用的运算单元RT core生成图像的关键要素，剩余的非关键要素则是交由深度学习运算单元Tensor Core来补全

在Turning图灵架构中，每个SM单元包含了64个CUDA核心、1个RT核心和8个张量核心，1 SM = 64 CUDA Core + 1 RT Core + 8 Tensor Core

RTX 2080、RTX 2080ti是图灵架构，具有实时光线跟踪（Ray tracing）功能
RTX 2070 SUPER的SM单元数量比RTX 2070多4个，达到40个。由于在图灵架构中，每个SM单元包含了64个CUDA核心、1个RT核心和8个张量核心，所以RTX 2070 SUPER的CUDA核心数增加到2560个，而RTX 2070的CUDA核心数为2304个，同时前者的RT核心和张量核心分别增加了4个和32个

3.7 Ampere（安培架构）

Compute Capability: 8.0；

RTX 30 SERIES；

Ampere架构是NVIDIA于 GTC 2020发布的GPU架构，NVIDIA Ampere 由540亿晶体管组成，是7nm芯片。

Ampere 架构 SM

每个 SM 包含：

4 个 Warp Scheduler，4 个 Dispatch Unit；
64 个 FP32 Core（4 * 16）；
64 个 INT32 Core（4 * 16）；
32 个 FP64 Core（4 * 8）；
4 个 Tensor Core （4 * 1）；
32 个 LD/ST Unit（4 * 8）；
16 个 SFU；

每个 Process Block 包含：

1 个 Warp Scheduler，1 个 Dispatch Unit；
16 个 FP32 Core；
16 个 INT32 Core；
8 个 FP64 Core；
1 个 Tensor Core；
8 个 LD/ST Unit；
4 个 SFU；

四、算力

Matching CUDA arch and CUDA gencode for various NVIDIA architectures
CUDA：NVCC编译过程和兼容性详解

4.1 算力表

NVIDIA算力表
【原】CUDA的deviceQuery命令

4.2 不同算力支持的量化等级

hardware-precision-matrix

GPU有个重要参数-算力，算力值对应GPU的“代”值，如算力5.0，对应的“代”为sm_50，也对应Maxwell架构。

为了实现GPU架构的演变，NVIDIA GPU以不同代次发布。新一代产品在功能和/或芯片架构方面会引入重大改进。同一代产品中的GPU模型显示出较小的配置差异，对功能和/或性能产生中等的影响。

除了sm_20,sm_30,sm_50这些大的代号，还有sm_21,sm_35,sm_53这些小代，这些小代不会做大的改变，会有一些小的调整，如调整寄存器和处理器集群的数量。这只影响执行性能，不会改变功能。程序更精准的对应GPU代号可能达到最佳性能。

在实际结论中，compute_30以上的程序，算力高的GPU可以运行编译成低代的程序，反之则不行，如算力5.0的GPU可以运行编译成compute_30,sm_30的程序。虚拟框架由compute_开头，真实框架由sm_开头。

'-gencode', 'arch=compute_50,code=sm_50'
表示算力5.0以上的GPU都可以运行编译的程序，但算力3.0的GPU就不能运行了。
-gencode，-genarate-code的缩写，保证用户GPU可以动态选择最合适的GPU架构（最适合GPU的大代和小代）

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8vsCsxn6-1648990324595)(Nvidia GPU.assets/代与算力的关系.png)]

五、GPU类型

用于训练的DGX；
用于超大规模云的HGX；
用于边缘的EGX；
用于终端的AGX；

六、特殊产品

6.1 Xavier SOC

参考资料

NVIDIA声称Xavier是迄今为止发明的最复杂的SOC
NVIDIA Jetson Xavier性能首测：AI性能碾压苹果A12，自研CPU架构看齐骁龙845

用于无人机和机器人的Jetson Xavier；
用于诸如L3-4级驾驶辅助的Drive Xavier；
旗舰Drive Pegasus，具有双Xavier SOC和2瓦GPU，以支持完全自动驾驶的L5级别；

6.2 Jetson平台

参考资料

CUDA 初学者统一内存
CUDA中的Unified Memory

Jetson是NVIDIA嵌入式产品，不存在独立的显存和内存，即CPU和GPU共用存储器。

6.2.1 Jetson TK1

2018年已经下架
属于探索性产品

6.2.2 Jetson Nano

参考资料

AI | Nvidia Jetson Nano介绍与使用指南

售价899RMB
最新推出，主打便宜

6.2.3 Jetson TX2

教育售价2899RMB
迭代升级

6.2.4 Jetson Xavier NX

教育售价2899RMB
迭代升级

6.2.5 Jetson AGX Xavier

教育售价7099RMB
迭代升级

专为自动驾驶技术和汽车产品使用的超算解决方法，是所谓的车规级SoC芯片。

	Jetson Nano	Jetson TX2	Jetson Xavier NX	Jetson AGX Xavier
架构	Maxwell™	Pascal™	Volta™	Volta™
NVIDIA CUDA 核心	128	256	384	512
Tensor 核心			48	64

【JS】执行时长(100分) |思路参考+代码解析（C++） l939035548 JS 算法数据结构 c++
题目为了充分发挥GPU算力，需要尽可能多的将任务交给GPU执行，现在有一个任务数组，数组元素表示在这1秒内新增的任务个数且每秒都有新增任务。假设GPU最多一次执行n个任务，一次执行耗时1秒，在保证GPU不空闲情况下，最少需要多长时间执行完成。题目输入第一个参数为GPU一次最多执行的任务个数，取值范围[1,10000]第二个参数为任务数组长度，取值范围[1,10000]第三个参数为任务数组，数字范围
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
2020年最新程序员职业发展路线指南，超详细！编程流川枫 11 编程语言程序员互联网 IT 职业
【文章来源微信公众号：每天学编程】01、程序员的特性技术出身的职场人特性很明显，与做市场、业务出身的职场人区别尤其明显。IT行业中常见的一些职场角色：老板、项目经理、产品经理、需求分析师、设计师、开发工程师、运维工程师等。开发工程师具有如下特征：1、逻辑思维清晰、严谨和细腻；但是有时不容易转弯，有些程序员容易较劲、钻牛角尖。2、性格偏内向、不善于沟通、表达和交际；但是在网络聊天工具上，有些显为幽默
【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（二十八）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
2021-06-07 Do What You Are Meant To Do 春生阁
Don’tgiveupontryingtofindbalanceinyourlife.Sticktoyourpriorities.Rememberwhat’smostimportanttoyouanddoeverythingyoucantoputyourselfinapositionwhereyoucanfocusonthosepriorities,ratherthanbeingpulledbyt
ruby和python哪个好学 hakesashou python基础知识 ruby python 开发语言
Ruby和python都挺好学的。建议学习Python，语法的话，Python相对更简洁。而且Python应用场合更广泛，运维、网站开发、数据处理、科学研究都可以。Ruby和Python十分相似，有很多共同点，但也有一些不同之外，以下是Python和Ruby的对比：1、Python和Ruby都是面向对象的语言，都是动态和灵活的。二者的主要区别在于他们解决问题的方式。Ruby提供了不同的方法，而Py
Python(PyTorch)和MATLAB及Rust和C++结构相似度指数测量导图亚图跨际 Python 交叉知识算法量化检查图像压缩质量低分辨率多光谱峰值信噪比端到端优化图像压缩手术机器人三维实景实时可微分渲染重建三维可视化
要点量化检查图像压缩质量低分辨率多光谱和高分辨率图像实现超分辨率分析图像质量图像索引/多尺度结构相似度指数和光谱角映射器及视觉信息保真度多种指标峰值信噪比和结构相似度指数测量结构相似性图像分类PNG和JPEG图像相似性近似算法图像压缩，视频压缩、端到端优化图像压缩、神经图像压缩、GPU变速图像压缩手术机器人深度估计算法重建三维可视化推理图像超分辨率算法模型三维实景实时可微分渲染算法MATLAB结构
华为云分布式缓存服务DCS与开源服务差异对比 hcinfo_18 redis使用华为云 Redis5.0 分布式缓存服务 Redis客户端
分布式缓存服务DCS提供单机、主备、集群等丰富的实例类型，满足用户高读写性能及快速数据访问的业务诉求。支持丰富的实例管理操作，帮助用户省去运维烦恼。用户可以聚焦于业务逻辑本身，而无需过多考虑部署、监控、扩容、安全、故障恢复等方面的问题。DCS基于开源Redis、Memcached向用户提供一定程度定制化的缓存服务，因此，除了拥有开源服务缓存数据库的优秀特性，DCS提供更多实用功能。一、与开源Red
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
显卡新拐点，涨价或成必然！2019下半年如何选购笔记本？笔点酷玩
电脑硬件的售价经常浮动，普通消费者完全无法摸透。这是一场持久战，你需要一颗强劲的心脏，以及一些超出预算的资金，降价还好办，万一涨价呢？比如近大半年内存、SSD的持续降价，不少装机人已经沉浸在历史舒适区难以自拔，ddr266616GB已从千元降至500价位段，ddr432008GB也能二百多入手，很难想象1年前还要600入手。除了内存和SSD，处于“换代”的显卡同样带来香甜价格，比如RX5808GB
Prometheus运维六 PromQL查询语言详解及操作安顾里 Prometheus 监控类大数据 kubernetes 运维 linux
海阔凭鱼跃，天高任鸟飞Prometheus官网：https://prometheus.io/文章目录1.什么是PromQL?2.PromQL的基本使用2.1时间序列选择器2.1.1瞬时向量选择器2.2区间向量选择器2.2.1范围向量选择器2.2.2时间位移操作2.2.3使用聚合操作2.3标量和字符串3.PromQL操作符4.内置常用函数5.HTTPAPI操作PromQL6.使用建议1.什么是Pro
Ansible架构介绍与安装 2401_86637445 ansible 架构
一、介绍Ansible什么是Ansible?Ansible是一款自动化运维工具，其主要功能是帮助运维实现IT工作的自动化、降低人为操作失误、提高业务自动化率、提升运维工作效率。实现了批量系统配置、批量程序部署、批量运行命令等功能。ansiblepuppetsaltstack主流的三种。ansible自动化运维工具被红帽收购阿里巴巴在用saltstackpython开发。无客户端，只需安装SSH、P
【大模型】triton inference server idiotyi 大模型自然语言处理语言模型人工智能
前言：tritoninferenceserver常用于大模型部署，可以采用http或GRPC调用，支持大部分的backend，单GPU、多GPU都可以支持，CPU也支持。本文主要是使用tritoninferenceserver部署大模型的简单流程示例。目录1.整体流程2.搭建本地仓库3.服务端代码4.启动服务5.客户端调用1.整体流程搭建模型仓库模型配置服务端调用代码docker启动服务客户端调用
【K8S】kubernetes集群架构与组件奇奇怪怪^ 云 Linux IT 运维服务器 linux
文章目录【K8S】kubernetes集群架构与组件kubernetes组件**master组件**node组件整体流程POD终止过程【K8S】kubernetes集群架构与组件kubernetes组件K8S是属于主从设备模型(Master-slave架构)，即有Master节点负责集群的调度、管理和运维，Slave节点是集群中的运算工作负载节点在K8S中，主节点一般被称为Master节点，而从节
Spring Boot实现多租户架构 spring_root spring boot 架构后端
一、概述1什么是多租户架构？多租户架构是指在一个应用中支持多个租户（Tenant）同时访问，每个租户拥有独立的资源和数据，并且彼此之间完全隔离。通俗来说，多租户就是把一个应用按照客户的需求“分割”成多个独立的实例，每个实例互不干扰。2多租户架构的优势更好地满足不同租户的个性化需求。可以降低运维成本，减少硬件、网络等基础设施的投入。节约开发成本，通过复用代码，快速上线新的租户实例。增强了系统的可扩展
【Linux 从基础到进阶】Puppet配置管理工具使用爱技术的小伙子 Linux从基础到进阶 linux puppet 运维
Puppet配置管理工具使用Puppet是一种开源的配置管理工具，广泛用于自动化管理和配置服务器。它通过声明式的语言定义系统状态，能够跨多台服务器实现一致性配置。Puppet对运维团队来说，是一种强大的工具，能够有效管理服务器配置并简化操作复杂性。本文将详细介绍Puppet的核心概念、安装步骤、以及如何在CentOS和Ubuntu系统上进行配置和管理。1.Puppet的核心概念在使用Puppet之
Docker 安装配置和基本命令详解以及案例示范 J老熊 docker 容器运维面试 linux
1.引言容器化技术的快速发展给软件开发和运维带来了革命性的变化，Docker作为这一领域的领军者，已经成为软件开发和部署流程中的重要工具。Docker的轻量化、快速启动和高效资源利用让开发者能够在不同的环境中实现一致的开发体验。本篇文章将详细讲解如何在CentOS系统中安装Docker，如何配置阿里云镜像加速，Docker的基本命令和语法，以及通过实际的电商交易系统案例来演示如何在Docker环境
服务器运维小技巧（二）——如何进行监控告警 baiolkdnhjaio 网络安全
服务器运维难度高的原因，很大程度是因为服务器一旦出现问题，生产环境的业务就会受到严重影响，极有可能带来难以承担的后果。因此这份工作要求工程师保持高要求的服务质量，能够快速响应问题，及时解决问题。但是“及时”的这一点很难做到，需要通过优化工作流程、建立预警系统，搭建自动化等行为快速响应。今天主要介绍如何通过服务器运维工具搭建监控预警的手段来辅助缩短响应时间。首先打开牧云主机管理助手，进入系统设置界面
科锐国际（计算机类），汤臣倍健，中建三局，宁德时代，途游游戏，得物，顺丰，康冠科技24春招内推 weixin_53585422 c++算法 python java c语言
科锐国际（计算机类），汤臣倍健，中建三局，宁德时代，途游游戏，得物，顺丰，康冠科技24春招内推①汤臣倍健【内推岗位】：市场类、营销类、研发类、电商类、职能类、IT技术类、商业分析类、生产运营类【内推链接】https://sourl.cn/JSDhLU【推荐码】ES3W2T②科锐国际(OD项目组--计算机专场)【招聘岗位】软件开发工程师、软件测试工程师、大数据开发工程师、运维工程师等计算机类岗位，2
前端发布 CDN缓存跳动的世界线前端缓存 CDN
公司给服务器加了CDN，导致有时前端代码上传打包后，正式环境页面效果却不更新。每次都需要去找运维刷CDN…让我彻底记住了CDN缓存CDN（ContentDeliveryNetwork，内容分发网络）是一种广泛使用的互联网技术，旨在提高用户访问网站的速度和可靠性。CDN的核心思想是将网站的内容缓存到全球分布的边缘节点上，让用户能够从最近的节点获取数据，从而减少延迟和带宽消耗。CDN缓存机制的基本原理
英伟达（NVIDIA）B200架构解读 weixin_41205263 芯际争霸 GPGPU架构 gpu算力人工智能硬件架构
H100芯片是一款高性能AI芯片，其中的TransformerEngine是专门用于加速Transformer模型计算的核心部件。Transformer模型是一种自然语言处理（NLP）模型，广泛应用于机器翻译、文本生成等任务。TransformerEngine的电路设计原理主要包括以下几个方面：
Upstage 将发布新一代 LLM “Solar Pro “预览版吴脑的键客人工智能人工智能
SolarPro是最智能的LLM，经过优化可在单GPU上运行，性能超过微软、Meta和谷歌等科技巨头的模型。加州圣何塞2024年9月11日电/美通社/–Upstage今天宣布发布其下一代大型语言模型(LLM)SolarPro的预览版。加州圣何塞2024年9月11日电/美通社/–Upstage今天宣布发布其下一代大型语言模型(LLM)SolarPro的预览版。该预览版作为开源模型免费提供API访问，
如何快速的构建企业运维可视化大屏益达_glmsb
基于AIOps理念研发的新一代运维监大屏全盘展示IT运行状态，减轻运维人员的重复性工作量，提高IT系统排错速度，加速运维知识学习积累。图片1.png领先的数据可视化平台，把IT运维化繁为简图片2.jpg图片3.png图片4.png图片5.png图片6.png全面提升IT运维管理水平1.直接导出精美的IT运行可视化报表图片7.png2.资源分析对比图片8.png3.自动生成监控项运行“脑图”图片9.
使用vllIm部署大语言模型添砖JAVA的小墨机器学习
使用vllm部署大语言模型一般需要以下步骤：一、准备工作1.系统要求-操作系统：常见的Linux发行版（如Ubuntu、CentOS）或Windows（通过WSL）。-GPU支持：NVIDIAGPU并安装了适当的驱动程序。-足够的内存和存储空间。2.安装依赖-Python3.8及以上版本。-CUDA工具包（根据GPU型号选择合适的版本）。二、安装vllm1.创建虚拟环境（推荐）-使用Conda：c
大模型框架：vLLM m0_37559973 大模型大模型通义千问 Qwen
目录一、vLLM介绍二、安装vLLM2.1使用GPU进行安装2.2使用CPU进行安装2.3相关配置三、使用vLLM3.1离线推理3.2适配OpenAI-API的API服务一、vLLM介绍vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架。它利用了全新的注意力算法「PagedAttention」，提供易用、快速、便宜的LLM服务。二、安装vLLM2.1使用GPU进行安装vLLM是一个Py
使用MLOps进行AI部署的顶级公司 AI研报人工智能
自从AI技术进入主流领域以来，MLOps（机器学习运维）已成为在生产环境中部署和管理机器学习模型的一系列实践，这对企业的成败起着关键作用。各种背景的公司都在采用MLOps技术，以简化操作、提高模型效率和扩展AI解决方案。本文介绍了在AI部署方面表现突出的顶尖公司，它们的策略以及成功案例。使用MLOps进行AI部署的公司1.谷歌谷歌在MLOps领域处于领先地位，凭借其在云计算和机器学习研发方面的深厚
ansible入门打败404 运维 linux ansible
一、ansible简介1、ansible是什么？ansible是目前最受运维欢迎的自动化运维工具，基于Python开发，集合了众多运维工具（SaltStackpuppet、chef、func、fabric）的优点，实现了批量系统配置、批量程序部署、批量运行命令等功能。ansible是基于paramiko开发的,并且基于模块化工作，本身没有批量部署的能力。真正具有批量部署的是ansible所运行的模
天下苦英伟达久矣！PyTorch官方免CUDA加速推理，Triton时代要来？诗者才子酒中仙物联网 /互联网 /人工智能 /其他 pytorch 人工智能 python
在做大语言模型（LLM）的训练、微调和推理时，使用英伟达的GPU和CUDA是常见的做法。在更大的机器学习编程与计算范畴，同样严重依赖CUDA，使用它加速的机器学习模型可以实现更大的性能提升。虽然CUDA在加速计算领域占据主导地位，并成为英伟达重要的护城河之一。但其他一些工作的出现正在向CUDA发起挑战，比如OpenAI推出的Triton，它在可用性、内存开销、AI编译器堆栈构建等方面具有一定的优势
云平台下存储运维的变革与实践宋罗世家技术屋 VIP专栏运维大数据
【摘要】未来存储监控平台可结合整体智能运维分层立体的监控体系，实现从基础设施到租户业务的端到端全覆盖的立体监控，提供基础监控、业务监控、链路监控等方面通用平台能力，将监控平台+云服务+一线运维等各云服务监控整合基于监控平台实现自己特定业务监控。现有运维体系的建设现状随着银行数字化转型升级进程的加快，IT系统架构越来越复杂，软件更新迭代越来越快。银行信息化建设中的大量业务和数据需要依靠信息系统来完成
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS

NVIDIA GPU显卡介绍

一、参考资料

二、相关概念

2.1 dGPU

2.2 FLOPS（Floating-point operations per second）

2.3 TOPS（Tera Operations Per Second）

2.4 SM流处理器

2.5 SMP（SM Processing Block）

2.6 CUDA Core

2.7 RT Core(光线追踪运算核心)

2.8 Tensor Core(硬件核)

2.9 DLA单元（Deep Learning Accelerator）

2.10 LD/ST（load store unit）

2.11 SFU（Special function unit）

2.12 TensorRT(软件库)

2.13 NVIDIA的显卡架构出道顺序

2.14 AI程序如何调用显卡计算资源

三、GPU架构

3.1 Fermi

3.2 Kepler架构

3.3 Maxwell（麦克斯韦架构）

3.4 Pascal 架构

3.5 Volta架构

3.6 Turning(图灵架构)

3.7 Ampere（安培架构）

四、算力

4.1 算力表

4.2 不同算力支持的量化等级

五、GPU类型

六、特殊产品

6.1 Xavier SOC

6.2 Jetson平台

6.2.1 Jetson TK1

6.2.2 Jetson Nano

6.2.3 Jetson TX2

6.2.4 Jetson Xavier NX

6.2.5 Jetson AGX Xavier

你可能感兴趣的:(运维,GPU,显卡,nvidia)