边缘推理第3页

A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS——大型语言模型的训练后优化综述——第9部分——应用

应用尽管预训练为大型语言模型（LLMs）赋予了强大的基础能力，但在部署于专业领域时，LLMs仍经常遇到持续的限制，包括上下文长度受限、容易产生幻觉（hallucination）、推理能力欠佳和固有的偏见

王金-太想进步了·2025-03-19 19:31

知识蒸馏：从软标签压缩到推理能力迁移的工程实践(基于教师-学生模型的高效压缩技术与DeepSeek合成数据创新)

知识蒸馏通过迁移教师模型（复杂）的知识到学生模型（轻量），实现模型压缩与性能平衡。核心在于利用教师模型的软标签（概率分布）替代独热编码标签，学生模型不仅学习到教师模型输出数据的类别信息，还能够捕捉到类别之间的相似性和关系，从而提升其泛化能力核心概念知识蒸馏的核心目标是实现从教师模型到学生模型的知识迁移。在实际应用中，无论是大规模语言模型（LLMs）还是其他类型的神经网络模型，都会通过softmax

AI仙人掌·2025-03-19 17:20

KV 缓存简介

KV缓存是Transformer架构（如GPT、LLaMA等大模型）在自回归生成任务（如文本生成）中，用于加速推理过程的核心技术。

dev.null·2025-03-19 17:49

探索AI知识库的无限潜力：定义、应用与未来展望

它不仅包含了大量的结构化、半结构化和非结构化数据，还具备智能检索、推理分析、自我学习和优化等高级功能。

·2025-03-19 16:15

Git 分支使用规范全解（多人协作开发适用）

Git分支使用规范全解（多人协作开发适用）本文将为你梳理一套清晰、标准、适合企业/团队使用的Git分支管理策略，适用于前后端、边缘端、AI项目等多种场景。为什么要规范分支管理？

滴答滴答滴嗒滴·2025-03-19 15:03

Git 分支使用规范全解（附项目示例）

场景背景：开发一个“智能垃圾分类系统”目标是开发一套运行于边缘设备上的垃圾识别系统，使用AI算法模型识别投放物，并分类投放，同时配有后台管理页面。分支说明与实际应用示例main分支（生产

滴答滴答滴嗒滴·2025-03-19 14:26

GPT-4o mini小型模型具备卓越的文本智能和多模态推理能力

GPT-4omini在学术基准测试中，无论是在文本智能还是多模态推理方面，都超越了GPT-3.5Turbo和其他小型模型，并支持与GPT-4o相同的语言范围。

FlowUs息流使用宝典·2025-03-19 14:55

5G时代新基建：边缘节点如何将云计算响应速度提升300%“

为了解决这一问题，边缘计算应运而生，并成为5G时代新基建的重要组成部分。本文将探讨边缘节点如何结合5G技术，将云计算响应速度提升300%，为企业和用户带来更流畅的数字体验。

云上的阿七·2025-03-19 12:46

推理速度超快！vLLM本地部署Mistral-Small 3.1+全方位测试多模态大模型！超越Gemma3.1，最适合企业项目的大模型！中文OCR能力也不弱

本篇笔记所对应的视频https://www.bilibili.com/video/BV1Q9XLYiEwD/MistralAI最新推出的MistralSmall3.1模型无疑是近期科技界的一大亮点。这款由法国AI实验室MistralAI开发的开源多模态模型，以其卓越的性能和灵活性，为开发者、企业和研究人员带来了全新的可能性。凭借24B参数、对文本与图像的处理能力，以及在多个关键指标上的突破，Mis

AI超元域·2025-03-19 12:14

算力技术创新驱动多场景应用演进

在工业互联网场景中，边缘计算通过分布式节点实现毫秒级响应，支撑智能制造产线的实时控制；智能安防系统依托深度学习模型与流计算技术，完成海量视频数据的动态解析；而科学计算领域通过分布式计算与模型压缩技术，将基因测序

智能计算研究中心·2025-03-19 11:06

算力未来演进与多场景创新

从技术架构层面来看，异构计算通过整合CPU、GPU、FPGA等多元芯片实现性能跃升，边缘计算则借助分布式节点降低时延并提升响应效率，而量子计算在特定领域的指数级加速潜力已进入验证阶段。

智能计算研究中心·2025-03-19 11:06

未来5年AI人工智能与信息技术领域发展趋势

以Transformer为核心的序列建模技术持续迭代，字节跳动云雀模型通过动态结构优化，在保持语言理解能力的同时将参数量压缩至GPT-4的1/10，推理速度提升3倍。

海宁不掉头发·2025-03-19 11:03

使用 DeepSeek-R1 为 RAG 运行本地 Gradio 应用程序

第1步：先决条件在深入研究实现之前，我们确保已安装以下工具和库：Python3.8+Python3.8+版Langchain：用于构建由大型语言模型（）LLMs提供支持的应用程序的框架，支持轻松检索、推理和工具集成

呱牛 do IT·2025-03-19 10:53

OctoTools：一个具有复杂推理可扩展工具的智体框架

解决复杂的推理任务可能涉及视觉理解、域知识检索、数值计算和多步骤推理。现有方法使用外部工具增强大语言模型(LLM)，但仅限于专业领域、有限的工具类型或需要额外的训练数据。

三谷秋水·2025-03-19 09:09

【大模型开发】ONNX 格式的大模型在 Android 上的部署与测试

最后会给出一些针对在移动设备上部署ONNX推理的优化方法和未来建议。

云博士的AI课堂·2025-03-19 08:05

Linux中部署DeepSeek R1

DeepSeek-R1本地部署硬件需求表模型规模GPU需求CPU需求内存需求存储需求备注1.5B-GTX16504GB（可选）四核i5/Ryzen3000+16GBDDR450GBSSD需4-bit量化，CPU推理延迟约

Java探索者 °·2025-03-19 07:26

自建智能算力中心 vs 第三方算力租赁：AI企业的算力博弈与最优解

从ChatGPT到DeepSeek，从自动驾驶到智能医疗，AI模型的训练和推理需求呈现指数级增长。在这场技术革命中，算力已成为企业竞争的“命脉”。

·2025-03-19 03:50

理解深度学习1-简介

它覆盖了众多方法，涵盖了基于逻辑、搜索和概率推理的技术。机器学习是AI的一个分支，它通过对观测数据进行数学模型拟合来学习决策制定。这个领域近年来迅猛发展，现在几乎（虽不完全准确）与AI同义。

shangjg3·2025-03-18 21:35

程序员必看！DeepSeek全栈开发实战指南：从代码生成到性能优化

这两项技术突破对程序员群体意义重大：通信效率飞跃：DeepEP通过NVLink优化实现GPU间158GB/s传输速度，后端开发者训练大模型时可节省60%集群资源推理性能突破：R1模型在H

AI创享派·2025-03-18 20:59

五、AIGC大模型_05模型的vLLM部署与LangChain调用

0、概述要搭建一个大模型应用服务，通常需要包含以下五层结构，即：基础环境、模型层、推理层、对外接口、外挂应用在了解了模型的微调训练之后，本文将以vLLM、OpenAI、LangChain为例，介绍大模型的推理部署以及对外接口开放调用

学不会lostfound·2025-03-18 19:20

3D-AFFORDANCELLM: HARNESSING LARGE LANGUAGE MODELS FOR OPEN-VOCABULARY AFFORDANCE DETECTION

为了解决这些限制，我们将传统的可及性检测范式重新定义为指令推理可及性分割（IRAS）任务。该任务旨在根据查询推理文本输出可及性掩码区域，避免了输入标签的固定类别。相应地，我们提出了

UnknownBody·2025-03-18 16:00

yolov4

从数据层面和网络设计层面来进行改善消融实验，感觉能做的都让他给做了，这工作量不轻全部实验都是单GPU完成，不用太担心设备了Bagoffreebies(BOF)只增加训练成本，但是能显著提高精度，并不影响推理速度数据增强

zzh-·2025-03-18 16:28

llama.cpp 和 LLM（大语言模型）

它通过海量文本数据训练，能够生成连贯、语义丰富的文本，完成问答、创作、推理等任务。特点：参数规模大：如GPT-3（1750亿参数）、Llama-65B（650亿参数）等。

这个懒人·2025-03-18 14:12

epoll两种事件触发模式有什么区别

水平触发和边缘触发是epoll提供的两种事件通知模式，它们在处理文件描述符的I/O事件时有不同的行为：水平触发默认模式：这是epoll的默认工作模式，与传统的select和poll类似。

C嘎嘎嵌入式开发·2025-03-18 14:41

Elasticsearch：为推理端点配置分块设置

推理端点对一次可处理的文本量有限，具体取决于模型的输入容量。分块（Chunking）是指将输入文本拆分成符合这些限制的小块的过程，在将文档摄取到semantic_text字段时会进行分块。

Elastic 中国社区官方博客·2025-03-18 13:35

Yolov11目标检测(ultralytics)

Yolov11目标检测（ultralytics）1.克隆仓库2.安装环境依赖3.训练、验证、推理以及onnx模型导出1.克隆仓库从官网下载Yolov11到本地。

@M_J_Y@·2025-03-18 13:02

TorchServe详解和应用

TorchServer是PyTorch的一个组件，它是一个轻量级的服务框架，用于部署和管理PyTorch模型，以便在生产环境中提供高效、可扩展的推理服务。

易之阴阳·2025-03-18 11:43

OpenCV计算摄影学（23)艺术化风格化处理函数stylization()

边缘感知滤波器是风格化处理的理想选择，因为它们能够弱化低对比度区域，同时保留或增强高对比度特征。

村北头的码农·2025-03-18 09:29

麦萌：《我们曾经有过家》深度解析 | 被至亲背刺后，首富如何用“系统性重构”逆风翻盘？

这一行为如同将分布式系统的核心节点降级为边缘服务——他默默为妻子铺路，助其从基层员工晋升至副厂长，甚至计划将能源厂最高控制权（厂长职位）移交给她。

短剧萌·2025-03-18 08:15

Flink流式计算系统

本文将以这些概念为基础，逐一介绍Flink的发展背景、核心概念、时间推理与正确性工具、安装部署、客户端操作、编程API等内容，让开发人员对Flink有较为全面的认识并拥有一些基础操作与编程能力。

xyzkenan·2025-03-18 07:13

LeetCode-490 迷宫问题（DFS）

你可以假设迷宫的边缘都是墙壁，防止小球出界，起始位置和目的地的坐标通过行号和列好给出。该题特别注意，小球是向一个方向运动，直到停下为止，并不是一次只

IC 见路不走·2025-03-18 07:06

Python库 - skimage

提供了丰富的图像处理功能，包括图像滤波、边缘检测、形态学操作、特征提取、图像分割等。

司南锤·2025-03-18 02:58

5G 网络的关键技术及对物联网发展的推动

目录一、5G网络的关键技术（一）毫米波技术（二）MassiveMIMO（大规模多输入多输出）（三）网络切片（四）边缘计算二、5G网络对物联网发展的推动（一）支持海量设备连接（二）低延迟与高可靠性通信（三

叶间清风1998·2025-03-18 01:49

ChatGPT推理模型&通用模型大解析！

很多人知道通用模型和推理模型了，那么ChatGPT的哪些模型是通用模型，哪些又是推理模型呢？

即兴小索奇·2025-03-18 00:38

【技术解密】本地部署 DeepSeek-V3：完整指南

目录引言运行环境需求下载与安装推理部署总结参考资源引言随着人工智能的快速发展，开源大模型正逐步改变着技术生态。

海棠AI实验室·2025-03-17 22:54

unity shader卡通渲染（描边）+阴影+多光源处理

说道卡通渲染，应该都会想到描边：我所学的描边有三种：一种是计算边缘深度检测描边一种是色差检测描边一种是利用顶点法线向外扩展返回单色pass，使用正面裁剪我用的第三种：pass{//剔除前面（朝向摄像机的面

QO_GQ·2025-03-17 22:51

【大模型实战篇】使用GPTQ量化QwQ-32B微调后的推理模型

低精度运算（如INT8）在GPU等硬件上计算效率更高，推理速度可提升2~4倍。我们的任务是，将QwQ-32B微调后的推理模型，也就是bf16的精度，通过量化，压缩到int4。

源泉的小广场·2025-03-17 21:19

LLM-PowerHouse: 一站式大型语言模型定制训练与推理指南

LLM-PowerHouse:解锁大型语言模型的潜力在人工智能和自然语言处理领域,大型语言模型(LargeLanguageModels,LLMs)正在掀起一场革命。随着GPT、BERT等模型的出现,LLMs展现出了惊人的能力,可以执行各种复杂的语言任务。然而,如何有效地训练和使用这些强大的模型仍然是一个挑战。针对这一需求,GitHub上的LLM-PowerHouse项目应运而生,为开发者、研究人员

Nifc666·2025-03-17 21:43

s1K 数据集：是一个用于提升语言模型推理能力的高质量数据集。

2025-02-07，由斯坦福大学、华盛顿大学等研究机构创建了s1K数据集，该数据集包含1,000个精心挑选的问题，并配以推理轨迹和答案，为语言模型推理能力的提升提供了重要的数据基础。

·2025-03-17 14:37

Ollama 基本概念

Ollama是一个本地化的、支持多种自然语言处理（NLP）任务的机器学习框架，专注于模型加载、推理和生成任务。通过Ollama，用户能够方便地与本地部署的大型预训练模型进行交互。

Mr_One_Zhang·2025-03-17 13:47

DeepSeek 在代码生成方面的优势解析

文章将详细解析DeepSeek在代码生成方面的优势，包括模型架构、数据训练、优化策略、编程语言支持、推理效率等核心技术点。1.DeepSeek-Coder的模型架构优化DeepSeek-Code

草莓屁屁我不吃·2025-03-17 08:15

Google Gemini 大模型技术架构剖析

Gemini系列包括Ultra、Pro和Nano三种尺寸，适用于从复杂的推理任务到设备内存受限的应用场景。GeminiUltra是最强大的模型，可在各种高度复杂的任务（包括推理和多

musicml·2025-03-17 08:15

文心一言提前免费，高性能大模型全面入局该咋看？

文心大模型4.5作为首个原生多模态大模型，在多模态理解、文本和逻辑推理能力上的显著提升，使其在多项测试中表现优于GPT4.5，这体现了百度在AI技术研发上的深厚积累。同时，文心大模型X1作为深度思

江瀚视野·2025-03-17 07:06

DeepSeek-R1模型1.5b、7b、8b、14b、32b、70b和671b有啥区别？

码笔记mabiji.com分享：1.5B、7B、8B、14B、32B、70B是蒸馏后的小模型，671B是基础大模型，它们的区别主要体现在参数规模、模型容量、性能表现、准确性、训练成本、推理成本和不同使用场景

facaixxx2024·2025-03-17 06:01

A survey on instance segmentation: state of the art——论文笔记

实例分割的发展从粗略的对象分类逐步演变为更精细的像素级别推理，广泛应用于自动驾驶、机器人等领域。论文为研究人员提供了对实例分割领域的全面了解和有价值的参考。

栀子清茶·2025-03-17 06:54

京准电钟推荐：智能交通系统NTP时间同步服务设计方案

以下是完整的方案框架：一、需求分析同步精度核心设备（如信号控制机、边缘服务器）需达到**毫秒级（1-10ms

北京华人开创公司·2025-03-17 05:16

[特殊字符] 用Rust重塑Web开发速度极限：Hyperlane框架——开启高性能服务的「光年时代」[特殊字符]

Rust内核级优化：基于tokio异步运行时的极致封装，QPS突破5万+，内存占用极低，完美适配边缘计算与云原生场景。️「开发者狂喜」：5分钟极速上

LTPP·2025-03-17 05:45

MindSpore：华为全场景AI框架的技术全景与生态实践

作为华为昇腾AI生态的基石，MindSpore支持端、边、云全场景覆盖，并深度融合昇腾处理器的算力特性，提供从模型开发、训练到推理部署的端到端能力。

彩旗工作室·2025-03-17 05:44

当通用智能遇到深度推理：如何正确驾驭DeepSeek-V3与R1？

2025年，中国AI公司DeepSeek凭借两款大模型——通用型V3与推理型R1，在技术圈掀起巨浪。这两款模型看似师出同门，却在能力边界与应用场景上存在显著差异。

涛涛讲AI·2025-03-17 04:42

本地部署大模型QPS推理测试

目录1、测试环境1.1、显卡1.2、模型1.3、部署环境1.3.1、docker1.3.2、执行命令2、测试问题2.1、20字左右问题2.2、50字左右问题2.3、100字左右问题3、测试代码3.1、通用测试代码3.2、通用测试代码（仅供参考）4、测试结果4.1、通用测试结果4.2、RAG测试结果1、测试环境1.1、显卡1.2、模型Qwen2.5-32B-Instruct1.3、部署环境xinfe

内卷焦虑人士·2025-03-17 03:30

推荐频道

边缘推理