预焙阳极

大模型（含deepseek r1）本地部署利器ollama的API操作指南

它支持多种预训练的大型语言模型（如LLaMA2、Mistral、Gemma、DeepSeek等），并提供了一个简单高效的方式来加载和使用这些模型。

·2025-02-20 13:41

DeepSeek与ChatGPT：AI语言模型的全面对决

为不同需求场景提供选择参考：一、核心技术对比维度DeepSeekChatGPT架构设计混合专家系统（MoE）+自研深度优化架构Transformer架构（GPT-3.5/4系列）训练策略万亿token中文语料预训练

金枝玉叶9·2025-02-20 12:01

使用BLIP模型生成图像描述的可查询索引

在本篇文章中，我们将介绍如何使用预训练的SalesforceBLIP图像描述模型，生成一个可查询的图像描述索引。我们将使用ImageCaptionLoader来加载图像，并通过一系列步骤生成查询索引。

dgay_hua·2025-02-20 08:24

DeepSeek掀起推理服务器新风暴，AI应用迎来变革转折点？

其发展分数据收集整理、模型训练、推理应用三个阶段，过去重模型训练，如今大量预训练模型出现，如何高效应用成新挑战，推理服务器应运而生。

小深ai硬件分享·2025-02-20 08:20

深入解析：Tableau在数据可视化中的高级应用

数据预

Echo_Wish·2025-02-20 07:18

【拥抱AI】一文讲清楚MCP(Model Context Protocol)核心功能及应用

MCP的主要功能包括数据集成、工具集成、模板化交互、安全性、开发者支持、预构建服务器和上下文维护。它通过客户端-服务器架构，支持多个服务连接到任何兼容的客户端，

奔跑草-·2025-02-20 06:08

使用Yuan 2.0与LangChain构建智能聊天应用：完整指南

相比之前的Yuan1.0，Yuan2.0使用了更广泛的高质量预训练数据，并通过指令微调数据集增强了模型的语义理解、数学推理、编程知识等能力。

scaFHIO·2025-02-20 05:33

DeepSeek 本地部署硬件配置全解析

而且它可“省钱”了，预训练费用还不到OpenAIGPT-4o模型的十

喜-喜·2025-02-19 23:34

自然语言处理NLP 01语言转换&语言模型

（FeatureExtraction）(1)词袋模型（BagofWords,BoW）(2)TF-IDF(3)词嵌入（WordEmbedding）3.模型输入（ModelInput）(1)序列编码(2)预训练模型输入

伊一大数据&人工智能学习日志·2025-02-19 22:56

ColD Fusion，分布式多任务微调的协同 “密码”

代码和公式）直观解释2.大模型进化史：从Transformer到DeepSeek-R1的AI变革之路3.2W8000字深度剖析25种RAG变体：全网最全~没有之一知乎【柏企】公众号【柏企科技说】【柏企阅文】在预训练模型的基础上进行改进

·2025-02-19 20:46

芯麦GC1267R单相双极驱动电机预驱动器解析：变速功能与PWM兼容性设计

一、芯片概述芯麦GC1267R是一款专为低电压单相双极步进电机或直流有刷电机设计的预驱动芯片，集成了高效的驱动逻辑和保护功能，支持PWM调速和外部信号控制，广泛应用于智能家居、工业设备、医疗仪器等领域。

深圳市青牛科技实业有限公司小芋圆·2025-02-19 15:31

Python库 - transformers

它提供了大量的预训练模型，这些模型可以用于各种NLP任务，如文本分类、问答、翻译、摘要生成等。

司南锤·2025-02-19 03:28

腾讯云大模型知识引擎×DeepSeek赋能文旅

其核心优势包括：动态知识更新：突破传统大模型预训练数据的时间

繁依Fanyi·2025-02-19 00:55

SFT（监督微调）和RLHF（基于人类反馈的强化学习）的区别

以下是它们的主要区别：1.方法概述STF（监督微调）：定义：STF是指在已经预训练好的模型基础上，使用标注好的数据进一步训练模型，使其在特定任务上

钟小宇·2025-02-18 18:11

DeepSeek为什么超越了OpenAI

其中，技术架构的突破最具革命性——DeepSeek创造性地采用"混合专家系统+领域预训练"架构，在特定领域的推理效率比OpenAI的GPT-4提升40%以上（根据2023年MLPerch基准测试）。

·2025-02-18 17:19

基于Knative的无服务器引擎重构：实现毫秒级冷启动的云原生应用浪潮

基于流量预测的预启动算法与内核级资源复用池两大技术创新，正在重新定义Serverless时代的性能边界。IDC最新报告指出，采用该架构的企业资源利用率平均提升至78%，年度计算成本直降320万美元。

桂月二二·2025-02-18 09:37

运用python制作一个完整的股票分析系统

数据处理：计算技术指标（如KDJ、BOLL）并进行数据预处

大懒猫软件·2025-02-18 04:46

【LLM】大模型基础--大规模预训练语言模型的开源教程笔记

1.引言本文以DataWhale大模型开源教程为学习路线，进行一整个大模型的入门操作什么是语言模型语言模型是一种对词元序列（token）的概率分布，可以用于评估文本序列的合理性并生成新的文本。从生成文本的方式来看，LM（languagemodle）可以简单的分为：自回归模型非自回归模型特点逐字生成文本，每个词的生成都依赖于上文，关联性好一次性生成整个文本序列，不捕捉上文信息优点内容质量高生成速度快

Langchain·2025-02-18 02:00

【云原生进阶之数据库技术】第四章-GaussDB-关键技术-2.4.1-GaussDB存储引擎层关键技术方案

主要思路是把对数据页面的随机写盘转化为对WAL(WriteAheadLog，预写式日志)的顺序写盘，WAL持久化完成，事务就算提交

江中散人·2025-02-17 22:43

AIMv2：多模态自回归预训练的视觉新突破

AIMv2：多模态自回归预训练的视觉新突破阅读时长：19分钟发布时间：2025-02-17近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM架构专栏知乎LLM

·2025-02-17 20:28

DeepSeek与ChatGPT的全面对比

在人工智能（AI）领域，生成式预训练模型（GPT）已成为推动技术革新的核心力量。OpenAI的ChatGPT自发布以来，凭借其卓越的自然语言处理能力，迅速占据市场主导地位。

测试者家园·2025-02-17 03:52

理论一、大模型—概念

大模型全称是大型语言模型（LLM，LargeLanguageModel），这个“大”主要指模型结构容量大，结构中的参数多，用于预训练大模型的数据量大。一个大模型可以

伯牙碎琴·2025-02-16 20:31

一、大模型微调的前沿技术与应用

大模型微调的前沿技术与应用随着大规模预训练模型（如GPT、BERT、T5等）的广泛应用，大模型微调（Fine-Tuning,FT）成为了提升模型在特定任务中性能的关键技术。

伯牙碎琴·2025-02-16 20:31

大语言模型常用微调与基于SFT微调DeepSeek R1指南

概述大型语言模型（LLM，LargeLanguageModel）的微调（Fine-tuning）是指在一个预训练模型的基础上，使用特定领域或任务的数据对模型进行进一步训练，以使其在该领域或任务上表现更好

知来者逆·2025-02-16 16:08

（15-3）DeepSeek混合专家模型初探：模型微调

3.4模型微调在本项目中，微调脚本文件finetune.py提供了一套全面的工具，用于对DeepSeek-MoE预训练语言模型进行微调。

码农三叔·2025-02-16 16:35

AI 大模型创业：如何利用市场优势？

这些大模型通过在大规模数据集上进行预训练，具备强大的泛化能力和适应性，能够广泛应用于自然语言处理（NLP）、计算机视觉（CV）、生成对抗网络（GAN）等多个领域。然而，

SuperAGI2025·2025-02-16 12:37

DeepSeek为什么超越了OpenAI

其中，技术架构的突破最具革命性——DeepSeek创造性地采用"混合专家系统+领域预训练"架构，在特定领域的推理效率比OpenAI的GPT-4提升40%以上（根据2023年MLPerch基准测试）。

·2025-02-16 07:40

深入解析LangChain：构建智能应用的全方位指南

随着语言模型，特别是大型预训练模型的兴起，开发者逐渐认识到这些模型不仅可以生成文本，还可以被用于处理复杂的对话、数据分析以及其他需要自然语言处理的任务。然而，这些模型的集成和实

AIGC大模型吱屋猪·2025-02-16 05:12

使用 YOLOv8 模型分析摄像头的图像

bashpipinstallultralytics2.编写Python代码以下是一个使用YOLOv8模型对摄像头图像进行分类的示例代码：importcv2fromultralyticsimportYOLO#加载预

欣然～·2025-02-16 02:19

LangChain开发【NL2SQL】应用（few-shot优化）

这篇文章来讲一下优化什么是few-shot使用这些少量的、调整后的样本对预训练模型进行微调其实就是给LLM少量示例关于few-shot的研究：https://medium.com/ubiai-nlp/step

向羿燃·2025-02-15 22:48

1.5 企业级AI大模型四阶技术全景解析：从Prompt到Pre-training的进化路径

企业级AI大模型四阶技术全景解析：从Prompt到Pre-training的进化路径一、技术演进金字塔：四阶技术如何构建AI新范式▲预训练│（万亿参数基建）├─大模型微调│（领域知识注入）├─AI智能体

少林码僧·2025-02-15 21:08

基于开源千文模型（如Qwen、ChatGLM等）实施如何进行动态蒸馏，详细说明操作步骤.

基于开源千文模型（如Qwen、ChatGLM等）实施如何进行动态蒸馏，详细说明操作步骤.1.动态蒸馏的核心思想动态蒸馏的目标是通过教师模型（通常是一个较大的预训练模型）的输出，指导学生模型（较小的模型）

墨者清风·2025-02-15 11:54

【深度学习】YOLO-World: Real-Time Open-Vocabulary Object Detection，目标检测

2401.17270代码：https://github.com/AILab-CVC/YOLO-World文章目录摘要Introduction第2章相关工作2.1传统目标检测2.2开放词汇目标检测第3章方法3.1预训练公式

XD742971636·2025-02-15 09:07

利用Infinity Embeddings创建文本嵌入

核心原理解析InfinityEmbeddings利用强大的预训练模型，通过对输入的文本数据进行编码，生成具有语义意义的高维向量。这个过程不仅仅是简

qahaj·2025-02-15 03:16

仅用10张图片，AI就能学会识别万物？多模态小样本学习颠覆传统！

此外，CPE-CLIP和MMFL等方法通过利用预训练模型和冻结的大规模视觉语言模型，实现了跨会话的迁移学习和快速适应新样本。

沃恩智慧·2025-02-15 03:15

数字孪生遭遇 “DeepSeek 之问”：谁在批量制造昂贵玩具？

“如果数字孪生不能预判设备故障，和3D动画有什么区别？”DeepSeek技术总监的犀利发问，揭开了行业的遮羞布。

wlsjdszls·2025-02-14 22:09

格拉姆角场（GAF）将一维序列转化为图像

二、步骤数据预处

开发小途·2025-02-14 14:09

视觉中的transformer：ViT

但是在cv领域用的很少，视觉里一般是和cnn一起用或者把某些conv替换成transformer（整体还是CNN）本篇文章证明纯的transformer直接在图片分类上也做得很好：在大量数据集上进行预训练的前提上

ch隔壁老张·2025-02-14 06:12

使用OpenAI的API构建聊天机器人

核心原理解析聊天机器人主要依赖于生成式预训练模型（GPT），它通过大量文本数据训练，学习语言模式和上下文关联，从而能够生成

dgay_hua·2025-02-14 04:16

你对 Vue 项目进行哪些优化？

watch区分使用场景•v-for遍历必须为item添加key，且避免同时使用v-if•长列表性能优化•事件的销毁•图片资源懒加载•路由懒加载•第三方插件的按需引入•优化无限列表性能•服务端渲染SSRor预渲染第二个方面

LuckXinXin·2025-02-14 02:52

人工智能之自然语言处理技术演进

近年来，NLP技术经历了从规则驱动到数据驱动的革命性演进，尤其是在深度学习和大规模预训练模型的推动下，取得了显著突破。

香橙薄荷心·2025-02-14 02:50

GPT 系列模型发展史：从 GPT 到 ChatGPT 的演进与技术细节

GPT（2018）：划时代的起点：GPT（GenerativePre-trainedTransformer）首次将Transformer架构与无监督预训练结合，开启了大规模语言模型的新时代。

Ash Butterfield·2025-02-14 00:08

DeepSeek使用手册，其中一份是清华大学出品

它既包含预训练大语言模型（如DeepSeek-R1系列），也提供配套工具链，助力开发者快速实现AI应用落地。二、De

cpa007·2025-02-13 20:45

IDC服务器初始化--PXE引导

PXE（PrebooteXecutionEnvironment，预启动执行环境）是一种网络启动技术。想象一

·2025-02-13 20:42

从零开始大模型开发与微调：Miniconda的下载与安装

这些模型通过在海量文本数据上进行预训练,能够捕捉到丰富的语义和上下文信息,从而在自然语言处理任务中表现出色。

AGI大模型与大数据研究院·2025-02-13 18:30

【云原生技术】微服务架构中如何实现高效调用远程方法

微服务架构中如何实现高效调用远程方法1.使用轻量级通信协议2.异步和非阻塞调用3.负载均衡和服务发现4.缓存和数据预取5.异常处理和重试机制6.使用合适的技术栈和工具示例在微服务架构中，高效调用远程方法是至关重要的

阿寻寻·2025-02-13 18:28

微软 LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练

LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练LayoutLMv3应用统一的文本-图像多模态Transformer来学习跨模态表示。

·2025-02-13 16:39

【深度学习】常见模型-GPT（Generative Pre-trained Transformer，生成式预训练 Transformer）

GPT（GenerativePre-trainedTransformer，生成式预训练Transformer）是由OpenAI开发的基于Transformer解码器（Decoder）的自回归（Autoregressive

IT古董·2025-02-13 16:15

微软 LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练

LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练LayoutLMv3应用统一的文本-图像多模态Transformer来学习跨模态表示。

·2025-02-13 15:31

从零开始构建一个大语言模型-第七章第一节

第七章目录7.1指令微调简介7.2为有监督的指令微调准备数据集7.3将数据整理成训练批次7.4为指令数据集创建数据加载器7.5加载预训练的大语言模型7.6在指令数据上对大语言模型进行微调7.7提取并保存回复

释迦呼呼·2025-02-13 15:07

推荐频道

预焙阳极

大模型（含deepseek r1）本地部署利器ollama的API操作指南

DeepSeek与ChatGPT：AI语言模型的全面对决

使用BLIP模型生成图像描述的可查询索引

DeepSeek掀起推理服务器新风暴，AI应用迎来变革转折点？

深入解析：Tableau在数据可视化中的高级应用

【拥抱AI】一文讲清楚MCP(Model Context Protocol)核心功能及应用

使用Yuan 2.0与LangChain构建智能聊天应用：完整指南

DeepSeek 本地部署硬件配置全解析

自然语言处理NLP 01语言转换&语言模型

ColD Fusion，分布式多任务微调的协同 “密码”

芯麦GC1267R单相双极驱动电机预驱动器解析：变速功能与PWM兼容性设计

Python库 - transformers

腾讯云大模型知识引擎×DeepSeek赋能文旅

SFT（监督微调）和RLHF（基于人类反馈的强化学习）的区别

DeepSeek为什么超越了OpenAI

基于Knative的无服务器引擎重构：实现毫秒级冷启动的云原生应用浪潮

运用python制作一个完整的股票分析系统

【LLM】大模型基础--大规模预训练语言模型的开源教程笔记

【云原生进阶之数据库技术】第四章-GaussDB-关键技术-2.4.1-GaussDB存储引擎层关键技术方案

AIMv2：多模态自回归预训练的视觉新突破

DeepSeek与ChatGPT的全面对比

理论一、大模型—概念

一、大模型微调的前沿技术与应用

大语言模型常用微调与基于SFT微调DeepSeek R1指南

（15-3）DeepSeek混合专家模型初探：模型微调

AI 大模型创业：如何利用市场优势？

DeepSeek为什么超越了OpenAI

深入解析LangChain：构建智能应用的全方位指南

使用 YOLOv8 模型分析摄像头的图像

LangChain开发【NL2SQL】应用（few-shot优化）

1.5 企业级AI大模型四阶技术全景解析：从Prompt到Pre-training的进化路径

基于开源千文模型（如Qwen、ChatGLM等）实施如何进行动态蒸馏，详细说明操作步骤.

【深度学习】YOLO-World: Real-Time Open-Vocabulary Object Detection，目标检测

利用Infinity Embeddings创建文本嵌入

仅用10张图片，AI就能学会识别万物？多模态小样本学习颠覆传统！

数字孪生遭遇 “DeepSeek 之问”：谁在批量制造昂贵玩具？

格拉姆角场（GAF）将一维序列转化为图像

视觉中的transformer：ViT

使用OpenAI的API构建聊天机器人

你对 Vue 项目进行哪些优化？

人工智能之自然语言处理技术演进

GPT 系列模型发展史：从 GPT 到 ChatGPT 的演进与技术细节

DeepSeek使用手册，其中一份是清华大学出品

IDC服务器初始化--PXE引导

从零开始大模型开发与微调：Miniconda的下载与安装

【云原生技术】微服务架构中如何实现高效调用远程方法

微软 LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练

【深度学习】常见模型-GPT（Generative Pre-trained Transformer，生成式预训练 Transformer）

微软 LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练

从零开始构建一个大语言模型-第七章第一节