预训练语言模型第19页

TAG，一种用于复杂问题解答的统一模型

强大的语言模型（LM）的出现为以更自然、更直观的方式查询和分析信息开

·2025-02-12 13:13

AI提示工程实战：从零开始利用提示工程学习应用大语言模型【附PDF】

大语言模型是人工智能领域的重要成果，在自然语言处理和生成任务中发挥着重要的作用。读者通过深入了解和应用提示工程，能充分挖掘和利用大语言模型的潜力，提升效率、促进创新，并解决实际问题。

程序员丸子·2025-02-12 12:49

DeepSeek-V3：模型与权重全面解析

DeepSeek-V3是一款开创性的混合专家（Mixture-of-Experts,MoE）语言模型，以其创新的架构设计、高效的训练方法和卓越的性能，成为开源大语言模型领域的标杆。

步子哥·2025-02-12 11:13

DeepSeek V3 两周使用总结

官方宣称：（1）基于自研的MoE模型和671B参数，在14.8Ttoken上进行了预训练；（2）多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405

AI生成曾小健·2025-02-12 11:12

一文带大家了解DeepSeek不同版本 1.5B、7B、14B、32B、70B的含义以及应用场景

1.参数量的意义参数量：指模型中可训练的参数总数，包括权重和偏置等。单位：-1B=10亿参数-7B=70亿参数-70B=700亿参数2.不同版本的特点版本参数

测试开发Kevin·2025-02-12 10:10

pytorch深度学习模型推理和部署、pytorch&ONNX&tensorRT模型转换以及python和C++版本部署

engine文件3.2tensorrt推理4.采用tensorrt进行推理（c++环境）5.采用torch2trt进行推理（python环境）在pytorch框架下，可以很方便进行深度学习模型的搭建、训练和保存

机械心·2025-02-12 10:40

OpenAI重磅更新：发布目前最强推理模型ChatGPT-o1，新鲜测试出炉，草莓快要成熟了

这次更新标志着OpenAI在人工智能推理能力上的重大突破，推出了其最新的大语言模型——o1-preview和o1-mini。这一更新揭开了已经预热接近一年的“Q*/草莓项目”的神秘面纱。

机械心·2025-02-12 10:39

如何从零开始，训练AI大模型？零基础入门到精通，收藏这一篇就够了

导读大模型作为目前最前沿的技术，是如何开发或者训练出来的呢。本文就为大家总结了大模型训练各阶段的最新技术方法，希望对大家有所帮助。1背景根据scalinglaw，模型越大，高质量数据越多，效果越好。

网络安全大白·2025-02-12 10:09

.safetensors 文件、.ckpt文件、.pth和.bin文件

safetensors文件1.1.背景和定义：1.2.特点：1.2.1.安全性：1.2.2.内存高效：1.3.应用场景：二..ckpt文件（CheckpointFile）2.1.背景和定义：2.2.特点：2.2.1.包含训练状态信息

李直气壮壮·2025-02-12 10:38

DeepSeek 与 Transformer 架构的深度关联

在人工智能蓬勃发展的当下，大语言模型正以惊人的速度迭代更新，持续重塑着人们对智能技术的认知。DeepSeek作为其中的杰出代表，凭借其卓越的性能和独特的技术架构，在自然语言处理领域引发了广泛关注。

JoveZou·2025-02-12 10:08

【Python】科研代码学习：十七模型参数合并，safetensors / bin

save_pretrained还会新增的文件知识点：在保存模型参数时，大小发生了成倍的变化前言众所周知，LLM的模型参数一般保存在.safetensors或者.bin结尾的大文件但是通过一个RLHF的一个训练后

溢流眼泪·2025-02-12 10:08

使用yolo11x进行物体分类

利用yolo11x进行物体识别一、物品分类代码说明模型加载：加载yolo11x.pt模型，如果这个模型在物体分类上表现不佳，可以考虑使用像yolov8n.pt这类通用的预训练模型。

欣然～·2025-02-12 10:35

【野生动物识别系统】Python+深度学习+人工智能+卷积神经网络算法+TensorFlow+ResNet+图像识别

并通过对18种动物数据集进行训练，最后得到一个识别精度较高的模型。并基于Django框架，开发网页端操作平台，实现用户上传一张动物图片识别其名称。

·2025-02-12 09:10

蓝桥杯训练——奇怪的捐赠——题解

先上题目：地产大亨Q先生临终遗愿是：拿出100万元给X社区的居民抽奖，麻烦的是，他有个奇怪的要求：1.100万元必须被正好分成若干份（不能有剩余）。每份必须是7的若干次方元。比如：1元，7元，49元，343元，……2.相同金额的份数不能超过5份。3.在满足上述要求的情况下，分成的份数越多越好！请你帮忙算一算，最多可以分为多少份？一、OK，说一下我一开始的解题思路（错误），利用枚举：1.先将7的若干

老狐Nick·2025-02-12 09:00

蓝桥杯训练奇怪的捐赠题解

题目：地产大亨Q先生临终遗愿是：拿出100万元给X社区的居民抽奖，麻烦的是，他有个奇怪的要求：1.100万元必须被正好分成若干份（不能有剩余）。每份必须是7的若干次方元。比如：1元，7元，49元，343元，……2.相同金额的份数不能超过5份。3.在满足上述要求的情况下，分成的份数越多越好！请你帮忙算一算，最多可以分为多少份？思路：换个角度考虑，如果拿出1234567890元分给居民，每份必须是10

SkyeBCI·2025-02-12 09:56

百度千帆大模型实战：AI大模型开发的调用指南

1.千帆大模型平台简介在AI蓬勃发展的时代，大模型平台作为支撑大规模数据处理和复杂模型训练的基石，正逐渐成为推动科技创新和产业升级的重要力量。千帆大模型平台，凭

AGI大模型学习·2025-02-12 08:55

蓝桥杯训练——奇怪的捐赠

地产大亨Q先生临终的遗愿是：拿出100100万元给X社区的居民抽奖，以稍慰藉心中愧疚。麻烦的是，他有个很奇怪的要求：100100万元必须被正好分成若干份（不能剩余）。每份必须是77的若干次方元。比如：11元,77元，4949元，343343元，...相同金额的份数不能超过55份。在满足上述要求的情况下，分成的份数越多越好！请你帮忙计算一下，最多可以分为多少份？———————————————————

赛一罗·2025-02-12 08:55

四、自然语言处理_08Transformer翻译任务案例

0、前言在Seq2Seq模型的学习过程中，做过一个文本翻译任务案例，多轮训练后，效果还算能看Transformer作为NLP领域的扛把子，对于此类任务的处理会更为强大，下面将以基于Transformer

学不会lostfound·2025-02-12 08:53

基于PyTorch框架实现，展示如何使用ResNet50进行特征提取，并结合MMD用于领域适应，迁移学习在轴承故障诊断中的应用

文章目录1.环境准备2.数据准备3.模型定义4.训练过程1.导入必要的库2.定义模型3.数据准备4.训练过程5.运行代码6.注意事项附说明：、pytorch版本，ResNet50进行特征提取，mmd最

QQ_767172261·2025-02-12 07:15

策略泛化的无动作推理

端到端模仿学习为训练机器人策略提供一种有前途的方法。然而，泛化到新环境（例如未见过的场景、任务和目标实例）仍然是一项重大挑战。

硅谷秋水·2025-02-12 07:44

2025年毕设ssm牙科诊所app论文+源码

随着信息技术的发展，牙科诊所需要一个集用户管理、牙医资源分配、护牙知识普及、坐诊信息发布、治疗预

啊诚计算机毕设·2025-02-12 06:39

冲一下阿里，感觉不是很难

新的一周又来了，今天分享的是训练营的朋友在阿里的一面，看了一下面试的内容，感觉挺简单的，你做一下试试：Redis数据消失的原因Redis中的数据如果既没有设置过期时间也没有被显式删除但仍然消失了，可能是因为配置了持久化策略

·2025-02-12 05:37

开源模型应用落地-qwen2-7b-instruct-LoRA微调&合并-ms-swift-单机多卡-RTX 4090双卡（十五）

二、术语介绍2.1.LoRA微调LoRA(Low-RankAdaptation)用于微调大型语言模型(LLM)。

开源技术探险家·2025-02-12 04:50

揭幕 DeepSeek-V2.5-1210：革新人工智能能力

这一尖端语言模型在各个领域都取得了巨大进步，巩固了其作为人工智能领域开拓者的地位。

吴脑的键客·2025-02-12 03:16

对DeepSeek-R1通过强化学习提升大型语言模型推理能力的技术原理解析

强化学习基础•基本概念：强化学习是一种机器学习方法，智能体（模型）通过与环境进行交互，根据环境反馈的奖励信号来学习最优的行为策略。•关键要素：包括环境（模型所处的推理任务场景）、状态（模型在推理过程中的当前情况，如已有的推理步骤、已知信息等）、动作（模型在当前状态下做出的推理决策，如选择何种推理方法、如何组织语言等）、奖励（根据模型的动作和结果给予的反馈，如推理正确给予正奖励，错误给予负奖励或无奖

一只贴代码君·2025-02-12 02:12

关于rabbitmq的prefetch机制

消息预取机制（PrefetchMechanism）是RabbitMQ中用于控制消息传递给消费者的一种机制。它定义了在一个信道上，消费者允许的最大未确认的消息数量。

Persistence is gold·2025-02-12 02:41

自动评估基准 | 技巧与提示

缓解措施有：测试集中加入哨兵字符串(canarystring)(如BigBench)，这是一种特殊的字符组合，使得模型创建者可以在训练集中查找，来表明该数据中是否包含评估。

·2025-02-12 01:00

人工评估 | 基础概念

本文讨论的都是后验评估，即模型已经完成训练，给定一个任务让人类进行评估。

·2025-02-12 01:57

【蔬菜识别】Python+深度学习+CNN卷积神经网络算法+TensorFlow+人工智能+模型训练

作为主要编程语言，通过收集了8种常见的蔬菜图像数据集（'土豆','大白菜','大葱','莲藕','菠菜','西红柿','韭菜','黄瓜'），然后基于TensorFlow搭建卷积神经网络算法模型，通过多轮迭代训练最后得到一个识别精度较高的模型文件

·2025-02-12 01:24

大语言模型多代理协作（MACNET）

大语言模型多代理协作（MACNET）ScalingLarge-Language-Model-basedMulti-AgentCollaboration提出多智能体协作网络（MACNET），以探究多智能体协作中增加智能体数量是否存在类似神经缩放定律的规律

ZhangJiQun&MXP·2025-02-12 00:51

深度学习-与OCR结合

整体思路结合深度学习实现OCR通常包含以下几个步骤：数据准备：收集和标注包含文本的图像数据，构建训练集和测试集。模型构建：选择合适的深度学习模型，如卷积神经网络（CNN）结合循环神经网络（RN

小赖同学啊·2025-02-11 22:11

快速搭建GRU循环神经网络预测模型

但是，我需要确保MATLAB支持GRU网络的创建和训练。让我想想，MATLAB的DeepLearningToolbox提供了设计和训练神经网络的功能，包括GRU层。

智汇未来·2025-02-11 22:38

【专题】DeepSeek颠覆性在于实现AI平权、惊艳世界，算力与应用将迎来结构性变化报告汇总PDF洞察（附原数据表）

同时，它的训练和使用成本大幅降低

·2025-02-11 21:14

AI赋能灯塔低代码平台，AI应用落地“加速器”

传统开发方式在算法研究、模型训练、代码编写、系统集成及测试优化等环节，不仅需要专业技术人员的深度参与，还耗费大量时间和资源。这些挑战使得AI应用的落地变得异常艰难。

·2025-02-11 21:13

大模型推理服务全景图

作者：望宸随着DeepSeekR1和Qwen2.5-Max的发布，国内大模型推理需求激增，性能提升的主战场将从训练转移到推理。由于无论是训练还是推理，如何提升性能都是业内讨论最多的话题之一。

·2025-02-11 21:12

迁移学习 Transfer Learning

迁移学习是一种机器学习方法，它的核心思想是利用已有模型的知识来帮助新的任务或数据集进行学习，从而减少训练数据的需求、加快训练速度，并提升模型性能。1.为什么需要迁移学习？

有人给我介绍对象吗·2025-02-11 20:23

预训练语言模型：从BERT到GPT，NLP的新纪元

自然语言处理（NLP）在过去几年中经历了翻天覆地的变化，而这一变化的催化剂无疑是预训练语言模型（Pre-trainedLanguageModels,PLMs）的崛起。

Evaporator Core·2025-02-11 20:23

DeepSeek图神经网络（Graph Neural Networks, GNNs）基础与实践

DeepSeek提供了强大的工具和API，帮助我们高效地构建和训练图神经网络。本文将详细介绍如何使用DeepSeek进行图神经网络的基础与实践，并通过代码示例帮助你掌握这些

Evaporator Core·2025-02-11 20:22

【深度学习实战：kaggle自然场景的图像分类-----使用keras框架实现vgg16的迁移学习】

数据集train.csv-训练集test.csv-测试集SceneImages-图像文件夹训练

机器学习司猫白·2025-02-11 20:18

DeepSeek迁移学习与预训练模型应用

迁移学习是一种利用预训练模型的知识来加速新任务训练的技术。通过迁移学习，我们可以在数据量有限的情况下，快速构建高性能的模型。

Evaporator Core·2025-02-11 19:48

Python 深度学习项目目录规范

demo或example文件夹layers自定义的层(如果有)self_loss.py比如自定义的loss层等logs日志文件夹weights/models模型权重文件夹utilspreprocessing预

灰灰灰灰灰发·2025-02-11 19:15

DeepSeek-MoE-16b：高效稀疏架构引领大模型降本增效革命

DeepSeek-MoE-16b是深度求索（DeepSeek）研发的混合专家模型（MixtureofExperts,MoE），参数规模160亿，旨在通过稀疏化计算架构解决传统稠密模型（如Llama2、GPT-3）的高训练与推理成本问题

热爱分享的博士僧·2025-02-11 18:36

【大模型部署及其应用】Ollama搭建运行中文大语音模型Llama3-8B-Chinese-Chat

Ollama是一种用于运行大语言模型（如LLaMA）的平台，适合本地化部署和运行。

源代码杀手·2025-02-11 18:34

大语言模型原理与工程实践：初探大语言模型

大语言模型原理与工程实践：初探大语言模型作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：大语言模型，机器学习，自然语言处理，深度学习，工程实践1.

AI天才研究院·2025-02-11 17:04

史上最厉害的Java进阶之路

这是Java的流程控制，操控“一切”那些年，那些大神玩的数组来场刺激的数组训练吧！

m0_51274464·2025-02-11 17:31

实践深度学习：构建一个简单的图像分类器

本文将指导你如何使用深度学习框架来构建一个简单的图像分类器，我们将以Python和TensorFlow为例，展示从数据准备到模型训练的完整流程。

是Dream呀·2025-02-11 17:58

三步本地部署deepseekr1，支持macOs，ubuntu，Windows

一、ollama安装：ollama官网：OllamaOllama是一款支持在Windows、macOS和Linux上本地运行大型语言模型的工具。

dingdongkk·2025-02-11 17:28

AI代码生成器安全隐患：Grok泄露系统提示词事件警示

最近，一个名为Grok的大型语言模型泄露了其系统提示词，引发了业内对AI写代码工具安全性和透明度问题的广泛关注。

·2025-02-11 16:04

AI换脸技术原理以及为什么需要进行海量次数的模型训练?

AI换脸技术通俗点说就是“深度伪造技术”,是基于人工智能，特别是深度学习和生成对抗网络（GANs）的一种技术，能够将一个人的面部特征与另一个人的面部特征进行交换，从而生成非常真实的换脸视频或图像。AI换脸技术的基本原理生成对抗网络（GANs）GANs是AI换脸技术背后的核心算法，它由两个神经网络组成，一个是生成器，负责生成新的图像或视频；另一个是判别器，负责判断生成的图像是否真实。通过不断的“对抗

码场老菜鸟·2025-02-11 16:55

Java分布式流处理，flink+kafka实现电商网站个性化商品推荐系统

文章目录戳底部名片，一起变现技术栈选择设计实现思路实现步骤及示例代码1.数据采集2.数据预处理3.特征工程4.模型训练5.结果输出6.前端展示戳底部名片，一起变现在现代电商环境中，用户每天都会浏览大量商品页面

图苑·2025-02-11 16:24

推荐频道

预训练语言模型