预训练语言模型第20页

说话人识别----技术挑战点

技术挑战点为:与文本无关;说话人识别中的跨信道、噪音;短语音;多说话人、防假冒处理;训练库大小限制;

sunfoot001·2025-02-08 01:54

Chapter4.1 Coding an LLM architecture

4ImplementingaGPTmodelfromScratchToGenerateText4.1CodinganLLMarchitecture4ImplementingaGPTmodelfromScratchToGenerateText本章节包含编写一个类似于GPT的大型语言模型

亲持红叶·2025-02-08 01:53

基于Pytorch的猫狗分类的代码演练

这个代码是以tensorflow为框架训练的，由于之前一直没有系统的了解tensorflow框架和Pytorch框架的区别，得着今天闲来无事，了解了一下，顺便看看能不能自己用Pytorch框架来训练猫狗分类的代码

摸爬滚打的包菜·2025-02-07 23:09

机器学习算法分类

以下是详细的分类介绍：1.根据学习方式进行分类1.1监督学习(SupervisedLearning)监督学习是指在训练过程中，输入数据（特征）和输出数据（标签）都是已知的。

和风化雨·2025-02-07 23:07

DeepSeek-V3：低成本高性能的AI代码生成器，开源大模型的又一里程碑

这款拥有6710亿参数的超大规模语言模型，以其低廉的训练成本（仅557万美元）和接近GPT-4o的性能，成为开源大模型领域的又一个里程碑，也为AI代码生成器领域带来了新的可能性。

·2025-02-07 22:52

【vLLM 学习】使用 CPU 安装

vLLM是一款专为大语言模型推理加速而设计的框架，实现了KV缓存内存几乎零浪费，解决了内存管理瓶颈问题。

·2025-02-07 22:51

毕业设计：基于卷积神经网络的鲜花花卉种类检测算法研究

目录前言课题背景和意义实现技术思路一、算法理论基础1.1卷积神经网络1.2目标检测算法二、数据集2.1数据集2.2数据扩充三、实验及结果分析3.1实验环境搭建3.2模型训练最后前言大四是整个大学期间最忙碌的时光

HaiLang_IT·2025-02-07 20:23

大模型实战篇之Deepseek二、一键部署DeepSeek-V3和DeepSeek-R1模型

DeepSeek作为一款高性能的语言模型，已经在多个领域展现出巨大的应用潜力。然而，传统的模型部署流程往往复杂且耗时。

伯牙碎琴·2025-02-07 19:44

Word接入DeepSeek r1，轻松实现智能文本生成与润色

随后出现的大型语言模型要么难以调用，要么收费昂贵。如今，随着DeepSeek的开源，结合Word这一办公常用场景，我决定将DeepSeek模型接入Word，实现文本生成和文本润色两大功能。

细节处有神明·2025-02-07 18:12

生成式AI之下，软件供应链安全的升级迫在眉睫

随着生成式AI和大语言模型技术的快速发展和广泛应用，尤其是在软件供应链安全领域，AI与软件供应链的深度融合催生了新的安全课题。

DevSecOps选型指南·2025-02-07 17:05

AI商业化：如何包装技术并找到客户需求？

一、引言在过去几年里，从GPT、Transformer到DeepSeek，以及分布式训练和微调技术的发展，为AI技术带来了质的飞跃。然而，光有先进的技术并不足以实现商业成功。如何将这些技术包装成易于

hjy1821·2025-02-07 17:34

深入浅出 DeepSeek-Coder-V2 是如何打破闭源模型封锁的

今天，我们就从模型架构、训练数据、强化学习优化三

fertiland·2025-02-07 17:33

传统AI算法工程师转型指南：如何成功切入大模型领域赛道“

1.从多模态入手一开始我完全没有纯语言模型的相关经验，因此首先做了一个图文多模态的项目。通过这个项目了解到了文本的大致编解码流程，以及一些常见的文本预训练任务（mlm等等）。

大模型玩家·2025-02-07 17:33

ubuntu22.04，瑞芯微RK3568部署YOLOv5(纯干货版)

目录1,训练自己的数据集转换为onnx2，onnx格式→rknn格式3,3588平台部署1,训练自己的数据集转换为onnx在Anaconda的yolov5，进入yolov5根目录，终端运行如下pythonmodels

今夕是何年，·2025-02-07 16:58

如何应对ADAS/AD海量数据处理挑战？

目录一、问题背景二、内部构建或获取预组装解决方案三、总结随着软件定义汽车的发展，车辆生成的数据量也以前所未有的速度不断增加。这些数据包含广泛的信息，包括传感器数据、遥测数据、诊断数据等。

康谋自动驾驶·2025-02-07 15:50

深度搜索MoE：利用大规模预训练模型提升信息检索效能

深度搜索MoE：利用大规模预训练模型提升信息检索效能DeepSeek-MoE项目地址:https://gitcode.com/gh_mirrors/de/DeepSeek-MoE项目简介DeepSeek-MoE

杭律沛Meris·2025-02-07 15:20

100.5 AI量化面试题：在使用LSTM预测股票价格时，如何有效处理金融时间序列的非平稳性？

目录0.承前1.数据预处理1.1平稳性检验1.2数据转换2.特征工程2.1技术指标构建2.2时间特征提取3.LSTM模型设计3.1数据准备3.2模型架构4.训练与验证4.1时序交叉验证4.2滚动预测5.

AI量金术师·2025-02-07 14:45

自然语言处理的统计学原理

随着大语言模型技术的进步，NLP将继续推动AI的发展，使机器更好地理解和生成自然语言，更好地服务于人类。然而自然语言充满了不确定性和模糊性，不同场景的

数行天下·2025-02-07 14:45

大语言模型原理基础与前沿高效的MoE架构

大语言模型原理基础与前沿高效的MoE架构关键词：大语言模型，MoE架构，参数高效微调，分布式训练，模型压缩，推理加速1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，大语言模型（LargeLanguageModels

AI架构设计之禅·2025-02-07 13:39

基于深度学习的行人摔倒检测识别系统 —— 使用YOLOv5实现行人摔倒检测

目录引言项目背景与目标1.1项目背景1.2项目目标系统设计与架构2.1系统功能概述2.2系统架构数据准备与处理3.1数据集选择与收集3.2数据标注3.3数据集划分YOLOv5模型训练与优化4.1YOLOv5

2025年数学建模美赛·2025-02-07 13:34

LLM速览篇【91-120】

这30篇关于大型语言模型（LLMs）的最新研究，可以将它们归

hjzhang75·2025-02-07 13:03

JVM篇——JVM调优实战，JVM调优参数汇总

什么是调优1、根据需求进行JVM规划和预调优2、优化运行JVM运行环境（慢、卡顿,一般都是通过单接口压测或者Skywalking进行全链路压测3、解决JVM运行过程中出现的各种问题，比如MemoryLeak

Be explorer·2025-02-07 12:02

当大模型遇上Spark：解锁大数据处理新姿势

大模型，即大规模机器学习模型，是利用海量数据和强大算力训练出来的“大参数”模型。其发展历程可谓是一部科技创新的传奇史。从20世纪中叶人工智能概念的提出，到2006年深度学习技术崭露

敏叔V587·2025-02-07 11:52

基于langchain和gradio实现天气查询智能体，本地ollama大模型调实时天气api，前端输入即可自动返回天气

介绍：众所周知大模型训练数据都是用的历史数据，无法实时查询天气信息，因此使用本地ollama大模型调实时天气api接口的方式，大模型识别和理解你要查询的请求，然后调第三方天气api接口返回实时天气。

福小白·2025-02-07 10:48

基于 DeepSeek-R1 模型微调（SFT）技术详解

目录引言1.1大模型时代与微调的重要性1.2本文目的与结构概述DeepSeek-R1模型基础2.1模型简介2.1.1模型架构2.1.2预训练数据与目标2.2模型特点与优势2.2.1语言理解与生成能力2.2.2

zhangjiaofa·2025-02-07 10:43

idea2024新特性以及idea2024.1版本安装、激活

一、idea2024新特性1、行级别的代码补全IDEA现在可以根据代码的上下文分析，给我们提示一整行的代码，借助了大模型对数据的分析训练，同时确保了代码数据的安全性。

阿东知识库·2025-02-07 09:39

大模型元年：人工智能的“寒武纪大爆发”

一、从“专用”到“通用”：大模型开启AI新范式传统的人工智能模型往往是针对特定任务进行训练的“专用工具”，例如图像识别、语音识别等。而大模

小马过河R·2025-02-07 08:05

大模型生态开源工具整理

最近一直在做大模型应用开发工作,总结下用到的一些开源工具1-模型训练LLaMA-Factory整体介绍LLaMA-Factory是一个开源的微调框架，为开发者提供简便高效的工具，以便在预训练模型基础上快速适应特定任务需求

miracletiger·2025-02-07 08:35

Deep-Seek 开源项目教程

Deep-Seek开源项目教程项目地址:https://gitcode.com/gh_mirrors/de/deep-seek项目介绍Deep-Seek是一个由dzhng开发的开源项目，旨在构建一个强大的语言模型检索引擎

毛炎宝Gardener·2025-02-07 08:34

python写接口调用模型_对YOLOv3模型调用时候的python接口详解

之前训练好的模型，在模型调用的时候，总是在lib=CDLL("/home/*****/*******/darknet/li

weixin_39835607·2025-02-07 07:28

Ollama教程——模型：如何将模型高效导入到ollama框架

walkskyer·2025-02-07 06:16

聚类算法与应用

3.1基本原理3.1.1树状结构的建立3.1.2聚合或分裂策略3.2应用场景3.2.1生物学中的基因表达数据聚类3.2.2文本数据的主题分类4.聚类算法的实践应用4.1数据准备与预处理4.2算法选择与模型训练

theskylife·2025-02-07 06:16

DeepSeek开源引擎引爆央国企AI革命：一场自主可控的“智能突围战“

然而现实却充满挑战——某能源集团AI模型训练耗时长达72小时，某金融机构因数据安全问题被迫放弃云端方案，某制造央企为适配国产硬件额外投入超千万...这些痛点直指三大困局：性能瓶颈：

Light60·2025-02-07 05:43

产品经理的人工智能课 02 - 自然语言处理

产品经理的人工智能课02-自然语言处理1自然语言处理是什么2一个NLP算法的例子——n-gram模型3预处理与重要概念3.1分词Token3.2词向量化表示与Word2Vec4与大语言模型的交互过程参考链接大语言模型

平头某·2025-02-07 05:12

4.2 过拟合与欠拟合

4.2.1什么是过拟合与欠拟合过拟合：一个假设在训练数据上能够获得比其他假设更好的拟合，但是在测试数据集上却不能很好地拟合数据，此时认为这个假设出现了过拟合的现象。

望云山190·2025-02-07 05:11

探秘 DeepSeek：AI 领域的创新力量

公司自2023年成立以来，便将目光聚焦于大语言模型（LLM）和相关技术的开发，致力于在人工智能领域开辟出一片新天地。

秉寒·2025-02-07 04:35

tensorflow模型继续训练？？

之前训练的模型没有收敛就结束了，再次训练，增加训练次数是不是就会收敛了？有时，网上的参考答案并不能解决问题，因为每个人的细节不同，总有些关键细节问题决定成败。

小李飞刀李寻欢·2025-02-07 04:35

专为RAG和AGENT而生的PDF解析新工具：PymuPDF4LLM

为此，就出现了一个专为大语言模型（LLMs，LargeLanguageModels）设计的PDF解析的大杀器：PymuPDF4llm。

CS创新实验室·2025-02-07 03:56

使用一个大语言模型对另一个大语言模型进行“调教”

使用一个大语言模型对另一个大语言模型进行“调教”（通常称为微调或适配），是一种常见的技术手段，用于让目标模型更好地适应特定的任务、领域或风格。

大霸王龙·2025-02-07 03:25

Ollama安装部署deepseek

安装软件(Docker)最简单下载模型下载Ollama内置的模型下载llama3模型(亲测垃圾机房都可以跑起来)下载DeepSeek-V3模型运行模型搭建Web环境OllamaOllama是一个开源的大型语言模型服务工具

angel725·2025-02-07 02:53

通过docker安装部署deepseek以及python实现

步骤一：拉取OllamaDocker镜像Ollama可以帮助我们更方便地管理和运行大语言模型，首先需要拉取Ollama的Docker镜像。打开终端并执行以下命令：dockerpull

GIS从业者·2025-02-07 02:23

Stable Diffusion使用样例实践（二）

细节上可以多训练几次，得到满意的为准。

Allen-Steven·2025-02-07 00:38

《人工智能时代，程序员如何保持核心竞争力》

#随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，特别是在人工智能迅速发展的时代，程序员面临着前所未有的挑战与机遇。

柚乐·2025-02-06 23:03

DeepSeek R1和V3区别

DeepSeekR1和V3是深度求索（DeepSeek）推出的两款大模型，尽管基于相似的技术框架（如混合专家架构MoE），但在设计目标、训练方法、性能表现和应用场景上存在显著差异。

@Rocky·2025-02-06 23:02

代码随想录算法训练营第二十八天| 回溯算法01

77.组合对着在回溯算法理论基础给出的代码模板，来做本题组合问题，大家就会发现写回溯算法套路。在回溯算法解决实际问题的过程中，大家会有各种疑问，先看视频介绍，基本可以解决大家的疑惑。本题关于剪枝操作是大家要理解的重点，因为后面很多回溯算法解决的题目，都是这个剪枝套路。题目链接/文章讲解：代码随想录视频讲解：带你学透回溯算法-组合问题（对应力扣题目：77.组合）|回溯法精讲！_哔哩哔哩_bilibi

Rachela_z·2025-02-06 23:02

机器学习算法 —— 朴素贝叶斯

博客的简介（文章目录）目录朴素贝叶斯朴素贝叶斯的介绍朴素贝叶斯的优点朴素贝叶斯的缺点朴素贝叶斯的应用实战（贝叶斯分类）莺尾花数据库函数导入数据导入和分析模型训练模型预测原理简析模拟离散数据集朴素贝叶斯朴素贝叶斯的介绍朴素贝叶斯法

ZShiJ·2025-02-06 23:01

大模型RAG优化方案_融合bm25和语义检索

写在前面检索增强生成(Retrieval-AugmentedGeneration,RAG)是一种将检索(Retrieval)和生成(Generation)相结合的技术，它利用检索到的相关信息来增强大型语言模型

kakaZhui·2025-02-06 23:31

[论文笔记] Deepseek技术报告

1.总体概述背景与目标报告聚焦于利用强化学习（RL）提升大型语言模型（LLMs）的推理能力，旨在探索在不依赖大规模监督微调（SFT）的情况下，模型如何自我进化并形成强大的推理能力。

心心喵·2025-02-06 22:53

深度学习篇---深度学习相关知识点&关键名词含义

Ronin-Lotus·2025-02-06 21:21

深度学习篇---深度学习中的超参数&张量转换&模型训练

文章目录前言第一部分：深度学习中的超参数1.学习率（LearningRate）定义重要性常见设置2.批处理大小（BatchSize）定义重要性常见设置3.迭代次数（NumberofEpochs）定义重要性常见设置4.优化器（Optimizer）定义重要性常见设置5.损失函数（LossFunction）定义重要性常见设置6.正则化（Regularization）定义重要性常见设置7.网络架构（Net

Ronin-Lotus·2025-02-06 21:50

推荐频道

预训练语言模型