Nerous_

【深度学习】DeepSeek模型介绍与部署

原文链接：DeepSeek-V3

1. 介绍

DeepSeek-V3，一个强大的混合专家 (MoE) 语言模型，拥有 671B 总参数，其中每个 token 激活 37B 参数。
为了实现高效推理和成本效益的训练，DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构，这些架构在 DeepSeek-V2 中得到了充分验证。
此外，DeepSeek-V3 首次提出了无辅助损失的负载平衡策略，并设置了多 token 预测训练目标，以增强性能。
我们在 14.8 万亿多样且高质量的 token 上预训练了 DeepSeek-V3，之后进行了监督微调和强化学习阶段，以充分发挥其能力。
全面评估表明，DeepSeek-V3 超越了其他开源模型，并且在性能上与领先的闭源模型相当。
尽管性能卓越，DeepSeek-V3 的完整训练仅需要 2.788M H800 GPU 小时。
此外，其训练过程非常稳定。在整个训练过程中，我们没有遇到任何无法恢复的损失峰值，也没有执行任何回滚操作。

2. 模型总结

架构：创新的负载平衡策略与训练目标

在 DeepSeek-V2 高效架构的基础上，我们首次提出了一种无辅助损失的负载平衡策略，最小化了由于负载平衡而导致的性能下降。
我们研究了多 token 预测（MTP）目标，并证明它对模型性能有益。
它还可用于推理加速的推测解码。

预训练：追求极致的训练效率

我们设计了一个 FP8 混合精度训练框架，并首次验证了在极大规模模型上使用 FP8 训练的可行性和有效性。
通过算法、框架和硬件的共同设计，我们克服了跨节点 MoE 训练中的通信瓶颈，几乎实现了计算与通信的完全重叠。
这大大提高了我们的训练效率，并减少了训练成本，使我们能够在不增加额外开销的情况下进一步扩展模型规模。
在仅需 2.664M H800 GPU 小时的经济成本下，我们完成了 DeepSeek-V3 在 14.8T tokens 上的预训练，生产出当前最强大的开源基础模型。预训练后的后续训练阶段仅需 0.1M GPU 小时。

后训练：从 DeepSeek-R1 中蒸馏知识

我们引入了一种创新的方法，从长链思维（CoT）模型中提取推理能力，特别是从 DeepSeek R1 系列模型中，将其蒸馏到标准 LLM，特别是 DeepSeek-V3。我们的流程巧妙地将 R1 的验证和反思模式整合到 DeepSeek-V3 中，显著提高了其推理能力。同时，我们也控制了 DeepSeek-V3 输出的风格和长度。

3. 模型下载

模型	总参数	激活参数	上下文长度	下载
DeepSeek-V3-Base	671B	37B	128K	Hugging Face
DeepSeek-V3	671B	37B	128K	Hugging Face

[!NOTE]
DeepSeek-V3 模型在 Hugging Face 上的总大小为 685B，其中包含 671B 的主模型权重和 14B 的多 token 预测（MTP）模块权重。

为了确保最佳的性能和灵活性，我们与开源社区和硬件供应商合作，提供了多种方式以在本地运行模型。有关详细的步骤，请参阅第 6 节：如何在本地运行。

对于希望深入了解的开发者，我们建议查看 README_WEIGHTS.md，了解有关主模型权重和多 token 预测（MTP）模块的更多细节。请注意，MTP 支持目前仍在社区开发中，我们欢迎您的贡献和反馈。

4. 评估结果

基础模型

标准基准测试

	基准（指标）	样本数量	DeepSeek-V2	Qwen2.5 72B	LLaMA3.1 405B	DeepSeek-V3
	架构	-	MoE	Dense	Dense	MoE
	激活参数	-	21B	72B	405B	37B
	总参数	-	236B	72B	405B	671B
英文	Pile-test (BPB)	-	0.606	0.638	0.542	0.548
	BBH (EM)	3-shot	78.8	79.8	82.9	87.5
	MMLU (Acc.)	5-shot	78.4	85.0	84.4	87.1
	MMLU-Redux (Acc.)	5-shot	75.6	83.2	81.3	86.2
	MMLU-Pro (Acc.)	5-shot	51.4	58.3	52.8	64.4
	DROP (F1)	3-shot	80.4	80.6	86.0	89.0
	ARC-Easy (Acc.)	25-shot	97.6	98.4	98.4	98.9
	ARC-Challenge (Acc.)	25-shot	92.2	94.5	95.3	95.3
	HellaSwag (Acc.)	10-shot	87.1	84.8	89.2	88.9
	PIQA (Acc.)	0-shot	83.9	82.6	85.9	84.7
	WinoGrande (Acc.)	5-shot	86.3	82.3	85.2	84.9
	RACE-Middle (Acc.)	5-shot	73.1	68.1	74.2	67.1
	RACE-High (Acc.)	5-shot	52.6	50.3	56.8	51.3
	TriviaQA (EM)	5-shot	80.0	71.9	82.7	82.9
	NaturalQuestions (EM)	5-shot	38.6	33.2	41.5	40.0
	AGIEval (Acc.)	0-shot	57.5	75.8	60.6	79.6
编程	HumanEval (Pass@1)	0-shot	43.3	53.0	54.9	65.2
	MBPP (Pass@1)	3-shot	65.0	72.6	68.4	75.4
	LiveCodeBench-Base (Pass@1)	3-shot	11.6	12.9	15.5	19.4
	CRUXEval-I (Acc.)	2-shot	52.5	59.1	58.5	67.3
	CRUXEval-O (Acc.)	2-shot	49.8	59.9	59.9	69.8
数学	GSM8K (EM)	8-shot	81.6	88.3	83.5	89.3
	MATH (EM)	4-shot	43.4	54.4	49.0	61.6
	MGSM (EM)	8-shot	63.6	76.2	69.9	79.8
	CMath (EM)	3-shot	78.7	84.5	77.3	90.7
中文	CLUEWSC (EM)	5-shot	82.0	82.5	83.0	82.7
	C-Eval (Acc.)	5-shot	81.4	89.2	72.5	90.1
	CMMLU (Acc.)	5-shot	84.0	89.5	73.7	88.8
	CMRC (EM)	1-shot	77.4	75.8	76.0	76.3
	C3 (Acc.)	0-shot	77.4	76.7	79.7	78.6
	CCPM (Acc.)	0-shot	93.0	88.5	78.6	92.0
多语言	MMMLU-non-English (Acc.)	5-shot	64.0	74.8	73.8	79.4

[!NOTE]
最佳结果用粗体显示。得分差距不超过 0.3 的被认为在同一水平上。DeepSeek-V3 在大多数基准测试中都取得了最佳表现，特别是在数学和编程任务上。
有关更多评估详情，请查阅我们的论文。

上下文窗口

在“Needle In A Haystack”（NIAH）测试中的评估结果。DeepSeek-V3 在所有上下文窗口长度（最多 128K）上表现良好。

聊天模型

标准基准（大于 67B 的模型）

	基准（指标）	DeepSeek V2-0506	DeepSeek V2.5-0905	Qwen2.5 72B-Inst.	Llama3.1 405B-Inst.	Claude-3.5-Sonnet-1022	GPT-4o 0513	DeepSeek V3
	架构	MoE	MoE	Dense	Dense	-	-	MoE
	激活参数	21B	21B	72B	405B	-	-	37B
	总参数	236B	236B	72B	405B	-	-	671B
英文	MMLU (EM)	78.2	80.6	85.3	88.6	88.3	87.2	88.5
	MMLU-Redux (EM)	77.9	80.3	85.6	86.2	88.9	88.0	89.1
	MMLU-Pro (EM)	58.5	66.2	71.6	73.3	78.0	72.6	75.9
	DROP (3-shot F1)	83.0	87.8	76.7	88.7	88.3	83.7	91.6
	IF-Eval (Prompt Strict)	57.7	80.6	84.1	86.0	86.5	84.3	86.1
	GPQA-Diamond (Pass@1)	35.3	41.3	49.0	51.1	65.0	49.9	59.1
	SimpleQA (Correct)	9.0	10.2	9.1	17.1	28.4	38.2	24.9
	FRAMES (Acc.)	66.9	65.4	69.8	70.0	72.5	80.5	73.3
	LongBench v2 (Acc.)	31.6	35.4	39.4	36.1	41.0	48.1	48.7
编程	HumanEval-Mul (Pass@1)	69.3	77.4	77.3	77.2	81.7	80.5	82.6
	LiveCodeBench (Pass@1-COT)	18.8	29.2	31.1	28.4	36.3	33.4	40.5
	LiveCodeBench (Pass@1)	20.3	28.4	28.7	30.1	32.8	34.2	37.6
	Codeforces (Percentile)	17.5	35.6	24.8	25.3	20.3	23.6	51.6
	SWE Verified (Resolved)	-	22.6	23.8	24.5	50.8	38.8	42.0
	Aider-Edit (Acc.)	60.3	71.6	65.4	63.9	84.2	72.9	79.7
	Aider-Polyglot (Acc.)	-	18.2	7.6	5.8	45.3	16.0	49.6
数学	AIME 2024 (Pass@1)	4.6	16.7	23.3	23.3	16.0	9.3	39.2
	MATH-500 (EM)	56.3	74.7	80.0	73.8	78.3	74.6	90.2
	CNMO 2024 (Pass@1)	2.8	10.8	15.9	6.8	13.1	10.8	43.2
中文	CLUEWSC (EM)	89.9	90.4	91.4	84.7	85.4	87.9	90.9
	C-Eval (EM)	78.6	79.5	86.1	61.5	76.7	76.0	86.5
	C-SimpleQA (Correct)	48.5	54.1	48.4	50.4	51.3	59.3	64.8

[!NOTE]
所有模型均在限制输出长度为 8K 的配置下进行评估。包含不到 1000 个样本的基准测试进行了多次测试，使用不同的温度设置以得出可靠的最终结果。DeepSeek-V3 是表现最好的开源模型，也在与前沿闭源模型的性能对比中表现出色。

开放式生成评估

模型	Arena-Hard	AlpacaEval 2.0
DeepSeek-V2.5-0905	76.2	50.5
Qwen2.5-72B-Instruct	81.2	49.1
LLaMA-3.1 405B	69.3	40.5
GPT-4o-0513	80.4	51.1
Claude-Sonnet-3.5-1022	85.2	52.0
DeepSeek-V3	85.5	70.0

[!NOTE]
英文开放式对话评估。对于 AlpacaEval 2.0，我们使用长度控制的胜率作为评估指标。

5. 聊天网站与 API 平台

你可以在 DeepSeek 官方网站与 DeepSeek-V3 进行聊天：chat.deepseek.com

我们还在 DeepSeek 平台提供了兼容 OpenAI 的 API：platform.deepseek.com

6. 如何在本地运行

DeepSeek-V3 可以通过以下硬件和开源社区软件在本地部署：

DeepSeek-Infer Demo：我们提供了一个简单且轻量的演示，支持 FP8 和 BF16 推理。
SGLang：完全支持 DeepSeek-V3 模型，支持 BF16 和 FP8 推理模式，且多 token 预测即将推出。
LMDeploy：支持本地和云部署的高效 FP8 和 BF16 推理。
TensorRT-LLM：目前支持 BF16 推理和 INT4/8 量化，FP8 支持即将推出。
vLLM：支持 DeepSeek-V3 模型，支持 FP8 和 BF16 模式的张量并行和流水线并行。
AMD GPU：通过 SGLang 在 AMD GPU 上运行 DeepSeek-V3 模型，支持 BF16 和 FP8 模式。
华为 Ascend NPU：支持在华为 Ascend 设备上运行 DeepSeek-V3。

由于 FP8 训练已在我们的框架中原生采用，因此我们仅提供 FP8 权重。如果需要 BF16 权重进行实验，您可以使用提供的转换脚本进行转换。

以下是将 FP8 权重转换为 BF16 的示例：

cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights

[!NOTE]
Hugging Face 的 Transformers 目前尚不直接支持。

6.1 使用 DeepSeek-Infer 演示进行推理（仅为示例）

系统要求

[!NOTE]
仅支持 Linux 和 Python 3.10，Mac 和 Windows 不支持。

依赖项：

torch==2.4.1
triton==3.0.0
transformers==4.46.3
safetensors==0.4.5

模型权重和演示代码准备

首先，克隆我们的 DeepSeek-V3 GitHub 仓库：

git clone https://github.com/deepseek-ai/DeepSeek-V3.git

进入 inference 文件夹并安装 requirements.txt 中列出的依赖项。最简单的方式是使用 conda 或 uv 等包管理工具创建新的虚拟环境并安装依赖。

cd DeepSeek-V3/inference
pip install -r requirements.txt

从 Hugging Face 下载模型权重，并将其放入 /path/to/DeepSeek-V3 文件夹中。

模型权重转换

将 Hugging Face 模型权重转换为特定格式：

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16

运行

然后您可以与 DeepSeek-V3 进行对话：

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200

或批量推理给定的文件：

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE

6.2 使用 SGLang 进行推理（推荐）

SGLang 目前支持 MLA 优化，DP Attention，FP8（W8A8），FP8 KV 缓存和 Torch Compile，提供了业内领先的延迟和吞吐量性能。

特别是，SGLang v0.4.1 完全支持在 NVIDIA 和 AMD GPU 上运行 DeepSeek-V3，使其成为一个高度通用且强大的解决方案。

SGLang 还支持多节点张量并行，使您能够在多台网络连接的机器上运行此模型。

多 token 预测（MTP）正在开发中，进展可以通过优化计划进行跟踪。

以下是 SGLang 团队提供的启动说明：https://github.com/sgl-project/sglang/tree/main/benchmark/deepseek_v3

6.3 使用 LMDeploy 进行推理（推荐）

LMDeploy，一个灵活且高效的推理和服务框架，现已支持 DeepSeek-V3。它提供了离线管道处理和在线部署功能，能够无缝集成 PyTorch 基础的工作流。

有关如何使用 LMDeploy 运行 DeepSeek-V3 的详细步骤，请参阅：https://github.com/InternLM/lmdeploy/issues/2960

6.4 使用 TRT-LLM 进行推理（推荐）

TensorRT-LLM 现在支持 DeepSeek-V3 模型，提供 BF16 和 INT4/INT8 权重选项。目前 FP8 支持正在进行中，将很快发布。您可以通过以下链接访问专为 DeepSeek-V3 支持的 TRTLLM 自定义分支，直接体验新功能：https://github.com/NVIDIA/TensorRT-LLM/tree/deepseek/examples/deepseek_v3

6.5 使用 vLLM 进行推理（推荐）

vLLM v0.6.6 支持在 NVIDIA 和 AMD GPU 上运行 DeepSeek-V3 推理，支持 FP8 和 BF16 模式。除了标准技术，vLLM 还提供了 流水线并行，使您能够在多台通过网络连接的机器上运行此模型。有关详细指导，请参阅 vLLM 指南。您还可以关注增强计划。

6.6 使用 AMD GPU 进行推理（推荐）

与 AMD 团队的合作使我们实现了对 AMD GPU 的首日支持，完全兼容 FP8 和 BF16 精度。有关详细指导，请参阅 SGLang 指南。

6.7 使用华为 Ascend NPU 进行推理（推荐）

华为 Ascend 社区的 MindIE 框架已成功适配 DeepSeek-V3 的 BF16 版本。有关 Ascend NPU 的逐步指导，请参阅此处的说明。

7. 许可

此代码库采用 MIT 许可协议。DeepSeek-V3 Base/Chat 模型的使用受模型许可协议的约束。DeepSeek-V3 系列（包括 Base 和 Chat）支持商业用途。

8. 引用

@misc{deepseekai2024deepseekv3technicalreport,
      title={DeepSeek-V3 Technical Report}, 
      author={DeepSeek-AI and Aixin Liu and Bei Feng and Bing Xue and Bingxuan Wang and Bochao Wu and Chengda Lu and Chenggang Zhao and Chengqi Deng and Chenyu Zhang and Chong Ruan and Damai Dai and Daya Guo and Dejian Yang and Deli Chen and Dongjie Ji and Erhang Li and Fangyun Lin and Fucong Dai and Fuli Luo and Guangbo Hao and Guanting Chen and Guowei Li and H. Zhang and Han Bao and Hanwei Xu and Haocheng Wang and Haowei Zhang and Honghui Ding and Huajian Xin and Huazuo Gao and Hui Li and Hui Qu and J. L. Cai and Jian Liang and Jianzhong Guo and Jiaqi Ni and Jiashi Li and Jiawei Wang and Jin Chen and Jingchang Chen and Jingyang Yuan and Junjie Qiu and Junlong Li and Junxiao Song and Kai Dong and Kai Hu and Kaige Gao and Kang Guan and Kexin Huang and Kuai Yu and Lean Wang and Lecong Zhang and Lei Xu and Leyi Xia and Liang Zhao and Litong Wang and Liyue Zhang and Meng Li and Miaojun Wang and Mingchuan Zhang and Minghua Zhang and Minghui Tang and Mingming Li and Ning Tian and Panpan Huang and Peiyi Wang and Peng Zhang and Qiancheng Wang and Qihao Zhu and Qinyu Chen and Qiushi Du and R. J. Chen and R. L. Jin and Ruiqi Ge and Ruisong Zhang and Ruizhe Pan and Runji Wang and Runxin Xu and Ruoyu Zhang and Ruyi Chen and S. S. Li and Shanghao Lu and Shangyan Zhou and Shanhuang Chen and Shaoqing Wu and Shengfeng Ye and Shengfeng Ye and Shirong Ma and Shiyu Wang and Shuang Zhou and Shuiping Yu and Shunfeng Zhou and Shuting Pan and T. Wang and Tao Yun and Tian Pei and Tianyu Sun and W. L. Xiao and Wangding Zeng and Wanjia Zhao and Wei An and Wen Liu and Wenfeng Liang and Wenjun Gao and Wenqin Yu and Wentao Zhang and X. Q. Li and Xiangyue Jin and Xianzu Wang and Xiao Bi and Xiaodong Liu and Xiaohan Wang and Xiaojin Shen and Xiaokang Chen and Xiaokang Zhang and Xiaosha Chen and Xiaotao Nie and Xiaowen Sun and Xiaoxiang Wang and Xin Cheng and Xin Liu and Xin Xie and Xingchao Liu and Xingkai Yu and Xinnan Song and Xinxia Shan and Xinyi Zhou and Xinyu Yang and Xinyuan Li and Xuecheng Su and Xuheng Lin and Y. K. Li and Y. Q. Wang and Y. X. Wei and Y. X. Zhu and Yang Zhang and Yanhong Xu and Yanhong Xu and Yanping Huang and Yao Li and Yao Zhao and Yaofeng Sun and Yaohui Li and Yaohui Wang and Yi Yu and Yi Zheng and Yichao Zhang and Yifan Shi and Yiliang Xiong and Ying He and Ying Tang and Yishi Piao and Yisong Wang and Yixuan Tan and Yiyang Ma and Yiyuan Liu and Yongqiang Guo and Yu Wu and Yuan Ou and Yuchen Zhu and Yuduan Wang and Yue Gong and Yuheng Zou and Yujia He and Yukun Zha and Yunfan Xiong and Yunxian Ma and Yuting Yan and Yuxiang Luo and Yuxiang You and Yuxuan Liu and Yuyang Zhou and Z. F. Wu and Z. Z. Ren and Zehui Ren and Zhangli Sha and Zhe Fu and Zhean Xu and Zhen Huang and Zhen Zhang and Zhenda Xie and Zhengyan Zhang and Zhewen Hao and Zhibin Gou and Zhicheng Ma and Zhigang Yan and Zhihong Shao and Zhipeng Xu and Zhiyu Wu and Zhongyu Zhang and Zhuoshu Li and Zihui Gu and Zijia Zhu and Zijun Liu and Zilin Li and Ziwei Xie and Ziyang Song and Ziyi Gao and Zizheng Pan},
      year={2024},
      eprint={2412.19437},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2412.19437}, 
}

9. 联系方式

如果您有任何问题，请提交问题或通过 [email protected] 联系我们。

AI产品经理技术篇：AI领域常用术语解析让我看看好学吗人工智能产品经理机器学习深度学习学习
作为AI产品经理，深入理解人工智能领域的核心术语是高效沟通、需求定义和产品落地的关键。无论是与算法工程师协作优化模型，还是向业务方解释技术方案，准确掌握专业术语能显著提升决策效率，避免因概念混淆导致的开发偏差。本文系统梳理了模型与算法、NLP（自然语言处理）、CV（计算机视觉）、数据处理、核心评估指标等领域的核心术语，帮助产品经理快速构建AI技术认知框架。目录1.基础概念2.模型与算法3.自然语言
元宇宙养老社区:数字化照护的创新实践 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 AI人工智能与大数据大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
《元宇宙养老社区：数字化照护的创新实践》关键词元宇宙养老社区数字化照护虚拟现实人工智能大数据物联网摘要本文深入探讨了元宇宙养老社区的概念、技术架构及其在数字化照护中的应用。通过分析虚拟现实、人工智能、大数据和物联网等核心技术，本文详细阐述了元宇宙养老社区的架构设计、项目实施、运营管理与用户体验优化。同时，本文还展望了元宇宙养老社区的潜在市场、技术发展趋势以及未来挑战与机遇。文章目录《元宇宙养老社区
机器学习-三大SOTA Boosting算法总结和调优小新学习屋机器学习机器学习 boosting 集成学习决策树人工智能
参考书籍：《机器学习公式推导和代码实现》书籍页码：P197～205简介除了深度学习适用的文本、图像、语音、视频等非结构化数据，对于训练样本较少的结构化数据，Boosting算法仍是第一选择。XGBoost、LightGBM、CatBoost是目前经典的SOTABoosting算法算法对比维度XGBoostLightGBMCatBoos说明算法的继承性是对GBDT的改进是对XGBoost的改进是对X
AIGC领域MCP模型上下文协议：推动行业数字化转型的新引擎 SuperAGI2025 AI大模型应用开发宝典 AIGC ai
AIGC领域MCP模型上下文协议：推动行业数字化转型的新引擎关键词：AIGC、MCP模型、上下文协议、数字化转型、人工智能、内容生成、语义理解摘要：本文深入探讨AIGC(人工智能生成内容)领域的MCP(多模态上下文感知)模型及其上下文协议，揭示其如何成为推动行业数字化转型的新引擎。我们将从基础概念出发，逐步解析MCP模型的技术原理、实现方法和应用场景，并通过实际案例展示其在各行业的创新应用。文章还
人脸识别接口&sdk，两张人脸相似度比对
人工智能时代，人脸识别技术正在被广泛应用于金融支付、安防监控、身份验证等多个领域，基于深度学习算法于海量样本训练，人脸识别接口以高精度、低延迟的特性出现在大众视野，成为开发者和企业用户集成人脸识别功能的首要选择之一。人脸识别接口技术服务原理：格式转换：支持BMP、JPG、PNG、TIF等多种常见图像格式；尺寸调整与压缩：建议图像大小控制在200KB左右，确保传输效率与识别质量；图像增强：自动旋转、
家用充电桩远程监控安全管理系统解决方案蓝蜂物联网物联网远程监控边缘计算物联网
家用充电桩远程监控安全管理系统解决方案在当今电动汽车日益普及的背景下，家用充电桩的安全管理成为了广大车主关注的重点问题。为了实现对充电桩的高效、精准、远程监控，一套完善的家用充电桩远程监控安全管理系统解决方案应运而生。本方案旨在通过先进的物联网技术、云计算、大数据分析以及人工智能等科技手段，构建一个集实时监测、异常预警、故障诊断、数据统计、远程控制于一体的智能化平台，确保充电桩的安全运行及用户充电
为什么 Python 是 AI 的首选语言？
文章目录一、简洁优雅，易于上手二、丰富的库和框架1.数据处理与分析2.数据可视化3.机器学习与深度学习框架三、强大的社区支持四、跨平台性和可移植性五、与其他语言的互操作性文章配套代码已上传，点击查看：https://download.csdn.net/download/2501_92578370/91180848在人工智能（AI）技术飞速发展的今天，编程语言的选择对AI开发者来说至关重要。当你翻开
【Python基础】13 知识拓展：CPU、GPU与NPU的区别和联系智算菩萨 python 开发语言人工智能
引言：处理器大战背后的技术革命在人工智能蓬勃发展的今天，我们经常听到CPU、GPU、NPU这些术语，但你是否真正理解它们之间的区别和联系？作为Python开发者，我们更关心的是：在什么场景下选择哪种处理器？如何在Python中充分发挥它们的性能优势？这篇文章将从技术原理出发，结合Python实战代码，深入解析这三种处理器的特点、应用场景和发展趋势，帮助你在面对不同计算任务时做出最优选择。第一章：C
强人工智能是否会诞生于现在的AI之中一花·一叶人工智能语言模型
为什么我认为当前AI方法无法实现真正的人工智能？随着大模型的发展日新月异，越来越多的人开始相信我们正在接近通用人工智能（AGI）。然而，作为一名人工智能领域的算法工程师，我反而越来越确信：现有的技术路径——以Transformer为核心的深度神经网络，可能已经达到了它的能力上限。我们或许正站在一个新时代的门槛上：真正的强人工智能将不会诞生于现有的范式中，而需要一条全新的算法路径。Transform
解密GPT工作原理：Transformer架构详解与自注意力机制剖析 AI智能应用 gpt transformer 架构 ai
解密GPT工作原理：Transformer架构详解与自注意力机制剖析关键词：GPT、Transformer、自注意力机制、神经网络、语言模型、深度学习、人工智能摘要：本文将深入浅出地解析GPT模型的核心架构——Transformer，重点剖析其革命性的自注意力机制。我们将从基本概念出发，通过生活化的比喻解释复杂的技术原理，并用Python代码示例展示实现细节，最后探讨这一技术的应用场景和未来发展方
ChatGPT、DeepSeek等大语言模型技术教程
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
【openAI库】Python语言openAI库详解：从入门到精通（从0到1手把手教程） Java八股文 python 人工智能开发语言
在人工智能（AI）领域，OpenAI无疑是全球最受瞩目的机构之一。它推出的GPT系列模型、DALL·E等创新技术，正在深刻改变各行各业。作为Python开发者，我们该如何快速上手并高效利用OpenAI的API，成为了提升个人竞争力的关键。本文将带你从零开始，深入解析Python语言中的openAI库，助你掌握AI开发的核心工具，成为AI领域的专家。一、什么是openAI库？它能为开发者带来什么？1
世界人工智能大会在即，中国AI布局展现多重深意未来智慧谷人工智能世界人工智能大会（WAIC）
2025年世界人工智能大会（WAIC）将于7月26日至28日在上海举行。本次大会以“智能时代同球共济”为主题，展览面积首次突破7万平方米，汇聚了来自30余个国家和地区的1200余位嘉宾，其中包括12位图灵奖、诺贝尔奖得主及80余位中外院士。这一全球性平台的搭建，揭示了中国在人工智能领域深化发展的战略路径。技术展示：从模型开源到终端落地本届大会将呈现3000余项前沿展品，涵盖40余款大模型、60余款
全面学习 OpenAI API：从 Python 教程到 API Key 使用详解，快速上手调用和部署我的学校你进不来学习 python 开发语言人工智能语言模型深度学习
说在前面我们正身处在人工智能迅猛发展的时代，OpenAIAPI无疑是其中的翘楚，它提供了强大的工具，让开发者能够创建智能应用程序。然而，对于许多刚接触这个领域的开发者来说，如何开始使用OpenAIAPI可能是一个不小的挑战。这篇文章旨在全面介绍如何从零开始学习和使用OpenAIAPI，从申请APIKey到在Python中调用和部署，助力你快速上手并实现在项目中的应用。在接下来的内容中，我们将详细阐
讯飞星火深度推理模型X1，为教育医疗带来革新
在科技飞速发展的今天，人工智能大模型已经成为推动各行业变革的重要力量。科大讯飞作为人工智能领域的佼佼者，其研发的星火深度推理模型X1，凭借独特的技术优势和强大的功能，为教育和医疗两大关乎国计民生的领域带来了前所未有的革新。技术原理与创新讯飞星火深度推理模型X1基于Transformer架构，并在此基础上进行了一系列创新。它通过大规模多阶段强化学习训练方法，在复杂推理、数学、代码、语言理解等场景全面
Rust实现FasterR-CNN目标检测全流程 KENYCHEN奉孝 rust Polars
使用Rust和FasterR-CNN进行目标检测FasterR-CNN是目标检测领域广泛使用的深度学习模型。Rust生态中可以通过tch-rs（Torch绑定）调用预训练的PyTorch模型实现。以下为完整实现步骤：环境准备安装Rust和必要的依赖：cargoaddtchcargoaddanyhow#错误处理下载预训练的FasterR-CNN模型（需PyTorch格式.pt文件），或使用Torch
Hamiltonian Transformer理论：融合哈密顿力学与Transformer架构的新范式墨顿 transformer 架构深度学习
HamiltonianTransformer理论是一种将经典哈密顿力学原理与现代Transformer架构相结合的新型神经网络范式。这一理论框架试图解决当前深度学习模型在效率、动态系统建模和长期依赖处理等方面的核心挑战。本文将系统梳理HamiltonianTransformer的理论基础、关键创新点、实现方法以及应用前景，并分析其相对于传统Transformer架构的优势与潜在限制。哈密顿力学与T
Spring AI ETL Pipeline使用指南超级小忍 SpringAI spring 人工智能
前言（Introduction）版本声明：本文基于SpringAI1.0.0版本编写。由于SpringAI目前仍处于活跃开发阶段，API和组件可能在后续版本中发生变化，请注意及时关注官方文档更新以保持兼容性。在当今大数据和人工智能快速发展的背景下，ETL（Extract,Transform,Load）系统已经不再只是简单的数据搬运工。ETL是数据仓库和数据分析流程中的核心环节，它负责将分散的数据从
使用numpy或pytorch校验两个张量是否相等
文章目录1、numpy2、pytorch做算法过程中，如果涉及到模型落地，那必然会将原始的深度学习的框架训练好的模型转换成目标硬件模型的格式，如onnx,tensorrt,openvino,tflite;那么就有对比不同格式模型输出的一致性，从而判断模型转换是否成功。1、numpy用到的核心代码就一行，就是：importnumpyasnpnp.testing.assert_allclose(act
【深度学习pytorch-6】张量与numpy相互转换超华东算法王 DL-pytorch 深度学习 pytorch numpy
张量与Numpy数组之间的互相转换在深度学习中，张量（tensor）和Numpy数组（numpyarray）是两种常见的数据结构。张量通常用于深度学习框架（如PyTorch、TensorFlow等），而Numpy数组在科学计算中被广泛使用。为了便于数据处理和计算，常常需要在它们之间进行转换。下面介绍张量和Numpy数组之间的互相转换。1.PyTorch张量与Numpy数组的互相转换PyTorch提
LoRA微调详解：如何为AIGC模型节省90%显存 SuperAGI2025 AI大模型应用开发宝典 AIGC ai
LoRA微调详解：如何为AIGC模型节省90%显存关键词：LoRA、低秩适应、AIGC模型、参数高效微调、显存优化摘要：在AIGC（人工智能生成内容）领域，大模型（如GPT-3、LLaMA、StableDiffusion）的微调需要消耗海量显存，普通用户或企业难以负担。本文将深入解析LoRA（Low-RankAdaptation，低秩适应）这一参数高效微调技术，通过生活类比、数学原理、代码实战和应
探索《非官方知乎 API》：解锁知乎数据潜能指南
探索《非官方知乎API》：解锁知乎数据潜能指南Unofficial-Zhihu-API深度学习模型自动识别验证码，python爬虫库自动管理会话，通过简单易用的API，实现知乎数据的爬取项目地址:https://gitcode.com/gh_mirrors/un/Unofficial-Zhihu-API项目介绍非官方知乎API是一个由社区贡献的开源工具，位于https://github.com/l
结合LangGraph、DeepSeek-R1和Qdrant 的混合 RAG 技术实践大模型之路 RAG rag
一、引言：混合RAG技术的发展与挑战在人工智能领域，检索增强生成（RAG）技术正成为构建智能问答系统的核心方案。传统RAG通过向量数据库存储文档嵌入并检索相关内容，结合大语言模型（LLM）生成回答，有效缓解了LLM的“幻觉”问题。然而，单一的稠密向量检索（如基于Transformer的嵌入模型）在处理关键词匹配和多义词歧义时存在局限性，而稀疏向量检索（如BM25）虽擅长精确关键词匹配，却缺乏语义理
军事，本身就是智能人机与认知实验室人工智能大数据
军事智能后面两个字不重要，军事本身就是智能。军事活动中的许多决策和操作本质上都离不开“智能”，不论是指人类的智慧，还是现代技术和人工智能的应用。军事行动本质上是一种复杂的决策过程，涉及到战略、战术、资源配置、情报分析等多个方面。每一个决策都需要充分的智慧和智能的支持，考虑的因素包括敌我态势、地理环境、气候、技术优势等。人类指挥官的战略智慧和经验在军事行动中至关重要，但随着现代技术的发展，智能化技术
图像分类：从基础原理到前沿技术随机森林404 计算机视觉分类数据挖掘人工智能
引言在当今数字化时代，图像数据正以惊人的速度增长。从社交媒体上的照片分享到医疗影像诊断，从自动驾驶到工业质检，图像分类技术已经成为人工智能领域最基础也最重要的应用之一。本文将全面介绍图像分类的基础概念、发展历程、关键技术、应用场景以及未来趋势，帮助读者系统性地理解这一领域。第一章图像分类概述1.1什么是图像分类图像分类（ImageClassification）是计算机视觉中的一项核心任务，其目标是
通义灵码+DeepSeek：国产代码生成王炸组合，带你飞！
引言在人工智能飞速发展的当下，AI代码生成工具如雨后春笋般涌现，为开发者们带来了前所未有的编程体验。其中，国产的通义灵码结合DeepSeek模型异军突起，成为众多开发者关注的焦点。它们凭借强大的功能和出色的表现，在代码生成领域崭露头角，不仅提升了开发效率，还为编程工作流注入了新的活力。然而，如同任何新兴技术一样，在使用过程中也会遇到各种问题和挑战。本文将通过实测，深入剖析通义灵码与DeepSeek
uni-app 多端开发中 AI 的集成与适配：一次开发，智能多端运行欧阳天羲大前端与 AI 的深度融合 #AI 与大前端框架结合篇 uni-app 人工智能前端
一、引言：uni-app与AI多端集成的背景在当今跨平台开发趋势下，uni-app凭借"一次编写，多端运行"的特性成为企业级应用开发的首选框架之一。随着人工智能技术的普及，将AI能力集成到多端应用中已成为提升用户体验的关键需求。然而，小程序、APP、Web等不同端的运行环境差异显著，如何实现AI功能的统一集成与高效适配成为开发难点。本文将系统讲解在uni-app框架中集成AI能力的完整方案，涵盖跨
大语言模型技术系列讲解：大模型应用了哪些技术知世不是芝士语言模型人工智能自然语言处理 chatgpt 大模型
为了弄懂大语言模型原理和技术细节，笔者计划展开系列学习，并将所学内容从简单到复杂的过程给大家做分享，希望能够体系化的认识大模型技术的内涵。本篇文章作为第一讲，先列出大模型使用到了哪些技术，目的在于对大模型使用的技术有个整体认知。后续我们讲一一详细讲解这些技术概念并解剖其背后原理。正文开始大语言模型（LLMs）在人工智能领域通常指的是参数量巨大、能够处理复杂任务的深度学习模型。这些模型使用的技术主要
免费学中医，这些优质资源不容错过少林659 零基础学中医免费学中医
零基础学中医，学中医如何入门免费学中医！问止精一书院链接：https://tool.nineya.com/qrcode/1iv54b4ts想入门中医却担心成本太高？其实有不少免费又优质的学习资源，问止中医的系列免费课程就是其中的佼佼者，涵盖理论与实操，满足不同学习者的需求。问止中医旗下的精一书院，是免费学中医的绝佳平台。由问止中医联合创始人林大栋博士主讲，课程聚焦中医结构分析、人工智能中医大脑技术
思维树(Tree of Thoughts): 超越链式思维的AI推理新范式司南锤 LLM 人工智能
引言在人工智能快速发展的今天，大语言模型(LLM)的推理能力一直是研究的热点。从最初的直接问答，到链式思维(ChainofThoughts,CoT)的出现，再到如今的思维树(TreeofThoughts,TOT)，AI的推理方式正在变得越来越接近人类的思维过程。思维树作为一种全新的推理框架，不仅继承了链式思维的优势，更通过树状结构的探索和回溯机制，实现了更加复杂和深入的推理过程。本文将深入探讨TO
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D