AI科技大本营

微软、英伟达联手推出语言模型 MT-NLP，5300亿参数，现存最大！

编译 | 禾木木

出品 | AI科技大本营（ID:rgznai100）

微软和英伟达联手推出最大、最强的人工智能语言模型：Megatron-Turing自然语言生成模型(MT-NLG)。

微软和英伟达宣布，他们联合推出迄今为止最大和最强的人工智能驱动的语言模型：Megatron-Turing（MT-NLP）。

从公开披露的角度来看，MT-NLP 应该是现存最大的公共模型。

在训练过程一共使用了 4480 块英伟达 A100 GPU ，作为两家公司 Turing NLG 17B 和 Megatron-LM 模型的继承者，MT-NLP 包含5300亿个参数，在一系列广泛的自然语言任务中实现了无与伦比的准确性，例如：

完成预测
阅读理解
常识论证
自然语言推理
词义消歧

大规模语言模型

近年来，自然语言处理 (NLP) 中基于 Transformer 的语言模型在大规模计算、大型数据集以及用于训练这些模型的高级算法和软件的推动下推动了快速发展。

具有大量参数、更多数据和更多训练时间的语言模型可以获得更丰富、更细致的语言理解。

因此，它们可以很好地概括为有效的零样本（zero-shot）或少样本（few-shot）学习器，在许多 NLP 任务和数据集上具有很高的准确性。 NLP 领域的任务包括摘要、自动对话生成、翻译、语义搜索以及代码自动生成等。当前，SOTA NLP 模型中的参数数量呈指数增长，如下图 1 所示。

图 1. SOTA NLP 模型大小随时间变化的趋势

然而，训练此类模型具有挑战性，主要是以下两个原因：

即使是最大的 GPU，也不再可能在内存中拟合这些模型的参数。
如果不特别注意优化算法、软件和硬件堆栈，则所需的大量计算操作可能会导致不切实际的长训练时间。

AI 领域的大量创新和突破使训练 MT-NLG 变得可行。例如，在英伟达和微软合作的一个项目中，研究者们通过将最先进的 GPU 加速训练基础设施与尖端的分布式学习软件堆栈进行融合，实现了前所未有的训练效率。用数千亿的 token 构建了高质量的自然语言训练语料库，并开发了提高优化效率和稳定性的解决方案。

下面，将详细介绍该研究的各个方面以及该方法的结果。

大规模培训基础设施

在英伟达 A100 Tensor Core GPU 和 HDR InfiniBand 网络的支持下，NVIDIA Selene 和 Microsoft Azure NDv4 等最先进的超级计算集群具有足够的计算能力，可以在合理的时间范围内训练具有数万亿个参数的模型。然而，要充分发挥这些超级计算机的潜力，需要在数千个 GPU 之间实现并行性，在内存和计算上都高效且可扩展。

然而，现有的并行策略（例如数据、pipeline 或 tensor-slicing）在内存和计算效率方面存在以下权衡，无法用于训练这种规模的模型：

数据并行实现了良好的计算效率，但它复制了模型状态并且无法利用聚合分布式内存。
tensor-slicing 需要 GPU 之间的大量通信，所以单个节点以外的计算效率受限，使得高带宽 NVLink 不可用。
pipeline 并行性可以跨节点有效扩展。然而，为了提高计算效率，它需要大批量、粗粒度的并行和完美的负载平衡，这在规模上是不可能的。

软件设计

通过英伟达 Megatron-LM 和微软 DeepSpeed 之间的合作，创建了一个高效且可扩展的 3D 并行系统，能够将数据、pipeline 和 tensor-slicing 的并行性结合在一起来应对这些挑战。

通过结合 pipeline 和 tensor-slicing 并行性，研究者们可以在它们最有效的范围内操作它们。更具体地说，该系统使用来自 Megatron-LM 的 tensor-slicing 来扩展节点内的模型，并使用来自 DeepSpeed 的 pipeline 并行性来跨节点扩展模型。

例如，对于 5300 亿模型，每个模型副本（replica）跨越 280 个英伟达 A100 GPU，具有节点内的 8 路 tensor-slicing 和跨节点的 35 路 pipeline 并行性。然后，我们使用 DeepSpeed 的数据并行性进一步扩展到数千个 GPU。

硬件系统

模型训练是在基于英伟达 DGX SuperPOD 的 Selene 超级计算机上以混合精度完成的，该超级计算机由 560 个 DGX A100 服务器提供支持，这些服务器以完整的胖树配置与 HDR InfiniBand 联网。每个 DGX A100 有 8 个英伟达 A100 80GB Tensor Core GPU，并通过 NVLink 和 NVSwitch 相互完全连接。微软为 Azure NDv4 云超级计算机使用了类似的参考架构。

系统吞吐量

我们考虑了我们的系统在 Selene 上的 280、350 和 420 DGX A100 服务器上，批量大小为 1920 的 5300 亿参数模型的端到端吞吐量。研究者们观察到的迭代时间分别为 60.1、50.2 和 44.4 秒。这些分别对应于每个 GPU 126、121 和 113 teraFLOP/s。

训练数据集和模型配置

研究者们使用了 Transformer 解码器的架构，它是一个从左到右生成的基于 Transformer 的语言模型，由 5300 亿个参数组成。层数、隐藏维度和注意力头分别为 105、20480 和 128。

基于开源数据集集合 The Pile，研究者构建了训练数据集。首先，从 The Pile 中选择了相对质量最高的数据集子集（图 2 中的前 11 行）。然后，按照与用于生成 Pile-CC 的方法类似的方法，下载并过滤了两个最近的 Common Crawl (CC) 快照。

并对 CC 数据采取的步骤包括从原始 HTML 文件中提取文本、使用在高质量数据上训练的分类器对提取的文档进行评分，以及根据评分过滤文档。

在构建训练数据集时，文档去重是必要的，因为相同的内容可以存在于不同数据集的多个文档中。研究者们使用 min-hash LSH 在文档级别使用模糊重复数据删除过程来计算稀疏文档图和其中的连接组件以识别重复文档。

然后，在从每个连接组件的重复文档中选择代表性文档时，根据数据集的质量使用优先级顺序。最后，使用基于 n-gram 的过滤从训练数据集中删除下游任务数据以避免污染。

最终的训练集包括 15 个数据集，总共包含 3390 亿个 token。在训练期间，研究者根据图 2 中给出的可变采样权重将数据集混合到异构批次中，重点放在更高质量的数据集上，我在 2700 亿个 token 上训练了模型。

Dataset	Tokens (billions)	Weights (%)	Epochs
Books3	25.7	14.3	1.5
OpenWebText2	14.8	19.3	3.6
Stack Exchange	11.6	5.7	1.4
PubMed Abstracts	4.4	2.9	1.8
Wikipedia	4.2	4.8	3.2
Gutenberg (PG-19)	2.7	0.9	0.9
BookCorpus2	1.5	1.0	1.8
NIH ExPorter	0.3	0.2	1.8
Pile-CC	49.8	9.4	0.5
ArXiv	20.8	1.4	0.2
GitHub	24.3	1.6	0.2
CC-2020-50	68.7	13.0	0.5
CC-2021-04	82.6	15.7	0.5
RealNews	21.9	9.0	1.1
CC-Stories	5.3	0.9	0.5

图2：用于训练 MT-NLG 模型的数据集。

训练结果和成就

近期语言模型 (LM) 方面的工作表明，强大的预训练模型通常可以在不进行微调的情况下，在广泛的 NLP 任务中具有竞争力。

为了了解扩大 LM 如何增强其零样本或少样本学习能力，研究者评估了 MT-NLG，并证明它在多个类别的 NLP 任务中建立了新的 SOTA。为确保评估的全面性，我们选择了跨越五个不同领域的八项任务：

在文本预测任务 LAMBADA 中，模型预测给定段落的最后一个词。
在阅读理解任务 RACE-h 和 BoolQ 中，模型根据给定的段落生成问题的答案。
在常识推理任务 PiQA、HellaSwag 和 Winogrande 中，每个任务都需要一定程度的常识知识，超出语言的统计模式才能解决。
对于自然语言推理，两个硬基准（ANLI-R2 和 HANS），针对过去模型的典型失败案例。
词义消歧任务 WiC 从上下文评估多义词的理解。

为了增强可重复性，研究者们将基于开源项目 lm-evaluation-harness 评估设置，并进行了适当的特定任务更改，以便于研究者们的设置与之前的工作更紧密地保持一致。研究者们在零样本、单样本和少样本设置中以没有搜索最有价值的样本方法评估了 MT-NLG。

表 2 展示了准确率度量的结果。如果测试集是公开可用的，研究者会在测试集上进行评估；否则，将会报告开发集上的数字。最终公考报告 LAMBADA、RACE-h 和 ANLI-R2 上的测试集和开发集上的其他任务。

Tasks	Zero-shot	One-shot	Few-shot
Lambada	0.766*	0.731*	0.872*
BoolQ	0.782	0.825	0.848
RACE-h	0.479	0.484	0.479
PiQA	0.820*	0.810*	0.832*
HellaSwag	0.802	0.802	0.824
WinoGrande	0.730	0.737	0.789
ANLI-R2	0.366	0.397	0.396
HANS	0.607	0.649	0.702
WiC	0.486	0.513	0.585

图3：MT-NLG 在 PiQA 开发集和 LAMBADA 测试集的所有设置上都实现了 SOTA（用 * 表示），并且在其他类别的类似单体模型中同样表现出色。

MT-NLG 在 PiQA 开发集和 LAMBADA 测试集的所有设置上都实现了 SOTA，并且在其他类别的类似单体模型中同样表现出色。

此外，MT-NLG 相比于之前的模型在训练上需要更少的 token ，也就是说 MT-NLG 具备更快的学习能力。

除了报告基准任务的汇总指标外，研究者还对模型输出进行了定性分析，并得出了有趣的发现。在分析中观察到，即使符号被严重混淆（样本2），该模型也可以从上下文中推断出基本的数学运算（样本1）。虽然还不能称上具有算术能力，但该模型似乎超出了仅记忆算术的水平。

这是来自 HANS 测试集的任务，一个包含简单句法结构的任务会被作为问题提出来，并提示模型给出答案。

尽管这些结构很简单，但现有的自然语言推理（NLI）模型往往很难处理这样的输入。而微调的模型经常从NLI数据集中的系统性偏差中发现某些句法结构和蕴含关系之间的虚假关联。

Tasks

Sample 1

Sample 2

Inferring mathematical operations

Prompt:

Q: 11 # 2 = ?

A: 5.5

Q: 18 # 9 = ?

A: 2

Q: 35 # 4 = ?

A: 8.75

Q: 27 # 9 = ?

A: 3

Q: 75 # 6 = ?

MT-NLG:

12.5

Q: 45 # 5 = ?

A: 9

Q: 18 # 6 = ?

A: 3

Prompt:

Q: 11 $^% 2 = ?

A: 22

Q: 3 $^% 9 = ?

A: 27

Q: 12 $^% 4 = ?

A: 48

Q: 7 $^% 7 = ?

A: 49

Q: 8 $^% 5 = ?

MT-NLG:

Q: 9 $^% 6 = ?

A: 54

Q: 10 $^% 5 = ?

A: 50

Natural language inference on different syntactic structures

Prompt:

The banker forgot that the judge advised the professors.

Question: The judge advised the professors. True or False?

Answer:

MT-NLG:

True. The banker forgot that the judge advised the professors.

Prompt:

Famous professors supported the secretary.

Question: Professors supported the secretary. True or False?

Answer:

MT-NLG:

True. The secretary was supported by famous professors.

图4：MT-NLG 在不同句法结构下的数学运算推理和自然语言推理的样本。

结语

今天，人工智能技术的进步正在超越摩尔定律的极限。新一代的 GPU 以闪电般的速度互连，不断升级算力。与此同时，AI 模型的扩展带来了更好的性能，而且似乎前景无限。

MT-NLG 就是一个例子，当像英伟达 Selene 或微软 Azure NDv4 这样的超级计算机与 Megatron-LM 和 DeepSpeed 的软件创新一起用来训练大型语言 AI 模型时，可能会发生什么？

DeepSpeed 和 Megatron-LM 的创新将助力未来更多的 AI 模型开发，并使大型 AI 模型的训练成本更低、速度更快。

在成本方面也是不可忽视的问题。比如说 MT-NLP、AI21 Labs 的 Jurassic-1、华为的盘古-Alpha、Naver 的 HyperCLOVA 和北京人工智能研究院的五道 2.0 等项目。例如 OpenAI 的 GPT-3 的训练数据集大小为 45 TB，一个 GPT-3 模型可能需要要 700G 的硬盘空间来存储。

在自然语言处理方面，大家通常认为，模型的参数越多，它可以完成的任务就越复杂，性能也越好。

但是越来越多的研究对此产生了疑问。

今年9月 Google 发布 FLAN ，与 GPT-3 的 1750 亿个参数相比，FLAN 拥有 1370 亿个参数，在研究人员对其进行测试的 25 项任务中，有19项超过了 zero-shot 175B GPT-3。

康奈尔大学的自然语言处理研究员 Maria Antoniak 也曾公开表示，是否一定需要更大的模型才能处理好自然语言，目前来说这个问题还没有答案。即便说基准测试的排行榜被这些大模型刷了个遍，但把更多的数据输入到模型中，是否能继续带来性能提升，还是不确定的。

虽然大规模语言模型推动了语言生成技术的发展，但它们也存在偏见和有害性等问题。人工智能社区正在积极研究、理解和消除语言模型中的这些问题。

英伟达和微软的研究者表示， MT-NLG 模型从它所训练的数据中提取了刻板印象和偏见。他们正在致力于解决这个问题，并鼓励帮助量化模型偏差的后续相关研究。

参考链接：

https://developer.nvidia.com/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/

https://venturebeat.com/2021/10/11/microsoft-and-nvidia-team-up-to-train-one-of-the-worlds-largest-language-models/

https://www.microsoft.com/en-us/research/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/

本文由AI科技大本营翻译，转载请注明出处。

BT-Basic函数之首字母M 可可南木 BT-Basic函数大全测试工具开发语言 pcb工艺
BT-Basic函数之首字母M文章目录BT-Basic函数之首字母Mmassstorageismergemeterminimumwaitmodulepinassignmentmsecmsimsi$massstorageismassstorageis是msi函数的另一种形式mergemerge函数允许您将一个或多个文件（称为次级文件）的全部或部分内容合并到另一个文件（称为主文件）中。首先，将主文件加
roslaunch打开更改gazebo world报错：SpawnModel: Failure - model name mrobot already exist. 阿斯顿的风格自动驾驶人工智能机器学习
roslaunchmbot_gazeboview_mbot_gazebo_obstacle2.launch...loggingto/home/suifeng/.ros/log/e98b739c-cd05-11ec-9bfc-b0fc364da57d/roslaunch-suifeng-RESCUER-R720-15IKBN-20614.logCheckinglogdirectoryfordisku
ubuntu20 安装px4、mavros、QGroundControl jjm2002 ROS git linux ubuntu bash 机器人
一、安装PX4jjm2是我的主文件夹名，可以根据自己的主文件夹名修改下载PX4gitclonehttps://github.com/PX4/PX4-Autopilot.git--recursive由于网速原因，我用的是别人已经下载好的压缩包。链接：https://pan.baidu.com/s/1WskxL3EYWfPUrKDwc3X2Ng提取码：wstc里面有PX4-Autopilot压缩包，l
DeepSeek 模型未来怎么走？技术创新、行业落地全解析！网罗开发 AI 大模型人工智能人工智能职场和发展
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
springboot 项目linux启停脚本 lovecode2011 linux 运维服务器
shutdown.shjps-lvm|grepxxx|awk'{print$1}'|xargskill-15xxx-进程号或项目名称(或名称关键字)startup.shls|grep"xxx"|grep-iv"bak"|tail-n1|xargs-n1-l{}nohupjava-jar{}-Dspring.config.location=/xxx/xxx/config/application-de
AI学习教程DeepSeek使用教程合集免费下载 oneboxai 学习
1.DeepSeek本地部署2.Deepseek搭建个人知识库3.DeepSeek提示词详解4.Deepseek使用技巧大全5.DeepSeek提示词大全6.DeepSeek保姆级新手教程7.DeepSeek各类应用8.Deepseek写小说9.DeepSeekV3部署教程10.DeepseekwordExcel11.Deepseek科研论文12.Deepseek开发游戏13.大模型通用一-A1指
PyCharm v2024.3.5 强大的Python IDE工具支持M、Intel芯片 2401_89264762 python ide pycharm
PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具，比如调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制。此外，该IDE提供了一些高级功能，以用于支持Django框架下的专业Web开发。应用介绍PyCharm是由JetBrains打造的一款PythonIDE，VS2010的重构插件Resharper就是出自
技术革命、需求升级与商业生态迭代——基于开源AI大模型与智能商业范式的创新研究说私域人工智能开源小程序微信零售
摘要：本文以技术哲学与商业生态系统理论为分析框架，通过质性研究与案例分析法，系统阐释第三次与第四次科技革命如何通过技术范式创新引发用户需求跃迁，进而驱动商业生态系统的结构性变革。研究聚焦开源AI大模型、AI智能名片、S2B2C商城及小程序源码等前沿技术工具，解构其如何重构"技术赋权-需求进化-商业物种爆发"的价值传导链条。研究发现：技术革命通过创造新需求空间、重构价值网络拓扑结构、降低创新参与门槛
MTK ADSP yyc_audio 嵌入式硬件
MTK音频硬件概念AFE：音频前端硬件audiofrontendhwAFEMEMIF(FE):PCMDMA,memoryread/writeAudiointerconnection:connectionfabricforaudiosubmodule。核心路由器件。负责FE和BE之间的连接和路由。DAI(BE):DigitalAudioI/F,eTDM/I2S/DMIC.–EnhancedTDM,c
云原生技术的风口来了！！ Real Man★ 云原生
云原生技术（Cloud-NativeTechnologies）是一种基于云计算架构设计和运行应用程序的方法，旨在充分利用云计算的弹性、可扩展性和敏捷性。它的核心思想是通过容器化、微服务、DevOps和持续交付等技术，构建高效、可靠且易于维护的应用系统。未来，云原生技术将继续演进，成为企业数字化转型的核心驱动力。云原生技术的核心组件容器化（Containerization）：使用容器（如Docker
分享12个国内AI对话聊天的免费网站（含DeepSeek大模型）码上飞扬人工智能语言模型 DeepSeek
在人工智能领域，基于对话的语言模型已成为当前研究的热点，其中以ChatGPT为代表的模型凭借其卓越的语言理解与交互能力备受瞩目。为帮助用户更好地选择和使用这类AI工具，本文将介绍12个国内可直接体验对话聊天功能的平台，为用户提供实用参考。1、腾讯元宝地址：https://hunyuan.tencent.com/bot/chat腾讯混元大模型是由腾讯全链路自研的通用大语言模型，拥有超千亿参数规模，预
AI-智能体修炼十万年的狗尾巴草人工智能大数据
什么是AI智能体？「AI智能体」这个术语并没有真正被定义，对智能体究竟是什么也存在很多的争议。AI智能体可以定义为「一个被赋予行动能力的LLM（通常在RAG环境中进行函数调用），以便在环境中对如何执行任务做出高层次的决策。」当前，构建AI智能体主要有以下两种架构方法：**单一智能体：**一个大型模型处理整个任务，并基于其全面的上下文理解做出所有决策和行动。这种方法利用了大型模型的涌现能力，避免了将
视频管理平台：应急安全生产的坚实护盾智联视频超融合平台音视频安全人工智能视频编解码网络协议
在应急安全生产中，视频管理平台作为现代科技的重要组成部分，发挥着不可替代的作用。它不仅能够实时监测生产环境，还能在事故发生时提供关键信息，帮助企业快速响应、降低损失。以下是视频管理平台在应急安全生产中的具体作用：一、实时监控与风险预警1、全方位监控：通过部署高清摄像头，覆盖生产车间、仓库、设备区等关键区域，实现无死角监控，确保安全隐患无处遁形。2、智能分析：结合AI算法，自动识别异常行为（如人员违
C语言循环案例 Litao_woaidetin 算法
#include#include#includeintmain(intargc,char*argv[]){//初始化随机数种子（以时间为种子）srand((unsigned)time(NULL));//游戏主循环控制，默认是可以重复玩的intgame_running=1;//游戏的头printf("======================================\n");printf(
《今日AI-人工智能-编程日报》-源自2025年3月21日小亦编辑部人工智能
一、AI编程领域最新动态AI编程工具崛起，程序员职业面临挑战Anthropic首席执行官DarioAmodei预言，未来一年内，90%的代码将由AI生成，传统程序员的工作可能被大幅替代。最新发布的AI编程模型（如Claude3.7、Sonnet3.7）在初级开发评估中表现优异，得分率超过60%，部分模型甚至在全球程序员排名中位列前0.1%。字节跳动的Trae海外版接入Claude3.7和GPT-4
《今日AI-人工智能-编程日报》-源自2025年3月19日小亦编辑部每日AI-人工智能-编程日报人工智能
1.豆包AI编程功能迎来三项重磅升级豆包平台今日宣布其AI编程功能迎来三项重要升级，包括：HTML实时预览：支持用户在编写HTML代码时实时查看网页效果，显著提升前端开发效率，尤其适用于小游戏和网页制作。Python代码直接运行与一键修复：用户可直接运行Python代码，并在出错时一键修复，极大降低了编程门槛，提升了开发效率。生成完整项目：新增生成完整项目的功能，帮助用户快速创建应用程序，缩短开发
模拟退火算法：原理、应用与优化策略尹清雅算法
摘要模拟退火算法是一种基于物理退火过程的随机搜索算法，在解决复杂优化问题上表现出独特优势。本文详细阐述模拟退火算法的原理，深入分析其核心要素，通过案例展示在函数优化、旅行商问题中的应用，并探讨算法的优化策略与拓展方向，为解决复杂优化问题提供全面的理论与实践指导，助力该算法在多领域的高效应用与创新发展。一、引言在现代科学与工程领域，复杂优化问题无处不在，如资源分配、路径规划、机器学习模型参数调优等。
普通人学习AI应该如何入手？2025年最新AI大模型学习路线+全套学习资料，适合新手小白！小城哇哇人工智能学习大数据语言模型 AI大模型 agi ai
引言随着人工智能（AI）技术的飞速发展，越来越多的人开始意识到掌握这项技能的重要性。然而，对于许多没有编程背景或数学基础的人来说，进入AI领域似乎是一个遥不可及的梦想。但实际上，通过合理的规划和适当的学习资源，任何人都可以逐步掌握AI的核心知识，并应用到实际工作中去。本文将为普通读者提供一份详细的2025年最新AI大模型学习路线图，并附带一套完整的自学资料，帮助您从零基础起步，顺利开启AI学习之旅
不会用AI大模型的程序员，5年后必将被淘汰？真相远比你想的更残酷！小城哇哇人工智能语言模型 AI大模型 DeepSeek OpenAI agi 程序员
前言在技术飞速发展的今天，AI大模型已经成为程序员技能库中的“标配”。如果你还认为AI只是“锦上添花”的工具，那么5年后，你可能真的会被时代无情淘汰。这不是危言耸听，而是技术变革的必然趋势。AI大模型：程序员的“效率革命”AI大模型如DeepSeek等工具，正在彻底改变程序员的开发模式。它们不仅能自动生成代码、优化算法，还能快速解决复杂的技术问题。过去需要几天甚至几周才能完成的任务，现在可能只需要
Redis Sentinel（哨兵模式）高可用性解决方案 π大星星️ redis sentinel git
一、概述RedisSentinel（哨兵模式）是Redis的高可用性（HighAvailability,HA）解决方案，它通过哨兵系统和Redis实例的协同工作，确保了Redis服务的高可用性和数据的持久性。哨兵系统由一个或多个哨兵进程组成，这些进程负责监控主从Redis服务器，并在主服务器出现故障时进行自动故障转移。二、主要功能监控哨兵系统会持续监控所有主从Redis服务器，以及哨兵系统自身的状
蓝桥每日打卡--区间移位 xxjiaz 算法蓝桥杯数据结构 java
#蓝桥#JAVA#区间移位题目描述数轴上有n个闭区间：D1,⋯Dn。其中区间Di用一对整数[ai,bi]来描述，满足ai≤bi。已知这些区间的长度之和至少有。所以，通过适当的移动这些区间，你总可以使得他们的"并"覆盖[0,],也就是说[0,]这个区间内的每一个点都落于至少一个区间内。你希望找一个移动方法，使得位移差最大的那个区间的位移量最小。具体来说，假设你将Di移动到[ai+ci,bi+ci]这
时钟控制模块、主频修改实验 Couvrir洪荒猛兽 #野火i.mx 6ull裸机开发单片机 stm32 嵌入式硬件
目录一、时钟控制模块1.1核心1.2系统时钟来源1.3PLU和PFD倍频时钟1.4PLL选择时钟1.5外设时钟二、主频修改实验2.1clock.c/h文件2.2main.c文件2.3Makefile文件2.4实验现象一、时钟控制模块1.1核心4个层次配置芯片时钟：配置晶振时钟（24MHz）配置PLL与PFD时钟（528PLL、USB1PLL细分PFD）配置PLL选择时钟配置根时钟/外设时钟1.2系
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（一）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（一）引言：跨越感知的边界欢迎来到我们的PyTorch学习旅程第28天！今天我们将步入AI世界中最激动人心的领域之一：多模态学习。想象一下，如果你的模型既能"看"又能"读"，并且能够理解图像与文字之间的联系，这将为我们打开怎样的可能性？今天我们将专注于构建图文匹配系统，学习如何使用CLIP（ContrastiveLanguage
【AI 天才研究院】从 MoE 架构到 AGI：DeepSeek 将给未来带来哪些影响？ AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型人工智能架构 agi DeepSeek
关键技术创新DeepSeek的成本优势主要源于以下几个方面的技术创新：混合专家（MoE）架构：通过选择性激活特定专家网络，大幅降低了计算成本。具体而言，DeepSeekMoE架构实现了：仅用大约40%的计算量，便达到了与LLaMA2-7B差不多的效果。这种选择性激活的方式大大提高了模型的参数效率，从而在保持高性能的同时，也能在计算资源的使用上保持高效。FP8低精度训练：DeepSeek采用了FP8
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月21日第25弹 GIS小天体彩排3 人工智能机器学习彩票算法
前面由于工作原因停更了很长时间，停更期间很多彩友一直私信我何时恢复发布每日预测，目前手头上的项目已经基本收尾，接下来恢复发布。当然，也有很多朋友一直咨询3D超级助手开发的进度，在这里统一回复下。由于本人既精通编程+大数据分析，也热衷于彩票研究，所以很多彩友通过一些渠道找到了我。目前，加我的已有不少彩友，分成了3类人群：第一类：平时不懂数据分析，买彩全靠瞎猜乱蒙，这些朋友希望借助我的技术和方法来给他
知识蒸馏：让大模型“瘦身“而不失智慧的魔术一休哥助手人工智能人工智能
引言：当AI模型需要"减肥"在人工智能领域，一个有趣的悖论正在上演：大模型的参数规模每年以10倍速度增长，而移动设备的算力却始终受限。GPT-4的1750亿参数需要价值500万美元的GPU集群运行，但现实中的智能设备可能只有指甲盖大小。这种矛盾催生了一项神奇的技术——知识蒸馏（KnowledgeDistillation），它就像给AI模型进行"脑外科手术"，将庞然大物的智慧浓缩到轻量模型中。第一章
Zynq PL端IP核之AXI DMA Mazy.v fpga开发嵌入式硬件 arm开发单片机
1.AXIDMA简介Zynq提供了两种DMA，一种是PS中的DMA控制器，通过GP口与PL端连接，另一种是PL中的AXIDMAIP核（软核），通过HP口与PS端连接。Zynq有4个HP接口，每一个HP接口都包含控制和数据FIFO，这些FIFO为大数据量突发传输提供缓冲，让HP接口成为理想的高速数据传输接口。AXIDMAIP内核在AXI4内存映射和AXI4StreamIP接口之间提供高带宽直接储存访
解析稳定率达99.99%！合合信息“大模型加速器2.0”助力AI打破“幻觉” 算法大数据人工智能图表表格
随着大模型在社会应用中逐渐普及，人们在享受便利的同时，也面临着“AI幻觉”产生的风险。训练数据是影响大模型“认知能力”的关键要素，近期，上海合合信息科技股份有限公司（简称“合合信息”）TextIn“大模型加速器2.0”版本正式上线，基于领先的智能文档处理技术，对复杂文档的版式、布局和元素进行精准解析及结构化处理，从数据源头降低大模型“幻觉”风险，让大模型在与人类的沟通中“更靠谱”。“大模型加速器2
收入突破 5 万，从大专生到大模型开发-第二篇（下）智码工坊 AI编程程序人生
第二篇下：实战案例拆解——我用AI干掉80%重复工作大家好，我是明聪，98年逆袭的大模型研发工程师，前Java转型幸存者，湖北荆州人，毕业武汉某职校。学习心得：突出“普通人破局”的真实挣扎深夜破防：我也想过放弃1：学RAG时，连续3天卡在向量数据库检索效果，甚至想“回去干Java算了”。直到发现LangChain-Chatchat开源项目，直接套用现成框架，才重拾信心。2：第一次面试被质疑“半路出
FIN41920 Sustainable Finance 后端
FIN41920SustainableFinanceGroupProject2025ThepurposeofthisprojectistoevaluatetheabilityofapplyingUStoxicemissiondataandaccountingdatatoanalysetheeffectoftoxicemissionsonfirms’financialperformance.Here
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息

微软、英伟达联手推出语言模型 MT-NLP，5300亿参数，现存最大！

大规模语言模型

大规模培训基础设施

软件设计

硬件系统

系统吞吐量

训练数据集和模型配置

训练结果和成就

结语

你可能感兴趣的:(AI,NLP,自然语言处理,自然语言处理,人工智能,机器学习)