scaling

潜入思维的海洋：SoftCoT++如何让语言模型更聪明

2025年5月，一篇题为《SoftCoT++:Test-TimeScalingwithSoftChain-of-ThoughtReasoning》的论文如同一盏明灯，照亮了如何让

步子哥·2025-06-28 13:40

高并发系统设计

以下是设计高并发系统时需要考虑的关键方面：水平扩展（HorizontalScaling）：高并发系统通常需要水平扩展以应对大量的并发请求。

思静鱼·2025-06-25 18:01

什么是水平扩展

而“水平扩展”（HorizontalScaling），又称为“横向扩展”或“扩容节点”，正是应对高并发、高访问量压力最常见的一种架构手段。

大数据张老师·2025-06-22 21:38

别让GPU摸鱼！榨干它！

摘要：随着人工智能发展，ScalingLaw越来越受认可。早期，人们依靠增加GPU数量提升模型性能。

九章云极DataCanvas·2025-06-20 10:13

机器学习中常用的数据预处理方法

2.特征缩放归一化（Min-MaxScaling）将数据缩放到[0,1]区间。优点：加速梯度下降，

C7211BA·2025-06-18 08:13

强化学习之父Richard Sutton：AGI研究的下一个范式

OpenAI下一代GPT近期被爆遇到瓶颈，这让“ScalingLaw撞墙”的声音变得更响，尽管业内对此争论不休，但现实情况是，大模型确实不再像年前那样有突飞猛进的进展。

OneFlow深度学习框架·2025-06-17 08:39

【无标题】在 4K 高分辨率（如 3840×2160）笔记本上运行 VMware 虚拟机时平面太小字体太小（ubuntu）

/bin/bashgsettingssetorg.gnome.desktop.interfacescaling-factor2✅如果你使用的是GTK应用，还可以加上：exportGDK

linuxarmsummary·2025-06-16 05:04

基于全球顶尖研究机构（智源研究院、斯坦福HAI、微软研究院、Gartner、DeepL等）2025年最新预测报告，结合产业落地矛盾与突破路径，系统分析未来十年AI技术颠覆性演进方向及社会变革

（智源研究院、斯坦福HAI、微软研究院、Gartner、DeepL等）2025年最新预测报告，结合产业落地矛盾与突破路径，系统分析未来十年AI技术颠覆性演进方向及社会变革影响：一、基础层重构：从“暴力Scaling

AI编程员·2025-06-14 22:06

The Quantization Model of Neural Scaling

文章目录摘要1引言2理论3概念验证：一个玩具数据集3.1“多任务稀疏奇偶校验”数据集3.2幂律规模和新兴能力4拆解大型语言模型的规模定律4.1单token损失的分布4.2单基因（monogenic）与多基因（polygenic）的规模曲线5.1语言模型量子的自然分布6相关工作7讨论摘要我们提出了神经网络规模定律的量化模型，该模型既解释了随着模型和数据规模增加损失按幂律下降的现象，也解释了随着规模扩

绒绒毛毛雨·2025-06-14 21:04

AWS EC2 虚拟服务器服务

核心功能EC2用途如何选择EC2确定工作负载需求选择合适的实例类型选择购买选项选择存储和网络选项地理区域选择考虑AutoScaling和弹性AWSEC2是什么？

wumingxiaoyao·2025-05-25 19:50

Reason-ModernColBERT论文速览：内存受限设置下深度对比学习批量大小的扩展

一、引言论文《ScalingDeepContrastiveLearningBatchSizeunderMemoryLimitedSetup》主要探讨了在内存受限环境下，如何通过梯度缓存技术扩大对比学习的批量大小

Open-source-AI·2025-05-25 12:04

Llama:开源的急先锋

Llama1提出的ScalingLaw业内普遍认为如果要达到同一个性能指标，训练更大大模型会更划算，因为训练的成本会降低，较大的模型会更快的收敛，但是llama不这么认为，llama认为虽然训练成本会降低

KangkangLoveNLP·2025-05-20 12:52

Amazon EC2 Auto Scaling实战解析与行业最佳实践

AmazonEC2AutoScaling以自动化能力成为企业上云的核心武器。本文将揭秘其原理、实战场景与优化技巧。一、传统架构的痛点：手动运维的“过山车式”成本与风险资源

AWS官方合作商·2025-05-12 23:44

2025 年 AI 十大展望：软件市场扩大 10 倍、系统比模型更重要、OpenAI 先发优势消退...

尽管有ScalingLaw放缓这样的疑虑，但整体而言，多数业内人士对AI过去一年的诸多进展感到兴奋，对新的一年AI的发展更是充满期待，尽管他们对未来的预测可能不尽相同。

OneFlow深度学习框架·2025-05-07 10:23

Switch Transformers：核心贡献与MoE的区别

SwitchTransformers：核心贡献与MoE的区别《SwitchTransformers:ScalingtoTrillionParameterModelswithSimpleandEfficientSparsity

阿正的梦工坊·2025-05-03 18:31

驾驭云端浪潮：深入理解高可扩展性及其在 Azure 中的实现

扩展策略的两大支柱：垂直与水平扩展垂直扩展(ScalingUp):提升单机性能水平扩展(ScalingOut):集群的力量负载均衡：扩展的幕后英雄高可扩展性的最佳实践：构建弹性系统架构设计的基石监控与动态调整

海棠AI实验室·2025-05-02 17:06

大模型训练从零到精通：详解如何训练大模型的完整指南

1.背景根据scalinglaw，模型越大，高质量数据越多，效果越好。但还有一个很直观的情况，随着预训练样本的质量不断提升，训练手段的优化。新的模型，往往效果能轻松反超参数量两倍于它的模型。

AGI大模型老王·2025-04-30 21:54

秒杀系统 Kafka 架构进阶优化

文章目录前言1.KafkaTopic分区（Partition）设计2.Kafka消费者高可用部署（ConsumerScaling）3.Kafka+Redis多级限流降级设计4.秒杀链路全链路追踪（Tracing

TE-茶叶蛋·2025-04-28 07:12

【模型复现】零样本预测文本分类模型——ESM 快速复现模型

ESM快速复现教程01镜像详情镜像简介：这篇论文《Biologicalstructureandfunctionemergefromscalingunsupervisedlearningto250millionproteinsequences

极链AI云·2025-04-27 22:51

DeepSeek与清华联合发布重磅论文：从 SPCT 到 Meta Reward Model，或预示DeepSeek R2将近

2025年4月4日，中国人工智能企业深度求索（DeepSeek）与清华大学研究团队联合发布题为《奖励模型的推理时Scaling方法及其在大规模语言模型中的应用》的重磅论文，提出自我原则点评调优（SPCT

LinkTime_Cloud·2025-04-26 16:03

《架构真经：互联网技术架构的设计原则（原书第2版）》一第1章　大道至简...

本节书摘来自华章出版社《架构真经：互联网技术架构的设计原则（原书第2版）》一书中的第1章，第1节，作者ScalabilityRules:PrinciplesforScalingWebSites，SecondEdition

weixin_33868027·2025-04-19 04:13

TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters

MuhammadFerjadNaeem,YongqinXian,JanEricLenssen,LiweiWang,FedericoTombari,BerntSchiele️关键词:ProgressiveScaling

不打灰的小刘·2025-04-19 04:40

Tokenformer: 下一代Transformer架构

SOTA模型基本都是基于Transformer架构的，比如NLP中目前的各种知名大模型，或者CV中的Vit等模型本次介绍的论文标题为：Tokenformer:RethinkingTransformerScalingwithTokenizedModelParameters

码农Q！·2025-04-19 03:38

矩阵平衡（Matrix Balancing）

以下是关键算法实现及步骤详解：1.对角缩放法（DiagonalScaling）核心思想：通过左乘和右乘对角矩阵(D)和(D^{-1})对矩阵(A)进行平衡，使得变换后矩阵(B=DAD^{-1})的行和列范数接近

东北豆子哥·2025-04-18 12:26

【大模型学习】第十七章预训练技术综述

生活中的预训练启示2.2技术定义与核心价值三、预训练的技术解剖3.1核心架构：Transformer的统治架构优势分析：3.2预训练任务设计3.2.1语言模型预训练3.2.2视觉预训练创新3.3规模化定律（ScalingLaw

好多渔鱼好多·2025-04-09 08:00

DeepSeek底层揭秘——《推理时Scaling方法》技术对比浅析

笔者尝试对比了“关于推理时Scaling”与现有技术，粗浅分析如下：与LoRA的对比区别：应用场景：LoRA是一种参数高效微调方法，主要用于在训练阶段对模型进行微调，以适应特定的任务或数据集。

9命怪猫·2025-04-09 08:58

如何从零开始训练大模型？

1背景根据scalinglaw，模型越大，高质量数据越多，效果越好。但还有一个很直观的情况，随着预训练样本的质量不断提升，训练手段的优化。新的模型，往往效果能轻松反超参数量两倍于它的模型。

知世不是芝士·2025-04-09 06:48

【创新项目实训个人博客】camel学习笔记（1）camel介绍

camel开源框架，以下是对camel的笔记camel网址：camel-ai/camel:CAMEL:Thefirstandthebestmulti-agentframework.FindingtheScalingLawofAgents.https

sduwcgg·2025-04-03 15:14

EfficientNet 概念与数学原理深度解析

EfficientNet概念与数学原理深度解析1.核心概念1.1复合缩放（CompoundScaling）核心思想：同时调整网络的深度、宽度和分辨率数学表达：depth:d=αϕwidth:w=βϕresolution

六月五日·2025-04-02 12:38

AI大模型的规模化定律(Scaling Law)的本质：在对数据做更好的无损压缩

AI大模型的规模化定律(ScalingLaw)的本质：在对数据做更好的无损压缩AI大模型,规模化定律,数据压缩,无损压缩,模型性能,计算资源,训练效率1.背景介绍近年来，深度学习模型的规模不断扩大，从最初的几百万参数到如今的数十亿甚至千亿参数

AGI大模型与大数据研究院·2025-04-01 10:30

Kubernetes 资源管理实战：合理配置 CPU 与内存请求和限制

补充知识点：监控与自动扩缩容监控工具自动扩缩容（Autoscaling）总结Kubernetes资源管理实战：合理配置CPU与内存请求和

XMYX-0·2025-03-24 08:04

复旦：LLM不同层位置编码缩放

标题：Layer-SpecificScalingofPositionalEncodingsforSuperiorLong-ContextModeling来源：arXiv,2503.04355摘要尽管大型语言模型

大模型任我行·2025-03-19 16:12

新手村：数据预处理-特征缩放

新手村：数据预处理-特征缩放特征缩放（FeatureScaling）是数据预处理中的一个重要步骤，特别是在应用某些机器学习算法时。

嘉羽很烦·2025-03-17 05:20

MATLAB算法实战应用案例精讲-【深度学习】归一化

常用featurescaling方法计算方式上对比分析featurescaling需要还是不需要什么时候需要featurescaling？什么时候不需要FeatureScaling？

林聪木·2025-03-16 06:59

扩散 Transformer 策略：用于通才视觉-语言-动作学习的规模化扩散 Transformer

25年2月来自上海AI实验室、浙大、香港中文大学、北大、商汤科技、清华和中科院香港科学创新研究院的论文“DiffusionTransformerPolicy:ScalingDiffusionTransformerforGeneralistVision-Language-ActionLearning

三谷秋水·2025-03-12 10:27

特征缩放：统一量纲，提高模型性能

特征缩放（FeatureScaling）就是一种用于解决这个问题的常用数据预处理

AI天才研究院·2025-03-08 03:04

【人工智能】大模型的Scaling Laws（缩放定律），通过增加模型规模（如参数数量）、训练数据量和计算资源来提升模型性能。

缩放定律（ScalingLaws）是人工智能领域中关于大模型性能提升的重要理论，其核心思想是通过增加模型规模（如参数数量）、训练数据量和计算资源来提升模型性能。

本本本添哥·2025-03-07 12:27

如何从零开始训练大模型？（附AGI大模型路线图）

1背景根据scalinglaw，模型越大，高质量数据越多，效果越好。但还有一个很直观的情况，随着预训练样本的质量不断提升，训练手段的优化。新的模型，往往效果能轻松反超参数量两倍于它的模型。

脱泥不tony·2025-03-06 21:13

大语言模型技术发展

未来，ScalingLaw的极限尚未触及，开源模型将扮演重要角色，数据供给成为关键挑战，新的模型架构将涌现，AIAgent和具身智能将成为推动通

联蔚盘云·2025-03-06 00:43

云计算中的“按需扩展”和“自动扩展”有何不同？

在云计算中，“按需扩展”（On-DemandScaling）和“自动扩展”（AutoScaling）都是提升系统灵活性的重要机制，但它们在触发方式、控制方式和应用场景上有所不同。

云上的阿七·2025-03-05 13:04

Scaling Laws（缩放法则）详解

ScalingLaws（缩放法则）详解1.定义与核心概念ScalingLaws（缩放法则）描述的是模型性能（如准确率、任务表现）与计算资源（模型参数量、训练数据量、训练时间）之间的数学关系。

天一生水water·2025-03-05 05:00

DeepMind首席科学家最新万字访谈：模型「慢思考」，能力大幅提升！

JackRae指出，推理模型是AI发展的新范式，推理模型并非追求即时响应，而是通过增加推理时的思考时间来提升答案质量，这导致了一种新的ScalingLaw，“慢思考”模式是提升AI性能的有效途径。

·2025-03-02 09:43

DeepSeek效应初现：Grok-3补刀ChatGPT，OpenAI已在ICU？

今天咱们聊聊最近在AI界引发轰动的新闻——DeepSeek和xAI相继用R1和Grok-3证明了预训练ScalingLaw并非OpenAI的护城河。这意味着什么呢？让我们一探究竟！

东方佑·2025-03-02 08:53

2025 AI展望：Scaling Law新叙事加速AI变革

这次AI变革是由以ScalingLaw为底层逻辑的基础模型驱动，其整体的发展脉络由基础模型的技术逻辑主导。

阿里巴巴淘系技术团队官网博客·2025-02-28 23:25

DeepSeek的开源之路:一文读懂从V1-R1的技术发展,见证从开源新秀到推理革命的领跑者

随着模型规模的不断扩大，算力需求呈指数级增长，训练成本飙升，而性能提升的边际收益却逐渐递减，形成了所谓的“ScalingLaw”瓶颈。

·2025-02-26 05:05

通俗理解Test time Scaling Law、RL Scaling Law和预训练Scaling Law

一、ScalingLaw解释1、预训练阶段的ScalingLaw（打地基阶段）通俗解释：就像建房子时，地基越大、材料越多、施工时间越长，房子就能盖得越高越稳。

老A的AI实验室·2025-02-23 16:12

数学推理中在推理规模化下检查假阳性解

25年2月来自中科大和微软亚洲研究院的论文“ExaminingFalsePositivesunderInferenceScalingforMathematicalReasoning”。

硅谷秋水·2025-02-20 17:18

【k8s应用管理】kubernetes HPA+rancher

metrics-server部署HPARancher管理Kubernetes集群指南实验环境安装及配置RancherKubernetesHPA部署指南概述KubernetesHPA（HorizontalPodAutoscaling

Karoku066·2025-02-20 12:22

Kubernetes & 容器自动伸缩失败：解决方案及阿里云如何帮助

自动伸缩（AutoScaling）功能可以帮助应用在流量波动时动态调整资源，提高效率并节约成本。

Anna_Tong·2025-02-19 22:29

揭密 scaling laws

ScalinglawsOpenAI在其早期的关于scalinglaws的论文[1]中提出了基础理论，但该文缺乏一些具体的求解过程，且未能在更大规模的模型上进行验证。

deardao·2025-02-19 00:23

推荐频道