v_JULY_v

斯坦福Mobile ALOHA提到的ACT之外的另两项技术：Diffusion Policy、VINN

前言

本文接上一篇文章《斯坦福机器人Mobile ALOHA的关键技术：动作分块ACT的算法原理与代码剖析》而来，当然最开始本文是作为上一篇文章的第二、第三部分的

但因为ACT太过关键，除了在上一篇文章中写清楚其算法原理之外，还得再剖析其代码实现，故为避免上一篇文章太过长，也为更清楚的阐述Diffusion Policy、VINN，故便有了本文

第一部分 Diffusion Policy

如我组建的复现团队里的邓老师所说，斯坦福mobile aloha团队也用了 diffusion，不过是作为对比实验的打击对象来用的

下面，我们便根据Columbia University、Toyota Research Institute、MIT的研究者联合发布的《Diffusion Policy:Visuomotor Policy Learning via Action Diffusion》这篇论文详细解读下Diffusion Policy

1.1 什么是Diffusion Policy

如下图所示

a)具有不同类型动作表示的显式策略(Explicit policy with different types of action representations)
b)隐式策略学习以动作和观察为条件的能量函数，并对最小化能量景观的动作进行优化(Implicit policy learns an energy functionconditioned on both action and observation and optimizes for actions that minimize the energy landscape)
c)扩散策略通过学习的梯度场将噪声细化为动作。这种表述提供了稳定的训练，允许学习到的策略准确地建模为多模态动作分布，并容纳高维动作序列
Diffusion policy refines noise into actions via a learned gradient field. This formulation provides stable training, allows the learned policy to accurately model multimodalaction distributions, and accommodates high-dimensional action sequences

进一步，所谓扩散策略，是指将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法

扩散策略学习动作-分布评分函数的梯度
即该策略不是直接输出一个动作，而是以视觉观察为条件，对K次去噪迭代推断“动作-得分梯度”(instead of directly outputting an action, the policy infers the action-score gradient, conditioned on visual observations, for K denoising iterations)
并在推理过程中通过一系列随机朗之万动力学步骤对该梯度场进行迭代优化。扩散公式在用于机器人策略时产生了强大的优势，包括优雅地处理多模态动作分布，适合高维动作空间，并表现出令人印象深刻的训练稳定性
为了充分释放扩散模型在物理机器人上进行视觉运动策略学习的潜力，作者团队提出了一套关键的技术贡献，包括将后退视界控制、视觉调节和时间序列扩散transformer结合起来

1.2 Diffusion for Visuomotor Policy Learning

如下图所示

a)一般情况下，该策略在时间步长时将最新的 $T_{o}$ 步观测数据 $O_{t}$ 作为输入，并输出 $T_{a}$ 步动作 $A_{t}$
General formulation. At time step t, the policy takes the latest To steps of observation data Ot as input and outputs Ta steps of actions At
b)在基于CNN的扩散策略中，对观测特征 $O_{t}$ 应用FiLM(Feature-wise Linear Modulation)[35]来调节每个卷积层通道。从高斯噪声中提取的 $\mathbf{A}_{t}^{K}$ 减去噪声估计网络 $\varepsilon_{\theta}$ 的输出，并重复次，得到去噪动作序列 $\mathbf{A}_{t}^{0}$ 「(这个过程是扩散模型去噪的本质，如不了解DDPM，请详看此文：《AI绘画能力的起源：从VAE、扩散模型DDPM、DETR到ViT/Swin transformer》」
In the CNN-based Diffusion Policy, FiLM (Feature-wise Linear Modulation) [35] conditioning of the observation feature Ot is applied to every convolution layer, channel-wise. Starting from AtK drawn from Gaussian noise, the outputof noise-prediction network εθ is subtracted, repeating K times to get At0, the denoised action sequence.
c)在基于Transformer的[52]扩散策略中，观测 $\mathbf{O}_{t}$ 的嵌入被传递到每个Transformer解码器块的多头交叉注意力层。每个动作嵌入使用所示注意力掩码进行约束，仅关注自身和之前的动作嵌入(因果注意)
In the Transformer-based [52]Diffusion Policy, the embedding of observation Ot is passed into a multi-head cross-attention layer of each transformer decoder block. Eachaction embedding is constrained to only attend to itself and previous action embeddings (causal attention) using the attention mask illustrated.

虽然DDPM通常用于图像生成，但该团队使用DDPM来学习机器人的视觉运动策略。这需要针对DPPM的公式进行两大修改

之前输出的是图像，现在需要输出：为机器人的动作(changing the output x to represent robot actions)
去噪时所依据的去噪条件为观测Ot (making the denoising processes conditioned on input observation Ot)

具体来说，在时间步，该策略以最新 $T_{o}$ 步的观测数据Ot作为输入，预测 $T_{p}$ 步的动作。其中，机器人执行 $T_{a}$ 步的动作时无需重新规划。在此定义中， $T_{o}$ 表示观测视界， $T_{p}$ 表示动作预测视界，而 $T_{a}$ 则代表了动作执行视界。这样做既促进了时间动作的一致性，又保持了响应速度

我们使用DDPM来近似条件分布p(At|Ot)，而不是Janner等人[20]用于规划的联合分布p(At,Ot)。这种表述方式允许模型以观察为条件来预测动作，而无需以推断未来状态的成本(This formulation allows the model to predict actionsconditioned on observations without the cost of inferringfuture states)，加快扩散过程并提高生成动作的准确性

众所周知，从从高斯噪声中采样的 $\mathbf{x}^{K}$ 开始，DDPM执行次去噪迭代，以产生一系列降低噪声水平的中间动作， $\mathbf{x}^{k}, \mathbf{x}^{k-1} \ldots \mathbf{x}^{0}$ ，直到形成所需的无噪声输出 (说白了，就是去噪)
该过程遵循下述所示的公式1
其中 $\varepsilon_{\theta}$ 为通过学习优化参数的噪声估计网络，为每次迭代时加入的高斯噪声

且上面的公式1也可以理解为一个单一的噪声梯度下降步长，定义为如下公式2
$\mathbf{x}^{\prime}=\mathbf{x}-\gamma \nabla E(\mathbf{x})$
其中噪声估计网络 $\varepsilon_{\theta}(\mathbf{x}, k)$ 有效地预测了梯度场 $\nabla E(\mathbf{x})$ ， $\gamma$ 为学习速率

此外，公式1中的 $\alpha$ 、 $\gamma$ 和 $\sigma$ 作为与迭代步长相关的函数选择被称为噪声调度，可以理解为梯度下降过程中学习速率的调整策略。经证明，将 $\alpha$ 设定略小于1能够改善稳定性

再之后，训练过程首先从数据集中随机抽取未修改的样本。对于每个样本，我们随机选择一个去噪迭代，然后为迭代采样一个具有适当方差的随机噪声 $\varepsilon^{k}$
然后要求噪声估计网络从添加噪声的数据样本中预测噪声，如下公式3
最小化公式3所示的损失函数也同时最小化了数据分布p(x0)和从DDPM q(x0)中提取的样本分布之间KL-散度的变分下界
为了获取条件分布 $p\left(\mathbf{A}_{t} \mid \mathbf{O}_{t}\right)$ ，将公式1修改为如下公式4
将训练损失由公式3修改为如下的公式5

1.2.1 视觉编码器的选型：CNN PK transformer

基于CNN的扩散策略中，采用Janner等人[21]的一维时态CNN，并做了一些修改，如下图所示

首先，我们仅通过特征线性调制(FiLM)，和对观测特征 $\mathbf{O}_{t}$ 的动作生成过程进行调节，并进行去噪迭代，以建模条件分布 $p\left(\mathbf{A}_{t} \mid \mathbf{O}_{t}\right)$
其次，我们仅预测动作轨迹，而非连接观测动作轨迹(we only predict the action trajectory instead of the concatenated observation action trajectory)
第三，利用receding prediction horizon，删除了基于修复的目标状态条件反射。然而，目标条件反射仍然是可能的，与观测所用的FiLM条件反射方法相同
we removed inpainting-based goal state conditioning due to incompatibility with our framework utilizing a receding prediction horizon.
However, goal conditioning is still possible with the same FiLM conditioning method used for observations

在实践中发现，基于CNN的骨干网络在大多数任务上表现良好且无需过多超参数调优。然而，当期望的动作序列随着时间快速而急剧变化时(如velocity命令动作空间)，它的表现很差，可能是由于时间卷积的归纳偏差[temporal convolutions to prefer lowfrequency signals]，以偏好低频信号所致。为减少CNN模型中过度平滑效应[49]，我们提出了一种基于Transformer架构、借鉴minGPT[42]思想的DDPM来进行动作预测

如下图所示

行动和噪声 $A_{t}^{k}$ 作为transformer解码器块的输入tokens传入，扩散迭代的正弦嵌入作为第一个token(Actions with noise At k are passed in as input tokens for the transformer decoder blocks, with the sinusoidal embedding for diffusion iteration k prepended as the first token)
观测 $\mathbf{O}_{t}$ 通过共享的MLP转换为观测嵌入序列，然后作为输入特征传递到transformer解码器堆栈中(The observation Ot is transformed into observation embedding sequence by a shared MLP, which is then passed into the transformer decoder stack as input features)

“梯度” $\varepsilon_{\theta}\left(\mathbf{O}_{\mathbf{t}}, \mathbf{A}_{\mathbf{t}}^{k}, k\right)$ 由解码器堆栈的每个对应输出token进行预测(The "gradient" εθ (Ot ,At k , k) is predicted by each corresponding output token of the decoder stack)
在我们的基于状态的实验中，大多数性能最佳的策略都是通过Transformer骨干实现的，特别是当任务复杂度和动作变化率较高时。然而，我们发现Transformer对超参数更敏感
Transformer训练的困难[25]并不是Diffusion Policy所独有的，未来可以通过改进Transformer训练技术或增加数据规模来解决(However, we found the transformer to be more sensitive to hyperparameters. The difficulty of transformer training [25] is not unique to Diffusion Policy and could potentially be resolved in the future with improved transformer training techniques or increased data scale)

故，一般来说，我们建议从基于CNN的扩散策略实施开始，作为新任务的第一次尝试。如果由于任务复杂性或高速率动作变化导致性能低下，那么可以使用时间序列扩散Transformer来潜在地提高性能，但代价是额外的调优(In general, we recommend starting with the CNN-based diffusion policy implementation as the first attempt at a new task. If performance is low due to task complexity or high-rate action changes, then the Time-series Diffusion Transformer formulation can be used to potentially improve performance at the cost of additional tuning)

看到上面这里后，我第一反应是想到了此文《视频生成的原理解析：从Gen2、Emu Video到PixelDance、SVD、Pika 1.0、W.A.L.T》第六部分中提到的W.A.L.T：将Transformer用于扩散模型

“23年12月中旬，来自斯坦福大学、谷歌、佐治亚理工学院的研究者提出了 Window Attention Latent Transformer，即窗口注意力隐 Transformer，简称 W.A.L.T

该方法成功地将 Transformer 架构整合到了隐视频扩散模型中，斯坦福大学的李飞飞教授也是该论文的作者之一”

当然，既然提到了视频生成，也顺便说一嘴，如我组建的mobile aloha复现小组里邓老师所说的：“机器人比生成视频，简单太多了，例如视频由一连串图像帧构成，每一帧图像，经常是 256 * 256 * 3 个数值，而机器人只有 14 个数值”

1.2.2 视觉编码器：把图像潜在嵌入化并通过扩散策略做端到端的训练

视觉编码器将原始图像序列映射为潜在嵌入，并使用扩散策略进行端到端的训练(The visual encoder maps the raw image sequence intoa latent embedding Ot and is trained end-to-end with thediffusion policy)

不同的相机视图使用不同的编码器，以对每个时间步内的图像独立编码，然后连接形成，且使用标准的ResNet-18(未进行预训练)作为编码器，并进行以下修改:

使用空间softmax池化替代掉全局平均池化，以维护空间信息
1) Replace the global average pooling with a spatial softmax pooling to maintain spatial information[29]
采用GroupNorm代替BatchNorm来实现稳定训练，在归一化层与指数移动平均(通常应用于DDPMs)结合时尤其重要
2) Replace BatchNorm with GroupNorm [57] for stabletraining. This is important when the normalization layer isused in conjunction with Exponential Moving Average [17](commonly used in DDPMs)

1.3 扩散策略的稳定性与好处

1.3.1 动作序列预测的好处

由于高维输出空间采样困难，在大多数策略学习方法中一般不做序列预测。例如，IBC将难以有效地采样具有非光滑能量景观的高维动作空间。类似地，BC-RNN和BET难以确定动作分布中存在的模式数量(需要GMM或k-means步骤)

相比之下，DDPM在不降低模型表现力的前提下，在输出维度增加时仍然保持良好扩展性，在许多图像生成应用中已得到证明。利用这种能力，扩散策略以高维动作序列的形式表示动作，它自然地解决了以下问题：

时间动作一致性，如下图所示，为了将T块从底部推入目标，策略可以从左或右绕T块走
然而，如果序列中的每个动作被预测为独立的多模态分布(如在BC-RNN和BET中所做的那样)。连续动作可能会从不同模式中提取出来，并导致两个有效轨迹之间交替出现抖动动作
However, suppose each action in the sequence is predicted as independent multimodal distributions (as done in BCRNN and BET). In that case, consecutive actions could be drawn from different modes, resulting in jittery actions that alternate between the two valid trajectories.
对于空闲动作的鲁棒性：当演示暂停并导致相同位置或接近零速度的连续动作序列时，则会发生空闲行为。这在远程操作等任务中很常见
然而，单步策略容易过度适应这种暂停行为。例如，在实际世界实验中使用BC-RNN和IBC时经常会卡住，未删除训练数据集中包含的空闲行为(BC-RNN andIBC often get stuck in real-world experiments when the idleactions are not explicitly removed from training)

// 待更

1.3.2 扩散模型在训练中的稳定

隐式策略使用基于能量的模型(EBM)表示动作分布(An implicit policy represents the action distribution using an Energy-Based Model (EBM))，如下公式6所示：

$p_{\theta}(\mathbf{a} \mid \mathbf{o})=\frac{e^{-E_{\theta}(\mathbf{o}, \mathbf{a})}}{Z(\mathbf{o}, \theta)}$

其中 $Z(\mathbf{o}, \theta)$ 是一个难以处理的归一化常数(相对于a)

为了训练用于隐式策略的EBM，使用了infonce风格的损失函数，它相当于公式6的负对数似然

在实践中，负采样的不准确性已知会导致EBMs的训练不稳定[11,48]

扩散策略和ddpm通过建模公式6中相同动作分布的得分函数[46]，完全回避了 $Z(\mathbf{a}, \theta)$ 的估计问题:

$\nabla_{\mathbf{a}} \log p(\mathbf{a} \mid \mathbf{o})=-\nabla_{\mathbf{a}} E_{\theta}(\mathbf{a}, \mathbf{o})-\underbrace{\nabla_{\mathbf{a}} \log Z(\mathbf{o}, \theta)}_{=0} \approx-\varepsilon_{\theta}(\mathbf{a}, \mathbf{o})$

因此，扩散策略的推理过程(公式4)和训练过程(公式5)都不涉及对 $Z(\mathbf{o}, \theta)$ 的评估，从而使扩散策略的训练更加稳定

第二部分 VINN

// 待更

地面电力巡检机器人系统设计（支持资料参考_相关定制）
摘要随着时代的发展，电力基础设施建设逐‎‏渐成为‎‏经济发‎‏展的重‎‏要一环‎‏。目前‎‏，巡检‎‏作业方‎‏式仍旧‎‏是以人‎‏工巡视‎‏为主，‎‏这样就‎‏会使得‎‏检修时‎‏间滞后‎‏，导致‎‏输电线‎‏路运行‎‏效率低‎‏下。机器人对释放劳动力和提高人们生活水平有着不可替代的地位,已经成为各国科技发展的重要战略。机器人可以为我们做一些我们人类做不到的事情也可以帮助我们去一些危险地区探索或
Dify搭建私有知识库指南挑战者666888 AI模型应用实战人工智能自然语言处理机器学习
系列文章目录CentOS系统高效部署Dify全攻略文章目录系列文章目录Dify搭建私有知识库指南一、引言二、环境准备与基础配置（含Linux命令）1.硬件要求2.软件依赖安装（Linux命令）3.安装Dify（Docker-compose部署）4.初始化设置三、数据接入与知识库构建（含实战案例）1.数据源接入示例2.数据预处理3.向量化存储配置实战案例：企业产品手册知识库四、检索与增强功能实现1.
MySQL · 特性分析 ·MySQL 5.7新特性系列挑战者666888 mysql mysql adb 后端
文章目录1.背景2.我们先大致看下InnoDB的undo在不同的版本上的一些演进:3.MySQL5.7的版本上3.1接下来我们详细看下5.7的InnoDBundo的管理：3.1.1undo表空间创建3.1.2rollbacksegment的分配如下：3.1.3InnoDBundo的空间管理简图如下：undo空间管理1.rsegslot2.rsegheader3.undosegmentheaderu
国内中小制造业“内卷”困局六大问题：盟接之桥的六大建议盟接之桥制造人工智能大数据服务器运维数据可视化
近年来，中国制造业正面临前所未有的“内卷”压力。企业不仅要应对不断压缩的利润空间，还需在复杂的供应链、生产流程和客户需求之间艰难平衡。本文基于多位制造业老板的实际反馈，梳理当前行业的主要痛点，并结合“盟接之桥”的专业建议，提出切实可行的破局路径。一、当前制造业面临的六大核心问题账期压力加剧现金流紧张大客户普遍要求3个月账期，甚至6个月银行承兑汇票结算。导致企业资金链长期处于高压状态，尤其对中小型企
babylon-vrm-loader：让3D模型动起来的强大工具纪栋岑Philomena
babylon-vrm-loader：让3D模型动起来的强大工具babylon-vrm-loaderglTFVRMextensionLoaderforbabylon.js项目地址:https://gitcode.com/gh_mirrors/ba/babylon-vrm-loader在现代网页开发中，3D渲染和交互已成为吸引用户注意力的重要手段。babylon-vrm-loader是一个开源项目，
Qwen3 Reranker模型可以微调吗？修昔底德 AI顿悟之旅人工智能 LLM Qwen3 微调
可以，官方已经开放了完整的微调代码与训练范式，甚至推荐用LoRA/QLoRA做参数高效微调，把Qwen3-Reranker快速适配到你的专属知识库场景。下面总结一张总览表，然后分步骤讲怎样落地。说明是否支持微调✅支持（Apache-2.0许可，模型权重可商用）推荐方法LoRA/QLoRA（只训练几百万参数即可）可微调尺寸0.6B、4B、8B（0.6B单卡24GB就够；4B/8B建议多卡或Deeps
供应链管理：MES制造执行系统与APS高级排程系统解析快雪时晴-初晴融雪供应链管理供应链管理
一、MES制造执行系统与APS高级排程系统解析维度MES制造执行系统APS高级排程系统定义制造执行系统，用于管理和监控制造过程，实现生产过程的实时监控、数据采集、质量管理、工艺执行等功能。高级计划与排程系统，通过优化算法和模型，在有限资源条件下制定最优生产计划，提高生产效率和灵活性。核心功能-生产计划与调度：细化ERP计划为可执行工单，动态调整生产进度。-生产过程管理：记录工序执行情况，实时监控异
007__C++的三大特性 Bardb C++c++qt
一、C++的三大特性封装、继承、多态封装：即将一个对象的属性和行为封装成类，使其更符合人们对于一件事件的认知，将属于这个对象的所有东西打包在一起。继承：是面向对象编程使代码可以复用的最重要的手段，它可以让程序员在原有类的特性上进行扩展，增加功能，这样产生的类叫做派生类，呈现出面向对象设计的层次结构，由简单的基类到复杂的派生类的这么一个过程。多态：字面意思就是多种形态。指同一个函数作用在不同的对象时
百度文心一言4.5震撼发布：多模态大模型开源，4240亿参数，免费商用授权
在2025年7月1日，百度正式宣布开源文心4.5系列大模型。这不是一次普通的“模型权重公开”，而是百度给国产大模型行业交了一份“底座+生态+实战”的高质量答卷。文心4.5到底开源了什么？2025年7月1日，百度正式开源了其最新一代大模型——文心4.5系列。这次开源的并不是一个单一模型，而是一个完整的多模态MoE模型家族，包括：：47B和3B的多模态MoE大模型，具备多模态感知和高性能通用推理能力多
【AI】大语言模型（LLM）& NLP G皮T #大语言模型 LLM NLP 大模型大语言模型 AI 人工智能
大语言模型（LLM）&NLP1.大语言模型（LLM）1.1一句话解释1.2更形象的比喻1.3为什么叫“大”模型1.4它能做什么1.5现实中的例子2.对比NLP2.1用“汽车进化”比喻NLP→LLM2.2为什么说LLM属于NLP2.3LLM的“革命性突破”在哪里2.4总结1.大语言模型（LLM）1.1一句话解释大语言模型（LargeLanguageModel，LLM）是一个“超级文字预测器”，它通过
大模型的MoE架构解析：从理论到应用的系统探讨不秃头de程序猿开发语言转行人工智能 ai 大模型程序员学习
MixtureofExperts（专家混合）架构正在重新定义大语言模型的发展轨迹。这种革命性的架构通过条件计算实现了万亿参数规模的模型，同时保持与千亿参数密集模型相当的计算成本。从GPT-4的1.8万亿参数到DeepSeek-V3的671亿参数，MoE架构已成为当前AI领域最重要的技术突破之一。MoE的核心洞察在于"不是所有的模型容量都需要同时激活"——通过让不同的专家网络处理不同类型的输入，实现
jquery mobile和ajax,使用jquery mobile不可忽视的细节
jQueryMobile是创建移动WEB应用程序的框架。在学习和使用该框架的过程中，有一些心得想要和大家分享一下。一、框架因为是移动端开发，所以不要忘了下面这个重要的meta标签哦：使用jquerymobile要引入相应的css文件：jquerymobile依赖jquery，因此要先引入jquey.js再引入jquery.mobile.js：在引用jquey.js文件的时候一定要注意版本，要在1.
jquerymobile跳转方法_jquery mobile 页面跳转方法
如果使用JavaScript代码切换当前显示的页面，可以调用jQueryMobile中的changePage()方法。该方法可以设置跳转页面的URL地址、跳转时的动画效果和需要携带的数据，接下来通过一个简单的实例详细说明该方法的使用过程。实例2-8使用changePage()方法跳转页面1.功能说明新建一个HTML页面，在页面中显示“页面正在跳转中…”文字，然后调用changePage()方法，从
Spring Boot多数据源实现方案深度对比：优缺点分析与实战指南 xiaoyu❅ java #springboot spring boot 后端 java
目录一、为什么需要多数据源？二、5大主流实现方案对比三、方案实现详解方案1：手动配置多DataSource（基础版）方案2：AbstractRoutingDataSource（动态路由）方案3：MyBatis-Plus多数据源（推荐）方案4：JPA多数据源配置方案5：ShardingSphere（企业级方案）四、事务管理解决方案1.分布式事务（XA协议）2.BASE柔性事务五、性能优化策略1.连接
web前端基础知识:表单标签黄昏终结者前端 html javascript
一.input系列标签语法:form表单用来收集用户信息的input输入type类型type属性值:text文本password密码框radio单选框checkbox多选框file选择文件submit提交按钮reset重置按钮button普通按钮1.input系列标签-text文本框属性:placeholder占位符文本输入框语法:昵称:2.input系列标签-password密码框属性:plac
jQuery Mobile 实例 lsx202406 开发语言
jQueryMobile实例引言jQueryMobile是一个基于jQuery的轻量级移动设备友好的开发框架，旨在创建响应式、跨平台的移动应用程序和网站。它提供了一套丰富的用户界面组件和触摸优化事件，使得开发者能够快速构建出适用于各种移动设备的用户界面。本篇文章将通过一系列实例，展示如何使用jQueryMobile来创建美观、功能丰富的移动界面。实例一：基本页面结构首先，让我们从创建一个基本的jQ
移动开发：WebView的性能优化工具推荐与使用
移动开发：WebView的性能优化工具推荐与使用关键词：WebView、性能优化、移动开发、渲染性能、内存管理、调试工具、缓存策略摘要：本文深入探讨移动开发中WebView的性能优化策略和工具。我们将从WebView的核心原理出发，分析其性能瓶颈，介绍一系列实用的性能优化工具和技术，包括ChromeDevTools、AndroidProfiler、Systrace等。文章还将提供详细的代码示例和优
基于开源AI智能名片链动2+1模式S2B2C商城小程序的超级文化符号构建路径研究说私域开源人工智能小程序
摘要：在数字技术重构文化传播生态的背景下，超级文化符号的塑造已突破传统IP运营框架。本文以开源AI智能名片链动2+1模式与S2B2C商城小程序的融合创新为切入点，结合"屿光生活"体验馆、快手烧烤摊主等典型案例，提出"技术赋能-文化增值-生态共生"的三维构建模型。研究发现，该技术体系通过AI驱动的情感共鸣机制、区块链赋能的符号裂变系统、S2B2C重构的亚文化生态，显著提升了文化符号的共情力、符号感和
1、探索C++标准库的魅力：从入门到精通脑补型产品 C++标准库实用技巧解析 C++标准库 STL 容器
探索C++标准库的魅力：从入门到精通1.引言与历史背景现代计算机语言的强大之处不仅仅在于语言本身，更在于其丰富的库。库是一系列软件组件的集合&#
掌握小程序开发框架，驰骋小程序领域小程序开发2020 小程序 ai
掌握小程序开发框架，驰骋小程序领域关键词：小程序框架、WXML、WXSS、逻辑层、组件化开发、生命周期、跨平台摘要：本文以“如何系统掌握小程序开发框架”为核心，通过生活比喻、代码实战和场景分析，拆解小程序框架的核心组成（WXML/WXSS/JS/JSON）、运行机制（双线程模型）及开发技巧。无论你是刚入门的新手，还是想巩固基础的开发者，都能通过本文理清框架逻辑，快速上手实战，为开发高性能小程序打下
小程序的「双线程模型」 TE-茶叶蛋小程序开发小程序
文章目录前言一、双线程模型结构概览二、逻辑层（AppService）示例：️三、渲染层（WebView）示例（WXML）：四、通信机制（Native层桥接）⚙️通信方式：底层实现方式：五、为什么这么设计？缺点与限制总结结构图✅实践建议扩展小程序双线程模型的**进阶架构扩展**一、支持WebWorker的多线程能力（逻辑层并发能力增强）✅使用示例：⚠️注意：二、沙箱机制强化（增强渲染安全）三、小程序
【花雕学编程】Arduino动手做（238）---带 LVGL 的 ESP32 CYD：在屏幕上显示图像猫驴友花雕嵌入式硬件单片机 c++Arduino动手做 ESP32 CYD显示图像猫 ESP32 2432S028
37款传感器与执行器的提法，在网络上广泛流传，其实Arduino能够兼容的传感器模块肯定是不止这37种的。鉴于本人手头积累了一些传感器和执行器模块，依照实践出真知（一定要动手做）的理念，以学习和交流为目的，这里准备逐一动手尝试系列实验，不管成功（程序走通）与否，都会记录下来——小小的进步或是搞不掂的问题，希望能够抛砖引玉。【Arduino】168种传感器模块系列实验（资料代码+仿真编程+图形编程）
【花雕学编程】Arduino动手做（238）---ESP32 Cheap Yellow Display 2.8寸开发板（CYD）引脚详解驴友花雕嵌入式硬件单片机 c++Arduino动手做 ESP32-2432S028 ESP32 CYD 引脚详解
37款传感器与执行器的提法，在网络上广泛流传，其实Arduino能够兼容的传感器模块肯定是不止这37种的。鉴于本人手头积累了一些传感器和执行器模块，依照实践出真知（一定要动手做）的理念，以学习和交流为目的，这里准备逐一动手尝试系列实验，不管成功（程序走通）与否，都会记录下来——小小的进步或是搞不掂的问题，希望能够抛砖引玉。【Arduino】168种传感器模块系列实验（资料代码+仿真编程+图形编程）
使用Qwen2.5-Max大模型海青橘散记人工智能
要使用Qwen2.5-Max，您可以按照以下步骤操作：建议使用第二种方法1.通过阿里云百炼平台调用APIQwen2.5-Max已在阿里云百炼平台上架。您可以通过阿里云的生成式AI开发平台ModelStudio访问并调用Qwen2.5-Max的API服务。步骤：登录阿里云官网（https://www.alibabacloud.com）。进入“模型开发”或“ModelStudio”页面。找到Qwen2
国产替代4644系列电源模块势登场
在全球供应链波动加剧及成本效益诉求提升的背景下，市场对高性能国产替代电源模块的需求持续攀升。当前，上海宸屿电子推出了GC4644N/GC4644T电源模块解决方案，该方案在性能参数上接近甚至超越进口4644系列产品，并在成本控制、供应链稳定性及本地化服务方面展现出显著优势。GC4644N/GC4644T是一款四通道独立4A降压型DC/DC微模块电源，专为嵌入式大电流场景设计。GC4644N采用BG
2024大模型秋招LLM相关面试题整理 AGI大模型资料分享官人工智能深度学习机器学习自然语言处理语言模型 easyui
0一些基础术语大模型：一般指1亿以上参数的模型，但是这个标准一直在升级，目前万亿参数以上的模型也有了。大语言模型（LargeLanguageModel，LLM）是针对语言的大模型。175B、60B、540B等：这些一般指参数的个数，B是Billion/十亿的意思，175B是1750亿参数，这是ChatGPT大约的参数规模。强化学习：（ReinforcementLearning）一种机器学习的方法，
国产高兼容性ADC的突破：CYD7606N对比AD7606的核心优势上海宸屿电子电子元器件国产替代
在工业自动化、电力监测等领域的核心数据采集系统中，多通道同步采样ADC始终扮演着关键角色。目前AD7606长期主导这一市场，而上海宸屿电子推出的国产芯片CYD7606N正凭借深度兼容性与性能优化，成为极具竞争力的国产替代方案。其核心价值体现在三大技术突破：硬件与软件全兼容，实现零成本迁移CYD7606N采用与AD7606完全一致的64引脚LQFP封装（10mm×10mm），引脚功能定义实现100%
Python pip配置全局镜像源 Python编程之道 Python人工智能与大数据 Python编程之道 python pip 网络 ai
Pythonpip配置全局镜像源关键词：Python、pip、全局镜像源、配置、国内镜像摘要：本文详细介绍了Python中pip配置全局镜像源的相关内容。首先阐述了配置全局镜像源的背景和目的，接着解释了核心概念，包括pip和镜像源的原理。然后详细说明了配置全局镜像源的具体操作步骤，包括不同操作系统下的配置方法，并给出了相应的Python代码示例。同时，还讲解了相关的数学模型（虽然在本主题中数学模型
百度文心大模型4.5开源风暴！API同步开放！程序员辣条产品经理 langchain 语言模型程序员人工智能大模型学习大模型
百度文心大模型开源，如期而至。就在今天，百度官宣文心大模型4.5系列正式开源，还同步提供API服务。此番，百度一次性推出10款开源模型，涵盖从47B参数的混合专家（MoE）模型到轻量级0.3B稠密型模型，覆盖文本、多模态等多种任务需求。此次开源不仅权重与代码完全开放，还同步提供API服务，开发者可通过飞桨星河社区、HuggingFace、百度智能云千帆平台直接下载使用。文心大模型4.5系列开源模型
并发编程原理与实战（十五）线程安全实现方法深度解析
上一篇讲解了线程安全问题与JMM的核心原理以及8大原子操作，本文继续学习JMM中的Happens-before8大规则‌，8大原子操作从文字上理解可能不够深刻，我们从代码的角度直观的解读8大原子操作，进一步深入剖析其中的的运作机制，分析JMM是如何保证线程安全的。Happens-before8大规则‌在分析之前，我们先来了解下JMM中的Happens-before规则‌，字面意思即先行发生规则。T
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟

斯坦福Mobile ALOHA提到的ACT之外的另两项技术：Diffusion Policy、VINN

前言

第一部分 Diffusion Policy

1.1 什么是Diffusion Policy

1.2 Diffusion for Visuomotor Policy Learning

1.2.1 视觉编码器的选型：CNN PK transformer

1.2.2 视觉编码器：把图像潜在嵌入化并通过扩散策略做端到端的训练

1.3 扩散策略的稳定性与好处

1.3.1 动作序列预测的好处

1.3.2 扩散模型在训练中的稳定

第二部分 VINN

你可能感兴趣的:(大模型机器人系列,斯坦福机器人,Mobile,ALOHA,DiffusionPolicy,VINN)