v_JULY_v

大模型机器人发展史：从VoxPoser、RT2到斯坦福Mobile ALOHA、Google机器人

前言

23年7月，我在朋友圈评估Google的RT2说道：

“大模型正在革新一切领域啊，超帅，通过大模型不仅能理解“人话”，还能对“人话”进行推理，并转变为机器人能理解的指令，从而分阶段完成任务。回头仔细看下论文”
当时便对大模型机器人印象深刻，一直想仔细研究下来着，但因为后来一直和团队忙于论文审稿GPT、企业知识库问答等项目，所以一直没抽出时间去深入研究

没成想，前几天，斯坦福的炒菜机器人火爆全网，再次让包括我在内的所有人目瞪口呆，再次在朋友圈评论道：

多模态 + 大模型 + AI agent可以全方位赋能机器人
一年前我决心彻底写清楚ChatGPT原理
一年前，因为对ChatGPT背后技术原理巨大的「好奇心」，加之极高的「分享热情」、以及想写一篇关于其原理最全面最深入最细致文章的「决心」，彻底改变了过去一年的轨迹
最后，博客证明了技术研究能力，课程证明了教学教研能力，项目证明了带队开发能力

一年后的今天，我下定决心准备彻底研究下机器人
刚好今年q1本身要做一个AI agent小项目，希望q2起，有机会做这个机器人agent大项目，如能和某高校实验室或资本合作更好

说干就干

一方面，我组建了一个斯坦福机器人复现小组(里面有CMU机器人方向博士毕业的)，准备复现斯坦福这个炒菜或家务机器人
二方面，我准备把大模型机器人的发展史以及其中涉及到的所有关键技术细节，全部都梳理一下(毕竟新闻稿只能看个大概，但想精准理解，必须结合一系列论文理解)

总之，不要看一篇新闻稿觉得很行，再看一篇又觉得不行了，不要人云亦云被新闻稿带节奏(比如，虽然其有些动作是被远程操控完成的，但还是有很多动作是其自主完成)，行与不行，得花几个月尝试下才可知，我们今年Q1之内的三个步骤：

先做技术准备
复现团队复现Mobile ALOHA
建后续迭代优化的机器人开发团队，作为我司的第4项目组

第一部分李飞飞团队：具身智能

1.1 机器人对从没见过的任务也能一次执行且不需要示范

大模型接入机器人，把复杂指令转化成具体行动规划，无需额外数据和训练，说白了，人类可以很随意地用自然语言给机器人下达指令，如：打开上面的抽屉，小心花瓶！

大语言模型+视觉语言模型就能从3D空间中分析出目标和需要绕过的障碍，帮助机器人做行动规划

然后重点来了， 真实世界中的机器人在未经“培训”的情况下，就能直接执行这个任务。

新方法实现了零样本的日常操作任务轨迹合成，也就是机器人从没见过的任务也能一次执行，连给他做个示范都不需要。

可操作的物体也是开放的，不用事先划定范围，开瓶子、按开关、拔充电线都能完成

1.2 VoxPoser：大模型指导机器人如何与环境进行交互

1.2.1 3D Value Map：既标记了“在哪里行动”，也标记了“如何行动”

机器人如何直接听懂人话？李飞飞团队将该系统命名为VoxPoser，如下图所示，它的原理非常简单(项目地址、论文地址、代码地址)

首先，给定环境信息(用相机采集RGB-D图像)和我们要执行的自然语言指令
接着，LLM(大语言模型)根据这些内容编写代码，所生成代码与VLM(视觉语言模型)进行交互，指导系统生成相应的操作指示地图，即3D Value Map
所谓3D Value Map，它是Affordance Map和Constraint Map的总称，既标记了“在哪里行动”，也标记了“如何行动”
如此一来，再搬出动作规划器，将生成的3D地图作为其目标函数，便能够合成最终要执行的操作轨迹了
而从这个过程我们可以看到，相比传统方法需要进行额外的预训练，这个方法用大模型指导机器人如何与环境进行交互，所以直接解决了机器人训练数据稀缺的问题
更进一步，正是由于这个特点，它也实现了零样本能力，只要掌握了以上基本流程，就能hold任何给定任务

1.2.2 将指令拆解成很多子任务 + 规划路径

在具体实现中，作者将VoxPoser的思路转化为一个优化问题，即下面这样一个复杂的公式：

$\min _{\tau_{i}^{\mathbf{r}}}\left\{\mathcal{F}_{\text {task }}\left(\mathbf{T}_{i}, \ell_{i}\right)+\mathcal{F}_{\text {control }}\left(\tau_{i}^{\mathbf{r}}\right)\right\} \quad \text { subject to } \quad \mathcal{C}\left(\mathbf{T}_{i}\right)$

它考虑到了人类下达的指令可能范围很大，并且需要上下文理解，于是将指令拆解成很多子任务，比如开头第一个示例就由“抓住抽屉把手”和“拉开抽屉”组成

VoxPoser要实现的就是优化每一个子任务，获得一系列机器人轨迹，最终最小化总的工作量和工作时间

而在用LLM和VLM将语言指令映射为3D地图的过程中，系统考虑到语言可以传达丰富的语义空间，便利用“感兴趣的实体(entity of interest)”来引导机器人进行操作，也就是通过3D Value Map中标记的值来反应哪个物体是对它具有“吸引力”的，那些物体是具有“排斥性”。

还是以开头的例子举例，抽屉就是“吸引”的，花瓶是“排斥”的。

当然，这些值如何生成，就靠大语言模型的理解能力了。

而在最后的轨迹合成过程中，由于语言模型的输出在整个任务中保持不变，所以我们可以通过缓存其输出，并使用闭环视觉反馈重新评估生成的代码，从而在遇到干扰时快速进行重新规划

因此，VoxPoser有着很强的抗干扰能力，比如下图将废纸放进蓝色托盘

最后，作者还惊喜地发现，VoxPoser产生了4个“涌现能力”：

评估物理特性，比如给定两个质量未知的方块，让机器人使用工具进行物理实验，确定哪个块更重；
行为常识推理，比如在摆餐具的任务中，告诉机器人“我是左撇子”，它就能通过上下文理解其含义；
细粒度校正，比如执行“给茶壶盖上盖子”这种精度要求较高的任务时，我们可以向机器人发出“你偏离了1厘米”等精确指令来校正它的操作；
基于视觉的多步操作，比如叫机器人将抽屉精准地打开成一半，由于没有对象模型导致的信息不足可能让机器人无法执行这样的任务，但VoxPoser可以根据视觉反馈提出多步操作策略，即首先完全打开抽屉同时记录手柄位移，然后将其推回至中点就可以满足要求了

// 待更

第二部分 Google的RT-2

// 待更

第三部分

// 待更

第四部分斯坦福机器人Mobile ALOHA：炒菜、家务全活了

4.1 Mobile ALOHA整体训练流程

在机器人技术领域，通过对人类示范进行模仿学习已经取得了令人瞩目的成绩。然而，目前大多数研究结果都集中在桌面操作上，缺乏完成一般任务的移动性和灵活性

近日，斯坦福一研究团队(Zipeng Fu、Tony Z. Zhao、Chelsea Finn)开发了一个系统：Mobile ALOHA(论文地址、项目地址、技术文档)，由于其可以做各种家务，比如炒菜、刷碗等等，使得其一经发布便火爆全网

斯坦福家务机器人mobile-aloha

该系统用于模仿需要全身控制的双臂移动操作任务(In this work, we develop a systemfor imitating mobile manipulation tasks that are bi-manual and require whole-body control)

首先提出了Mobile ALOHA系统，作为低成本全身远程操作系统来收集数据(通过一个移动底座和一个全身远程操作界面增强了ALOHA 系统)
We first present Mobile ALOHA, a low-cost and whole-bodyteleoperation system for data collection. It augmentsthe ALOHA system [104] with a mobile base, and awhole-body teleoperation interface.

注，ALOHA这个系统最早在23年这篇论文中被详细介绍：Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware(这是其解读)，且论文中首次系统阐述了ACT(至于什么是ACT，下文很快会介绍)
相当于Mobile ALOHA其实是基于该篇论文的工作基础上迭代优化出来的，不是一蹴而就
之后利用Mobile ALOHA 收集的数据，然后进行有监督的行为克隆(behavioral cloning)，且和静态ALOHA 数据集进行协同训练co-training
Using data col-lected with Mobile ALOHA, we then perform super-vised behavior cloning and find that co-training with existing static ALOHA datasets boosts performanceon mobile manipulation tasks.
每个任务包含50次演示(说白了，人类先做示范，然后机器人先向人类学习)，在经过协同训练后成功率可达到90%，使得Mobile ALOHA能够自主完成复杂的移动操作任务，如炒虾、打开双门壁柜存放沉重的烹饪锅、呼叫并进入电梯以及使用厨房水龙头轻轻冲洗用过的平底锅。
With 50 demonstra-tions for each task, co-training can increase successrates by up to 90%, allowing Mobile ALOHA to au-tonomously complete complex mobile manipulationtasks such as sauteing and serving a piece of shrimp,opening a two-door wall cabinet to store heavy cook-ing pots, calling and entering an elevator, and lightlyrinsing a used pan using a kitchen faucet.

4.2 Mobile ALOHA 硬件

4.2.1 Mobile ALOHA 硬件的总体情况

在此之前

能够即插即用的全身遥控硬件是比较昂贵的，比如像PR2、TIAGo这样的机器人价格一般超过20万美刀
且之前的机器人也没法完成复杂的需要双手互相配合的各种灵活操作，毕竟人类的十指多么灵活
虽然最近的许多研究表明，在细粒度的多模态操作任务中，高表达能力的策略类方法(如扩散模型和Transformer)可以取得良好效果(While many recent works demon-strate that highly expressive policy classes such asdiffusion models and transformers can perform wellon fine-grained)，但目前尚不清楚这些方法是否适用于移动操作：随着附加自由度增加，手臂与基础动作之间的相互作用可能变得复杂，微小偏差可能导致手臂末端执行器姿态大幅漂移

而Mobile ALOHA 是一种低成本的移动机械手，可以执行各种家庭任务，其继承了原始 ALOHA 系统的优点，即低成本、灵巧、可维修的双臂远程操作装置，同时将其功能扩展到桌面操作之外，且重点做到了以下4点

移动性：移动速度与人类行走速度相当，约为 1.42 米 / 秒
稳定性：在操作重型家用物品时它能保持稳定，如锅和橱柜
全身遥控操作：所有自由度均可同时进行遥控操作，包括双臂和移动底座
无绳：具有机载电源和计算设备(数据收集和推断期间的所有计算都是在配备了Nvidia 3070 Ti GPU (8GB VRAM)和Intel i7-12800H的消费级笔记本电脑上进行)

如上图所示

上图左侧部分(Mobile ALOHA has two wrist cameras and one top camera, with onboard power and compute)
展示了研究者发现将操作员的腰部与移动底座系在一起的设计是最简单直接的解决方案
上图中间部分(Middle: The teleoperation setup can be removed and only two ViperX 300 [3] are used during autonomous execution. Both arms can reach a min/max height of 65cm/200cm, and extends 100cm from the base)中的数据表明
机械手相对于地面的垂直高度为 65 厘米至 200 厘米，可伸出底座 100 厘米，可举起 1.5 千克重的物体，并可在 1.5 米高处施加 100 牛的拉力
这样的设计让 Mobile ALOHA 可以完成很多任务，包括实物烹饪、家务管理、人机互动等
上图右侧部分(Right: Technical specifications of Mobile ALOHA)中列出了 Mobile ALOHA 的更多技术规格
除了现成的机器人外，研究者还开源了所有的软件和硬件部件，并提供了详细的教程，包括三维打印、组装和软件安装

4.2.2 硬件材料清单与硬件制作步骤

首先，准备一系列硬件材料，比如

它接受来自三个罗技C922x RGB网络摄像头的流媒体，分辨率为480 × 640，频率为50Hz

两个摄像头安装在跟随者机器人的手腕上，第三个摄像头面向前方

笔记本电脑还通过USB串行端口接收来自所有4个手臂的本体感觉流，通过CAN总线接收来自Tracer移动基地的本体感觉流

Part

Quantity

Link

Price

(per unit)

Robots

ViperX 300 Robot Arm 6DOF

2

ViperX 300 Robot Arm 6DOF

$5,695.95

WidowX 250 Robot Arm 6DOF

2

WidowX 250 Robot Arm 6DOF - X-Series Robotic Arm

$3,295.95

Tracer AGV(移动底座)

1

AgileX Tracer AGV

$8,999.95

Onboard Compute

Lambda Labs Tensorbook

1

Deep Learning Laptop - RTX 3080 Max-Q | Razer x Lambda Tensorbook

$2,399.00

Robot Frame

4040 800mm x 8

4

Amazon.com (2 pcs)

$42.29

4040 500mm x 6

2

Amazon.com (4 pcs)

$58.99

4040 400mm x 2

2

Amazon.com (1 pcs)

$22.99

4040 300mm x 7

2

Amazon.com (4 pcs)

$59.99

4040 L-shape connectors x 28

5

Amazon.com (6 pcs)

$32.99

4040 T-shape connectors x 4

1

Amazon.com (6 pcs)

$30.99

4040 45-degree corner connectors

1

Amazon.com

$21.99

4040 Corner Bracket and T-Slot Sliding Nuts

2

Amazon.com

$24.99

4040 caps

2

Amazon.com

$9.81

M6 20mm

(for mounting robot)

1

Amazon.com

$9.99

M6 T nuts for 4040

(for mounting robot)

2

Amazon.com

$14.16

Camera setup

Logitech C922x Pro Stream Webcam

4

Amazon.com

$98.35

USB Hub

2

Amazon.com

$19.99

Power

Battery Pack

1

Amazon.com

$699.00

600W DC Supply

1

Amazon.com

$59.00

12V DC Cable

5

Amazon.com

$15.99

Fork Spade Connectors

1

Amazon.com

$13.69

USB-A to Micro USB Cable

4

Amazon.com

$17.87

Wheel Odometry

DYNAMIXEL XL430-W250-T

2

DYNAMIXEL XL430-W250-T - ROBOTIS

$49.90

U2D2

1

U2D2 - ROBOTIS

$32.10

U2D2 Power Hub Board Set

1

U2D2 Power Hub Board Set - ROBOTIS

$19.00

Jumper Wire

1

Amazon.com

$9.99

Weights

1

Amazon.com: ACCRETION 1 Oz Grey Adhesive Backed Wheel Weights (24 Oz Pack) : Automotive

$14.65

Misc

Rubber Band

1

Amazon.com

$9.99

Gripping Tape

1

Amazon.com

$54.14

Common equipments

Allen keys

Hot glue gun

Total

$31,757.86

硬件材料准备齐全后，按以下步骤一步步执行

Install ALOHA end-effectors
通过6个步骤打造ALOHA：ALOHA ️ Tutorial，单纯打造这个还不具备移动功能的ALOHA便得花费3万刀中的1.9万刀

Build the robot frame

Mount the robots and the cameras

Cable connections

4.3 增加静态ALOHA 数据进行Co-training

4.3.1 静态ALOHA 数据的组成情况

对于机器人的训练，数据是一个很大的问题

使用模仿学习(imitation learning)来解决现实世界机器人任务的典型方法依赖于在特定机器人硬件平台上收集的目标任务数据集。然而，这种方法虽够但数据本身收集的过程过于冗长，因为在特定机器人硬件平台上，人类操作员需要从头开始为每个任务收集演示数据
The typical approach for using imitation learning to solve real-world robotics tasks relies on using thedatasets that are collected on a specific robot hard-ware platform for a targeted task. This straightfor-ward approach, however, suffers from lengthy datacollection processes where human operators collect demonstration data from scratch for every task onthe a specific robot hardware platform.

且由于这些专门数据集中视觉差异有限，在这些数据集上训练得到的策略通常对感知干扰(如干扰和照明变化)不够鲁棒
The policie strained on these specialized datasets are often not ro-bust to the perceptual perturbations (e.g. distractorsand lighting changes) due to the limited visual diver-sity in these datasets [95]
好在最近，在从不同但类似类型的机器人收集的各种真实数据集上进行co-training，在单臂操作和导航方面已经显示出了有希望的结果
Recently, co-training ondiverse real-world datasets collected from different but similar types of robots have shown promising results on single-arm manipulation [11, 20, 31, 61],and on navigation [79].

斯坦福的研究者在这项工作中便使用的Co-training，且利用现有的静态ALOHA 数据集来提高移动操作的模仿学习性能，尤其是双臂动作

静态ALOHA 数据集总共有 825 个示范动作，任务包括密封密封袋、拿起叉子、包装糖果、撕纸巾、打开带盖塑料瓶、玩乒乓球、分发胶带、使用咖啡机、交接铅笔和操作螺丝刀等
需要注意的是，静态ALOHA 数据都是在黑色桌面上收集的，两只手臂固定朝向对方
这种设置与移动 ALOHA 不同，移动 ALOHA 的背景会随着移动底座的变化而变化，两臂平行朝前放置
在Co-training中，研究者没有对静态ALOHA 数据中的 RGB 观察结果或双臂动作使用任何特殊的数据处理技术

4.3.2 基于两套数据(静态ALOHA数据和移动ALOHA数据)训练损失函数

任务的移动操作策略 $\pi^{m}$ 的训练目标是最小化模拟损失函数

$\begin{array}{l} \mathbb{E}_{\left(o^{i}, a_{\text {arms }}^{i}, a_{\text {base }}^{i}\right) \sim D_{\text {mobile }}^{m}}\left[L\left(a_{\text {arms }}^{i}, a_{\text {base }}^{i}, \pi^{m}\left(o^{i}\right)\right)\right]+ \mathbb{E}_{\left(o^{i}, a_{\text {arms }}^{i}\right) \sim D_{\text {static }}}\left[L\left(a_{\text {arms }}^{i},[0,0], \pi^{m}\left(o^{i}\right)\right)\right] \end{array}$

其中 $o^{i}$ 表示观察结果，包括两个手腕摄像头RGB观察(two wrist camera RGB observations)，和一个安装在手臂和手臂关节之间、以自我为中心的顶部摄像头RGB观察(top camera RGB observation mounted，其固定不动)，如下图左上角所示

我们以相同概率从静态ALOHA数据 $D_{\text {static }}$ 和移动ALOHA数据 $D_{\text {mobile }}^{m}$ 中进行抽样，并将批量大小设置为16

由于静态ALOHA数据点没有移动基本动作，我们对动作标签进行零填充处理，使得来自两个数据集的动作具有相同维度，我们还忽略了静态ALOHA数据中的前置摄像头，因此两个数据集都有3个摄像头
Since static ALOHA datapoints have no mobile base actions, we zero-pad the action labels so actions from both datasets have the same dimension.We also ignore the front camera in the static ALOHA data so that both datasets have 3 cameras.
同时，我们仅根据移动ALOHA数据集 $D_{\text {mobile }}^{m}$ 的统计信息对每个动作进行标准化处理
We normalize every action based on the statistics of the Mobile ALOHA dataset Dm mobile alone
在实验中，我们将这种协同训练方法与多种基本模仿学习方法(如ACT [Learning fine-grained bimanual manipulation with low-cost hardware]、扩散策略[Diffusion policy: Visuomotor policy learning via action diffusion]和VINN [The surprising effectiveness of representation learning for visual imitation])结合使用
In our experiments, we combine this co-training recipe with multiple base imitation learning approaches, including ACT [104], Diffusion Policy [18], and VINN [63]

关于ACT的技术细节，详见此文《斯坦福机器人Mobile ALOHA的背后技术：动作分块ACT、Diffusion Policy、VINN》的第一部分，讲得非常细致

最终该团队选择了 7 个任务，它们涵盖了现实应用中可能出现的各种功能、对象和交互，分别是擦拭葡萄酒、煮虾、冲洗锅、使用橱柜、呼叫电梯、推椅子和击掌

下图则是机器人在执行任务时的导航移动轨迹

4.4 实验

在实验中回答两个核心问题：

移动ALOHA是否能够通过协同训练co-training和少量移动操作数据来获得复杂的移动操作技能？
Can Mobile ALOHA acquire complex mobile manipulation skills with co-training and a small amount of mobile manipulation data?
移动ALOHA是否能够与不同类型的模仿学习方法一起工作，包括ACT、扩散策略和基于检索的VINN？
Can Mobile ALOHA work with different types of imita-tion learning methods, including ACT [104], Diffu-sion Policy [18], and retrieval-based VINN [63]?

作为初步研究，我们将使用“动作分块”[action chunking]这种方法，在该方法中一个策略预测未来一系列动作，而不是每个时间步只预测一个动作。这种方法已经被应用于ACT和扩散策略，并且可以简单地添加到VINN中(As a preliminary, all methods we will examine em-ploy “action chunking” [104], where a policy predictsa sequence of future actions instead of one action ateach time step)

采用动作分块对于操作至关重要，它提高了生成轨迹的一致性，并减少了逐步策略推断所带来的延迟
We found action chunking to be crucial formanipulation, improving the coherence of generated trajectory and reducing the latency from per-steppolicy inference.
我们观察到移动基座目标速度与实际速度之间存在延迟，而位置控制手臂则具有更小的延迟。为了解释移动基座d步骤上出现的延迟情况，我们使机器人执行长度为k-d 的第一个k-d 手臂行为以及最后一个k-d 基座行为
We observe a delay between target and actual veloc-ities of our mobile base, while the delay for position-controlled arms is much smaller. To account for adelay of d steps of the mobile base, our robot exe-cutes the first k −d arm actions and last k −d baseactions of an action chunk of length k.

4.4.1 协同训练提高了性能

研究发现，Co-training可以提高ACT性能。在7项具有挑战性的移动操作任务中，与静态ALOHA数据集进行Co-training可持续提高ACT的成功率

这对于乘电梯时需要按键、清洗锅时需要打开水龙头，等子任务尤为重要，因为在这些任务中，精确操作是瓶颈所在

4.4.2 兼容ACT、扩散策略和VINN

除了ACT，还使用Mobile ALOHA训练了两种最新的模仿学习方法，即扩散策略[18]和VINN[63](We train two recent imitation learning methods,Diffusion Policy [18] and VINN [63], with Mobile ALOHA in addition to ACT.)

扩散策略通过逐步细化动作预测来训练神经网络。为提高推理速度，采用DDIM调度器[85]并对图像观测应用数据增强以防止过拟合。co-training数据管道与ACT相同，在附录A中有更多的训练细节可供参考
Diffusion policy trains aneural network to gradually refine the action predic-tion. We use the DDIM scheduler [85] to improve in-ference speed, and apply data augmentation to image observations to prevent overfitting. The co-training data pipeline is the same as ACT, and we includemore training details in the Appendix A.3.
VINN利用BYOL[Bootstrap your own latenta new approach to self-supervised learning]训练一个视觉表示模型(简单地用移动和静态数据的组合对BYOL编码器进行co-training)，并使用该模型从具有最近邻演示数据集中检索动作。且采用本体感知特征增强VINN检索，并调整相对权重以平衡视觉和本体感知特征的重要性
VINN trains a visual representation model, BYOL [37] anduses it to retrieve actions from the demonstrationdataset with nearest neighbors. We augment VINNretrieval with proprioception features and tune therelative weight to balance visual and proprioceptionfeature importance

此外，进行了动作块的检索而非单个动作，并发现类似于Zhao等人的显著性能改进
We also retrieve an action chunkinstead of a single action and find significant per-formance improvement similar to Zhao et al.. For

总之，带分块的VINN、扩散策略和ACT在Mobile ALOHA上都取得了良好的性能，并且受益于与静态ALOHA的协同训练

此外，协同训练在擦拭酒的任务中的表现，成功率95%，大大优于预训练的成功率40%

最终，仅用32000美元的预算，通过静态ALOHA数据Co-training的模仿学习，Mobile ALOHA只需要20-50个演示就能学会各种复杂的任务

斯坦福Mobile ALOHA向所有人展示了机器人在各种应用场景的潜力，甚至机器人开源实现了人人可复刻

第五部分 Google家务机器人

// 待更

参考文献与推荐阅读

李飞飞「具身智能」新成果！机器人接入大模型直接听懂人话，0预训练就能完成复杂指令
VoxPoser论文一作在Twitter上发的关于VoxPoser的视频：https://twitter.com/wenlong_huang/status/1677375515811016704
谷歌AGI机器人大招！54人天团憋7个月，强泛化强推理，DeepMind和谷歌大脑合并后新成果
斯坦福炒虾机器人爆火全网！华人团队成本22万元，能做满汉全席还会洗碗，新智元发的新闻稿
斯坦福开源的机器人厨子，今天又接手了所有家务，机器之心发的新闻稿
关于Google家务机器人的报道
谷歌DeepMind机器人成果三连发！两大能力全提升，数据收集系统可同时管理20个机器人，量子位
谷歌家务机器人单挑斯坦福炒虾机器人！端茶倒水逗猫，连甩三连弹开打，新智元
大模型正在重构机器人，谷歌Deepmind这样定义具身智能的未来，机器之心
..

你可能感兴趣的:(大模型机器人系列,大模型机器人,Google,RT2,Berkeley,Gello,斯坦福Mobile,ALOHA,Google家务机器人)

RAG 调优指南：Spring AI Alibaba 模块化 RAG 原理与使用 ApacheDubbo spring 人工智能架构 Spring AI RAG
>夏冬,SpringAIAlibabaContributorRAG简介什么是RAG（检索增强生成）RAG（RetrievalAugmentedGeneration，检索增强生成）是一种结合信息检索和文本生成的技术范式。核心设计理念RAG技术就像给AI装上了「实时百科大脑」，通过先查资料后回答的机制，让AI摆脱传统模型的"知识遗忘"困境。️四大核心步骤1.文档切割→建立智能档案库核心任务:将海量文档
潜入思维的海洋：SoftCoT++如何让语言模型更聪明步子哥智能涌现语言模型人工智能自然语言处理
在人工智能的浩瀚星空下，大型语言模型（LLMs）如同一颗颗璀璨的恒星，照亮了从文本生成到复杂推理的广阔领域。然而，这些模型在推理任务中往往像是在迷雾中航行——尽管它们能抵达目的地，却常常因为固定的思维路径而错过更优的航线。2025年5月，一篇题为《SoftCoT++:Test-TimeScalingwithSoftChain-of-ThoughtReasoning》的论文如同一盏明灯，照亮了如何让
Spring AI Alibaba 支持国产大模型的Spring ai框架程序员老陈头面试学习路线阿里巴巴 spring 人工智能 java
总计30万奖金，SpringAIAlibaba应用框架挑战赛开赛点此了解SpringAI：java做ai应用的最好选择过去，Java在AI应用开发方面缺乏一个高效且易于集成的框架，这限制了开发者快速构建和部署智能应用程序的能力。SpringAI正是为解决这一问题而生，它提供了一套统一的接口，使得AI功能能够以一种标准化的方式被集成到现有的Java项目中。此外，SpringAI与原有的Spring生
Node.js 全局对象 froginwe11 开发语言
Node.js全局对象引言Node.js作为一种流行的JavaScript运行环境，以其高性能、轻量级和跨平台的特点，被广泛应用于服务器端编程、网络应用开发等领域。在Node.js中，全局对象是一个重要的概念，它为开发者提供了一系列内置的全局变量和方法，使得编程变得更加便捷。本文将详细介绍Node.js的全局对象，帮助开发者更好地理解和运用它们。Node.js全局对象概述Node.js的全局对象指
技术调研：时序数据库（一） myskybeyond 时序数据库时序数据库数据库
选择时序数据库时，选择当下主流的解决方案。目前主流的开源解决方案有InfluxDB、TDengine和TimescaleDB。下文从多个维度对比分析，最终根据需求做出选型决策。1.核心架构与设计理念数据库架构特点核心优势InfluxDB-专为时序数据设计的分布式数据库-基于时间线（TimeSeries）模型-开源版（OSS）与商业版（Cloud/Enterprise）功能差异大高写入吞吐量、原生支
Ruby 字符串（String） froginwe11 开发语言
Ruby字符串（String）引言在编程语言中，字符串是处理文本数据的基础。Ruby作为一种动态、面向对象的语言，提供了丰富的字符串处理功能。本文将详细介绍Ruby中的字符串（String）类型，包括其基本用法、操作方法以及高级特性。字符串的基本概念在Ruby中，字符串是由一系列字符组成的序列。这些字符可以是字母、数字、标点符号等。字符串是不可变的，这意味着一旦创建，其内容就不能被修改。创建字符串
DeepSeek-V3 通俗详解：从诞生到优势，以及与 GPT-4o 的对比码事漫谈 AI ai
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站1.DeepSeek的前世今生1.1什么是DeepSeek？DeepSeek是一家专注于人工智能技术研发的公司，致力于打造高性能、低成本的AI模型。它的目标是让AI技术更加普惠，让更多人能够用上强大的AI工具。1.2DeepSeek-V3的诞生DeepSeek-V3是DeepSeek公司推出的最新一代A
鞋履智造的“隐形工匠”：PROFIBUS DP转ETHERNET/IP网关应用实践
在鞋履制造产线中，西门子PLC凭借PROFIBUSDP协议实现精准逻辑控制，而涂胶机器人多采用ETHERNET/IP协议执行鞋面粘合与处理任务。为实现设备高效协同，JH-PB-EIP疆鸿智能PROFIBUSDP转ETHERNET/IP网关化身“通信中枢”，破解协议壁垒，成为提升鞋子舒适度与耐用性的核心助力。硬件连接时，需先在西门子PLC中完成DP从站组态，设定地址并通过专用电缆接入网关DP端口，针
别再为通信发愁！机床厂PROFIBUS DP转EtherNet/IP网关应用指南，低成本实现智能升级 JIANGHONGZN PROFIBUS DP 工业通讯协议网关 ETHERNET/IP
在现代机床制造工厂中，设备间的无缝通信是实现高效、柔性生产的关键。西门子PLC（如S7-300/1500系列）作为核心控制器广泛采用PROFIBUSDP现场总线，而高端机器人系统（如FANUC、KUKA）则普遍支持EtherNet/IP协议。在这类异构网络共存的环境中，协议转换网关成为打通数据壁垒的核心枢纽。网关的核心作用与工作流程角色定位：网关作为“翻译官”，部署在西门子PLC（PROFIBUS
企业级AI开发利器：Spring AI框架深度解析与实战_spring ai实战 AI大模型-海文人工智能 spring python 算法开发语言 java 机器学习
企业级AI开发利器：SpringAI框架深度解析与实战一、前言：Java生态的AI新纪元在人工智能技术爆发式发展的今天，Java开发者面临着一个新的挑战：如何将大语言模型（LLMs）和生成式AI（GenAI）无缝融入企业级应用。传统的Java生态缺乏统一的AI集成方案，开发者往往需要为不同AI供应商（如OpenAI、阿里云、HuggingFace）编写大量重复的接口适配代码，这不仅增加了开发成本，
009 【入门】单双链表及其反转-堆栈诠释要天天开心啊算法专栏算法链表
链表与堆栈系统详解|[数据结构]-[中级]-[通用]一、基础概念与内存模型1.按值传递vs按引用传递|[Java]-[基础]-[内存]//[典型错误示例]-Java中的引用传递陷阱voidmodify(Nodenode){node=node.next;//[警告]错误！仅修改局部引用的指向，不影响原始链表}//[正确做法]-通过引用修改对象内部状态voidrealModify(Nodenode){
PROFIBUS DP转EtherNet/IP网关：精密医疗器械粘合密封的质量守护者 JIANGHONGZN PROFIBUS ETHERNET/IP DP 协议网关工业通讯机器人
在医疗器械制造领域，精密部件（如输液器接头、植入体密封壳）的粘合与密封工艺对可靠性和一致性要求近乎苛刻。这类工艺通常由高速、高精度的涂胶机器人执行，而其精准动作离不开与核心控制系统（如西门子PLC）的无缝数据交互。当产线中同时存在西门子PROFIBUSDP网络与支持EtherNet/IP的机器人时，专用协议转换网关便成为确保“数据血液”畅通的关键设备。网关的核心角色：协议翻译与无缝桥接此类网关设备
【linux】yum工具篇 nanguochenchuan Linux操作系统 linux 运维服务器
Yum工具概述Yum（YellowdogUpdaterModified）是RedHat系列Linux发行版（如CentOS、Fedora）中最核心的软件包管理工具，它基于RPM包管理系统构建，通过自动解决依赖关系极大简化了软件管理流程。与直接使用rpm命令相比，Yum能自动处理软件包依赖，让系统管理员从"依赖地狱"中解脱出来。Yum工作原理深度解析Yum的工作流程可分为四个关键阶段：仓库配置读取：
【第15章】亿级电商平台订单系统-高可用架构设计 cherry5230 亿级流量架构设计与落地系统架构分布式架构中间件
1-1本章导学课程概述核心内容：订单系统高可用架构设计项目背景：年交易额200亿的B2B电商平台订单系统本章学习路径高可用概念解析设计原则学习七大架构设计方法论项目实战应用一、高可用核心概念定义与价值解析系统可靠性标准指标二、设计原则体系冗余设计故障自动转移服务降级策略监控预警机制三、七大高可用设计方法论<
转行要趁早！网络安全行业人才缺口大，企业招聘需求正旺！
网络安全行业具有人才缺口大、岗位选择多、薪资待遇好、学历要求不高等优势，对于想要转行的人员来说，是一个非常不错的选择。人才缺口大网络安全攻防技术手段日新月异，特别是现在人工智能技术飞速发展，网络安全形势复杂严峻，人才重要性凸显。教育部《网络安全人才实战能力白皮书》数据显示，到2027年，我国网络安全人员缺口将达327万。近期发布的《2024年网络安全产业人才发展报告》中提到，沿用ISC2的人才缺口
GEO引领品牌大模型种草：迈向Web3.0与元宇宙的认知新空间 GEO科技经验分享
在数字技术的演进历程中，我们正经历着从Web2.0到Web3.0、从平面互联网到沉浸式元宇宙的范式转变。这一转变不仅重塑了数字空间的形态和交互方式，更深刻改变了品牌与用户的连接模式和价值创造逻辑。而在这个新兴的数字疆域中，生成式引擎优化（GEO）正展现出前所未有的战略价值和应用潜力，成为品牌构建元宇宙和Web3.0存在的关键能力，特别是在“品牌大模型种草”场景下，品牌如何被理解、记住、推荐，正成为
【Python常用模块】_Pandas模块3-DataFrame对象失心疯_2023 Python常用模块数据分析 pandas 数据挖掘 python 数据统计数据处理
课程推荐我的个人主页：失心疯的个人主页入门教程推荐：Python零基础入门教程合集虚拟环境搭建：Python项目虚拟环境(超详细讲解)PyQt5系列教程：PythonGUI(PyQt5)教程合集Oracle数据库教程：Oracle数据库教程合集MySQL数据库教程：MySQL数据库教程合集优质资源下载：资源下载合集
高斯混合模型GMM&K均值（十三-1）——K均值是高斯混合模型的特例 phoenix@Capricornus 模式识别与机器学习均值算法机器学习算法
EM算法与K均值算法的关系K均值可以看成是高斯混合模型的特例。对K均值算法与EM算法进行比较后，可以发现它们之间有很大的相似性。K均值算法将数据点硬（hard）分配到聚类中，每个数据点唯一地与一个聚类相关联，而EM算法基于后验概率进行软（soft）分配。事实上，可以从EM算法推导出K均值算法。考虑一个高斯混合模型，其中混合分量的协方差矩阵由σ2I{\sigma^2}Iσ2I给出，其中σ2{\sig
深入剖析Redis高性能的原因，IO多路复用模型，Redis数据迁移，分布式锁实现
一、深入剖析Redis单线程处理命令仍具备高性能的原因Redis虽然是单线程处理命令的（主线程负责网络I/O和命令处理），但它依然具备百万级QPS的吞吐能力。这个看似矛盾的现象，其实是Redis高性能架构设计和底层实现精妙配合的结果。下面我们从架构、内核原理、操作系统机制、与其他系统对比等多维度深入剖析，为何Redis单线程却读写性能极高。1.Redis是“单线程处理命令”，但不是完全单线程模块是
基于灰色马尔科夫模型预测人口数量，是一种结合灰色系统理论（处理少数据、不确定性）与马尔科夫链（描述随机波动）的融合预测方法
利用灰色模型捕捉人口变化的总体趋势，再通过马尔科夫链修正因随机因素导致的预测偏差，从而提高预测精度。一、模型理论基础灰色系统理论原理（核心：处理少数据、部分信息未知的系统）差异信息原理：系统内外的差异是信息源，人口数据的时间序列差异蕴含变化规律。解的非唯一性原理：信息不完全时，预测结果存在多个可能区间（与马尔科夫状态划分契合）。最小信息原理：仅需少量历史数据（通常≥4个）即可建模，适合人口统计资料
深入剖析Nginx架构及其不同使用场景下的配置 LiRuiJie Nginx Nginx 系统架构反向代理
一、Nginx整体架构概览1.Nginx简介Nginx是采用C语言编写的高性能Web服务器、反向代理服务器及邮件代理服务器，特点是：高并发、高可用、低内存占用、模块化设计。架构核心理念：Master-Worker多进程模型事件驱动（Event-Driven）+异步非阻塞高度模块化设计2.进程模型Nginx的进程模型非常轻量，通常包含：1.Master进程启动时由shell进程fork出来主要负责：
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
TensorFlow Serving学习笔记3: 组件调用关系
一、整体架构TensorFlowServing采用模块化设计，核心组件包括：Servables：可服务对象（如模型、查找表）Managers：管理Servable生命周期（加载/卸载）Loaders：负责Servable的初始化状态管理Sources：提供新版本Servable的LoaderAspiredVersions：Servable的期望状态集合Core：连接所有组件的核心枢纽APIs：gR
C# 中 EventWaitHandle 实现多进程状态同步的深度解析 Leon@Lee c#开发语言
在现代软件开发中，多进程应用场景日益普遍。无论是分布式系统、微服务架构，还是传统的客户端-服务器模型，进程间的状态同步都是一个关键挑战。C#提供了多种同步原语，其中EventWaitHandle是一个强大的工具，特别适合处理跨进程的同步需求。本文将深入探讨EventWaitHandle的工作原理、使用场景及最佳实践。一、EventWaitHandle基础原理EventWaitHandle是.NET
根包含文件——Luaconf.h (src) LLLLLLLLLLLLLL265161 Inside Lua lua integer 编译器 alignment c++dll
Luaconf.h是配置的总集，定义了平台相关的设置，是所有文件都包含的，即RootlyIncluded。0.前言开始关注Lua也是06年六月的事情，《程序员》的2006年第六期中，我独独看中了Lua，而不是当时我已经比较熟悉的Python和Ruby，即使它们我都关注了好几年，但是都没有Lua给我的震撼大。于是那个夏天，稍微地尝试读了Lua的代码。开学后，我突然觉得自己有点受唆使，轻信了动态的福音
64、Delphi系统架构与线程模型详解 g8f9d0s1a2 深入解析Delphi 6开发者指南 Delphi 系统架构线程模型
Delphi系统架构与线程模型详解1系统架构概述Delphi作为一款强大的集成开发环境（IDE），其系统架构设计不仅体现了高效性，还融合了灵活性和可扩展性。理解Delphi的系统架构是掌握其核心功能和开发技巧的关键。本文将详细介绍Delphi的系统架构及其各组成部分的交互方式，帮助开发者更好地利用这款工具。1.1Delphi系统架构的基本组成部分Delphi的系统架构主要包括以下几个关键部分：编译
Redis网络通信模块深度解析：单线程Reactor到多线程IO的架构演进
一、核心架构：单线程Reactor模型Redis网络模块采用经典Reactor模式，核心流程如下：voidaeMain(aeEventLoop*eventLoop){while(!eventLoop->stop){//前置钩子（集群心跳/数据持久化）if(eventLoop->beforesleep)eventLoop->beforesleep(eventLoop);//事件分派：I/O复用+定时
【安装Stable Diffusion以及遇到问题和总结】岁月玲珑 AI stable diffusion AI编程 AI作画
在本地安装部署StableDiffusion，需要准备好硬件环境，安装相关依赖，然后配置模型。下面为你详细介绍安装部署的步骤：一、硬件要求显卡：需要NVIDIAGPU，显存至少6GB，推荐8GB及以上。系统：Windows10/11、Linux（Ubuntu等）或macOS（需要Rosetta2）。内存：至少16GBRAM。存储空间：准备10GB以上的可用空间。二、软件准备首先要安装Python和
RK系列（RK3568） GPIO按键驱动和Android key新值添加 hmbbPdx_ RK驱动开发 Rk开发(RK3568)android 驱动开发 linux
平台：Android12SOC：RK3568kernel:Linux-4.19首先按键驱动那块不用我们自己写，内核本身有支持可以查看kernel-4.19-driver/input/keyboard/gpio_keys.c我们先描述好设备树添加GPIO4-A0的按键gpio-keys{compatible="gpio-keys";#address-cells=;#size-cells=;autor
力扣网C语言编程题：搜索二维矩阵（右上角-＞左下角解法）魏劭逻辑编程题 C语言算法 leetcode c语言
一.简介上一篇文章关于"在二维数组中查找某个元素"的问题，提供了两种解题思路，文章如下：力扣网C语言编程题：搜索二维矩阵的普通解法与二分查找法-CSDN博客本文提供第三种解题思路：从左下角->右上角，或者右上角->左下角。二.力扣网C语言编程题：搜索二维矩阵（右上角->左下角解法）解题思路三：（换行或换列）因为题目中，数组中元素是每行元素是递增的，同时，每一行的首元素比上一行最后一个元素大，那么，
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri

Part	Quantity	Link	Price (per unit)
Robots
ViperX 300 Robot Arm 6DOF	2	ViperX 300 Robot Arm 6DOF	$5,695.95
WidowX 250 Robot Arm 6DOF	2	WidowX 250 Robot Arm 6DOF - X-Series Robotic Arm	$3,295.95
Tracer AGV(移动底座)	1	AgileX Tracer AGV	$8,999.95
Onboard Compute
Lambda Labs Tensorbook	1	Deep Learning Laptop - RTX 3080 Max-Q \| Razer x Lambda Tensorbook	$2,399.00
Robot Frame
4040 800mm x 8	4	Amazon.com (2 pcs)	$42.29
4040 500mm x 6	2	Amazon.com (4 pcs)	$58.99
4040 400mm x 2	2	Amazon.com (1 pcs)	$22.99
4040 300mm x 7	2	Amazon.com (4 pcs)	$59.99
4040 L-shape connectors x 28	5	Amazon.com (6 pcs)	$32.99
4040 T-shape connectors x 4	1	Amazon.com (6 pcs)	$30.99
4040 45-degree corner connectors	1	Amazon.com	$21.99
4040 Corner Bracket and T-Slot Sliding Nuts	2	Amazon.com	$24.99
4040 caps	2	Amazon.com	$9.81
M6 20mm (for mounting robot)	1	Amazon.com	$9.99
M6 T nuts for 4040 (for mounting robot)	2	Amazon.com	$14.16
Camera setup
Logitech C922x Pro Stream Webcam	4	Amazon.com	$98.35
USB Hub	2	Amazon.com	$19.99
Power
Battery Pack	1	Amazon.com	$699.00
600W DC Supply	1	Amazon.com	$59.00
12V DC Cable	5	Amazon.com	$15.99
Fork Spade Connectors	1	Amazon.com	$13.69
USB-A to Micro USB Cable	4	Amazon.com	$17.87
Wheel Odometry
DYNAMIXEL XL430-W250-T	2	DYNAMIXEL XL430-W250-T - ROBOTIS	$49.90
U2D2	1	U2D2 - ROBOTIS	$32.10
U2D2 Power Hub Board Set	1	U2D2 Power Hub Board Set - ROBOTIS	$19.00
Jumper Wire	1	Amazon.com	$9.99
Weights	1	Amazon.com: ACCRETION 1 Oz Grey Adhesive Backed Wheel Weights (24 Oz Pack) : Automotive	$14.65
Misc
Rubber Band	1	Amazon.com	$9.99
Gripping Tape	1	Amazon.com	$54.14
Common equipments
Allen keys
Hot glue gun

Total			$31,757.86

大模型机器人发展史：从VoxPoser、RT2到斯坦福Mobile ALOHA、Google机器人

前言

第一部分 李飞飞团队：具身智能

1.1 机器人对从没见过的任务也能一次执行且不需要示范

1.2 VoxPoser：大模型指导机器人如何与环境进行交互

1.2.1 3D Value Map：既标记了“在哪里行动”，也标记了“如何行动”

1.2.2 将指令拆解成很多子任务 + 规划路径

第二部分 Google的RT-2

第三部分

第四部分 斯坦福机器人Mobile ALOHA：炒菜、家务全活了

4.1 Mobile ALOHA整体训练流程

4.2 Mobile ALOHA 硬件

4.2.1 Mobile ALOHA 硬件的总体情况

4.2.2 硬件材料清单与硬件制作步骤

4.3 增加静态ALOHA 数据进行Co-training

4.3.1 静态ALOHA 数据的组成情况

4.3.2 基于两套数据(静态ALOHA数据和移动ALOHA数据)训练损失函数

4.4 实验

4.4.1 协同训练提高了性能

4.4.2 兼容ACT、扩散策略和VINN

第五部分 Google家务机器人

参考文献与推荐阅读

你可能感兴趣的:(大模型机器人系列,大模型机器人,Google,RT2,Berkeley,Gello,斯坦福Mobile,ALOHA,Google家务机器人)

第一部分李飞飞团队：具身智能

第四部分斯坦福机器人Mobile ALOHA：炒菜、家务全活了