title:”VLA学习”
data:2025-3-5
author=朱宇阳
今日份论文阅读!
参考:
1.Visual-RFT
视觉-语言-行动模型 (VLA) 代表了一类旨在处理多模态输入的模型,结合了来自视觉、语言和动作模态的信息。VLA 的开发是为了解决具身 AI 的指令遵循任务。具身 AI 需要控制物理体现并与环境交互.
在语言条件反射的机器人任务中,策略要求解语言指令/视觉感知环境/生成动作,即多模态能力。
1.深度学习早期发展:单峰模型
AlexNet $\rightarrow$ RNN $\rightarrow$Transformers $\rightarrow$ANN
2.基于强化学习的传统机器人:策略主要集中在一组有限的任务上,通常在工厂和实验室等受控环境中然而(S. Levine, P. Pastor, A. Krizhevsky, and D. Quillen, “Learning handeye coordination for robotic grasping with large-scale data collection,” in ISER, ser. Springer Proce)
1. One-Hot 向量的局限性
(1) 维度灾难
- 问题本质:
每个任务被编码为一个独立的二进制维度(如任务1对应[1,0,0,...]
,任务2对应[0,1,0,...]
)。当任务数 N 极大时(如1000+),向量维度需扩展至 N,导致以下问题:- 存储成本激增:
需要存储 N 维向量,内存占用随 N 线性增长。例如,1000个任务需1000个维度,10,000个任务需10,000个维度。- 计算效率下降:
模型参数规模随维度线性增长(如全连接层的权重矩阵规模为 H×N,H 为隐藏层神经元数),训练速度显著降低。- 过拟合风险:
模型容易将任务ID的独热编码本身当作特征学习(而非任务本质规律),导致在新任务上表现差。(2) 任务间关系丢失
- 问题本质:One-Hot向量无法编码任务之间的语义关联。例如:
- “图像分类” 和 “目标检测” 均属于计算机视觉任务,具有相关性;
- “翻译” 和 “摘要” 均属于自然语言处理任务,但语义不同。
- 后果:
模型无法利用任务间的相似性迁移知识(如用图像分类模型辅助目标检测),也难以泛化到未见过但相关的任务。
2. 替代方案:任务嵌入(Task Embedding)
核心思想
将离散的任务标识符(如任务ID)映射到低维连续空间(如512维)。相似任务在向量空间中距离较近,差异较大的任务距离较远。
关键优势
- 维度可控:
固定低维(如256~512维),显著减少参数量和存储需求。- 捕捉语义关系:
通过向量距离反映任务相关性(如 “猫” 和 “狗” 的嵌入向量相近)。- 动态扩展性:
新任务可直接映射到已有连续空间,无需预留固定维度。
视觉编码器帮VLA 感知复杂的环境 ,提供估计,例如对象类别、对象姿势和对象几何形状。
集成视觉模型和语言模型的方法: BLIP-2 、Flamingo。
。一些 VLA 努力通过采用专为机器人任务设计的预训练任务来增强其预训练的视觉表示,主要重点是获得改进的视觉编码器。
与此同时,大量工作致力于机器人控制政策。在此类别中,语言指令被输入到控制策略中,该策略根据环境生成动作。相比之下,
另一类 VLA 充当高级任务规划器,抽象出低级控制。相反,这些模型专注于将长期机器人任务分解为子任务。然后,这些子任务可以通过控制策略逐个完成,最终完成整个任务。
我们介绍了当前机器人系统中层次结构的分类法,包括三个主要组件:预训练、控制策略和任务规划器。
预训练技术旨在增强 VLA 的特定方面,例如视觉编码器或动力学模型。
低级别控制策略根据指定的语言命令和感知的环境执行低级别作。
高级任务规划器将长距离任务分解为可由控制策略执行的子任务。