GEN 具身智能 · 多模态指令微调数据集

具身智能多模态指令微调数据集 · Embodied-Instruct-1M

将视觉观测、环境状态与自然语言指令、动作序列对齐,覆盖导航、抓取、交互等核心具身任务,可直接用于多模态 LLM / VLM 的指令微调与评估。

多模态 · 图像 / 状态 / 文本 指令微调 / RLHF 前置数据 具身智能 / 服务 & 工业机器人
指令-响应对
1.0M
含多轮上下文与动作序列
场景类型
24
室内 / 仓储 / 轻工业
授权模式
研 + 商
研究 + 内部商用可选

1. 数据概览

本数据集收集了机器人在真实环境与高保真仿真环境中的感知观测、环境状态与人类指令、系统回复、动作序列。每条样本将 「观测 → 指令 → 思考过程(可选)→ 动作或回复」 串联在一起,适用于对多模态大模型或决策模型进行指令微调与行为对齐。

  • · 支持图像帧 / 简化环境状态(位姿、速度等)+ 自然语言指令 + 动作序列 / 文本回复。
  • · 覆盖导航到目标、拾取并放置、避障绕行、人机对话触发动作等具身任务。
  • · 内置训练 / 验证 / 测试划分,方便直接用于模型开发与离线评估。

核心指标

平均指令长度 23.7 tokens
多轮对话占比 61.3%
包含显式「思考过程」 18.4%
成功任务标注

2. 数据结构与标注

数据以 JSONL / Parquet 形式存储,兼容大部分训练管线。下表是主要字段结构示意(具体字段以交付文档为准):

字段 类型 说明
episode_id string 任务/场景唯一标识,用于聚合多步交互。
step_index int 当前样本在 episode 中的时间步索引。
obs_image_path string / array 当前帧或局部 patch 图像路径,可包含多视角。
obs_state dict 机器人/环境状态,如位姿、关节角、速度等。
instruction string 人类给出的自然语言指令,可包含上下文。
assistant_response string 期望的模型回复(描述动作或向人解释)。
action_sequence array 结构化动作序列(如 delta pose、离散技能 ID)。
success_label bool 此步或此 episode 是否成功完成任务。
quality_tag enum 标记为「高质量」「需复查」「已剔除」等。

示例应用

  • · 训练视觉-语言-动作一体的大模型,支持语言控制机器人。
  • · 为现有 LLM 注入具身知识,用于推理机器人下一步动作。
  • · 构建离线评估基准,对比不同策略或模型变体表现。

3. 质量控制与评估集

数据集包含独立构建的验证集与测试集,专门用于评估指令理解、动作合理性与任务成功率等指标。

  • · 双人标注 + 模型辅助审查:指令与动作对由两名标注员交叉审阅,并结合参考模型输出进行一致性检查。
  • · 长尾场景覆盖:针对狭窄通道、遮挡物体、噪音环境等设计专门场景,强化模型鲁棒性。
  • · 细粒度标签:失败原因(感知错误 / 规划失败 / 执行受阻)有独立标签,方便诊断模型弱点。

质量指标(示意)

指令-动作对一致性 97.1%
成功 episode 占比 83.4%
含思考过程样本噪声率 < 2.5%

4. 授权与交付

本数据集支持研究与内部商用两种授权模式,具体价格会根据使用范围、团队规模与交付形式进行调整。

  • · 交付形式:对象存储链接 / 物理硬盘 / 私有云同步。
  • · 支持与现有 MLOps / 训练平台进行对接(如 S3 / OSS 路径)。
  • · 可选附加服务:评估基线模型、代码示例与数据扩展包。

提交需求,获取样本与报价(Demo 表单,仅示意)

本页面为演示用途,表单内容不会真正提交到服务器。