GEN
具身智能 · 多模态指令微调数据集
具身智能多模态指令微调数据集 · Embodied-Instruct-1M
将视觉观测、环境状态与自然语言指令、动作序列对齐,覆盖导航、抓取、交互等核心具身任务,可直接用于多模态 LLM / VLM 的指令微调与评估。
多模态 · 图像 / 状态 / 文本
指令微调 / RLHF 前置数据
具身智能 / 服务 & 工业机器人
指令-响应对
1.0M
含多轮上下文与动作序列
场景类型
24
室内 / 仓储 / 轻工业
授权模式
研 + 商
研究 + 内部商用可选
1. 数据概览
本数据集收集了机器人在真实环境与高保真仿真环境中的感知观测、环境状态与人类指令、系统回复、动作序列。每条样本将 「观测 → 指令 → 思考过程(可选)→ 动作或回复」 串联在一起,适用于对多模态大模型或决策模型进行指令微调与行为对齐。
- · 支持图像帧 / 简化环境状态(位姿、速度等)+ 自然语言指令 + 动作序列 / 文本回复。
- · 覆盖导航到目标、拾取并放置、避障绕行、人机对话触发动作等具身任务。
- · 内置训练 / 验证 / 测试划分,方便直接用于模型开发与离线评估。
核心指标
平均指令长度
23.7 tokens
多轮对话占比
61.3%
包含显式「思考过程」
18.4%
成功任务标注
✓
2. 数据结构与标注
数据以 JSONL / Parquet 形式存储,兼容大部分训练管线。下表是主要字段结构示意(具体字段以交付文档为准):
| 字段 | 类型 | 说明 |
|---|---|---|
| episode_id | string | 任务/场景唯一标识,用于聚合多步交互。 |
| step_index | int | 当前样本在 episode 中的时间步索引。 |
| obs_image_path | string / array | 当前帧或局部 patch 图像路径,可包含多视角。 |
| obs_state | dict | 机器人/环境状态,如位姿、关节角、速度等。 |
| instruction | string | 人类给出的自然语言指令,可包含上下文。 |
| assistant_response | string | 期望的模型回复(描述动作或向人解释)。 |
| action_sequence | array | 结构化动作序列(如 delta pose、离散技能 ID)。 |
| success_label | bool | 此步或此 episode 是否成功完成任务。 |
| quality_tag | enum | 标记为「高质量」「需复查」「已剔除」等。 |
示例应用
- · 训练视觉-语言-动作一体的大模型,支持语言控制机器人。
- · 为现有 LLM 注入具身知识,用于推理机器人下一步动作。
- · 构建离线评估基准,对比不同策略或模型变体表现。
3. 质量控制与评估集
数据集包含独立构建的验证集与测试集,专门用于评估指令理解、动作合理性与任务成功率等指标。
- · 双人标注 + 模型辅助审查:指令与动作对由两名标注员交叉审阅,并结合参考模型输出进行一致性检查。
- · 长尾场景覆盖:针对狭窄通道、遮挡物体、噪音环境等设计专门场景,强化模型鲁棒性。
- · 细粒度标签:失败原因(感知错误 / 规划失败 / 执行受阻)有独立标签,方便诊断模型弱点。
质量指标(示意)
指令-动作对一致性
97.1%
成功 episode 占比
83.4%
含思考过程样本噪声率
< 2.5%
4. 授权与交付
本数据集支持研究与内部商用两种授权模式,具体价格会根据使用范围、团队规模与交付形式进行调整。
- · 交付形式:对象存储链接 / 物理硬盘 / 私有云同步。
- · 支持与现有 MLOps / 训练平台进行对接(如 S3 / OSS 路径)。
- · 可选附加服务:评估基线模型、代码示例与数据扩展包。