登录申请试用

GEN 具身智能 · 多模态指令微调数据集

具身智能多模态指令微调数据集 · Embodied-Instruct-1M

将视觉观测、环境状态与自然语言指令、动作序列对齐，覆盖导航、抓取、交互等核心具身任务，可直接用于多模态 LLM / VLM 的指令微调与评估。

多模态 · 图像 / 状态 / 文本指令微调 / RLHF 前置数据具身智能 / 服务 & 工业机器人

指令-响应对

1.0M

含多轮上下文与动作序列

场景类型

24

室内 / 仓储 / 轻工业

授权模式

研 + 商

研究 + 内部商用可选

1. 数据概览

本数据集收集了机器人在真实环境与高保真仿真环境中的感知观测、环境状态与人类指令、系统回复、动作序列。每条样本将「观测 → 指令 → 思考过程（可选）→ 动作或回复」串联在一起，适用于对多模态大模型或决策模型进行指令微调与行为对齐。

· 支持图像帧 / 简化环境状态（位姿、速度等）+ 自然语言指令 + 动作序列 / 文本回复。
· 覆盖导航到目标、拾取并放置、避障绕行、人机对话触发动作等具身任务。
· 内置训练 / 验证 / 测试划分，方便直接用于模型开发与离线评估。

核心指标

平均指令长度 23.7 tokens

多轮对话占比 61.3%

包含显式「思考过程」 18.4%

成功任务标注 ✓

2. 数据结构与标注

数据以 JSONL / Parquet 形式存储，兼容大部分训练管线。下表是主要字段结构示意（具体字段以交付文档为准）：

字段	类型	说明
episode_id	string	任务/场景唯一标识，用于聚合多步交互。
step_index	int	当前样本在 episode 中的时间步索引。
obs_image_path	string / array	当前帧或局部 patch 图像路径，可包含多视角。
obs_state	dict	机器人/环境状态，如位姿、关节角、速度等。
instruction	string	人类给出的自然语言指令，可包含上下文。
assistant_response	string	期望的模型回复（描述动作或向人解释）。
action_sequence	array	结构化动作序列（如 delta pose、离散技能 ID）。
success_label	bool	此步或此 episode 是否成功完成任务。
quality_tag	enum	标记为「高质量」「需复查」「已剔除」等。

示例应用

· 训练视觉-语言-动作一体的大模型，支持语言控制机器人。
· 为现有 LLM 注入具身知识，用于推理机器人下一步动作。
· 构建离线评估基准，对比不同策略或模型变体表现。

3. 质量控制与评估集

数据集包含独立构建的验证集与测试集，专门用于评估指令理解、动作合理性与任务成功率等指标。

· 双人标注 + 模型辅助审查：指令与动作对由两名标注员交叉审阅，并结合参考模型输出进行一致性检查。
· 长尾场景覆盖：针对狭窄通道、遮挡物体、噪音环境等设计专门场景，强化模型鲁棒性。
· 细粒度标签：失败原因（感知错误 / 规划失败 / 执行受阻）有独立标签，方便诊断模型弱点。

质量指标（示意）

指令-动作对一致性 97.1%

成功 episode 占比 83.4%

含思考过程样本噪声率 < 2.5%

4. 授权与交付

本数据集支持研究与内部商用两种授权模式，具体价格会根据使用范围、团队规模与交付形式进行调整。

· 交付形式：对象存储链接 / 物理硬盘 / 私有云同步。
· 支持与现有 MLOps / 训练平台进行对接（如 S3 / OSS 路径）。
· 可选附加服务：评估基线模型、代码示例与数据扩展包。

提交需求，获取样本与报价（Demo 表单，仅示意）

公司名称

联系人邮箱

主要使用场景

预估预算区间

补充说明（可选）

本页面为演示用途，表单内容不会真正提交到服务器。