在 LeRobot 社区,我们发现数据集的质量直接决定了机器人策略(Policy)的可靠性与泛化能力。为了提升自动化清洗效率并优化训练效果,我们总结了当前社区数据集常见的“四大坑”,并为你准备了一份保姆级录制清单。
一、 常见问题:为什么你的数据集不好用?
在开发自动化策展流水线(Curation Pipeline)时,我们发现了以下四大痛点:
- 任务标注(Task Annotation)太模糊:
语义是认知系统的核心。目前很多数据集存在任务描述为空、太短(如“Hold”)或毫无意义(如“task1”)的问题。这会导致机器人无法准确理解动作意图。 - 特征命名(Feature Mapping)不规范:
例如使用images.laptop这种标签,我们无法判断它是第三人称视角还是腕部相机。这种混乱增加了后期人工映射的成本。 - 数据不完整或索引破损:
部分序列只有寥寥几帧,或者手动删除了文件却未更新元数据索引,导致训练时读取中断。 - 维度与格式不一致:
即使是同一种机器人(如 SO-100),不同作者采集的动作/状态维度也往往不统一,难以进行大规模联合训练。
二、 黄金标准:优秀数据集长什么样?
为了解决上述问题,我们建议在数据采集过程中严格遵守以下LeRobot 录制规范:
1. 视觉质量:给机器人一双“清晰”的眼睛
- 多视角并行:建议至少保留2 个相机视角。
- 画面稳定:严禁相机晃动,确保曝光一致、对焦清晰。
- 光线中性:避免过蓝或过黄的极端灯光。
- 画面纯净:Leader Arm(操纵臂)严禁入镜;画面中除了机器人 Follower Arm 和目标物体外,不应有其他移动物体(如人的肢体)。
- 高分辨率:至少达到720p。
2. 规范命名:标准化的语义表达
遵循<模态>.<位置>的命名格式,禁止使用设备名:
- 推荐:
images.top/images.left/images.front - 腕部相机:需注明方位,如
images.wrist.left或images.wrist.bottom。 - 拒用:
images.laptop或images.phone。
3. 任务描述:不仅是文字,更是指令
- 精准描述:例如“捡起黄色乐高块并放入盒子”。
- 字数控制:保持在25–50 个字符之间,既要详细又要精炼。
- 拒绝敷衍:严禁使用
task1、demo2等无意义名称。
4. 协议与元数据:保持逻辑一致性
- 帧率统一:建议设定在30 FPS左右。
- 动态更新:如果删除了某些失败的 Episode,务必同步更新元数据索引文件,确保数据流的连续性。
三、 总结:LeRobot 数据采集核查清单
你可以直接参考下图这张录制清单(Checklist),在每次按下“录制”键前对照检查:
结语:
一个整洁、规范的数据集是迈向通用机器人智能的第一步。通过标准化的标注与高质量的视觉输入,我们可以让 LeRobot 社区的策略模型变得更加强大。
想要了解更多?可以访问 GitHub 仓库:git@github.com:huggingface/lerobot.git