{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2024:UJZQGCVY76UO2YERCCMIJ5KDJZ","short_pith_number":"pith:UJZQGCVY","schema_version":"1.0","canonical_sha256":"a273030ab8ffa8ed6091109884f5434e4b456ce207197e0eda640336fee9c895","source":{"kind":"arxiv","id":"2412.13877","version":3},"attestation_state":"computed","paper":{"title":"RoboMIND: Benchmark on Multi-embodiment Intelligence Normative Data for Robot Manipulation","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"RoboMIND supplies 107k teleoperated trajectories across four robot embodiments to train generalizable manipulation policies.","cross_cats":["cs.AI"],"primary_cat":"cs.RO","authors_text":"Chengkai Hou, Chenxuan Li, Chenyang Gu, Di Wu, Fei Liao, Guang Yang, Guangyu Li, Jiaming Liu, Jian Tang, Jilei Mao, Jingyang He, Kun Wu, Lecheng Wang, Meng Li, Mengzhen Liu, Ning Liu, Pei Ren, Pengju An, Qiang Zhang, Shanghang Zhang, Shichao Fan, Sixiang Chen, Siyuan Qian, Xiaozhu Ju, Xingyu Wang, Xinhua Wang, Yankai Fu, Yaoxu Lyu, Yinuo Zhao, Yulin Luo, Zeyu Gao, Zhao Jin, Zhengping Che, Zhenyu Wang, Zhen Zhao, Zhiyuan Xu, Zhuqin Yang","submitted_at":"2024-12-18T14:17:16Z","abstract_excerpt":"In this paper, we introduce RoboMIND (Multi-embodiment Intelligence Normative Data for Robot Manipulation), a dataset containing 107k demonstration trajectories across 479 diverse tasks involving 96 object classes. RoboMIND is collected through human teleoperation and encompasses comprehensive robotic-related information, including multi-view observations, proprioceptive robot state information, and linguistic task descriptions. To ensure data consistency and reliability for imitation learning, RoboMIND is built on a unified data collection platform and a standardized protocol, covering four d"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2412.13877","kind":"arxiv","version":3},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.RO","submitted_at":"2024-12-18T14:17:16Z","cross_cats_sorted":["cs.AI"],"title_canon_sha256":"e41524d351c8f6fb1edfb3e3cc66934c619045f0693e88813b6e2421fe6ccfe0","abstract_canon_sha256":"ee85b764b915c8a18ced5e4e44e65f1dc1cb20057358023cc558d160b23b0e93"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:49.980466Z","signature_b64":"TGcPPsqlziYlIpA0TmemmQC6Mfn1OZJinFBmVgrTzFnt23cFnbfTy6rnTaqyH9/MPqG0rwdAhLcZraITzCBXBg==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"a273030ab8ffa8ed6091109884f5434e4b456ce207197e0eda640336fee9c895","last_reissued_at":"2026-05-17T23:38:49.979445Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:49.979445Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"RoboMIND: Benchmark on Multi-embodiment Intelligence Normative Data for Robot Manipulation","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"RoboMIND supplies 107k teleoperated trajectories across four robot embodiments to train generalizable manipulation policies.","cross_cats":["cs.AI"],"primary_cat":"cs.RO","authors_text":"Chengkai Hou, Chenxuan Li, Chenyang Gu, Di Wu, Fei Liao, Guang Yang, Guangyu Li, Jiaming Liu, Jian Tang, Jilei Mao, Jingyang He, Kun Wu, Lecheng Wang, Meng Li, Mengzhen Liu, Ning Liu, Pei Ren, Pengju An, Qiang Zhang, Shanghang Zhang, Shichao Fan, Sixiang Chen, Siyuan Qian, Xiaozhu Ju, Xingyu Wang, Xinhua Wang, Yankai Fu, Yaoxu Lyu, Yinuo Zhao, Yulin Luo, Zeyu Gao, Zhao Jin, Zhengping Che, Zhenyu Wang, Zhen Zhao, Zhiyuan Xu, Zhuqin Yang","submitted_at":"2024-12-18T14:17:16Z","abstract_excerpt":"In this paper, we introduce RoboMIND (Multi-embodiment Intelligence Normative Data for Robot Manipulation), a dataset containing 107k demonstration trajectories across 479 diverse tasks involving 96 object classes. RoboMIND is collected through human teleoperation and encompasses comprehensive robotic-related information, including multi-view observations, proprioceptive robot state information, and linguistic task descriptions. To ensure data consistency and reliability for imitation learning, RoboMIND is built on a unified data collection platform and a standardized protocol, covering four d"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"To the best of our knowledge, RoboMIND is the largest multi-embodiment teleoperation dataset collected on a unified platform, providing large-scale and high-quality robotic training data.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That demonstrations collected via human teleoperation on a single unified platform, together with the recorded failure cases, are sufficient in quality and coverage to train policies that generalize across embodiments and to unseen real-world conditions.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"RoboMIND is a large-scale multi-embodiment teleoperation dataset for robot manipulation containing 107k trajectories across four robots, with failure annotations and a digital twin simulator.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"RoboMIND supplies 107k teleoperated trajectories across four robot embodiments to train generalizable manipulation policies.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"02f5da766fef73f8c93c3887b97a33b3fdb699ffb3af15f633f35dfec638ba3d"},"source":{"id":"2412.13877","kind":"arxiv","version":3},"verdict":{"id":"0aeda771-c8d3-461d-ab6c-a4312d4b7c97","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-15T22:09:44.467479Z","strongest_claim":"To the best of our knowledge, RoboMIND is the largest multi-embodiment teleoperation dataset collected on a unified platform, providing large-scale and high-quality robotic training data.","one_line_summary":"RoboMIND is a large-scale multi-embodiment teleoperation dataset for robot manipulation containing 107k trajectories across four robots, with failure annotations and a digital twin simulator.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That demonstrations collected via human teleoperation on a single unified platform, together with the recorded failure cases, are sufficient in quality and coverage to train policies that generalize across embodiments and to unseen real-world conditions.","pith_extraction_headline":"RoboMIND supplies 107k teleoperated trajectories across four robot embodiments to train generalizable manipulation policies."},"references":{"count":118,"sample":[{"doi":"","year":2023,"title":"GPT-4 Technical Report","work_id":"b928e041-6991-4c08-8c81-0359e4097c7b","ref_index":1,"cited_arxiv_id":"2303.08774","is_internal_anchor":true},{"doi":"","year":2023,"title":"Do as i can, not as i say: Grounding language in robotic affordances","work_id":"fc4809fb-0879-4ce4-9788-114e512e0cdd","ref_index":2,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2020,"title":"Learning dexterous in-hand manipula- tion","work_id":"7401fffe-c123-4b9f-988f-4910ef644447","ref_index":3,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2023,"title":"OpenFlamingo: An Open-Source Framework for Training Large Autoregressive Vision-Language Models","work_id":"87bfa84a-e663-4165-806f-93ef439d88d0","ref_index":4,"cited_arxiv_id":"2308.01390","is_internal_anchor":true},{"doi":"","year":2023,"title":"Affordances from human videos as a versatile representation for robotics","work_id":"b304b1d8-62ac-4d6f-b661-13b44adf5b8c","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":118,"snapshot_sha256":"1c7c2a9ec48b66bf98f04a3888329bc0ea05d16559d200ee5c68f878ed85da5e","internal_anchors":9},"formal_canon":{"evidence_count":2,"snapshot_sha256":"93548622fb43281f8ae48f6f5b6cdf7bed9f2ecd4a5493091904b9be94bd22ab"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2412.13877","created_at":"2026-05-17T23:38:49.979985+00:00"},{"alias_kind":"arxiv_version","alias_value":"2412.13877v3","created_at":"2026-05-17T23:38:49.979985+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2412.13877","created_at":"2026-05-17T23:38:49.979985+00:00"},{"alias_kind":"pith_short_12","alias_value":"UJZQGCVY76UO","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"UJZQGCVY76UO2YER","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"UJZQGCVY","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":29,"internal_anchor_count":29,"sample":[{"citing_arxiv_id":"2605.21414","citing_title":"PointACT: Vision-Language-Action Models with Multi-Scale Point-Action Interaction","ref_index":63,"is_internal_anchor":true},{"citing_arxiv_id":"2605.07308","citing_title":"AT-VLA: Adaptive Tactile Injection for Enhanced Feedback Reaction in Vision-Language-Action Models","ref_index":41,"is_internal_anchor":true},{"citing_arxiv_id":"2507.12768","citing_title":"AnyPos: Automated Task-Agnostic Actions for Bimanual Manipulation","ref_index":38,"is_internal_anchor":true},{"citing_arxiv_id":"2510.27420","citing_title":"Towards a Multi-Embodied Grasping Agent","ref_index":41,"is_internal_anchor":true},{"citing_arxiv_id":"2511.17441","citing_title":"RoboCOIN: An Open-Sourced Bimanual Robotic Data Collection for Integrated Manipulation","ref_index":39,"is_internal_anchor":true},{"citing_arxiv_id":"2507.01925","citing_title":"A Survey on Vision-Language-Action Models: An Action Tokenization Perspective","ref_index":287,"is_internal_anchor":true},{"citing_arxiv_id":"2507.12898","citing_title":"Vidar: Embodied Video Diffusion Model for Generalist Manipulation","ref_index":23,"is_internal_anchor":true},{"citing_arxiv_id":"2602.08392","citing_title":"ST-BiBench: Benchmarking Multi-Stream Multimodal Coordination in Bimanual Embodied Tasks for MLLMs","ref_index":117,"is_internal_anchor":true},{"citing_arxiv_id":"2602.11236","citing_title":"ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning","ref_index":47,"is_internal_anchor":true},{"citing_arxiv_id":"2503.10631","citing_title":"HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model","ref_index":30,"is_internal_anchor":true},{"citing_arxiv_id":"2603.15620","citing_title":"Towards Generalizable Robotic Manipulation in Dynamic Environments","ref_index":54,"is_internal_anchor":true},{"citing_arxiv_id":"2605.13925","citing_title":"Towards Robotic Dexterous Hand Intelligence: A Survey","ref_index":187,"is_internal_anchor":true},{"citing_arxiv_id":"2603.22126","citing_title":"ROBOGATE: Adaptive Failure Discovery for Safe Robot Policy Deployment via Two-Stage Boundary-Focused Sampling","ref_index":27,"is_internal_anchor":true},{"citing_arxiv_id":"2510.13778","citing_title":"InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy","ref_index":40,"is_internal_anchor":true},{"citing_arxiv_id":"2605.13403","citing_title":"RotVLA: Rotational Latent Action for Vision-Language-Action Model","ref_index":40,"is_internal_anchor":true},{"citing_arxiv_id":"2605.11564","citing_title":"RIO: Flexible Real-Time Robot I/O for Cross-Embodiment Robot Learning","ref_index":46,"is_internal_anchor":true},{"citing_arxiv_id":"2511.00062","citing_title":"World Simulation with Video Foundation Models for Physical AI","ref_index":87,"is_internal_anchor":true},{"citing_arxiv_id":"2512.13030","citing_title":"Motus: A Unified Latent Action World Model","ref_index":48,"is_internal_anchor":true},{"citing_arxiv_id":"2604.28192","citing_title":"LaST-R1: Reinforcing Robotic Manipulation via Adaptive Physical Latent Reasoning","ref_index":33,"is_internal_anchor":true},{"citing_arxiv_id":"2604.27472","citing_title":"PRTS: A Primitive Reasoning and Tasking System via Contrastive Representations","ref_index":30,"is_internal_anchor":true},{"citing_arxiv_id":"2605.10942","citing_title":"HarmoWAM: Harmonizing Generalizable and Precise Manipulation via Adaptive World Action Models","ref_index":52,"is_internal_anchor":true},{"citing_arxiv_id":"2604.28192","citing_title":"LaST-R1: Reinforcing Robotic Manipulation via Adaptive Physical Latent Reasoning","ref_index":33,"is_internal_anchor":true},{"citing_arxiv_id":"2503.06669","citing_title":"AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2604.16484","citing_title":"DexWorldModel: Causal Latent World Modeling towards Automated Learning of Embodied Tasks","ref_index":27,"is_internal_anchor":true},{"citing_arxiv_id":"2506.18088","citing_title":"RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation","ref_index":47,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":2,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/UJZQGCVY76UO2YERCCMIJ5KDJZ","json":"https://pith.science/pith/UJZQGCVY76UO2YERCCMIJ5KDJZ.json","graph_json":"https://pith.science/api/pith-number/UJZQGCVY76UO2YERCCMIJ5KDJZ/graph.json","events_json":"https://pith.science/api/pith-number/UJZQGCVY76UO2YERCCMIJ5KDJZ/events.json","paper":"https://pith.science/paper/UJZQGCVY"},"agent_actions":{"view_html":"https://pith.science/pith/UJZQGCVY76UO2YERCCMIJ5KDJZ","download_json":"https://pith.science/pith/UJZQGCVY76UO2YERCCMIJ5KDJZ.json","view_paper":"https://pith.science/paper/UJZQGCVY","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2412.13877&json=true","fetch_graph":"https://pith.science/api/pith-number/UJZQGCVY76UO2YERCCMIJ5KDJZ/graph.json","fetch_events":"https://pith.science/api/pith-number/UJZQGCVY76UO2YERCCMIJ5KDJZ/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/UJZQGCVY76UO2YERCCMIJ5KDJZ/action/timestamp_anchor","attest_storage":"https://pith.science/pith/UJZQGCVY76UO2YERCCMIJ5KDJZ/action/storage_attestation","attest_author":"https://pith.science/pith/UJZQGCVY76UO2YERCCMIJ5KDJZ/action/author_attestation","sign_citation":"https://pith.science/pith/UJZQGCVY76UO2YERCCMIJ5KDJZ/action/citation_signature","submit_replication":"https://pith.science/pith/UJZQGCVY76UO2YERCCMIJ5KDJZ/action/replication_record"}},"created_at":"2026-05-17T23:38:49.979985+00:00","updated_at":"2026-05-17T23:38:49.979985+00:00"}