{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2026:6CFE6QDMDTLNO4P4ZUZZWSXWPU","short_pith_number":"pith:6CFE6QDM","schema_version":"1.0","canonical_sha256":"f08a4f406c1cd6d771fccd339b4af67d3bef0096483d587a183b223ea24076d2","source":{"kind":"arxiv","id":"2605.29577","version":1},"attestation_state":"computed","paper":{"title":"Mitigating State Aliasing in Vision-Language-Action Models via Inverse Dynamics Learning","license":"http://creativecommons.org/licenses/by-nc-nd/4.0/","headline":"","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Hyunwoo J. Kim, Injae Kim, Jihwan Park, Kyujin Lee, Minseok Joo, Yejun Ju","submitted_at":"2026-05-28T08:22:49Z","abstract_excerpt":"Vision-Language-Action (VLA) models have emerged as a promising framework that unifies perception, reasoning, and control for robot manipulation by adapting pretrained vision-language models (VLMs) to action prediction. However, VLM-derived representations are often insensitive to subtle visual distinctions required for low-level control, causing state aliasing between visually similar states that require substantially different actions. Prior VLA studies improve visual understanding by generating visual or reasoning outputs, such as future frames, 2D grounding points or traces, or intermediat"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2605.29577","kind":"arxiv","version":1},"metadata":{"license":"http://creativecommons.org/licenses/by-nc-nd/4.0/","primary_cat":"cs.CV","submitted_at":"2026-05-28T08:22:49Z","cross_cats_sorted":[],"title_canon_sha256":"c62bc3658aa49eb73ee708a968a8f7dc03276404aaf62cfb28e241e4d1fc5af1","abstract_canon_sha256":"4d6a90cd0cf6b3aeac222582e7e6115cb01d7ac71a0fb3387f82a17ab1788e68"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-29T01:05:48.492225Z","signature_b64":"2XSu43juw/7m98GgnDQRTtQeQhliK/Zm1E4/54dldYN7Ny2PMDsgchkd9BOR3oarlHN8nwKqcfw4hWZdygw5Ag==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"f08a4f406c1cd6d771fccd339b4af67d3bef0096483d587a183b223ea24076d2","last_reissued_at":"2026-05-29T01:05:48.491454Z","signature_status":"signed_v1","first_computed_at":"2026-05-29T01:05:48.491454Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Mitigating State Aliasing in Vision-Language-Action Models via Inverse Dynamics Learning","license":"http://creativecommons.org/licenses/by-nc-nd/4.0/","headline":"","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Hyunwoo J. Kim, Injae Kim, Jihwan Park, Kyujin Lee, Minseok Joo, Yejun Ju","submitted_at":"2026-05-28T08:22:49Z","abstract_excerpt":"Vision-Language-Action (VLA) models have emerged as a promising framework that unifies perception, reasoning, and control for robot manipulation by adapting pretrained vision-language models (VLMs) to action prediction. However, VLM-derived representations are often insensitive to subtle visual distinctions required for low-level control, causing state aliasing between visually similar states that require substantially different actions. Prior VLA studies improve visual understanding by generating visual or reasoning outputs, such as future frames, 2D grounding points or traces, or intermediat"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2605.29577","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2605.29577/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2605.29577","created_at":"2026-05-29T01:05:48.491586+00:00"},{"alias_kind":"arxiv_version","alias_value":"2605.29577v1","created_at":"2026-05-29T01:05:48.491586+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2605.29577","created_at":"2026-05-29T01:05:48.491586+00:00"},{"alias_kind":"pith_short_12","alias_value":"6CFE6QDMDTLN","created_at":"2026-05-29T01:05:48.491586+00:00"},{"alias_kind":"pith_short_16","alias_value":"6CFE6QDMDTLNO4P4","created_at":"2026-05-29T01:05:48.491586+00:00"},{"alias_kind":"pith_short_8","alias_value":"6CFE6QDM","created_at":"2026-05-29T01:05:48.491586+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":0,"internal_anchor_count":0,"sample":[]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/6CFE6QDMDTLNO4P4ZUZZWSXWPU","json":"https://pith.science/pith/6CFE6QDMDTLNO4P4ZUZZWSXWPU.json","graph_json":"https://pith.science/api/pith-number/6CFE6QDMDTLNO4P4ZUZZWSXWPU/graph.json","events_json":"https://pith.science/api/pith-number/6CFE6QDMDTLNO4P4ZUZZWSXWPU/events.json","paper":"https://pith.science/paper/6CFE6QDM"},"agent_actions":{"view_html":"https://pith.science/pith/6CFE6QDMDTLNO4P4ZUZZWSXWPU","download_json":"https://pith.science/pith/6CFE6QDMDTLNO4P4ZUZZWSXWPU.json","view_paper":"https://pith.science/paper/6CFE6QDM","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2605.29577&json=true","fetch_graph":"https://pith.science/api/pith-number/6CFE6QDMDTLNO4P4ZUZZWSXWPU/graph.json","fetch_events":"https://pith.science/api/pith-number/6CFE6QDMDTLNO4P4ZUZZWSXWPU/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/6CFE6QDMDTLNO4P4ZUZZWSXWPU/action/timestamp_anchor","attest_storage":"https://pith.science/pith/6CFE6QDMDTLNO4P4ZUZZWSXWPU/action/storage_attestation","attest_author":"https://pith.science/pith/6CFE6QDMDTLNO4P4ZUZZWSXWPU/action/author_attestation","sign_citation":"https://pith.science/pith/6CFE6QDMDTLNO4P4ZUZZWSXWPU/action/citation_signature","submit_replication":"https://pith.science/pith/6CFE6QDMDTLNO4P4ZUZZWSXWPU/action/replication_record"}},"created_at":"2026-05-29T01:05:48.491586+00:00","updated_at":"2026-05-29T01:05:48.491586+00:00"}