{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:GPYBQFOREE7CMKJRK2JLMO2X7M","short_pith_number":"pith:GPYBQFOR","schema_version":"1.0","canonical_sha256":"33f01815d1213e2629315692b63b57fb1fc1462674d41b44a62b08e98e93d496","source":{"kind":"arxiv","id":"2506.07339","version":2},"attestation_state":"computed","paper":{"title":"Real-Time Execution of Action Chunking Flow Policies","license":"http://creativecommons.org/licenses/by/4.0/","headline":"Real-time chunking generates the next action chunk while executing the current one by freezing committed steps and inpainting the rest, letting any diffusion- or flow-based vision-language-action model run smoothly under latency.","cross_cats":["cs.AI","cs.LG"],"primary_cat":"cs.RO","authors_text":"Kevin Black, Manuel Y. Galliker, Sergey Levine","submitted_at":"2025-06-09T01:01:59Z","abstract_excerpt":"Modern AI systems, especially those interacting with the physical world, increasingly require real-time performance. However, the high latency of state-of-the-art generalist models, including recent vision-language action models (VLAs), poses a significant challenge. While action chunking has enabled temporal consistency in high-frequency control tasks, it does not fully address the latency problem, leading to pauses or out-of-distribution jerky movements at chunk boundaries. This paper presents a novel inference-time algorithm that enables smooth asynchronous execution of action chunking poli"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2506.07339","kind":"arxiv","version":2},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.RO","submitted_at":"2025-06-09T01:01:59Z","cross_cats_sorted":["cs.AI","cs.LG"],"title_canon_sha256":"46feacdc1ae6f195d07398757a5ee16b93a705e05086813442c6baf5d78beee1","abstract_canon_sha256":"4cf2bad1c8855d55c1ceaf996849ce90448efbc6c0dbd03dce64fdb28e882895"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:52.367205Z","signature_b64":"eF7hLyyKel3vMJ+29BjmORJxCEw1mIYLUNRldSCkPwliPDHTWoSicQ/F8sFEcxIOdIkYcbCSeRahlqRheTkMCw==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"33f01815d1213e2629315692b63b57fb1fc1462674d41b44a62b08e98e93d496","last_reissued_at":"2026-05-17T23:38:52.366665Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:52.366665Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Real-Time Execution of Action Chunking Flow Policies","license":"http://creativecommons.org/licenses/by/4.0/","headline":"Real-time chunking generates the next action chunk while executing the current one by freezing committed steps and inpainting the rest, letting any diffusion- or flow-based vision-language-action model run smoothly under latency.","cross_cats":["cs.AI","cs.LG"],"primary_cat":"cs.RO","authors_text":"Kevin Black, Manuel Y. Galliker, Sergey Levine","submitted_at":"2025-06-09T01:01:59Z","abstract_excerpt":"Modern AI systems, especially those interacting with the physical world, increasingly require real-time performance. However, the high latency of state-of-the-art generalist models, including recent vision-language action models (VLAs), poses a significant challenge. While action chunking has enabled temporal consistency in high-frequency control tasks, it does not fully address the latency problem, leading to pauses or out-of-distribution jerky movements at chunk boundaries. This paper presents a novel inference-time algorithm that enables smooth asynchronous execution of action chunking poli"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"RTC is applicable to any diffusion- or flow-based VLA out of the box with no re-training. It generates the next action chunk while executing the current one, freezing actions guaranteed to execute and inpainting the rest, significantly improving task throughput and enabling high success rates in precise tasks even in the presence of significant latency.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That the inpainting step for uncertain future actions in the next chunk preserves task-relevant consistency and does not introduce errors that degrade performance on precise or dynamic tasks when inference delay is present.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"Real-time chunking (RTC) allows diffusion- and flow-based action chunking policies to execute smoothly and asynchronously, maintaining high success rates on dynamic tasks even with significant inference latency.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"Real-time chunking generates the next action chunk while executing the current one by freezing committed steps and inpainting the rest, letting any diffusion- or flow-based vision-language-action model run smoothly under latency.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"34cb941f70f2e71866d0a3272cdbed6822198754a8924f701dabbe3563227da8"},"source":{"id":"2506.07339","kind":"arxiv","version":2},"verdict":{"id":"d357c06a-a499-4d7c-aefc-4e3a983ae422","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-15T14:13:39.045070Z","strongest_claim":"RTC is applicable to any diffusion- or flow-based VLA out of the box with no re-training. It generates the next action chunk while executing the current one, freezing actions guaranteed to execute and inpainting the rest, significantly improving task throughput and enabling high success rates in precise tasks even in the presence of significant latency.","one_line_summary":"Real-time chunking (RTC) allows diffusion- and flow-based action chunking policies to execute smoothly and asynchronously, maintaining high success rates on dynamic tasks even with significant inference latency.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That the inpainting step for uncertain future actions in the next chunk preserves task-relevant consistency and does not introduce errors that degrade performance on precise or dynamic tasks when inference delay is present.","pith_extraction_headline":"Real-time chunking generates the next action chunk while executing the current one by freezing committed steps and inpainting the rest, letting any diffusion- or flow-based vision-language-action model run smoothly under latency."},"references":{"count":71,"sample":[{"doi":"","year":2022,"title":"Is Conditional Generative Modeling all you need for Decision-Making?","work_id":"dac365c0-e557-4886-9a1b-179151a66160","ref_index":1,"cited_arxiv_id":"2211.15657","is_internal_anchor":true},{"doi":"","year":2018,"title":"Automatic differentiation in machine learning: a survey.Journal of machine learning research, 18(153):1–43, 2018","work_id":"9558cf44-bcdc-48ac-9981-13b72cfaaf1b","ref_index":2,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2024,"title":"Minivla: A better vla with a smaller footprint, 2024","work_id":"b0eb9398-53bd-47a5-b76a-5d634bb9b7f1","ref_index":3,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2025,"title":"GR00T N1: An Open Foundation Model for Generalist Humanoid Robots","work_id":"e2db69c7-ee8a-4cb7-a761-7b8de1dfcf97","ref_index":4,"cited_arxiv_id":"2503.14734","is_internal_anchor":true},{"doi":"","year":2024,"title":"$\\pi_0$: A Vision-Language-Action Flow Model for General Robot Control","work_id":"f790abdc-a796-482f-a40d-f8ee035ecfc2","ref_index":5,"cited_arxiv_id":"2410.24164","is_internal_anchor":true}],"resolved_work":71,"snapshot_sha256":"f8beecc54bec6a494942b75807f2af7c1c2d139fa4c1d6594942401674ef22f8","internal_anchors":27},"formal_canon":{"evidence_count":2,"snapshot_sha256":"48505a4a9c3581556bd33b42d489d4ed66dc6e2cc6b5bc82152b3b6b4a6df43b"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2506.07339","created_at":"2026-05-17T23:38:52.366763+00:00"},{"alias_kind":"arxiv_version","alias_value":"2506.07339v2","created_at":"2026-05-17T23:38:52.366763+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2506.07339","created_at":"2026-05-17T23:38:52.366763+00:00"},{"alias_kind":"pith_short_12","alias_value":"GPYBQFOREE7C","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"GPYBQFOREE7CMKJR","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"GPYBQFOR","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":30,"internal_anchor_count":30,"sample":[{"citing_arxiv_id":"2605.22711","citing_title":"Abstraction for Offline Goal-Conditioned Reinforcement Learning","ref_index":16,"is_internal_anchor":true},{"citing_arxiv_id":"2602.12978","citing_title":"Learning Native Continuation for Action Chunking Flow Policies","ref_index":8,"is_internal_anchor":true},{"citing_arxiv_id":"2603.14371","citing_title":"OxyGen: Unified KV Cache Management for VLA Inference under Multi-Task Parallelism","ref_index":6,"is_internal_anchor":true},{"citing_arxiv_id":"2605.19592","citing_title":"Implicit Action Chunking for Smooth Continuous Control","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2510.27420","citing_title":"Towards a Multi-Embodied Grasping Agent","ref_index":48,"is_internal_anchor":true},{"citing_arxiv_id":"2508.13073","citing_title":"Large VLM-based Vision-Language-Action Models for Robotic Manipulation: A Survey","ref_index":41,"is_internal_anchor":true},{"citing_arxiv_id":"2507.01925","citing_title":"A Survey on Vision-Language-Action Models: An Action Tokenization Perspective","ref_index":136,"is_internal_anchor":true},{"citing_arxiv_id":"2602.09580","citing_title":"SERNF: Sample-Efficient Real-World Dexterous Policy Fine-Tuning via Action-Chunked Critics and Normalizing Flows","ref_index":6,"is_internal_anchor":true},{"citing_arxiv_id":"2510.10125","citing_title":"Ctrl-World: A Controllable Generative World Model for Robot Manipulation","ref_index":6,"is_internal_anchor":true},{"citing_arxiv_id":"2603.10126","citing_title":"AR-VLA: True Autoregressive Action Expert for Vision-Language-Action Models","ref_index":6,"is_internal_anchor":true},{"citing_arxiv_id":"2603.17834","citing_title":"Generative Control as Optimization: Time Unconditional Flow Matching for Adaptive and Robust Robotic Control","ref_index":5,"is_internal_anchor":true},{"citing_arxiv_id":"2605.11459","citing_title":"Overcoming Dynamics-Blindness: Training-Free Pace-and-Path Correction for VLA Models","ref_index":28,"is_internal_anchor":true},{"citing_arxiv_id":"2605.13778","citing_title":"Realtime-VLA FLASH: Speculative Inference Framework for Diffusion-based VLAs","ref_index":2,"is_internal_anchor":true},{"citing_arxiv_id":"2604.03181","citing_title":"Multi-View Video Diffusion Policy: A 3D Spatio-Temporal-Aware Video Action Model","ref_index":55,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12369","citing_title":"GuidedVLA: Specifying Task-Relevant Factors via Plug-and-Play Action Attention Specialization","ref_index":9,"is_internal_anchor":true},{"citing_arxiv_id":"2605.11459","citing_title":"Overcoming Dynamics-Blindness: Training-Free Pace-and-Path Correction for VLA Models","ref_index":28,"is_internal_anchor":true},{"citing_arxiv_id":"2605.11564","citing_title":"RIO: Flexible Real-Time Robot I/O for Cross-Embodiment Robot Learning","ref_index":6,"is_internal_anchor":true},{"citing_arxiv_id":"2601.21998","citing_title":"Causal World Modeling for Robot Control","ref_index":8,"is_internal_anchor":true},{"citing_arxiv_id":"2604.27792","citing_title":"MotuBrain: An Advanced World Action Model for Robot Control","ref_index":7,"is_internal_anchor":true},{"citing_arxiv_id":"2604.26694","citing_title":"Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising","ref_index":76,"is_internal_anchor":true},{"citing_arxiv_id":"2605.10044","citing_title":"Adaptive Action Chunking via Multi-Chunk Q Value Estimation","ref_index":5,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08168","citing_title":"Understanding Asynchronous Inference Methods for Vision-Language-Action Models","ref_index":9,"is_internal_anchor":true},{"citing_arxiv_id":"2604.25050","citing_title":"DiscreteRTC: Discrete Diffusion Policies are Natural Asynchronous Executors","ref_index":16,"is_internal_anchor":true},{"citing_arxiv_id":"2604.24447","citing_title":"Characterizing Vision-Language-Action Models across XPUs: Constraints and Acceleration for On-Robot Deployment","ref_index":1,"is_internal_anchor":true},{"citing_arxiv_id":"2604.24086","citing_title":"AsyncShield: A Plug-and-Play Edge Adapter for Asynchronous Cloud-based VLA Navigation","ref_index":14,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":2,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/GPYBQFOREE7CMKJRK2JLMO2X7M","json":"https://pith.science/pith/GPYBQFOREE7CMKJRK2JLMO2X7M.json","graph_json":"https://pith.science/api/pith-number/GPYBQFOREE7CMKJRK2JLMO2X7M/graph.json","events_json":"https://pith.science/api/pith-number/GPYBQFOREE7CMKJRK2JLMO2X7M/events.json","paper":"https://pith.science/paper/GPYBQFOR"},"agent_actions":{"view_html":"https://pith.science/pith/GPYBQFOREE7CMKJRK2JLMO2X7M","download_json":"https://pith.science/pith/GPYBQFOREE7CMKJRK2JLMO2X7M.json","view_paper":"https://pith.science/paper/GPYBQFOR","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2506.07339&json=true","fetch_graph":"https://pith.science/api/pith-number/GPYBQFOREE7CMKJRK2JLMO2X7M/graph.json","fetch_events":"https://pith.science/api/pith-number/GPYBQFOREE7CMKJRK2JLMO2X7M/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/GPYBQFOREE7CMKJRK2JLMO2X7M/action/timestamp_anchor","attest_storage":"https://pith.science/pith/GPYBQFOREE7CMKJRK2JLMO2X7M/action/storage_attestation","attest_author":"https://pith.science/pith/GPYBQFOREE7CMKJRK2JLMO2X7M/action/author_attestation","sign_citation":"https://pith.science/pith/GPYBQFOREE7CMKJRK2JLMO2X7M/action/citation_signature","submit_replication":"https://pith.science/pith/GPYBQFOREE7CMKJRK2JLMO2X7M/action/replication_record"}},"created_at":"2026-05-17T23:38:52.366763+00:00","updated_at":"2026-05-17T23:38:52.366763+00:00"}