{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2026:SNIDUPRCJHTHGPOU6YRXIUKDHE","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"011db65715406c3838fab887ad3bacaa820e56ccc9c1f89bef233d76d985786c","cross_cats_sorted":["cs.AI","cs.RO"],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2026-05-22T16:04:22Z","title_canon_sha256":"796580e31263eed9ee68cd70cdf8b32ac06d4291b87f55c4f3fc15c02cd2d6ea"},"schema_version":"1.0","source":{"id":"2606.00083","kind":"arxiv","version":1}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2606.00083","created_at":"2026-06-02T00:03:14Z"},{"alias_kind":"arxiv_version","alias_value":"2606.00083v1","created_at":"2026-06-02T00:03:14Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2606.00083","created_at":"2026-06-02T00:03:14Z"},{"alias_kind":"pith_short_12","alias_value":"SNIDUPRCJHTH","created_at":"2026-06-02T00:03:14Z"},{"alias_kind":"pith_short_16","alias_value":"SNIDUPRCJHTHGPOU","created_at":"2026-06-02T00:03:14Z"},{"alias_kind":"pith_short_8","alias_value":"SNIDUPRC","created_at":"2026-06-02T00:03:14Z"}],"graph_snapshots":[{"event_id":"sha256:cfbf5f2793e6ecfe689b2279ace07518f556489979308eeff91c9e8fc2c8021e","target":"graph","created_at":"2026-06-02T00:03:14Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"integrity":{"available":true,"clean":true,"detectors_run":[],"endpoint":"/pith/2606.00083/integrity.json","findings":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938","summary":{"advisory":0,"by_detector":{},"critical":0,"informational":0}},"paper":{"abstract_excerpt":"Reinforcement learning relies on accurate reward functions, which are often hand-crafted or even unavailable in real-world applications, such as robotics. Recent work has explored the zero-shot reasoning capabilities of pre-trained Vision-Language Models (VLMs) as reward models. However, without careful prompt engineering, these approaches tend to produce suboptimal rewards, where false positive predictions can severely degrade downstream policy learning. In robotics, limited datasets comprising expert demonstrations are often collected to bootstrap policy learning. This scenario provides an o","authors_text":"Andrii Zadaianchuk, Christian Gumbsch, Efstratios Gavves, Fabien Despinoy, Lennard Sch\\\"unemann, Leonardo Barcellona, Platon Karageorgis, Rahaf Aljundi, Sergey Zakharov, Zehao Wang","cross_cats":["cs.AI","cs.RO"],"headline":"","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2026-05-22T16:04:22Z","title":"From Demonstrations to Rewards: Test-Time Prompt Optimization for VLM Reward Models"},"references":{"count":0,"internal_anchors":0,"resolved_work":0,"sample":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2606.00083","kind":"arxiv","version":1},"verdict":{"created_at":null,"id":null,"model_set":{},"one_line_summary":"","pipeline_version":null,"pith_extraction_headline":"","strongest_claim":"","weakest_assumption":""}},"verdict_id":null}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:c3f724fac86cfcc545d194efd7f1e00f363aab55ff4a9ee8bb1018fd35d134b0","target":"record","created_at":"2026-06-02T00:03:14Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"011db65715406c3838fab887ad3bacaa820e56ccc9c1f89bef233d76d985786c","cross_cats_sorted":["cs.AI","cs.RO"],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2026-05-22T16:04:22Z","title_canon_sha256":"796580e31263eed9ee68cd70cdf8b32ac06d4291b87f55c4f3fc15c02cd2d6ea"},"schema_version":"1.0","source":{"id":"2606.00083","kind":"arxiv","version":1}},"canonical_sha256":"93503a3e2249e6733dd4f62374514339001bdb14f5efbb64834e1dee41a1cec7","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"93503a3e2249e6733dd4f62374514339001bdb14f5efbb64834e1dee41a1cec7","first_computed_at":"2026-06-02T00:03:14.547425Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-06-02T00:03:14.547425Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"23eelS3Jt0Xa1GHh26zdOkJ9VY5juU2XOmIr+I9u5oa21AYFwwbRWPcr9FiGPK1PnFhRag/8JgNYx4NBOC8KAQ==","signature_status":"signed_v1","signed_at":"2026-06-02T00:03:14.548086Z","signed_message":"canonical_sha256_bytes"},"source_id":"2606.00083","source_kind":"arxiv","source_version":1}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:c3f724fac86cfcc545d194efd7f1e00f363aab55ff4a9ee8bb1018fd35d134b0","sha256:cfbf5f2793e6ecfe689b2279ace07518f556489979308eeff91c9e8fc2c8021e"],"state_sha256":"1fc77cbf09d979af87171ef768fc7e2497ece52302023cc77f79021ee07d20da"}