{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2026:MGUB6UTV5NJBIESA6M7SAFMS3X","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"21cfd910378e7b20b78c2f4bfcba8b3e0023b64a055c7d8ce465a6c011ba4696","cross_cats_sorted":["cs.AI"],"license":"http://creativecommons.org/licenses/by-nc-sa/4.0/","primary_cat":"cs.LG","submitted_at":"2026-06-24T06:26:34Z","title_canon_sha256":"15168978af3cce440bbbc8cc3933af6cf8dbb464b50c3aba1d86623a6f0d6a25"},"schema_version":"1.0","source":{"id":"2606.25451","kind":"arxiv","version":1}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2606.25451","created_at":"2026-06-25T01:18:05Z"},{"alias_kind":"arxiv_version","alias_value":"2606.25451v1","created_at":"2026-06-25T01:18:05Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2606.25451","created_at":"2026-06-25T01:18:05Z"},{"alias_kind":"pith_short_12","alias_value":"MGUB6UTV5NJB","created_at":"2026-06-25T01:18:05Z"},{"alias_kind":"pith_short_16","alias_value":"MGUB6UTV5NJBIESA","created_at":"2026-06-25T01:18:05Z"},{"alias_kind":"pith_short_8","alias_value":"MGUB6UTV","created_at":"2026-06-25T01:18:05Z"}],"graph_snapshots":[{"event_id":"sha256:d92993368d107a50df3555dee50149b11400bf4c2ec74eadb18613fe2d7823f4","target":"graph","created_at":"2026-06-25T01:18:05Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"integrity":{"available":true,"clean":true,"detectors_run":[],"endpoint":"/pith/2606.25451/integrity.json","findings":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938","summary":{"advisory":0,"by_detector":{},"critical":0,"informational":0}},"paper":{"abstract_excerpt":"Estimating token-level advantages in reinforcement learning (RL) for language models remains challenging because scaling up episodic experience collection is expensive. The difficulty intensifies for baseline advantage estimation methods, where repeated sampling causes trajectories to diverge into substantially different reasoning prefixes. In this context, RL algorithms such as GRPO prove limited: an outcome reward is too sparse to be attributed to specific actions like intermediate steps, and comparisons across sampled traces are non-trivial because they are heterogeneous. To mitigate both t","authors_text":"Dale Schuurmans, Fengdi Che, Lei Yu, Meng Cao, Rupam Mahmood, Tong Che, Yang Liu","cross_cats":["cs.AI"],"headline":"","license":"http://creativecommons.org/licenses/by-nc-sa/4.0/","primary_cat":"cs.LG","submitted_at":"2026-06-24T06:26:34Z","title":"Learning with a Single Rollout via Monte Carlo Pass@k Critic"},"references":{"count":0,"internal_anchors":0,"resolved_work":0,"sample":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2606.25451","kind":"arxiv","version":1},"verdict":{"created_at":null,"id":null,"model_set":{},"one_line_summary":"","pipeline_version":null,"pith_extraction_headline":"","strongest_claim":"","weakest_assumption":""}},"verdict_id":null}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:613d5a65f3861c29ffc3e7b65c4dad9acf25b812c818191b01d75f0d34469ebb","target":"record","created_at":"2026-06-25T01:18:05Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"21cfd910378e7b20b78c2f4bfcba8b3e0023b64a055c7d8ce465a6c011ba4696","cross_cats_sorted":["cs.AI"],"license":"http://creativecommons.org/licenses/by-nc-sa/4.0/","primary_cat":"cs.LG","submitted_at":"2026-06-24T06:26:34Z","title_canon_sha256":"15168978af3cce440bbbc8cc3933af6cf8dbb464b50c3aba1d86623a6f0d6a25"},"schema_version":"1.0","source":{"id":"2606.25451","kind":"arxiv","version":1}},"canonical_sha256":"61a81f5275eb52141240f33f201592dde34a7225714e5698af31b1b4f021eb21","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"61a81f5275eb52141240f33f201592dde34a7225714e5698af31b1b4f021eb21","first_computed_at":"2026-06-25T01:18:05.664741Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-06-25T01:18:05.664741Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"OUPwugDi3ZW1cw6hjE6LzncjyoGq8M1DQRzUwj5+sNueVFmNOQEmIXhvExawqaAZjD3esbS4uNXnzpIv4iVGCw==","signature_status":"signed_v1","signed_at":"2026-06-25T01:18:05.665181Z","signed_message":"canonical_sha256_bytes"},"source_id":"2606.25451","source_kind":"arxiv","source_version":1}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:613d5a65f3861c29ffc3e7b65c4dad9acf25b812c818191b01d75f0d34469ebb","sha256:d92993368d107a50df3555dee50149b11400bf4c2ec74eadb18613fe2d7823f4"],"state_sha256":"cb173c7aae3bffc3f7f70d4fd9c4980177c770d21bf6fecb616d367ba8b54449"}