{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2026:22ET46VHE3SYUQDJBBMOC7CO5U","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"b13f0e184f470c47cdceface016dfa7150db20e568c62697f40f9c57afce61b3","cross_cats_sorted":["cs.AI"],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2026-06-17T08:26:02Z","title_canon_sha256":"1f0c48b8e54ff2d5d44855cd210061d474b8293872e8432965275c8926ebbe20"},"schema_version":"1.0","source":{"id":"2606.18810","kind":"arxiv","version":1}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2606.18810","created_at":"2026-06-19T16:11:48Z"},{"alias_kind":"arxiv_version","alias_value":"2606.18810v1","created_at":"2026-06-19T16:11:48Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2606.18810","created_at":"2026-06-19T16:11:48Z"},{"alias_kind":"pith_short_12","alias_value":"22ET46VHE3SY","created_at":"2026-06-19T16:11:48Z"},{"alias_kind":"pith_short_16","alias_value":"22ET46VHE3SYUQDJ","created_at":"2026-06-19T16:11:48Z"},{"alias_kind":"pith_short_8","alias_value":"22ET46VH","created_at":"2026-06-19T16:11:48Z"}],"graph_snapshots":[{"event_id":"sha256:b311f32cf45cdd85075d6716dd0134445ae1339635242ddbb3329764c748d460","target":"graph","created_at":"2026-06-19T16:11:48Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"integrity":{"available":true,"clean":true,"detectors_run":[],"endpoint":"/pith/2606.18810/integrity.json","findings":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938","summary":{"advisory":0,"by_detector":{},"critical":0,"informational":0}},"paper":{"abstract_excerpt":"Reinforcement learning with verifiable rewards (RLVR) has driven substantial progress in training LLMs for reasoning tasks, but representative methods such as GRPO assign uniform credit across all tokens, wasting gradient on routine tokens while under-crediting pivotal reasoning steps. Existing token-level credit assignment methods require resources beyond the model's own rollouts. GRPO variants rely on process reward models or ground-truth answers. Knowledge distillation assigns credit through per-token divergence but requires external teachers (On-Policy Distillation) or privileged informati","authors_text":"Heyan Huang, Hongru Wang, Jiashu Yao, Wei Lin, Xiangrong Zhu, Xinyi Wang, Yingyu Shan, Yuhang Guo, Zeming Liu, Zihao Cheng","cross_cats":["cs.AI"],"headline":"","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2026-06-17T08:26:02Z","title":"Learning from Own Solutions: Self-Conditioned Credit Assignment for Reinforcement Learning with Verifiable Rewards"},"references":{"count":0,"internal_anchors":0,"resolved_work":0,"sample":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2606.18810","kind":"arxiv","version":1},"verdict":{"created_at":null,"id":null,"model_set":{},"one_line_summary":"","pipeline_version":null,"pith_extraction_headline":"","strongest_claim":"","weakest_assumption":""}},"verdict_id":null}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:24901b1995c6ed406b96951f91edd5165e4865da7e2aae852ca6f92e6a30e2a9","target":"record","created_at":"2026-06-19T16:11:48Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"b13f0e184f470c47cdceface016dfa7150db20e568c62697f40f9c57afce61b3","cross_cats_sorted":["cs.AI"],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2026-06-17T08:26:02Z","title_canon_sha256":"1f0c48b8e54ff2d5d44855cd210061d474b8293872e8432965275c8926ebbe20"},"schema_version":"1.0","source":{"id":"2606.18810","kind":"arxiv","version":1}},"canonical_sha256":"d6893e7aa726e58a40690858e17c4eed2e89d127d06368bc1b3fa15e57aa52a4","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"d6893e7aa726e58a40690858e17c4eed2e89d127d06368bc1b3fa15e57aa52a4","first_computed_at":"2026-06-19T16:11:48.175524Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-06-19T16:11:48.175524Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"A6zkJggYZZzhQLMjd8I1AoYMCzo55ETYRnHl/XH1K9ndg7mvuEXVdpTFWkybU0KcpApl6E73VumDsQvOn0KnDg==","signature_status":"signed_v1","signed_at":"2026-06-19T16:11:48.175892Z","signed_message":"canonical_sha256_bytes"},"source_id":"2606.18810","source_kind":"arxiv","source_version":1}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:24901b1995c6ed406b96951f91edd5165e4865da7e2aae852ca6f92e6a30e2a9","sha256:b311f32cf45cdd85075d6716dd0134445ae1339635242ddbb3329764c748d460"],"state_sha256":"18922c62d555c99e30d04cda05fe226c4ff2112979d2c940add5734e939d549f"}