{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2026:UB7O6OIUFDC5QBD2YC6PV3AYPN","short_pith_number":"pith:UB7O6OIU","schema_version":"1.0","canonical_sha256":"a07eef391428c5d8047ac0bcfaec187b5cae470efec5a782664ec1541d4bab79","source":{"kind":"arxiv","id":"2606.29526","version":1},"attestation_state":"computed","paper":{"title":"The Mirage of Optimizing Training Policies: Monotonic Inference Policies as the Real Objective for LLM Reinforcement Learning","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":[],"primary_cat":"cs.LG","authors_text":"Bo Zheng, Hongyao Tang, Jianye Hao, Jing Liang, Jinyi Liu, Ju Huang, Weixun Wang, Wenbo Su, Xiaoyang Li, Yancheng He, Yan Zheng, Yi Ma","submitted_at":"2026-06-28T17:40:02Z","abstract_excerpt":"Reinforcement learning (RL) has gained growing attention in large language model (LLM) post-training, yet RL training remains fragile and can suffer from instability or collapse. One vital cause is training-inference mismatch: LLM adopts separate inference and training engines for generation efficiency and training precision, which in practice exhibits inconsistent probabilities for the same trajectories on training and inference sides, even with synchronized model parameters. This naturally induces a special type of off-policyness ever existing and poisoning the training. Prior works have mad"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2606.29526","kind":"arxiv","version":1},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.LG","submitted_at":"2026-06-28T17:40:02Z","cross_cats_sorted":[],"title_canon_sha256":"b29b2848237225d33feb2f228857cb7a5e12cce0a65fccba23da0a7d2d6f1c01","abstract_canon_sha256":"651dd7ec17e2aa4649713b0a84863a8aaf41f7f98088e950743d685a8d48777f"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-06-30T01:18:10.319817Z","signature_b64":"MWPS5FN1rfHeQ7hyASpBhM7SntJB0aVJkameAbIq1qbxNcc+87WFbif3bWSJ4Dt2jj/raaKwBBkFR0XZFOB4Cw==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"a07eef391428c5d8047ac0bcfaec187b5cae470efec5a782664ec1541d4bab79","last_reissued_at":"2026-06-30T01:18:10.319252Z","signature_status":"signed_v1","first_computed_at":"2026-06-30T01:18:10.319252Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"The Mirage of Optimizing Training Policies: Monotonic Inference Policies as the Real Objective for LLM Reinforcement Learning","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":[],"primary_cat":"cs.LG","authors_text":"Bo Zheng, Hongyao Tang, Jianye Hao, Jing Liang, Jinyi Liu, Ju Huang, Weixun Wang, Wenbo Su, Xiaoyang Li, Yancheng He, Yan Zheng, Yi Ma","submitted_at":"2026-06-28T17:40:02Z","abstract_excerpt":"Reinforcement learning (RL) has gained growing attention in large language model (LLM) post-training, yet RL training remains fragile and can suffer from instability or collapse. One vital cause is training-inference mismatch: LLM adopts separate inference and training engines for generation efficiency and training precision, which in practice exhibits inconsistent probabilities for the same trajectories on training and inference sides, even with synchronized model parameters. This naturally induces a special type of off-policyness ever existing and poisoning the training. Prior works have mad"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2606.29526","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2606.29526/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2606.29526","created_at":"2026-06-30T01:18:10.319347+00:00"},{"alias_kind":"arxiv_version","alias_value":"2606.29526v1","created_at":"2026-06-30T01:18:10.319347+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2606.29526","created_at":"2026-06-30T01:18:10.319347+00:00"},{"alias_kind":"pith_short_12","alias_value":"UB7O6OIUFDC5","created_at":"2026-06-30T01:18:10.319347+00:00"},{"alias_kind":"pith_short_16","alias_value":"UB7O6OIUFDC5QBD2","created_at":"2026-06-30T01:18:10.319347+00:00"},{"alias_kind":"pith_short_8","alias_value":"UB7O6OIU","created_at":"2026-06-30T01:18:10.319347+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":0,"internal_anchor_count":0,"sample":[]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/UB7O6OIUFDC5QBD2YC6PV3AYPN","json":"https://pith.science/pith/UB7O6OIUFDC5QBD2YC6PV3AYPN.json","graph_json":"https://pith.science/api/pith-number/UB7O6OIUFDC5QBD2YC6PV3AYPN/graph.json","events_json":"https://pith.science/api/pith-number/UB7O6OIUFDC5QBD2YC6PV3AYPN/events.json","paper":"https://pith.science/paper/UB7O6OIU"},"agent_actions":{"view_html":"https://pith.science/pith/UB7O6OIUFDC5QBD2YC6PV3AYPN","download_json":"https://pith.science/pith/UB7O6OIUFDC5QBD2YC6PV3AYPN.json","view_paper":"https://pith.science/paper/UB7O6OIU","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2606.29526&json=true","fetch_graph":"https://pith.science/api/pith-number/UB7O6OIUFDC5QBD2YC6PV3AYPN/graph.json","fetch_events":"https://pith.science/api/pith-number/UB7O6OIUFDC5QBD2YC6PV3AYPN/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/UB7O6OIUFDC5QBD2YC6PV3AYPN/action/timestamp_anchor","attest_storage":"https://pith.science/pith/UB7O6OIUFDC5QBD2YC6PV3AYPN/action/storage_attestation","attest_author":"https://pith.science/pith/UB7O6OIUFDC5QBD2YC6PV3AYPN/action/author_attestation","sign_citation":"https://pith.science/pith/UB7O6OIUFDC5QBD2YC6PV3AYPN/action/citation_signature","submit_replication":"https://pith.science/pith/UB7O6OIUFDC5QBD2YC6PV3AYPN/action/replication_record"}},"created_at":"2026-06-30T01:18:10.319347+00:00","updated_at":"2026-06-30T01:18:10.319347+00:00"}