{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2026:T2YUOL5DNWBPS4J6PG4MSCPWGH","short_pith_number":"pith:T2YUOL5D","schema_version":"1.0","canonical_sha256":"9eb1472fa36d82f9713e79b8c909f631d8e1e7740cba500502de023e9e807735","source":{"kind":"arxiv","id":"2606.23038","version":1},"attestation_state":"computed","paper":{"title":"EvoRubrics: Dynamic Rubrics as Rewards via Adversarial Co-Evolution for LLM Reinforcement Learning","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":["cs.AI"],"primary_cat":"cs.LG","authors_text":"Baixiang Huang, Hongxin Ding, Jinyang Zhang, Junfeng Zhao, Weibin Liao, Yasha Wang, Yue Fang, Zheng Li, Zhijing Wu","submitted_at":"2026-06-22T08:46:23Z","abstract_excerpt":"Rubric-based rewards offer interpretable and fine-grained optimization signals for reinforcement learning in open-ended tasks where verifiable answers are unavailable. However, pre-constructed rubrics remain static throughout training, creating a fundamental mismatch with the evolving policy: fixed criteria gradually lose discriminative power as the model improves, leading to reward saturation and potential hacking. Recent dynamic rubric methods partially address this but rely on external frontier models or ground-truth answers, and update rubrics only at coarse granularity. We propose EvoRubr"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2606.23038","kind":"arxiv","version":1},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.LG","submitted_at":"2026-06-22T08:46:23Z","cross_cats_sorted":["cs.AI"],"title_canon_sha256":"2a21702eae3ff9934ac1da9265f4aa36f6635577a7e6bfa1258f13208c66fff8","abstract_canon_sha256":"d7f02cc2c1b7e313a102b9c1d4ee74f4784af831eaa3aa6149ff3aabe9f9e380"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-06-23T03:14:07.392979Z","signature_b64":"tWymMid0ZQnXetRi/I1lZXo6j9jDDtatTzH5zWrN/clxnQ+iUjXkUWIt29ASFFQS2k5+QCNONqkMghscsFzsCQ==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"9eb1472fa36d82f9713e79b8c909f631d8e1e7740cba500502de023e9e807735","last_reissued_at":"2026-06-23T03:14:07.392619Z","signature_status":"signed_v1","first_computed_at":"2026-06-23T03:14:07.392619Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"EvoRubrics: Dynamic Rubrics as Rewards via Adversarial Co-Evolution for LLM Reinforcement Learning","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":["cs.AI"],"primary_cat":"cs.LG","authors_text":"Baixiang Huang, Hongxin Ding, Jinyang Zhang, Junfeng Zhao, Weibin Liao, Yasha Wang, Yue Fang, Zheng Li, Zhijing Wu","submitted_at":"2026-06-22T08:46:23Z","abstract_excerpt":"Rubric-based rewards offer interpretable and fine-grained optimization signals for reinforcement learning in open-ended tasks where verifiable answers are unavailable. However, pre-constructed rubrics remain static throughout training, creating a fundamental mismatch with the evolving policy: fixed criteria gradually lose discriminative power as the model improves, leading to reward saturation and potential hacking. Recent dynamic rubric methods partially address this but rely on external frontier models or ground-truth answers, and update rubrics only at coarse granularity. We propose EvoRubr"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2606.23038","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2606.23038/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2606.23038","created_at":"2026-06-23T03:14:07.392686+00:00"},{"alias_kind":"arxiv_version","alias_value":"2606.23038v1","created_at":"2026-06-23T03:14:07.392686+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2606.23038","created_at":"2026-06-23T03:14:07.392686+00:00"},{"alias_kind":"pith_short_12","alias_value":"T2YUOL5DNWBP","created_at":"2026-06-23T03:14:07.392686+00:00"},{"alias_kind":"pith_short_16","alias_value":"T2YUOL5DNWBPS4J6","created_at":"2026-06-23T03:14:07.392686+00:00"},{"alias_kind":"pith_short_8","alias_value":"T2YUOL5D","created_at":"2026-06-23T03:14:07.392686+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":0,"internal_anchor_count":0,"sample":[]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/T2YUOL5DNWBPS4J6PG4MSCPWGH","json":"https://pith.science/pith/T2YUOL5DNWBPS4J6PG4MSCPWGH.json","graph_json":"https://pith.science/api/pith-number/T2YUOL5DNWBPS4J6PG4MSCPWGH/graph.json","events_json":"https://pith.science/api/pith-number/T2YUOL5DNWBPS4J6PG4MSCPWGH/events.json","paper":"https://pith.science/paper/T2YUOL5D"},"agent_actions":{"view_html":"https://pith.science/pith/T2YUOL5DNWBPS4J6PG4MSCPWGH","download_json":"https://pith.science/pith/T2YUOL5DNWBPS4J6PG4MSCPWGH.json","view_paper":"https://pith.science/paper/T2YUOL5D","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2606.23038&json=true","fetch_graph":"https://pith.science/api/pith-number/T2YUOL5DNWBPS4J6PG4MSCPWGH/graph.json","fetch_events":"https://pith.science/api/pith-number/T2YUOL5DNWBPS4J6PG4MSCPWGH/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/T2YUOL5DNWBPS4J6PG4MSCPWGH/action/timestamp_anchor","attest_storage":"https://pith.science/pith/T2YUOL5DNWBPS4J6PG4MSCPWGH/action/storage_attestation","attest_author":"https://pith.science/pith/T2YUOL5DNWBPS4J6PG4MSCPWGH/action/author_attestation","sign_citation":"https://pith.science/pith/T2YUOL5DNWBPS4J6PG4MSCPWGH/action/citation_signature","submit_replication":"https://pith.science/pith/T2YUOL5DNWBPS4J6PG4MSCPWGH/action/replication_record"}},"created_at":"2026-06-23T03:14:07.392686+00:00","updated_at":"2026-06-23T03:14:07.392686+00:00"}