{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2026:UGXFDZYJBULNTIYWB2RGOCVT63","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"4e7ddaa5db25cb6434efc74a34d4717803ba49e05cd0144813d3c3a618668f43","cross_cats_sorted":["cs.LG"],"license":"http://creativecommons.org/licenses/by-nc-nd/4.0/","primary_cat":"cs.CV","submitted_at":"2026-05-15T09:56:40Z","title_canon_sha256":"ace9e5d2fe1fe028f3d68ee424a9f45fcf666b54dd54594660ced3f557f9eef5"},"schema_version":"1.0","source":{"id":"2605.15803","kind":"arxiv","version":1}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2605.15803","created_at":"2026-05-20T00:01:19Z"},{"alias_kind":"arxiv_version","alias_value":"2605.15803v1","created_at":"2026-05-20T00:01:19Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2605.15803","created_at":"2026-05-20T00:01:19Z"},{"alias_kind":"pith_short_12","alias_value":"UGXFDZYJBULN","created_at":"2026-05-20T00:01:19Z"},{"alias_kind":"pith_short_16","alias_value":"UGXFDZYJBULNTIYW","created_at":"2026-05-20T00:01:19Z"},{"alias_kind":"pith_short_8","alias_value":"UGXFDZYJ","created_at":"2026-05-20T00:01:19Z"}],"graph_snapshots":[{"event_id":"sha256:e572e453d7c1f7b462fcf79e8d2b9e4ec5ace5bd2bde96777d0efafe264032be","target":"graph","created_at":"2026-05-20T00:01:19Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"integrity":{"available":true,"clean":true,"detectors_run":[{"findings_count":0,"name":"ai_meta_artifact","ran_at":"2026-05-19T17:33:48.736949Z","status":"skipped","version":"1.0.0"},{"findings_count":0,"name":"claim_evidence","ran_at":"2026-05-19T17:21:55.897622Z","status":"completed","version":"1.0.0"}],"endpoint":"/pith/2605.15803/integrity.json","findings":[],"snapshot_sha256":"eff2a75ef3b092f498645f71bfea04d19bcf98eef1c5049c0d4acb98bddb6965","summary":{"advisory":0,"by_detector":{},"critical":0,"informational":0}},"paper":{"abstract_excerpt":"Recent advancements have established Reinforcement Learning (RL) as a pivotal paradigm for aligning generative models with human intent. However, group-based optimization frameworks (e.g., GRPO) face a critical limitation: the rapid decay of intra-group variance. As the distinctiveness among samples within a group diminishes, the variance approaches zero. This eliminates the very learning signal required for optimization, rendering the process unstable and forcing the policy into premature stagnation or reward hacking. Existing strategies, such as varying the initial noise or increasing group ","authors_text":"Chubin Chen, Jiahong Wu, Jiashu Zhu, Sujie Hu, Xiangxiang Chu, Xiu Li","cross_cats":["cs.LG"],"headline":"","license":"http://creativecommons.org/licenses/by-nc-nd/4.0/","primary_cat":"cs.CV","submitted_at":"2026-05-15T09:56:40Z","title":"Embedding-perturbed Exploration Preference Optimization for Flow Models"},"references":{"count":0,"internal_anchors":0,"resolved_work":0,"sample":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2605.15803","kind":"arxiv","version":1},"verdict":{"created_at":null,"id":null,"model_set":{},"one_line_summary":"","pipeline_version":null,"pith_extraction_headline":"","strongest_claim":"","weakest_assumption":""}},"verdict_id":null}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:47a2ceff6c9363d6204a69344a47d56719834bd4c40866c3e74026ac84ef90dc","target":"record","created_at":"2026-05-20T00:01:19Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"4e7ddaa5db25cb6434efc74a34d4717803ba49e05cd0144813d3c3a618668f43","cross_cats_sorted":["cs.LG"],"license":"http://creativecommons.org/licenses/by-nc-nd/4.0/","primary_cat":"cs.CV","submitted_at":"2026-05-15T09:56:40Z","title_canon_sha256":"ace9e5d2fe1fe028f3d68ee424a9f45fcf666b54dd54594660ced3f557f9eef5"},"schema_version":"1.0","source":{"id":"2605.15803","kind":"arxiv","version":1}},"canonical_sha256":"a1ae51e7090d16d9a3160ea2670ab3f6ceb6ebb8f955786be744b7cc86a75ee8","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"a1ae51e7090d16d9a3160ea2670ab3f6ceb6ebb8f955786be744b7cc86a75ee8","first_computed_at":"2026-05-20T00:01:19.306377Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-05-20T00:01:19.306377Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"7En4wqKZoeLKVGXmhV4Wwl8KeV2h7jWqqhjM7h/NhWBNGxseRb3PFbXapaStqqZtt5vxYlBRM3zYFJKr48GmDA==","signature_status":"signed_v1","signed_at":"2026-05-20T00:01:19.307215Z","signed_message":"canonical_sha256_bytes"},"source_id":"2605.15803","source_kind":"arxiv","source_version":1}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:47a2ceff6c9363d6204a69344a47d56719834bd4c40866c3e74026ac84ef90dc","sha256:e572e453d7c1f7b462fcf79e8d2b9e4ec5ace5bd2bde96777d0efafe264032be"],"state_sha256":"5aa5112ee87b2e3c3909ef14b6f000575b637f93ced4c827bf722f16b348f853"}