{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2026:QAC6KKUDVQIR6AP2MH7FGHRA56","short_pith_number":"pith:QAC6KKUD","schema_version":"1.0","canonical_sha256":"8005e52a83ac111f01fa61fe531e20ef811fb7d993d24d25efafe9c52a072254","source":{"kind":"arxiv","id":"2602.07533","version":2},"attestation_state":"computed","paper":{"title":"Joint Reward Modeling: Internalizing Chain-of-Thought for Efficient Visual Reward Models","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":[],"primary_cat":"cs.AI","authors_text":"Bin Wen, Changyi Liu, Fan Yang, Han Li, Haonan Fan, Hongyang Wei, Jiankang Chen, Kaiyu Jiang, Kaiyu Tang, Shuo Yang, Tianke Zhang, Tingting Gao, Wei Chen, Yancheng Long, Yankai Yang","submitted_at":"2026-02-07T13:09:41Z","abstract_excerpt":"Reward models are critical for reinforcement learning from human feedback, as they determine the alignment quality and reliability of generative models. For complex tasks such as image editing, reward models are required to capture global semantic consistency and implicit logical constraints beyond local similarity. Existing reward modeling approaches have clear limitations. Discriminative reward models align well with human preferences but struggle with complex semantics due to limited reasoning supervision. Generative reward models offer stronger semantic understanding and reasoning, but the"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2602.07533","kind":"arxiv","version":2},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.AI","submitted_at":"2026-02-07T13:09:41Z","cross_cats_sorted":[],"title_canon_sha256":"bc1d5c9787339dc2b57ea12bfc379e35165a6881ea548a1325a46592ebe35525","abstract_canon_sha256":"df2c49bcb05348c4e3c74d51d0d8e0decd9893dabbf2aca573c7c1ba73320d02"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-06-26T01:15:49.228743Z","signature_b64":"IUVJysNiMYUPiG1PiQo0HJ9/9QakX3jfWu0FSx0vwXciu6MLmIXFYTDfquc9pm8WsYVDR4ozihKyAOZ503RSCw==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"8005e52a83ac111f01fa61fe531e20ef811fb7d993d24d25efafe9c52a072254","last_reissued_at":"2026-06-26T01:15:49.228244Z","signature_status":"signed_v1","first_computed_at":"2026-06-26T01:15:49.228244Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Joint Reward Modeling: Internalizing Chain-of-Thought for Efficient Visual Reward Models","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":[],"primary_cat":"cs.AI","authors_text":"Bin Wen, Changyi Liu, Fan Yang, Han Li, Haonan Fan, Hongyang Wei, Jiankang Chen, Kaiyu Jiang, Kaiyu Tang, Shuo Yang, Tianke Zhang, Tingting Gao, Wei Chen, Yancheng Long, Yankai Yang","submitted_at":"2026-02-07T13:09:41Z","abstract_excerpt":"Reward models are critical for reinforcement learning from human feedback, as they determine the alignment quality and reliability of generative models. For complex tasks such as image editing, reward models are required to capture global semantic consistency and implicit logical constraints beyond local similarity. Existing reward modeling approaches have clear limitations. Discriminative reward models align well with human preferences but struggle with complex semantics due to limited reasoning supervision. Generative reward models offer stronger semantic understanding and reasoning, but the"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2602.07533","kind":"arxiv","version":2},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2602.07533/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2602.07533","created_at":"2026-06-26T01:15:49.228303+00:00"},{"alias_kind":"arxiv_version","alias_value":"2602.07533v2","created_at":"2026-06-26T01:15:49.228303+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2602.07533","created_at":"2026-06-26T01:15:49.228303+00:00"},{"alias_kind":"pith_short_12","alias_value":"QAC6KKUDVQIR","created_at":"2026-06-26T01:15:49.228303+00:00"},{"alias_kind":"pith_short_16","alias_value":"QAC6KKUDVQIR6AP2","created_at":"2026-06-26T01:15:49.228303+00:00"},{"alias_kind":"pith_short_8","alias_value":"QAC6KKUD","created_at":"2026-06-26T01:15:49.228303+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":1,"internal_anchor_count":1,"sample":[{"citing_arxiv_id":"2605.18653","citing_title":"Will It Go Viral? Grounding Micro-Video Popularity Prediction on the Open Web","ref_index":62,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/QAC6KKUDVQIR6AP2MH7FGHRA56","json":"https://pith.science/pith/QAC6KKUDVQIR6AP2MH7FGHRA56.json","graph_json":"https://pith.science/api/pith-number/QAC6KKUDVQIR6AP2MH7FGHRA56/graph.json","events_json":"https://pith.science/api/pith-number/QAC6KKUDVQIR6AP2MH7FGHRA56/events.json","paper":"https://pith.science/paper/QAC6KKUD"},"agent_actions":{"view_html":"https://pith.science/pith/QAC6KKUDVQIR6AP2MH7FGHRA56","download_json":"https://pith.science/pith/QAC6KKUDVQIR6AP2MH7FGHRA56.json","view_paper":"https://pith.science/paper/QAC6KKUD","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2602.07533&json=true","fetch_graph":"https://pith.science/api/pith-number/QAC6KKUDVQIR6AP2MH7FGHRA56/graph.json","fetch_events":"https://pith.science/api/pith-number/QAC6KKUDVQIR6AP2MH7FGHRA56/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/QAC6KKUDVQIR6AP2MH7FGHRA56/action/timestamp_anchor","attest_storage":"https://pith.science/pith/QAC6KKUDVQIR6AP2MH7FGHRA56/action/storage_attestation","attest_author":"https://pith.science/pith/QAC6KKUDVQIR6AP2MH7FGHRA56/action/author_attestation","sign_citation":"https://pith.science/pith/QAC6KKUDVQIR6AP2MH7FGHRA56/action/citation_signature","submit_replication":"https://pith.science/pith/QAC6KKUDVQIR6AP2MH7FGHRA56/action/replication_record"}},"created_at":"2026-06-26T01:15:49.228303+00:00","updated_at":"2026-06-26T01:15:49.228303+00:00"}