{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:TUKZJAAD5WKWHXVS7AMJ34SIMC","short_pith_number":"pith:TUKZJAAD","schema_version":"1.0","canonical_sha256":"9d15948003ed9563deb2f8189df24860a25fdc594e9925766a992020ff2b50d8","source":{"kind":"arxiv","id":"2507.05386","version":6},"attestation_state":"computed","paper":{"title":"Reinforcement Fine-Tuning Naturally Mitigates Forgetting in Continual Post-Training","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.AI","cs.CL"],"primary_cat":"cs.LG","authors_text":"Changyi Ma, Dong Yi, Fei Zhu, Gaofeng Meng, Haohan Zhao, Hongbin Liu, Hongbo Zhao, Qingfu Zhang, Rong Feng, Song Lai, Wenzhuo Liu, Xi Lin","submitted_at":"2025-07-07T18:17:06Z","abstract_excerpt":"Continual post-training (CPT) is a popular and effective technique for adapting foundation models like multimodal large language models to ever-evolving downstream tasks. While existing research primarily focuses on methods like data replay, model expansion, or parameter regularization, the fundamental role of the learning paradigm remains largely unexplored. This paper presents a comparative analysis of two core post-training paradigms: supervised fine-tuning (SFT) and reinforcement fine-tuning (RFT), investigating their respective impacts on knowledge retention during CPT. Our experiments ar"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2507.05386","kind":"arxiv","version":6},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2025-07-07T18:17:06Z","cross_cats_sorted":["cs.AI","cs.CL"],"title_canon_sha256":"98badf3560c2c435be51796e09628669640d6ba8fd2e23b033f22979b8fad922","abstract_canon_sha256":"189229dd5b7dbb2e68df03516168e0ab651530868b9e06f477b0d1531cfdfd09"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-06-30T02:18:04.474580Z","signature_b64":"Yd3dHKdnw82Rk/MofNksS6lcTvdCyH1AHH3k1AS7rL2yicZXQJbBkN6Ifr41qjILWoJm9qQX5Tn3U7OhJFcZAA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"9d15948003ed9563deb2f8189df24860a25fdc594e9925766a992020ff2b50d8","last_reissued_at":"2026-06-30T02:18:04.473780Z","signature_status":"signed_v1","first_computed_at":"2026-06-30T02:18:04.473780Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Reinforcement Fine-Tuning Naturally Mitigates Forgetting in Continual Post-Training","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.AI","cs.CL"],"primary_cat":"cs.LG","authors_text":"Changyi Ma, Dong Yi, Fei Zhu, Gaofeng Meng, Haohan Zhao, Hongbin Liu, Hongbo Zhao, Qingfu Zhang, Rong Feng, Song Lai, Wenzhuo Liu, Xi Lin","submitted_at":"2025-07-07T18:17:06Z","abstract_excerpt":"Continual post-training (CPT) is a popular and effective technique for adapting foundation models like multimodal large language models to ever-evolving downstream tasks. While existing research primarily focuses on methods like data replay, model expansion, or parameter regularization, the fundamental role of the learning paradigm remains largely unexplored. This paper presents a comparative analysis of two core post-training paradigms: supervised fine-tuning (SFT) and reinforcement fine-tuning (RFT), investigating their respective impacts on knowledge retention during CPT. Our experiments ar"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2507.05386","kind":"arxiv","version":6},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2507.05386/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2507.05386","created_at":"2026-06-30T02:18:04.473879+00:00"},{"alias_kind":"arxiv_version","alias_value":"2507.05386v6","created_at":"2026-06-30T02:18:04.473879+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2507.05386","created_at":"2026-06-30T02:18:04.473879+00:00"},{"alias_kind":"pith_short_12","alias_value":"TUKZJAAD5WKW","created_at":"2026-06-30T02:18:04.473879+00:00"},{"alias_kind":"pith_short_16","alias_value":"TUKZJAAD5WKWHXVS","created_at":"2026-06-30T02:18:04.473879+00:00"},{"alias_kind":"pith_short_8","alias_value":"TUKZJAAD","created_at":"2026-06-30T02:18:04.473879+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":8,"internal_anchor_count":8,"sample":[{"citing_arxiv_id":"2602.10503","citing_title":"Towards Long-Lived Robots: Continual Learning VLA Models via Reinforcement Fine-Tuning","ref_index":30,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08879","citing_title":"Preserving Foundational Capabilities in Flow-Matching VLAs through Conservative SFT","ref_index":27,"is_internal_anchor":true},{"citing_arxiv_id":"2509.04259","citing_title":"RL's Razor: Why Online Reinforcement Learning Forgets Less","ref_index":1,"is_internal_anchor":true},{"citing_arxiv_id":"2605.10973","citing_title":"Rotation-Preserving Supervised Fine-Tuning","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08879","citing_title":"Preserving Foundational Capabilities in Flow-Matching VLAs through Conservative SFT","ref_index":27,"is_internal_anchor":true},{"citing_arxiv_id":"2605.09640","citing_title":"Overcoming Catastrophic Forgetting in Visual Continual Learning with Reinforcement Fine-Tuning","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2605.05732","citing_title":"CRAFT: Forgetting-Aware Intervention-Based Adaptation for Continual Learning","ref_index":10,"is_internal_anchor":true},{"citing_arxiv_id":"2605.05732","citing_title":"CRAFT: Forgetting-Aware Intervention-Based Adaptation for Continual Learning","ref_index":10,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/TUKZJAAD5WKWHXVS7AMJ34SIMC","json":"https://pith.science/pith/TUKZJAAD5WKWHXVS7AMJ34SIMC.json","graph_json":"https://pith.science/api/pith-number/TUKZJAAD5WKWHXVS7AMJ34SIMC/graph.json","events_json":"https://pith.science/api/pith-number/TUKZJAAD5WKWHXVS7AMJ34SIMC/events.json","paper":"https://pith.science/paper/TUKZJAAD"},"agent_actions":{"view_html":"https://pith.science/pith/TUKZJAAD5WKWHXVS7AMJ34SIMC","download_json":"https://pith.science/pith/TUKZJAAD5WKWHXVS7AMJ34SIMC.json","view_paper":"https://pith.science/paper/TUKZJAAD","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2507.05386&json=true","fetch_graph":"https://pith.science/api/pith-number/TUKZJAAD5WKWHXVS7AMJ34SIMC/graph.json","fetch_events":"https://pith.science/api/pith-number/TUKZJAAD5WKWHXVS7AMJ34SIMC/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/TUKZJAAD5WKWHXVS7AMJ34SIMC/action/timestamp_anchor","attest_storage":"https://pith.science/pith/TUKZJAAD5WKWHXVS7AMJ34SIMC/action/storage_attestation","attest_author":"https://pith.science/pith/TUKZJAAD5WKWHXVS7AMJ34SIMC/action/author_attestation","sign_citation":"https://pith.science/pith/TUKZJAAD5WKWHXVS7AMJ34SIMC/action/citation_signature","submit_replication":"https://pith.science/pith/TUKZJAAD5WKWHXVS7AMJ34SIMC/action/replication_record"}},"created_at":"2026-06-30T02:18:04.473879+00:00","updated_at":"2026-06-30T02:18:04.473879+00:00"}