{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2026:HPMCG4E3BURWIL2G5D52YETN3D","short_pith_number":"pith:HPMCG4E3","schema_version":"1.0","canonical_sha256":"3bd823709b0d23642f46e8fbac126dd8fdc3bb7b6634ed369881d928240270df","source":{"kind":"arxiv","id":"2606.02388","version":1},"attestation_state":"computed","paper":{"title":"Policy and World Modeling Co-Training for Language Agents","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.AI"],"primary_cat":"cs.LG","authors_text":"Baijiong Lin, Haoze Lv, Jiahao Wu, Ke Tang, Lingting Zhu, Ning Lu, Qi Wang, Shengcai Liu, Shengju Qian, Xin Wang, Yanbin Wei, Ying-Cong Chen","submitted_at":"2026-06-01T15:35:40Z","abstract_excerpt":"Reinforcement learning (RL) improves large language model (LLM) agents by teaching them which actions lead to high rewards, but provides little supervision on what those actions do to the environment. World modeling (WM) can fill this gap, yet existing approaches often require separate simulators, extra training stages, or additional inference-time computation. We observe that on-policy RL rollouts already contain the needed signal: each transition pairs an action with its resulting next observation. Based on this observation, we propose PaW, a Policy and World modeling co-training framework t"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2606.02388","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2026-06-01T15:35:40Z","cross_cats_sorted":["cs.AI"],"title_canon_sha256":"c2ba40fb4db87446e531c218d28cf893f0af5c4a69bd14f6497c5624d3b77340","abstract_canon_sha256":"a2b6bd7e260ca2931ebd7aa97fb73bc167238d0b202fc1a4919ed5c7d513e92f"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-06-02T03:04:57.856450Z","signature_b64":"G239SLvRermgG3Is/7FEVWh74JORIbF87xL0DEYWSp2tRy3Bjwr5Cp9h9kevBiLesJVhZ61T5iNJKJ4D7cxSAg==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"3bd823709b0d23642f46e8fbac126dd8fdc3bb7b6634ed369881d928240270df","last_reissued_at":"2026-06-02T03:04:57.856057Z","signature_status":"signed_v1","first_computed_at":"2026-06-02T03:04:57.856057Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Policy and World Modeling Co-Training for Language Agents","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.AI"],"primary_cat":"cs.LG","authors_text":"Baijiong Lin, Haoze Lv, Jiahao Wu, Ke Tang, Lingting Zhu, Ning Lu, Qi Wang, Shengcai Liu, Shengju Qian, Xin Wang, Yanbin Wei, Ying-Cong Chen","submitted_at":"2026-06-01T15:35:40Z","abstract_excerpt":"Reinforcement learning (RL) improves large language model (LLM) agents by teaching them which actions lead to high rewards, but provides little supervision on what those actions do to the environment. World modeling (WM) can fill this gap, yet existing approaches often require separate simulators, extra training stages, or additional inference-time computation. We observe that on-policy RL rollouts already contain the needed signal: each transition pairs an action with its resulting next observation. Based on this observation, we propose PaW, a Policy and World modeling co-training framework t"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2606.02388","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2606.02388/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2606.02388","created_at":"2026-06-02T03:04:57.856112+00:00"},{"alias_kind":"arxiv_version","alias_value":"2606.02388v1","created_at":"2026-06-02T03:04:57.856112+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2606.02388","created_at":"2026-06-02T03:04:57.856112+00:00"},{"alias_kind":"pith_short_12","alias_value":"HPMCG4E3BURW","created_at":"2026-06-02T03:04:57.856112+00:00"},{"alias_kind":"pith_short_16","alias_value":"HPMCG4E3BURWIL2G","created_at":"2026-06-02T03:04:57.856112+00:00"},{"alias_kind":"pith_short_8","alias_value":"HPMCG4E3","created_at":"2026-06-02T03:04:57.856112+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":0,"internal_anchor_count":0,"sample":[]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/HPMCG4E3BURWIL2G5D52YETN3D","json":"https://pith.science/pith/HPMCG4E3BURWIL2G5D52YETN3D.json","graph_json":"https://pith.science/api/pith-number/HPMCG4E3BURWIL2G5D52YETN3D/graph.json","events_json":"https://pith.science/api/pith-number/HPMCG4E3BURWIL2G5D52YETN3D/events.json","paper":"https://pith.science/paper/HPMCG4E3"},"agent_actions":{"view_html":"https://pith.science/pith/HPMCG4E3BURWIL2G5D52YETN3D","download_json":"https://pith.science/pith/HPMCG4E3BURWIL2G5D52YETN3D.json","view_paper":"https://pith.science/paper/HPMCG4E3","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2606.02388&json=true","fetch_graph":"https://pith.science/api/pith-number/HPMCG4E3BURWIL2G5D52YETN3D/graph.json","fetch_events":"https://pith.science/api/pith-number/HPMCG4E3BURWIL2G5D52YETN3D/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/HPMCG4E3BURWIL2G5D52YETN3D/action/timestamp_anchor","attest_storage":"https://pith.science/pith/HPMCG4E3BURWIL2G5D52YETN3D/action/storage_attestation","attest_author":"https://pith.science/pith/HPMCG4E3BURWIL2G5D52YETN3D/action/author_attestation","sign_citation":"https://pith.science/pith/HPMCG4E3BURWIL2G5D52YETN3D/action/citation_signature","submit_replication":"https://pith.science/pith/HPMCG4E3BURWIL2G5D52YETN3D/action/replication_record"}},"created_at":"2026-06-02T03:04:57.856112+00:00","updated_at":"2026-06-02T03:04:57.856112+00:00"}