{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:PBT2I4KORUUAHC2OC2BVYEPYJJ","short_pith_number":"pith:PBT2I4KO","schema_version":"1.0","canonical_sha256":"7867a4714e8d28038b4e16835c11f84a74534e244ec7b575293df3293f5be1cf","source":{"kind":"arxiv","id":"2501.09686","version":3},"attestation_state":"computed","paper":{"title":"Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models","license":"http://creativecommons.org/licenses/by/4.0/","headline":"Reinforcement learning on reasoning trajectories combined with test-time token scaling points toward Large Reasoning Models.","cross_cats":["cs.CL"],"primary_cat":"cs.AI","authors_text":"Chen Gao, Chenyang Shao, Fanjin Meng, Fengli Xu, Jiahui Gong, Jie Feng, Jingwei Wang, Jingyi Wang, Qianyue Hao, Qinglong Yang, Sijian Ren, Tianjian Ouyang, Xiaochong Lan, Xinyuan Hu, Yiwen Song, Yong Li, Yu Li, Yunke Zhang, Yuwei Yan, Zefang Zong","submitted_at":"2025-01-16T17:37:58Z","abstract_excerpt":"Language has long been conceived as an essential tool for human reasoning. The breakthrough of Large Language Models (LLMs) has sparked significant research interest in leveraging these models to tackle complex reasoning tasks. Researchers have moved beyond simple autoregressive token generation by introducing the concept of \"thought\" -- a sequence of tokens representing intermediate steps in the reasoning process. This innovative paradigm enables LLMs' to mimic complex human reasoning processes, such as tree search and reflective thinking. Recently, an emerging trend of learning to reason has"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":false},"canonical_record":{"source":{"id":"2501.09686","kind":"arxiv","version":3},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.AI","submitted_at":"2025-01-16T17:37:58Z","cross_cats_sorted":["cs.CL"],"title_canon_sha256":"27a29be91192a11f36ffa1b46e5ee199fa483d41b5aac49cfac0e14c1b975c54","abstract_canon_sha256":"282c5a48b28b73fee08160a2e957058b7f8c773d182bcfbe789042d75bb24b76"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:50.132881Z","signature_b64":"ftDai0C/J9skDzStEffjdBlIzA4Sm6g+W8XJcGsuc0le+eDZ41CheHUGLTwcMLgVU4l6pirJ3eBZMkOuNycJCg==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"7867a4714e8d28038b4e16835c11f84a74534e244ec7b575293df3293f5be1cf","last_reissued_at":"2026-05-17T23:38:50.132380Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:50.132380Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models","license":"http://creativecommons.org/licenses/by/4.0/","headline":"Reinforcement learning on reasoning trajectories combined with test-time token scaling points toward Large Reasoning Models.","cross_cats":["cs.CL"],"primary_cat":"cs.AI","authors_text":"Chen Gao, Chenyang Shao, Fanjin Meng, Fengli Xu, Jiahui Gong, Jie Feng, Jingwei Wang, Jingyi Wang, Qianyue Hao, Qinglong Yang, Sijian Ren, Tianjian Ouyang, Xiaochong Lan, Xinyuan Hu, Yiwen Song, Yong Li, Yu Li, Yunke Zhang, Yuwei Yan, Zefang Zong","submitted_at":"2025-01-16T17:37:58Z","abstract_excerpt":"Language has long been conceived as an essential tool for human reasoning. The breakthrough of Large Language Models (LLMs) has sparked significant research interest in leveraging these models to tackle complex reasoning tasks. Researchers have moved beyond simple autoregressive token generation by introducing the concept of \"thought\" -- a sequence of tokens representing intermediate steps in the reasoning process. This innovative paradigm enables LLMs' to mimic complex human reasoning processes, such as tree search and reflective thinking. Recently, an emerging trend of learning to reason has"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"The train-time and test-time scaling combined to show a new research frontier -- a path toward Large Reasoning Model. The introduction of OpenAI's o1 series marks a significant milestone in this research direction.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That reinforcement learning applied to reasoning trajectories will reliably expand LLMs' reasoning capacity without introducing systematic biases or hallucinations that are harder to detect than in standard generation.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"The paper surveys reinforced reasoning techniques for LLMs, covering automated data construction, learning-to-reason methods, and test-time scaling as steps toward Large Reasoning Models.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"Reinforcement learning on reasoning trajectories combined with test-time token scaling points toward Large Reasoning Models.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"cdeed429b10030e6db5fc938354b13e829f6fadd2d7e0fde87283cfcdba44374"},"source":{"id":"2501.09686","kind":"arxiv","version":3},"verdict":{"id":"0d8839db-dc2b-4fe4-b8e1-cd0966467a8e","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-15T21:17:24.834699Z","strongest_claim":"The train-time and test-time scaling combined to show a new research frontier -- a path toward Large Reasoning Model. The introduction of OpenAI's o1 series marks a significant milestone in this research direction.","one_line_summary":"The paper surveys reinforced reasoning techniques for LLMs, covering automated data construction, learning-to-reason methods, and test-time scaling as steps toward Large Reasoning Models.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That reinforcement learning applied to reasoning trajectories will reliably expand LLMs' reasoning capacity without introducing systematic biases or hallucinations that are harder to detect than in standard generation.","pith_extraction_headline":"Reinforcement learning on reasoning trajectories combined with test-time token scaling points toward Large Reasoning Models."},"references":{"count":202,"sample":[{"doi":"","year":2024,"title":"Phi-4 Technical Report","work_id":"b6274271-7af9-4ee8-993b-ba1ba4205ba8","ref_index":1,"cited_arxiv_id":"2412.08905","is_internal_anchor":true},{"doi":"","year":2023,"title":"GPT-4 Technical Report","work_id":"b928e041-6991-4c08-8c81-0359e4097c7b","ref_index":2,"cited_arxiv_id":"2303.08774","is_internal_anchor":true},{"doi":"","year":2022,"title":"Do As I Can, Not As I Say: Grounding Language in Robotic Affordances","work_id":"037320f1-b0a9-4cbe-a639-bfb25409ce71","ref_index":3,"cited_arxiv_id":"2204.01691","is_internal_anchor":true},{"doi":"","year":2024,"title":"arXiv preprint arXiv:2402.10571 , year=","work_id":"aca16f09-1a50-46c9-ba22-07ebf249d309","ref_index":4,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2019,"title":"Mathqa: Towards interpretable math word problem solving with operation-based formalisms, 2019","work_id":"3dedd8c2-047c-43aa-86ff-2b56d8a0722c","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":202,"snapshot_sha256":"673eed4b00add99e3e5dbaaaa4f06697e3718e5306d34b9426aab43069d108fb","internal_anchors":48},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2501.09686","created_at":"2026-05-17T23:38:50.132456+00:00"},{"alias_kind":"arxiv_version","alias_value":"2501.09686v3","created_at":"2026-05-17T23:38:50.132456+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2501.09686","created_at":"2026-05-17T23:38:50.132456+00:00"},{"alias_kind":"pith_short_12","alias_value":"PBT2I4KORUUA","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"PBT2I4KORUUAHC2O","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"PBT2I4KO","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":36,"internal_anchor_count":36,"sample":[{"citing_arxiv_id":"2502.03814","citing_title":"Large Language Models for Multi-Robot Systems: A Survey","ref_index":126,"is_internal_anchor":true},{"citing_arxiv_id":"2507.21035","citing_title":"GenoMAS: A Multi-Agent Framework for Scientific Discovery via Code-Driven Gene Expression Analysis","ref_index":139,"is_internal_anchor":true},{"citing_arxiv_id":"2605.10923","citing_title":"Dynamic Skill Lifecycle Management for Agentic Reinforcement Learning","ref_index":61,"is_internal_anchor":true},{"citing_arxiv_id":"2605.19775","citing_title":"Understanding Inference Scaling for LLMs: Bottlenecks, Trade-offs, and Performance Principles","ref_index":37,"is_internal_anchor":true},{"citing_arxiv_id":"2506.17788","citing_title":"Bayesian Social Deduction with Graph-Informed Language Models","ref_index":66,"is_internal_anchor":true},{"citing_arxiv_id":"2507.10722","citing_title":"Bridging Brains and Machines: A Unified Frontier in Neuroscience, Artificial Intelligence, and Neuromorphic Systems","ref_index":189,"is_internal_anchor":true},{"citing_arxiv_id":"2507.21433","citing_title":"ReasonCache: Accelerating Large Reasoning Model Serving through KV Cache Sharing","ref_index":29,"is_internal_anchor":true},{"citing_arxiv_id":"2508.09521","citing_title":"PEER: Unified Process-Outcome Reinforcement Learning for Structured Empathetic Reasoning","ref_index":12,"is_internal_anchor":true},{"citing_arxiv_id":"2508.10164","citing_title":"Pruning Long Chain-of-Thought of Large Reasoning Models via Small-Scale Preference Optimization","ref_index":8,"is_internal_anchor":true},{"citing_arxiv_id":"2509.13332","citing_title":"Explicit Reasoning Makes Better Judges: A Systematic Study on Accuracy, Efficiency, and Robustness","ref_index":35,"is_internal_anchor":true},{"citing_arxiv_id":"2509.21743","citing_title":"Retrieval-of-Thought: Efficient Reasoning via Reusing Thoughts","ref_index":28,"is_internal_anchor":true},{"citing_arxiv_id":"2509.25020","citing_title":"Deep Thinking by Markov Chain of Continuous Thoughts","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2510.05432","citing_title":"AInstein: Can LLMs Solve Research Problems From Parametric Memory Alone?","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2511.11653","citing_title":"GroupRank: A Groupwise Paradigm for Effective and Efficient Passage Reranking with LLMs","ref_index":9,"is_internal_anchor":true},{"citing_arxiv_id":"2601.12538","citing_title":"Agentic Reasoning for Large Language Models","ref_index":53,"is_internal_anchor":true},{"citing_arxiv_id":"2512.12794","citing_title":"A Rule-Aware Prompt Framework for Structured Numeric Reasoning in Cyber-Physical Systems","ref_index":6,"is_internal_anchor":true},{"citing_arxiv_id":"2601.03294","citing_title":"AgentMark: Utility-Preserving Behavioral Watermarking for Agents","ref_index":5,"is_internal_anchor":true},{"citing_arxiv_id":"2601.11848","citing_title":"Compass vs Railway Tracks: Unpacking User Mental Models for Communicating Long-Horizon Work to Humans vs. AI","ref_index":86,"is_internal_anchor":true},{"citing_arxiv_id":"2602.22508","citing_title":"Metacognitive Behavioral Tuning of Large Language Models for Multi-Hop Question Answering","ref_index":2,"is_internal_anchor":true},{"citing_arxiv_id":"2603.01692","citing_title":"Reasoning as Gradient: Scaling MLE Agents Beyond Tree Search","ref_index":32,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12813","citing_title":"REALISTA: Realistic Latent Adversarial Attacks that Elicit LLM Hallucinations","ref_index":47,"is_internal_anchor":true},{"citing_arxiv_id":"2503.16419","citing_title":"Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models","ref_index":202,"is_internal_anchor":true},{"citing_arxiv_id":"2605.11222","citing_title":"ADMM-Q: An Improved Hessian-based Weight Quantizer for Post-Training Quantization of Large Language Models","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2502.17419","citing_title":"From System 1 to System 2: A Survey of Reasoning Large Language Models","ref_index":59,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08378","citing_title":"Reinforcement Learning for Scalable and Trustworthy Intelligent Systems","ref_index":197,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/PBT2I4KORUUAHC2OC2BVYEPYJJ","json":"https://pith.science/pith/PBT2I4KORUUAHC2OC2BVYEPYJJ.json","graph_json":"https://pith.science/api/pith-number/PBT2I4KORUUAHC2OC2BVYEPYJJ/graph.json","events_json":"https://pith.science/api/pith-number/PBT2I4KORUUAHC2OC2BVYEPYJJ/events.json","paper":"https://pith.science/paper/PBT2I4KO"},"agent_actions":{"view_html":"https://pith.science/pith/PBT2I4KORUUAHC2OC2BVYEPYJJ","download_json":"https://pith.science/pith/PBT2I4KORUUAHC2OC2BVYEPYJJ.json","view_paper":"https://pith.science/paper/PBT2I4KO","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2501.09686&json=true","fetch_graph":"https://pith.science/api/pith-number/PBT2I4KORUUAHC2OC2BVYEPYJJ/graph.json","fetch_events":"https://pith.science/api/pith-number/PBT2I4KORUUAHC2OC2BVYEPYJJ/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/PBT2I4KORUUAHC2OC2BVYEPYJJ/action/timestamp_anchor","attest_storage":"https://pith.science/pith/PBT2I4KORUUAHC2OC2BVYEPYJJ/action/storage_attestation","attest_author":"https://pith.science/pith/PBT2I4KORUUAHC2OC2BVYEPYJJ/action/author_attestation","sign_citation":"https://pith.science/pith/PBT2I4KORUUAHC2OC2BVYEPYJJ/action/citation_signature","submit_replication":"https://pith.science/pith/PBT2I4KORUUAHC2OC2BVYEPYJJ/action/replication_record"}},"created_at":"2026-05-17T23:38:50.132456+00:00","updated_at":"2026-05-17T23:38:50.132456+00:00"}