{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2023:5RFMLZ3JOYJ7OLJGTXUUPIGMFO","short_pith_number":"pith:5RFMLZ3J","schema_version":"1.0","canonical_sha256":"ec4ac5e7697613f72d269de947a0cc2ba48bd7b67ca0e7b6fa646876ccbd7b88","source":{"kind":"arxiv","id":"2310.10631","version":3},"attestation_state":"computed","paper":{"title":"Llemma: An Open Language Model For Mathematics","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.AI","cs.LO"],"primary_cat":"cs.CL","authors_text":"Albert Q. Jiang, Hailey Schoelkopf, Jia Deng, Keiran Paster, Marco Dos Santos, Sean Welleck, Stella Biderman, Stephen McAleer, Zhangir Azerbayev","submitted_at":"2023-10-16T17:54:07Z","abstract_excerpt":"We present Llemma, a large language model for mathematics. We continue pretraining Code Llama on the Proof-Pile-2, a mixture of scientific papers, web data containing mathematics, and mathematical code, yielding Llemma. On the MATH benchmark Llemma outperforms all known open base models, as well as the unreleased Minerva model suite on an equi-parameter basis. Moreover, Llemma is capable of tool use and formal theorem proving without any further finetuning. We openly release all artifacts, including 7 billion and 34 billion parameter models, the Proof-Pile-2, and code to replicate our experime"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2310.10631","kind":"arxiv","version":3},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CL","submitted_at":"2023-10-16T17:54:07Z","cross_cats_sorted":["cs.AI","cs.LO"],"title_canon_sha256":"a25ee4c5cba9880ac3f545d8b61c6af8db486974d0579f7a2a1147772a4b9a46","abstract_canon_sha256":"5f282c2622fb0725a35bd86efcef828e746ba93f71273b756866905602a69fec"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-19T08:11:59.595308Z","signature_b64":"JW083ACDbz6ebaV29rgK5WiUYn3Q87qyiap9siEqXpdATg6tXI4sR7qt7WMkZbaaBha0fyezJGqWom+PXhxzCA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"ec4ac5e7697613f72d269de947a0cc2ba48bd7b67ca0e7b6fa646876ccbd7b88","last_reissued_at":"2026-05-19T08:11:59.591764Z","signature_status":"signed_v1","first_computed_at":"2026-05-19T08:11:59.591764Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Llemma: An Open Language Model For Mathematics","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.AI","cs.LO"],"primary_cat":"cs.CL","authors_text":"Albert Q. Jiang, Hailey Schoelkopf, Jia Deng, Keiran Paster, Marco Dos Santos, Sean Welleck, Stella Biderman, Stephen McAleer, Zhangir Azerbayev","submitted_at":"2023-10-16T17:54:07Z","abstract_excerpt":"We present Llemma, a large language model for mathematics. We continue pretraining Code Llama on the Proof-Pile-2, a mixture of scientific papers, web data containing mathematics, and mathematical code, yielding Llemma. On the MATH benchmark Llemma outperforms all known open base models, as well as the unreleased Minerva model suite on an equi-parameter basis. Moreover, Llemma is capable of tool use and formal theorem proving without any further finetuning. We openly release all artifacts, including 7 billion and 34 billion parameter models, the Proof-Pile-2, and code to replicate our experime"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2310.10631","kind":"arxiv","version":3},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2310.10631/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2310.10631","created_at":"2026-05-19T08:11:59.591968+00:00"},{"alias_kind":"arxiv_version","alias_value":"2310.10631v3","created_at":"2026-05-19T08:11:59.591968+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2310.10631","created_at":"2026-05-19T08:11:59.591968+00:00"},{"alias_kind":"pith_short_12","alias_value":"5RFMLZ3JOYJ7","created_at":"2026-05-19T08:11:59.591968+00:00"},{"alias_kind":"pith_short_16","alias_value":"5RFMLZ3JOYJ7OLJG","created_at":"2026-05-19T08:11:59.591968+00:00"},{"alias_kind":"pith_short_8","alias_value":"5RFMLZ3J","created_at":"2026-05-19T08:11:59.591968+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":21,"internal_anchor_count":21,"sample":[{"citing_arxiv_id":"2502.10248","citing_title":"Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model","ref_index":94,"is_internal_anchor":true},{"citing_arxiv_id":"2507.22359","citing_title":"League of LLMs: A Benchmark-Free Paradigm for Mutual Evaluation of Large Language Models","ref_index":3,"is_internal_anchor":true},{"citing_arxiv_id":"2406.18629","citing_title":"Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs","ref_index":2,"is_internal_anchor":true},{"citing_arxiv_id":"2406.11794","citing_title":"DataComp-LM: In search of the next generation of training sets for language models","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2502.03387","citing_title":"LIMO: Less is More for Reasoning","ref_index":299,"is_internal_anchor":true},{"citing_arxiv_id":"2512.18857","citing_title":"CORE: Concept-Oriented Reinforcement for Bridging the Definition-Application Gap in Mathematical Reasoning","ref_index":2,"is_internal_anchor":true},{"citing_arxiv_id":"2602.20816","citing_title":"Don't Ignore the Tail: Decoupling top-K Probabilities for Efficient Language Model Distillation","ref_index":2,"is_internal_anchor":true},{"citing_arxiv_id":"2410.07985","citing_title":"Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models","ref_index":50,"is_internal_anchor":true},{"citing_arxiv_id":"2605.10195","citing_title":"Breaking the Reward Barrier: Accelerating Tree-of-Thought Reasoning via Speculative Exploration","ref_index":1,"is_internal_anchor":true},{"citing_arxiv_id":"2312.08935","citing_title":"Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations","ref_index":52,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06651","citing_title":"AI co-mathematician: Accelerating mathematicians with agentic AI","ref_index":6,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12697","citing_title":"A Unified Framework for Critical Scaling of Inverse Temperature in Self-Attention","ref_index":16,"is_internal_anchor":true},{"citing_arxiv_id":"2401.02385","citing_title":"TinyLlama: An Open-Source Small Language Model","ref_index":3,"is_internal_anchor":true},{"citing_arxiv_id":"2502.02737","citing_title":"SmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language Model","ref_index":147,"is_internal_anchor":true},{"citing_arxiv_id":"2605.10195","citing_title":"Breaking the Reward Barrier: Accelerating Tree-of-Thought Reasoning via Speculative Exploration","ref_index":1,"is_internal_anchor":true},{"citing_arxiv_id":"2605.09292","citing_title":"Beyond Accuracy: Evaluating Strategy Diversity in LLM Mathematical Reasoning","ref_index":5,"is_internal_anchor":true},{"citing_arxiv_id":"2604.25155","citing_title":"Rethinking Wireless Communications through Formal Mathematical AI Reasoning","ref_index":21,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06651","citing_title":"AI co-mathematician: Accelerating mathematicians with agentic AI","ref_index":6,"is_internal_anchor":true},{"citing_arxiv_id":"2406.01574","citing_title":"MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark","ref_index":4,"is_internal_anchor":true},{"citing_arxiv_id":"2604.18936","citing_title":"Fine-Tuning Small Reasoning Models for Quantum Field Theory","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2303.18223","citing_title":"A Survey of Large Language Models","ref_index":262,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/5RFMLZ3JOYJ7OLJGTXUUPIGMFO","json":"https://pith.science/pith/5RFMLZ3JOYJ7OLJGTXUUPIGMFO.json","graph_json":"https://pith.science/api/pith-number/5RFMLZ3JOYJ7OLJGTXUUPIGMFO/graph.json","events_json":"https://pith.science/api/pith-number/5RFMLZ3JOYJ7OLJGTXUUPIGMFO/events.json","paper":"https://pith.science/paper/5RFMLZ3J"},"agent_actions":{"view_html":"https://pith.science/pith/5RFMLZ3JOYJ7OLJGTXUUPIGMFO","download_json":"https://pith.science/pith/5RFMLZ3JOYJ7OLJGTXUUPIGMFO.json","view_paper":"https://pith.science/paper/5RFMLZ3J","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2310.10631&json=true","fetch_graph":"https://pith.science/api/pith-number/5RFMLZ3JOYJ7OLJGTXUUPIGMFO/graph.json","fetch_events":"https://pith.science/api/pith-number/5RFMLZ3JOYJ7OLJGTXUUPIGMFO/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/5RFMLZ3JOYJ7OLJGTXUUPIGMFO/action/timestamp_anchor","attest_storage":"https://pith.science/pith/5RFMLZ3JOYJ7OLJGTXUUPIGMFO/action/storage_attestation","attest_author":"https://pith.science/pith/5RFMLZ3JOYJ7OLJGTXUUPIGMFO/action/author_attestation","sign_citation":"https://pith.science/pith/5RFMLZ3JOYJ7OLJGTXUUPIGMFO/action/citation_signature","submit_replication":"https://pith.science/pith/5RFMLZ3JOYJ7OLJGTXUUPIGMFO/action/replication_record"}},"created_at":"2026-05-19T08:11:59.591968+00:00","updated_at":"2026-05-19T08:11:59.591968+00:00"}