{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:P2AECYT4XDXVW6XLRIORKIDQPS","short_pith_number":"pith:P2AECYT4","schema_version":"1.0","canonical_sha256":"7e8041627cb8ef5b7aeb8a1d1520707ca72c006a8dd784ad25a232dea2aa2ea1","source":{"kind":"arxiv","id":"2511.08667","version":2},"attestation_state":"computed","paper":{"title":"TabPFN-2.5: Advancing the State of the Art in Tabular Foundation Models","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"TabPFN-2.5 scales tabular foundation models to 20 times more data cells and leads the TabArena benchmark.","cross_cats":["stat.ML"],"primary_cat":"cs.LG","authors_text":"Adrian Hayler, Alessandro Bonetto, Anurag Garg, Benjamin J\\\"ager, Bernhard Sch\\\"olkopf, Brendan Roof, Clara Cornu, Dominik Safaric, Felix Birkel, Felix Jablonski, Frank Hutter, Jake Robertson, Klemens Fl\\\"oge, Lennart Purucker, L\\'eo Grinsztajn, Lilly Charlotte Wehrhahn, Magnus B\\\"uhler, Mihir Manium, Noah Hollmann, Oscar Key, Philipp Jund, Rosen Yu, Sauraj Gambhir, Shi Bin Hoo, Simone Alessi, Vladyslav Moroshan","submitted_at":"2025-11-11T18:57:15Z","abstract_excerpt":"The first tabular foundation model, TabPFN, and its successor TabPFNv2 have impacted tabular AI substantially, with dozens of methods building on it and hundreds of applications across different use cases. This report introduces TabPFN-2.5, the next generation of our tabular foundation model, built for datasets with up to 50,000 data points and 2,000 features, a 20x increase in data cells compared to TabPFNv2. TabPFN-2.5 is now the leading method for the industry standard benchmark TabArena (which contains datasets with up to 100,000 training data points), substantially outperforming tuned tre"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2511.08667","kind":"arxiv","version":2},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2025-11-11T18:57:15Z","cross_cats_sorted":["stat.ML"],"title_canon_sha256":"3237b357c6bb4bfa8fd6e8fa85eaf5e2d5d077dacfe3e658bce83dcd9adcc2b2","abstract_canon_sha256":"34d2eb8cbaa7899adab58fe896c619c419da6ad5a95e700f54d3bf64098685d6"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:53.574576Z","signature_b64":"9ttoUZyduho0rezoAiUSMZFGAhKtLhCpg3OknvZyQ8o8vSTsP4SgcUlpq9VZ4jYyTQ5i2WHde0kfQh580QXLDA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"7e8041627cb8ef5b7aeb8a1d1520707ca72c006a8dd784ad25a232dea2aa2ea1","last_reissued_at":"2026-05-17T23:38:53.573895Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:53.573895Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"TabPFN-2.5: Advancing the State of the Art in Tabular Foundation Models","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"TabPFN-2.5 scales tabular foundation models to 20 times more data cells and leads the TabArena benchmark.","cross_cats":["stat.ML"],"primary_cat":"cs.LG","authors_text":"Adrian Hayler, Alessandro Bonetto, Anurag Garg, Benjamin J\\\"ager, Bernhard Sch\\\"olkopf, Brendan Roof, Clara Cornu, Dominik Safaric, Felix Birkel, Felix Jablonski, Frank Hutter, Jake Robertson, Klemens Fl\\\"oge, Lennart Purucker, L\\'eo Grinsztajn, Lilly Charlotte Wehrhahn, Magnus B\\\"uhler, Mihir Manium, Noah Hollmann, Oscar Key, Philipp Jund, Rosen Yu, Sauraj Gambhir, Shi Bin Hoo, Simone Alessi, Vladyslav Moroshan","submitted_at":"2025-11-11T18:57:15Z","abstract_excerpt":"The first tabular foundation model, TabPFN, and its successor TabPFNv2 have impacted tabular AI substantially, with dozens of methods building on it and hundreds of applications across different use cases. This report introduces TabPFN-2.5, the next generation of our tabular foundation model, built for datasets with up to 50,000 data points and 2,000 features, a 20x increase in data cells compared to TabPFNv2. TabPFN-2.5 is now the leading method for the industry standard benchmark TabArena (which contains datasets with up to 100,000 training data points), substantially outperforming tuned tre"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"default TabPFN-2.5 has a 100% win rate against default XGBoost on small to medium-sized classification datasets (<=10,000 data points, 500 features) and a 87% win rate on larger datasets up to 100K samples and 2K features (85% for regression).","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That the reported win rates and benchmark leadership on TabArena will generalize to new, unseen datasets outside the benchmark collection and that the training procedure does not contain undisclosed hyperparameter advantages.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"TabPFN-2.5 scales tabular foundation models to 20x larger datasets, outperforms tuned tree models on TabArena, achieves near-perfect win rates against default XGBoost, and adds a distillation engine for fast production deployment.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"TabPFN-2.5 scales tabular foundation models to 20 times more data cells and leads the TabArena benchmark.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"ec6933defc008bcf261cb9ec0b317bcf84a26e01da57bdb5f2b11f4fe3adccc4"},"source":{"id":"2511.08667","kind":"arxiv","version":2},"verdict":{"id":"e0c287a1-6ff9-4980-885b-57e1da827f05","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-15T04:09:59.122135Z","strongest_claim":"default TabPFN-2.5 has a 100% win rate against default XGBoost on small to medium-sized classification datasets (<=10,000 data points, 500 features) and a 87% win rate on larger datasets up to 100K samples and 2K features (85% for regression).","one_line_summary":"TabPFN-2.5 scales tabular foundation models to 20x larger datasets, outperforms tuned tree models on TabArena, achieves near-perfect win rates against default XGBoost, and adds a distillation engine for fast production deployment.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That the reported win rates and benchmark leadership on TabArena will generalize to new, unseen datasets outside the benchmark collection and that the training procedure does not contain undisclosed hyperparameter advantages.","pith_extraction_headline":"TabPFN-2.5 scales tabular foundation models to 20 times more data cells and leads the TabArena benchmark."},"references":{"count":250,"sample":[{"doi":"","year":2025,"title":"arXiv:2506.16791 [cs]","work_id":"155b5349-dee8-4870-965c-d54a700a19de","ref_index":1,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2016,"title":"Xgboost: A scalable tree boosting system","work_id":"c12cf8a8-1951-412c-a3cd-92de4cb10ca7","ref_index":2,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2018,"title":"Catboost: unbiased boosting with categorical features.Advances in neural information processing systems, 31, 2018","work_id":"cb38f37f-2ff1-4119-9239-170112c586b9","ref_index":3,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2017,"title":"Lightgbm: A highly efficient gradient boosting decision tree","work_id":"93734681-1fa2-4bd5-84b5-5c9c3dffda41","ref_index":4,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"10.1023/a","year":2001,"title":"Applying constraint satisfaction techniques to job shop scheduling , journal =","work_id":"82ab34d6-b79f-49d1-8128-5da36fe56174","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":250,"snapshot_sha256":"810ea16527aa8bc85ad81fb86abc7b1481632f43b39d8fab8c5d0722e7a3ba93","internal_anchors":7},"formal_canon":{"evidence_count":1,"snapshot_sha256":"f52de8ae04521327a8a285c2c57a8c36092076657aad26ec6eb0cafc38ff0877"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2511.08667","created_at":"2026-05-17T23:38:53.574028+00:00"},{"alias_kind":"arxiv_version","alias_value":"2511.08667v2","created_at":"2026-05-17T23:38:53.574028+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2511.08667","created_at":"2026-05-17T23:38:53.574028+00:00"},{"alias_kind":"pith_short_12","alias_value":"P2AECYT4XDXV","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"P2AECYT4XDXVW6XL","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"P2AECYT4","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":35,"internal_anchor_count":35,"sample":[{"citing_arxiv_id":"2605.22738","citing_title":"Proxy-Based Approximation of Shapley and Banzhaf Interactions","ref_index":21,"is_internal_anchor":true},{"citing_arxiv_id":"2605.21742","citing_title":"Correcting Class Imbalance in Prior-Data Fitted Networks for Tabular Classification","ref_index":1,"is_internal_anchor":true},{"citing_arxiv_id":"2605.22738","citing_title":"Proxy-Based Approximation of Shapley and Banzhaf Interactions","ref_index":21,"is_internal_anchor":true},{"citing_arxiv_id":"2605.21544","citing_title":"Tabular foundation models for robust calibration of near-infrared chemical sensing data","ref_index":11,"is_internal_anchor":true},{"citing_arxiv_id":"2603.16513","citing_title":"FEAT: A Linear-Complexity Foundation Model for Extremely Large Structured Data","ref_index":8,"is_internal_anchor":true},{"citing_arxiv_id":"2605.20234","citing_title":"TabPFN-MT: A Natively Multitask In-Context Learner for Tabular Data","ref_index":40,"is_internal_anchor":true},{"citing_arxiv_id":"2605.20674","citing_title":"Modular Multimodal Classification Without Fine-Tuning: A Simple Compositional Approach","ref_index":8,"is_internal_anchor":true},{"citing_arxiv_id":"2605.16175","citing_title":"Imitation learning for clinical decision support in pediatric ECMO","ref_index":3,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18147","citing_title":"Foundation Models for Credit Risk Prediction: A Game Changer?","ref_index":97,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18696","citing_title":"Ensembling Tabular Foundation Models - A Diversity Ceiling And A Calibration Trap","ref_index":32,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18702","citing_title":"Distilling Tabular Foundation Models for Structured Health Data","ref_index":6,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18971","citing_title":"Shaping the Prior: How Synthetic Task Distributions Determine Tabular Foundation Model Quality","ref_index":7,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18654","citing_title":"Pocket Foundation Models: Distilling TFMs into CPU-Ready Gradient-Boosted Trees","ref_index":2,"is_internal_anchor":true},{"citing_arxiv_id":"2605.15488","citing_title":"SurvivalPFN: Amortizing Survival Prediction via In-Context Bayesian Inference","ref_index":27,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12904","citing_title":"VIP-COP: Context Optimization for Tabular Foundation Models","ref_index":12,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12292","citing_title":"STRABLE: Benchmarking Tabular Machine Learning with Strings","ref_index":24,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06047","citing_title":"TFM-Retouche: A Lightweight Input-Space Adapter for Tabular Foundation Models","ref_index":12,"is_internal_anchor":true},{"citing_arxiv_id":"2605.09424","citing_title":"Tabular Foundation Model for Generative Modelling","ref_index":22,"is_internal_anchor":true},{"citing_arxiv_id":"2605.10616","citing_title":"MulTaBench: Benchmarking Multimodal Tabular Learning with Text and Image","ref_index":37,"is_internal_anchor":true},{"citing_arxiv_id":"2605.10590","citing_title":"Amortizing Causal Sensitivity Analysis via Prior Data-Fitted Networks","ref_index":8,"is_internal_anchor":true},{"citing_arxiv_id":"2605.05993","citing_title":"TabCF: Distributional Control Function Estimation with Tabular Foundation Models","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06290","citing_title":"Data Language Models: A New Foundation Model Class for Tabular Data","ref_index":8,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06510","citing_title":"Is One Layer Enough? Understanding Inference Dynamics in Tabular Foundation Models","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06047","citing_title":"TFM-Retouche: A Lightweight Input-Space Adapter for Tabular Foundation Models","ref_index":11,"is_internal_anchor":true},{"citing_arxiv_id":"2604.13332","citing_title":"Selecting Feature Interactions for Generalized Additive Models by Distilling Foundation Models","ref_index":10,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":1,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/P2AECYT4XDXVW6XLRIORKIDQPS","json":"https://pith.science/pith/P2AECYT4XDXVW6XLRIORKIDQPS.json","graph_json":"https://pith.science/api/pith-number/P2AECYT4XDXVW6XLRIORKIDQPS/graph.json","events_json":"https://pith.science/api/pith-number/P2AECYT4XDXVW6XLRIORKIDQPS/events.json","paper":"https://pith.science/paper/P2AECYT4"},"agent_actions":{"view_html":"https://pith.science/pith/P2AECYT4XDXVW6XLRIORKIDQPS","download_json":"https://pith.science/pith/P2AECYT4XDXVW6XLRIORKIDQPS.json","view_paper":"https://pith.science/paper/P2AECYT4","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2511.08667&json=true","fetch_graph":"https://pith.science/api/pith-number/P2AECYT4XDXVW6XLRIORKIDQPS/graph.json","fetch_events":"https://pith.science/api/pith-number/P2AECYT4XDXVW6XLRIORKIDQPS/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/P2AECYT4XDXVW6XLRIORKIDQPS/action/timestamp_anchor","attest_storage":"https://pith.science/pith/P2AECYT4XDXVW6XLRIORKIDQPS/action/storage_attestation","attest_author":"https://pith.science/pith/P2AECYT4XDXVW6XLRIORKIDQPS/action/author_attestation","sign_citation":"https://pith.science/pith/P2AECYT4XDXVW6XLRIORKIDQPS/action/citation_signature","submit_replication":"https://pith.science/pith/P2AECYT4XDXVW6XLRIORKIDQPS/action/replication_record"}},"created_at":"2026-05-17T23:38:53.574028+00:00","updated_at":"2026-05-17T23:38:53.574028+00:00"}