{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2026:QJ4S33PEU5SO4656UQDCRRZINW","short_pith_number":"pith:QJ4S33PE","schema_version":"1.0","canonical_sha256":"82792dede4a764ee7bbea40628c7286dbafb1d843169878e54ddb598b8eb5079","source":{"kind":"arxiv","id":"2606.13732","version":2},"attestation_state":"computed","paper":{"title":"When Sample Selection Bias Precipitates Model Collapse","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":[],"primary_cat":"cs.AI","authors_text":"Jingqi Zhang, Meng Zhang, Peihua Mai, Wei Liu, Xianglong Du, Xinbao Qiao, Yan Pang","submitted_at":"2026-06-11T11:49:39Z","abstract_excerpt":"The proliferation of recursive training on synthetic data can alleviate data scarcity but risks model collapse, where repeated training erodes distributional tails and homogenizes outputs. Data selection is widely viewed as a remedy, yet its reliability depends critically on the reference distribution used by the verifier. We show that in low-resource verification regimes, where each verifier observes only a small, fragmented, and biased slice of the target manifold, selection itself becomes biased. This situation naturally arises in low-resource data silos such as healthcare consortia or prop"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2606.13732","kind":"arxiv","version":2},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.AI","submitted_at":"2026-06-11T11:49:39Z","cross_cats_sorted":[],"title_canon_sha256":"643531231c869862e5bc4e12ee7df19ccc0a6225ac71b7df56318012f7cd8224","abstract_canon_sha256":"5a2442bb8425a44e8b33d86bd49413c540a4b2ddf3e474ebd91231a938a66f44"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-07-03T01:17:23.067764Z","signature_b64":"fLZMecgArKOgctLvli5OaY1917OObig+kwH3OR+wCbAVCvHAdTp6E8NKXoGsgKNl86RYoyodt+N/adUHo1xzBQ==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"82792dede4a764ee7bbea40628c7286dbafb1d843169878e54ddb598b8eb5079","last_reissued_at":"2026-07-03T01:17:23.067272Z","signature_status":"signed_v1","first_computed_at":"2026-07-03T01:17:23.067272Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"When Sample Selection Bias Precipitates Model Collapse","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":[],"primary_cat":"cs.AI","authors_text":"Jingqi Zhang, Meng Zhang, Peihua Mai, Wei Liu, Xianglong Du, Xinbao Qiao, Yan Pang","submitted_at":"2026-06-11T11:49:39Z","abstract_excerpt":"The proliferation of recursive training on synthetic data can alleviate data scarcity but risks model collapse, where repeated training erodes distributional tails and homogenizes outputs. Data selection is widely viewed as a remedy, yet its reliability depends critically on the reference distribution used by the verifier. We show that in low-resource verification regimes, where each verifier observes only a small, fragmented, and biased slice of the target manifold, selection itself becomes biased. This situation naturally arises in low-resource data silos such as healthcare consortia or prop"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2606.13732","kind":"arxiv","version":2},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2606.13732/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2606.13732","created_at":"2026-07-03T01:17:23.067330+00:00"},{"alias_kind":"arxiv_version","alias_value":"2606.13732v2","created_at":"2026-07-03T01:17:23.067330+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2606.13732","created_at":"2026-07-03T01:17:23.067330+00:00"},{"alias_kind":"pith_short_12","alias_value":"QJ4S33PEU5SO","created_at":"2026-07-03T01:17:23.067330+00:00"},{"alias_kind":"pith_short_16","alias_value":"QJ4S33PEU5SO4656","created_at":"2026-07-03T01:17:23.067330+00:00"},{"alias_kind":"pith_short_8","alias_value":"QJ4S33PE","created_at":"2026-07-03T01:17:23.067330+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":0,"internal_anchor_count":0,"sample":[]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/QJ4S33PEU5SO4656UQDCRRZINW","json":"https://pith.science/pith/QJ4S33PEU5SO4656UQDCRRZINW.json","graph_json":"https://pith.science/api/pith-number/QJ4S33PEU5SO4656UQDCRRZINW/graph.json","events_json":"https://pith.science/api/pith-number/QJ4S33PEU5SO4656UQDCRRZINW/events.json","paper":"https://pith.science/paper/QJ4S33PE"},"agent_actions":{"view_html":"https://pith.science/pith/QJ4S33PEU5SO4656UQDCRRZINW","download_json":"https://pith.science/pith/QJ4S33PEU5SO4656UQDCRRZINW.json","view_paper":"https://pith.science/paper/QJ4S33PE","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2606.13732&json=true","fetch_graph":"https://pith.science/api/pith-number/QJ4S33PEU5SO4656UQDCRRZINW/graph.json","fetch_events":"https://pith.science/api/pith-number/QJ4S33PEU5SO4656UQDCRRZINW/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/QJ4S33PEU5SO4656UQDCRRZINW/action/timestamp_anchor","attest_storage":"https://pith.science/pith/QJ4S33PEU5SO4656UQDCRRZINW/action/storage_attestation","attest_author":"https://pith.science/pith/QJ4S33PEU5SO4656UQDCRRZINW/action/author_attestation","sign_citation":"https://pith.science/pith/QJ4S33PEU5SO4656UQDCRRZINW/action/citation_signature","submit_replication":"https://pith.science/pith/QJ4S33PEU5SO4656UQDCRRZINW/action/replication_record"}},"created_at":"2026-07-03T01:17:23.067330+00:00","updated_at":"2026-07-03T01:17:23.067330+00:00"}