{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2019:NZNNT2R5GUIDEVLWU7XVB4SWJP","short_pith_number":"pith:NZNNT2R5","schema_version":"1.0","canonical_sha256":"6e5ad9ea3d3510325576a7ef50f2564bcb06be465f7f31fa06db7278bbb5ab38","source":{"kind":"arxiv","id":"1904.03323","version":3},"attestation_state":"computed","paper":{"title":"Publicly Available Clinical BERT Embeddings","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":[],"primary_cat":"cs.CL","authors_text":"Di Jin, Emily Alsentzer, John R. Murphy, Matthew B. A. McDermott, Tristan Naumann, Wei-Hung Weng, Willie Boag","submitted_at":"2019-04-06T00:34:39Z","abstract_excerpt":"Contextual word embedding models such as ELMo (Peters et al., 2018) and BERT (Devlin et al., 2018) have dramatically improved performance for many natural language processing (NLP) tasks in recent months. However, these models have been minimally explored on specialty corpora, such as clinical text; moreover, in the clinical domain, no publicly-available pre-trained BERT models yet exist. In this work, we address this need by exploring and releasing BERT models for clinical text: one for generic clinical text and another for discharge summaries specifically. We demonstrate that using a domain-"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"1904.03323","kind":"arxiv","version":3},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CL","submitted_at":"2019-04-06T00:34:39Z","cross_cats_sorted":[],"title_canon_sha256":"7249ceb8dea0dd9c5eeb21f51eda3144b0e07d8eb4ea6a707795336ee70b0687","abstract_canon_sha256":"a7e7248fb5802a23b2ff6074e466170895df29ee791b29fa58271824f3411660"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:42:48.237087Z","signature_b64":"on/yK+pcH0fU9PZMp5b5UmMJ2SmuyTUzWpQCdKIKcGrtM7/Gi+EutcciTwKqtih99ovArgnWRgu5bQxaK8imCg==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"6e5ad9ea3d3510325576a7ef50f2564bcb06be465f7f31fa06db7278bbb5ab38","last_reissued_at":"2026-05-17T23:42:48.236551Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:42:48.236551Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Publicly Available Clinical BERT Embeddings","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":[],"primary_cat":"cs.CL","authors_text":"Di Jin, Emily Alsentzer, John R. Murphy, Matthew B. A. McDermott, Tristan Naumann, Wei-Hung Weng, Willie Boag","submitted_at":"2019-04-06T00:34:39Z","abstract_excerpt":"Contextual word embedding models such as ELMo (Peters et al., 2018) and BERT (Devlin et al., 2018) have dramatically improved performance for many natural language processing (NLP) tasks in recent months. However, these models have been minimally explored on specialty corpora, such as clinical text; moreover, in the clinical domain, no publicly-available pre-trained BERT models yet exist. In this work, we address this need by exploring and releasing BERT models for clinical text: one for generic clinical text and another for discharge summaries specifically. We demonstrate that using a domain-"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1904.03323","kind":"arxiv","version":3},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"1904.03323","created_at":"2026-05-17T23:42:48.236641+00:00"},{"alias_kind":"arxiv_version","alias_value":"1904.03323v3","created_at":"2026-05-17T23:42:48.236641+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1904.03323","created_at":"2026-05-17T23:42:48.236641+00:00"},{"alias_kind":"pith_short_12","alias_value":"NZNNT2R5GUID","created_at":"2026-05-18T12:33:24.271573+00:00"},{"alias_kind":"pith_short_16","alias_value":"NZNNT2R5GUIDEVLW","created_at":"2026-05-18T12:33:24.271573+00:00"},{"alias_kind":"pith_short_8","alias_value":"NZNNT2R5","created_at":"2026-05-18T12:33:24.271573+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":11,"internal_anchor_count":6,"sample":[{"citing_arxiv_id":"2401.02458","citing_title":"Data-Centric Foundation Models in Computational Healthcare: A Survey","ref_index":8,"is_internal_anchor":true},{"citing_arxiv_id":"2502.16022","citing_title":"Enhancing LLMs for Identifying and Prioritizing Important Medical Jargons from Electronic Health Record Notes Utilizing Data Augmentation","ref_index":66,"is_internal_anchor":true},{"citing_arxiv_id":"2505.19525","citing_title":"Rethinking Gating Mechanism in Sparse MoE: Handling Arbitrary Modality Inputs with Confidence-Guided Gate","ref_index":1,"is_internal_anchor":true},{"citing_arxiv_id":"2510.22609","citing_title":"CLIN-LLM: A Safety-Constrained Hybrid Framework for Clinical Diagnosis and Treatment Generation","ref_index":13,"is_internal_anchor":true},{"citing_arxiv_id":"2512.23304","citing_title":"MedGemma vs GPT-4: Open-Source and Proprietary Zero-shot Medical Disease Classification from Images","ref_index":21,"is_internal_anchor":true},{"citing_arxiv_id":"1904.05342","citing_title":"ClinicalBERT: Modeling Clinical Notes and Predicting Hospital Readmission","ref_index":1,"is_internal_anchor":true},{"citing_arxiv_id":"2604.13367","citing_title":"A 3D SAM-Based Progressive Prompting Framework for Multi-Task Segmentation of Radiotherapy-induced Normal Tissue Injuries in Limited-Data Settings","ref_index":2,"is_internal_anchor":false},{"citing_arxiv_id":"2604.13970","citing_title":"MApLe: Multi-instance Alignment of Diagnostic Reports and Large Medical Images","ref_index":1,"is_internal_anchor":false},{"citing_arxiv_id":"2604.16878","citing_title":"OC-Distill: Ontology-aware Contrastive Learning with Cross-Modal Distillation for ICU Risk Prediction","ref_index":1,"is_internal_anchor":false},{"citing_arxiv_id":"2604.20924","citing_title":"Clinically Interpretable Sepsis Early Warning via LLM-Guided Simulation of Temporal Physiological Dynamics","ref_index":47,"is_internal_anchor":false},{"citing_arxiv_id":"2604.25605","citing_title":"Health System Scale Semantic Search Across Unstructured Clinical Notes","ref_index":16,"is_internal_anchor":false}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/NZNNT2R5GUIDEVLWU7XVB4SWJP","json":"https://pith.science/pith/NZNNT2R5GUIDEVLWU7XVB4SWJP.json","graph_json":"https://pith.science/api/pith-number/NZNNT2R5GUIDEVLWU7XVB4SWJP/graph.json","events_json":"https://pith.science/api/pith-number/NZNNT2R5GUIDEVLWU7XVB4SWJP/events.json","paper":"https://pith.science/paper/NZNNT2R5"},"agent_actions":{"view_html":"https://pith.science/pith/NZNNT2R5GUIDEVLWU7XVB4SWJP","download_json":"https://pith.science/pith/NZNNT2R5GUIDEVLWU7XVB4SWJP.json","view_paper":"https://pith.science/paper/NZNNT2R5","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=1904.03323&json=true","fetch_graph":"https://pith.science/api/pith-number/NZNNT2R5GUIDEVLWU7XVB4SWJP/graph.json","fetch_events":"https://pith.science/api/pith-number/NZNNT2R5GUIDEVLWU7XVB4SWJP/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/NZNNT2R5GUIDEVLWU7XVB4SWJP/action/timestamp_anchor","attest_storage":"https://pith.science/pith/NZNNT2R5GUIDEVLWU7XVB4SWJP/action/storage_attestation","attest_author":"https://pith.science/pith/NZNNT2R5GUIDEVLWU7XVB4SWJP/action/author_attestation","sign_citation":"https://pith.science/pith/NZNNT2R5GUIDEVLWU7XVB4SWJP/action/citation_signature","submit_replication":"https://pith.science/pith/NZNNT2R5GUIDEVLWU7XVB4SWJP/action/replication_record"}},"created_at":"2026-05-17T23:42:48.236641+00:00","updated_at":"2026-05-17T23:42:48.236641+00:00"}