{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2026:BBRUKH6Q3T6CE3WMKLVTSCTMQY","short_pith_number":"pith:BBRUKH6Q","schema_version":"1.0","canonical_sha256":"0863451fd0dcfc226ecc52eb390a6c86241709e0e11f693f6dae26b033e4583f","source":{"kind":"arxiv","id":"2606.18797","version":1},"attestation_state":"computed","paper":{"title":"Beyond Scalar Scores: Exploring LLM-based Metrics for Clinical Significance Evaluation in Radiology Reports","license":"http://creativecommons.org/publicdomain/zero/1.0/","headline":"","cross_cats":[],"primary_cat":"cs.CL","authors_text":"Dacheng Tao, Liang Ding, Qingyu Lu, Ruochen Li, Youxiang Zhu, Yufei Xia","submitted_at":"2026-06-17T08:10:30Z","abstract_excerpt":"Reliable evaluation of generated radiology reports requires strict clinical accuracy, as omitted critical findings or mischaracterized radiographic observations can directly affect patient care. Existing metrics obscure this requirement by reducing report quality to a medically ungrounded scalar. Although Large Language Models (LLMs) possess rich medical knowledge, they likewise struggle to draw a reliable boundary between clinically significant errors and harmless variation. We study this boundary using ReEvalMed benchmark as testbed and evaluate metric-level clinical significance from detect"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2606.18797","kind":"arxiv","version":1},"metadata":{"license":"http://creativecommons.org/publicdomain/zero/1.0/","primary_cat":"cs.CL","submitted_at":"2026-06-17T08:10:30Z","cross_cats_sorted":[],"title_canon_sha256":"e863c81a7bd0c9a411bbd972831e8dbbb7b32667b9c43b29a17c2d2745c91f26","abstract_canon_sha256":"bb1dd9e294b75cbcb41c98fe5a8b6fff3bcded7e85922b7ec47ad247519cb87e"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-06-19T16:11:47.564269Z","signature_b64":"Xr2MLZpKe1HO9l9gSu+lniplNRwdKO/CGlkseip99TvYy42bJqLFtHbHtZvxO9FVB5gFebXJybmWeeT68ReuCA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"0863451fd0dcfc226ecc52eb390a6c86241709e0e11f693f6dae26b033e4583f","last_reissued_at":"2026-06-19T16:11:47.563927Z","signature_status":"signed_v1","first_computed_at":"2026-06-19T16:11:47.563927Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Beyond Scalar Scores: Exploring LLM-based Metrics for Clinical Significance Evaluation in Radiology Reports","license":"http://creativecommons.org/publicdomain/zero/1.0/","headline":"","cross_cats":[],"primary_cat":"cs.CL","authors_text":"Dacheng Tao, Liang Ding, Qingyu Lu, Ruochen Li, Youxiang Zhu, Yufei Xia","submitted_at":"2026-06-17T08:10:30Z","abstract_excerpt":"Reliable evaluation of generated radiology reports requires strict clinical accuracy, as omitted critical findings or mischaracterized radiographic observations can directly affect patient care. Existing metrics obscure this requirement by reducing report quality to a medically ungrounded scalar. Although Large Language Models (LLMs) possess rich medical knowledge, they likewise struggle to draw a reliable boundary between clinically significant errors and harmless variation. We study this boundary using ReEvalMed benchmark as testbed and evaluate metric-level clinical significance from detect"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2606.18797","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2606.18797/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2606.18797","created_at":"2026-06-19T16:11:47.563988+00:00"},{"alias_kind":"arxiv_version","alias_value":"2606.18797v1","created_at":"2026-06-19T16:11:47.563988+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2606.18797","created_at":"2026-06-19T16:11:47.563988+00:00"},{"alias_kind":"pith_short_12","alias_value":"BBRUKH6Q3T6C","created_at":"2026-06-19T16:11:47.563988+00:00"},{"alias_kind":"pith_short_16","alias_value":"BBRUKH6Q3T6CE3WM","created_at":"2026-06-19T16:11:47.563988+00:00"},{"alias_kind":"pith_short_8","alias_value":"BBRUKH6Q","created_at":"2026-06-19T16:11:47.563988+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":0,"internal_anchor_count":0,"sample":[]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/BBRUKH6Q3T6CE3WMKLVTSCTMQY","json":"https://pith.science/pith/BBRUKH6Q3T6CE3WMKLVTSCTMQY.json","graph_json":"https://pith.science/api/pith-number/BBRUKH6Q3T6CE3WMKLVTSCTMQY/graph.json","events_json":"https://pith.science/api/pith-number/BBRUKH6Q3T6CE3WMKLVTSCTMQY/events.json","paper":"https://pith.science/paper/BBRUKH6Q"},"agent_actions":{"view_html":"https://pith.science/pith/BBRUKH6Q3T6CE3WMKLVTSCTMQY","download_json":"https://pith.science/pith/BBRUKH6Q3T6CE3WMKLVTSCTMQY.json","view_paper":"https://pith.science/paper/BBRUKH6Q","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2606.18797&json=true","fetch_graph":"https://pith.science/api/pith-number/BBRUKH6Q3T6CE3WMKLVTSCTMQY/graph.json","fetch_events":"https://pith.science/api/pith-number/BBRUKH6Q3T6CE3WMKLVTSCTMQY/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/BBRUKH6Q3T6CE3WMKLVTSCTMQY/action/timestamp_anchor","attest_storage":"https://pith.science/pith/BBRUKH6Q3T6CE3WMKLVTSCTMQY/action/storage_attestation","attest_author":"https://pith.science/pith/BBRUKH6Q3T6CE3WMKLVTSCTMQY/action/author_attestation","sign_citation":"https://pith.science/pith/BBRUKH6Q3T6CE3WMKLVTSCTMQY/action/citation_signature","submit_replication":"https://pith.science/pith/BBRUKH6Q3T6CE3WMKLVTSCTMQY/action/replication_record"}},"created_at":"2026-06-19T16:11:47.563988+00:00","updated_at":"2026-06-19T16:11:47.563988+00:00"}