Measuring short-form factuality in large language models

Jason Wei, Karina Nguyen, Hyung Won Chung, Yunxin Joy Jiao, Spencer Papay, Amelia Glaese, John Schulman, William Fedus · 2024

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

browse 2 citing papers

citation-role summary

dataset 1

citation-polarity summary

use dataset 1

representative citing papers

A Semantic-Sampling Framework for Evaluating Calibration in Open-Ended Question Answering

cs.CL · 2026-05-08 · unverdicted · novelty 6.0

Sem-ECE is an asymptotically unbiased calibration error estimator for open-ended QA that uses semantic sampling of answers to derive confidence from class frequencies, with two variants that diverge on hard questions.

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

cs.AI · 2026-03-27 · unverdicted · novelty 6.0

XpertBench provides 1,346 rubric-scored expert tasks showing leading LLMs achieve a maximum ~66% success rate and ~55% mean score across domains.

citing papers explorer

Showing 2 of 2 citing papers.

A Semantic-Sampling Framework for Evaluating Calibration in Open-Ended Question Answering cs.CL · 2026-05-08 · unverdicted · none · ref 12
Sem-ECE is an asymptotically unbiased calibration error estimator for open-ended QA that uses semantic sampling of answers to derive confidence from class frequencies, with two variants that diverge on hard questions.
Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation cs.AI · 2026-03-27 · unverdicted · none · ref 23
XpertBench provides 1,346 rubric-scored expert tasks showing leading LLMs achieve a maximum ~66% success rate and ~55% mean score across domains.

Measuring short-form factuality in large language models

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer