Evaluating general-purpose AI with psychometrics

Xiting Wang, Liming Jiang, Jose Hernandez-Orallo, David Stillwell, Luning Sun, Fang Luo, Xing Xie · 2023 · arXiv 2310.16379

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

read on arXiv browse 2 citing papers

representative citing papers

FairTree: Subgroup Fairness Auditing of Machine Learning Models with Bias-Variance Decomposition

cs.LG · 2026-04-21 · unverdicted · novelty 7.0

FairTree audits ML models for subgroup fairness by decomposing performance disparities into systematic bias and variance using permutation-based and fluctuation tests adapted from psychometric methods.

An Interpretable and Scalable Framework for Evaluating Large Language Models

stat.ML · 2026-05-07 · unverdicted · novelty 6.0

A majorization-minimization framework turns IRT into scalable matrix factorization subproblems for LLM evaluation, delivering orders-of-magnitude speedups with identifiability guarantees.

citing papers explorer

Showing 2 of 2 citing papers after filters.

FairTree: Subgroup Fairness Auditing of Machine Learning Models with Bias-Variance Decomposition cs.LG · 2026-04-21 · unverdicted · none · ref 17
FairTree audits ML models for subgroup fairness by decomposing performance disparities into systematic bias and variance using permutation-based and fluctuation tests adapted from psychometric methods.
An Interpretable and Scalable Framework for Evaluating Large Language Models stat.ML · 2026-05-07 · unverdicted · none · ref 54
A majorization-minimization framework turns IRT into scalable matrix factorization subproblems for LLM evaluation, delivering orders-of-magnitude speedups with identifiability guarantees.

Evaluating general-purpose AI with psychometrics

fields

years

verdicts

representative citing papers

citing papers explorer