One sample to rule them all: Extreme data efficiency in multidiscipline reasoning with reinforcement learning.arXiv preprint arXiv:2601.03111,

Li, Y · arXiv 2601.03111

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

Single-Rollout Hidden-State Dynamics for Training-Free RLVR Data Selection

cs.LG · 2026-05-27 · unverdicted · novelty 6.0

SHIFT selects compact RLVR training subsets using the magnitude of hidden-state change from a single inference rollout plus quality-weighted farthest-first coverage, outperforming training-free baselines on math reasoning and medical QA under low budgets.

citing papers explorer

Showing 1 of 1 citing paper.

Single-Rollout Hidden-State Dynamics for Training-Free RLVR Data Selection cs.LG · 2026-05-27 · unverdicted · none · ref 12
SHIFT selects compact RLVR training subsets using the magnitude of hidden-state change from a single inference rollout plus quality-weighted farthest-first coverage, outperforming training-free baselines on math reasoning and medical QA under low budgets.

One sample to rule them all: Extreme data efficiency in multidiscipline reasoning with reinforcement learning.arXiv preprint arXiv:2601.03111,

fields

years

verdicts

representative citing papers

citing papers explorer