Optimizing language models for inference time objectives using reinforcement learning

Yunhao Tang, Kunhao Zheng, Gabriel Synnaeve, Rémi Munos · 2025 · arXiv 2503.19595

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

What should post-training optimize? A test-time scaling law perspective

cs.LG · 2026-05-11 · unverdicted · novelty 6.0

Tail-extrapolated estimators approximate best-of-N policy gradients from limited training rollouts by leveraging upper-tail reward statistics under structural assumptions.

Compute Aligned Training: Optimizing for Test Time Inference

cs.LG · 2026-04-27 · unverdicted · novelty 6.0

Compute Aligned Training derives new loss functions by modeling test-time strategies as operators on the base policy, yielding empirical gains in test-time compute scaling over standard SFT and RL.

citing papers explorer

Showing 2 of 2 citing papers.

What should post-training optimize? A test-time scaling law perspective cs.LG · 2026-05-11 · unverdicted · none · ref 22
Tail-extrapolated estimators approximate best-of-N policy gradients from limited training rollouts by leveraging upper-tail reward statistics under structural assumptions.
Compute Aligned Training: Optimizing for Test Time Inference cs.LG · 2026-04-27 · unverdicted · none · ref 13
Compute Aligned Training derives new loss functions by modeling test-time strategies as operators on the base policy, yielding empirical gains in test-time compute scaling over standard SFT and RL.

Optimizing language models for inference time objectives using reinforcement learning

fields

years

verdicts

representative citing papers

citing papers explorer