Training language models to follow instructions with human 14 feedback

Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Weli · 2022

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

Test-Time Safety Alignment

cs.CL · 2026-04-28 · unverdicted · novelty 6.0

Optimizing input embeddings sub-lexically via black-box zeroth-order gradients neutralizes all safety-flagged responses from aligned models on standard benchmarks.

citing papers explorer

Showing 1 of 1 citing paper.

Test-Time Safety Alignment cs.CL · 2026-04-28 · unverdicted · none · ref 29
Optimizing input embeddings sub-lexically via black-box zeroth-order gradients neutralizes all safety-flagged responses from aligned models on standard benchmarks.

Training language models to follow instructions with human 14 feedback

fields

years

verdicts

representative citing papers

citing papers explorer