Let’s verify step by step

Hunter Lightman, Vineet Kosaraju, Yuri Burda, Harrison Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, Karl Cobbe · 2024

3 Pith papers cite this work. Polarity classification is still indexing.

3 Pith papers citing it

browse 3 citing papers

citation-role summary

background 1 dataset 1

citation-polarity summary

background 1 use dataset 1

representative citing papers

Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers

cs.LG · 2025-10-01 · unverdicted · novelty 6.0

Derives backward and forward corrections for asymmetric verifier noise that improve RLVR performance on math reasoning tasks.

Search-o1: Agentic Search-Enhanced Large Reasoning Models

cs.AI · 2025-01-09 · unverdicted · novelty 6.0

Search-o1 integrates agentic retrieval-augmented generation and a Reason-in-Documents module into large reasoning models to dynamically supply missing knowledge and improve performance on complex science, math, coding, and QA tasks.

Hint Tuning: Less Data Makes Better Reasoners

cs.CL · 2026-05-09

citing papers explorer

Showing 3 of 3 citing papers.

Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers cs.LG · 2025-10-01 · unverdicted · none · ref 16
Derives backward and forward corrections for asymmetric verifier noise that improve RLVR performance on math reasoning tasks.
Search-o1: Agentic Search-Enhanced Large Reasoning Models cs.AI · 2025-01-09 · unverdicted · none · ref 38
Search-o1 integrates agentic retrieval-augmented generation and a Reason-in-Documents module into large reasoning models to dynamically supply missing knowledge and improve performance on complex science, math, coding, and QA tasks.
Hint Tuning: Less Data Makes Better Reasoners cs.CL · 2026-05-09 · unreviewed · ref 35

Let’s verify step by step

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer