arXiv preprint arXiv:2511.00794 , year=

Efficient Reinforcement Learning for Large Language Models with Intrinsic Exploration , author= · 2025 · arXiv 2511.00794

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

read on arXiv browse 2 citing papers

representative citing papers

Momentum for Reasoning: Dense Intrinsic Signals in Policy Optimization

cs.AI · 2026-06-07 · unverdicted · novelty 6.0

ISPO densifies GRPO rewards with sequence-level informativeness and token-level directional signals from policy probabilities to reduce zero-advantage collapse and hallucinated certainty on math benchmarks.

Right Makes Might: Aligning Verified Hidden States Empowers RL Reasoning

cs.LG · 2026-06-02 · unverdicted · novelty 6.0

Hidden-Align adds an auxiliary loss to align hidden states of correct reasoning paths at the pre-answer token in RLVR, improving pass@1 by 3.8-6.2 points over DAPO on eight math benchmarks for Qwen3 models of 1.7B-14B scale.

citing papers explorer

Showing 1 of 1 citing paper after filters.

Momentum for Reasoning: Dense Intrinsic Signals in Policy Optimization cs.AI · 2026-06-07 · unverdicted · none · ref 18
ISPO densifies GRPO rewards with sequence-level informativeness and token-level directional signals from policy probabilities to reduce zero-advantage collapse and hallucinated certainty on math benchmarks.

arXiv preprint arXiv:2511.00794 , year=

fields

years

verdicts

representative citing papers

citing papers explorer