Entropy-based exploration conduction for multi-step reasoning.arXiv preprint arXiv:2503.15848, 2025a

Zhang, J · arXiv 2503.15848

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

Learning to Explore: Scaling Agentic Reasoning via Exploration-Aware Policy Optimization

cs.AI · 2026-05-09 · unverdicted · novelty 5.0 · 2 refs

An exploration-aware policy optimization method lets LLM agents explore selectively via a variational-inference reward and action grouping, yielding consistent gains on text and GUI agent benchmarks.

StaRPO: Stability-Augmented Reinforcement Policy Optimization

cs.AI · 2026-04-10 · unverdicted · novelty 5.0

StaRPO improves LLM reasoning by adding autocorrelation function and path efficiency stability metrics to RL policy optimization, yielding higher accuracy and fewer logic errors on reasoning benchmarks.

citing papers explorer

Showing 2 of 2 citing papers.

Learning to Explore: Scaling Agentic Reasoning via Exploration-Aware Policy Optimization cs.AI · 2026-05-09 · unverdicted · none · ref 26 · 2 links
An exploration-aware policy optimization method lets LLM agents explore selectively via a variational-inference reward and action grouping, yielding consistent gains on text and GUI agent benchmarks.
StaRPO: Stability-Augmented Reinforcement Policy Optimization cs.AI · 2026-04-10 · unverdicted · none · ref 43
StaRPO improves LLM reasoning by adding autocorrelation function and path efficiency stability metrics to RL policy optimization, yielding higher accuracy and fewer logic errors on reasoning benchmarks.

Entropy-based exploration conduction for multi-step reasoning.arXiv preprint arXiv:2503.15848, 2025a

fields

years

verdicts

representative citing papers

citing papers explorer