Non-Uniform Noise-to-Signal Ratio in the REINFORCE Policy-Gradient Estimator

Haoyu Han, Heng Yang · 2026 · arXiv 2602.01460

3 Pith papers cite this work. Polarity classification is still indexing.

3 Pith papers citing it

representative citing papers

Quality-Aware Exploration Budget Allocation for Cooperative Multi-Agent Reinforcement Learning

cs.MA · 2026-05-03 · unverdicted · novelty 7.0

A quality-aware exploration method using return-conditioned sigmoid scheduling and per-agent RSQ metrics achieves top-tier returns on seven cooperative MARL benchmarks.

On Training in Imagination

cs.LG · 2026-05-07 · unverdicted · novelty 6.0

The work derives the optimal ratio of dynamics-to-reward samples that minimizes a bound on return error and characterizes the tradeoff between noisy but cheap rewards versus accurate but expensive ones in imagination-based policy optimization.

Tempered Sequential Monte Carlo for Trajectory and Policy Optimization with Differentiable Dynamics

cs.LG · 2026-04-23 · unverdicted · novelty 6.0 · 2 refs

Tempered sequential Monte Carlo samples from a Boltzmann-tilted distribution over controllers to optimize trajectories and policies under differentiable dynamics.

citing papers explorer

Showing 3 of 3 citing papers.

Quality-Aware Exploration Budget Allocation for Cooperative Multi-Agent Reinforcement Learning cs.MA · 2026-05-03 · unverdicted · none · ref 45
A quality-aware exploration method using return-conditioned sigmoid scheduling and per-agent RSQ metrics achieves top-tier returns on seven cooperative MARL benchmarks.
On Training in Imagination cs.LG · 2026-05-07 · unverdicted · none · ref 36
The work derives the optimal ratio of dynamics-to-reward samples that minimizes a bound on return error and characterizes the tradeoff between noisy but cheap rewards versus accurate but expensive ones in imagination-based policy optimization.
Tempered Sequential Monte Carlo for Trajectory and Policy Optimization with Differentiable Dynamics cs.LG · 2026-04-23 · unverdicted · none · ref 39 · 2 links
Tempered sequential Monte Carlo samples from a Boltzmann-tilted distribution over controllers to optimize trajectories and policies under differentiable dynamics.

Non-Uniform Noise-to-Signal Ratio in the REINFORCE Policy-Gradient Estimator

fields

years

verdicts

representative citing papers

citing papers explorer