Acting in delayed environments with non-stationary markov policies

Esther Derman, Gal Dalal, Shie Mannor · 2021 · arXiv 2101.11992

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

Model-Based Reinforcement Learning under Random Observation Delays

cs.LG · 2025-09-25 · unverdicted · novelty 6.0

A delay-aware model-based RL framework with sequential belief filtering handles random out-of-sequence observations in POMDPs and outperforms MDP baselines while showing robustness to delay shifts.

Delayed homomorphic reinforcement learning for environments with delayed feedback

cs.LG · 2026-04-04 · unverdicted · novelty 5.0

DHRL defines belief-equivalence over augmented states to abstract away control-redundant states, preserving optimality in finite domains and yielding a deep actor-critic method that outperforms baselines on MuJoCo tasks.

citing papers explorer

Showing 2 of 2 citing papers.

Model-Based Reinforcement Learning under Random Observation Delays cs.LG · 2025-09-25 · unverdicted · none · ref 7
A delay-aware model-based RL framework with sequential belief filtering handles random out-of-sequence observations in POMDPs and outperforms MDP baselines while showing robustness to delay shifts.
Delayed homomorphic reinforcement learning for environments with delayed feedback cs.LG · 2026-04-04 · unverdicted · none · ref 1
DHRL defines belief-equivalence over augmented states to abstract away control-redundant states, preserving optimality in finite domains and yielding a deep actor-critic method that outperforms baselines on MuJoCo tasks.

Acting in delayed environments with non-stationary markov policies

fields

years

verdicts

representative citing papers

citing papers explorer