arXiv preprint arXiv:1611.03852 , year=

Finn, C · 2016 · arXiv 1611.03852

3 Pith papers cite this work. Polarity classification is still indexing.

3 Pith papers citing it

representative citing papers

Trust Region Inverse Reinforcement Learning: Explicit Dual Ascent using Local Policy Updates

cs.LG · 2026-05-10 · unverdicted · novelty 7.0

TRIRL enables explicit dual-ascent IRL via trust-region local policy updates that guarantee monotonic improvement without full RL solves per iteration, outperforming prior imitation methods by 2.4x aggregate IQM and recovering generalizable rewards.

Stage Light is Sequence$^2$: Multi-Light Control via Imitation Learning

cs.MM · 2026-05-05 · unverdicted · novelty 6.0

SeqLight maps music to multi-light HSV control via SkipBART for global color prediction followed by hybrid imitation learning in a goal-conditioned MDP to decompose colors across lights.

Reinforcement Learning and Control as Probabilistic Inference: Tutorial and Review

cs.LG · 2018-05-02 · unverdicted · novelty 3.0

Maximum entropy reinforcement learning is equivalent to exact probabilistic inference for deterministic dynamics and variational inference for stochastic dynamics.

citing papers explorer

Showing 3 of 3 citing papers.

Trust Region Inverse Reinforcement Learning: Explicit Dual Ascent using Local Policy Updates cs.LG · 2026-05-10 · unverdicted · none · ref 26
TRIRL enables explicit dual-ascent IRL via trust-region local policy updates that guarantee monotonic improvement without full RL solves per iteration, outperforming prior imitation methods by 2.4x aggregate IQM and recovering generalizable rewards.
Stage Light is Sequence$^2$: Multi-Light Control via Imitation Learning cs.MM · 2026-05-05 · unverdicted · none · ref 13
SeqLight maps music to multi-light HSV control via SkipBART for global color prediction followed by hybrid imitation learning in a goal-conditioned MDP to decompose colors across lights.
Reinforcement Learning and Control as Probabilistic Inference: Tutorial and Review cs.LG · 2018-05-02 · unverdicted · none · ref 8
Maximum entropy reinforcement learning is equivalent to exact probabilistic inference for deterministic dynamics and variational inference for stochastic dynamics.

arXiv preprint arXiv:1611.03852 , year=

fields

years

verdicts

representative citing papers

citing papers explorer