Conservative q-learning for offline reinforcement learning

Aviral Kumar, Aurick Zhou, George Tucker, Sergey Levine · 2020

3 Pith papers cite this work. Polarity classification is still indexing.

3 Pith papers citing it

browse 3 citing papers

citation-role summary

baseline 1

citation-polarity summary

baseline 1

representative citing papers

Zero-shot Imitation Learning by Latent Topology Mapping

cs.LG · 2026-05-08 · unverdicted · novelty 7.0

ZALT learns latent hub states and hub-to-hub dynamics from demonstrations to plan zero-shot solutions for unseen start-goal tasks, achieving 55% success in a 3D maze versus 6% for baselines.

Mixed-Density Diffuser: Efficient Planning with Non-Uniform Temporal Resolution

cs.AI · 2025-10-27 · unverdicted · novelty 7.0

Mixed-Density Diffuser achieves new state-of-the-art results on D4RL benchmarks by allowing non-uniform temporal resolution in diffusion planning.

Generalisation in Multitask Fitted Q-Iteration and Offline Q-learning

cs.LG · 2025-12-23 · unverdicted · novelty 6.0

Multitask offline fitted Q-iteration achieves 1/sqrt(nT) generalization rates under shared low-rank structure and reduces complexity for new tasks by reusing the upstream representation.

citing papers explorer

Showing 3 of 3 citing papers.

Zero-shot Imitation Learning by Latent Topology Mapping cs.LG · 2026-05-08 · unverdicted · none · ref 34
ZALT learns latent hub states and hub-to-hub dynamics from demonstrations to plan zero-shot solutions for unseen start-goal tasks, achieving 55% success in a 3D maze versus 6% for baselines.
Mixed-Density Diffuser: Efficient Planning with Non-Uniform Temporal Resolution cs.AI · 2025-10-27 · unverdicted · none · ref 2
Mixed-Density Diffuser achieves new state-of-the-art results on D4RL benchmarks by allowing non-uniform temporal resolution in diffusion planning.
Generalisation in Multitask Fitted Q-Iteration and Offline Q-learning cs.LG · 2025-12-23 · unverdicted · none · ref 14
Multitask offline fitted Q-iteration achieves 1/sqrt(nT) generalization rates under shared low-rank structure and reduces complexity for new tasks by reusing the upstream representation.

Conservative q-learning for offline reinforcement learning

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer