A bayesian approach for policy learning from trajectory preference queries

Aaron Wilson, Alan Fern, Prasad Tadepalli · 2012

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

Direct Preference Optimization for Primitive-Enabled Hierarchical RL: A Bilevel Approach

cs.LG · 2024-11-01 · unverdicted · novelty 6.0

DIPPER uses bi-level optimization and DPO to train the higher-level policy from stationary preference comparisons and value regularization, claiming up to 40% gains on robotic navigation and manipulation tasks while introducing metrics for non-stationarity and infeasible subgoals.

citing papers explorer

Showing 1 of 1 citing paper.

Direct Preference Optimization for Primitive-Enabled Hierarchical RL: A Bilevel Approach cs.LG · 2024-11-01 · unverdicted · none · ref 38
DIPPER uses bi-level optimization and DPO to train the higher-level policy from stationary preference comparisons and value regularization, claiming up to 40% gains on robotic navigation and manipulation tasks while introducing metrics for non-stationarity and infeasible subgoals.

A bayesian approach for policy learning from trajectory preference queries

fields

years

verdicts

representative citing papers

citing papers explorer