Ma et al.A Survey on Vision-Language-Action Models for Embodied AI

· 2024 · arXiv 2025.365058

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

VICX: Generalizable Robot Manipulation via Video Generation and In-Context Operator Network

cs.RO · 2026-06-10 · unverdicted · novelty 5.0

VICX decouples frozen video-based visual planning from in-context visual-to-trajectory mapping via V2T-ICON to achieve cross-task and cross-embodiment generalization in robot manipulation.

Vision-Language-Action Models: Experimental Insights from a Real-World UR5 Platform

cs.RO · 2026-06-29 · unverdicted · novelty 3.0

Real-robot trials with OpenVLA on a UR5e arm show consistent offline-to-closed-loop gaps driven by action semantics, coordinate conventions, temporal alignment, image preprocessing, and dataset quality rather than model capacity.

citing papers explorer

Showing 2 of 2 citing papers after filters.

VICX: Generalizable Robot Manipulation via Video Generation and In-Context Operator Network cs.RO · 2026-06-10 · unverdicted · none · ref 6
VICX decouples frozen video-based visual planning from in-context visual-to-trajectory mapping via V2T-ICON to achieve cross-task and cross-embodiment generalization in robot manipulation.
Vision-Language-Action Models: Experimental Insights from a Real-World UR5 Platform cs.RO · 2026-06-29 · unverdicted · none · ref 1
Real-robot trials with OpenVLA on a UR5e arm show consistent offline-to-closed-loop gaps driven by action semantics, coordinate conventions, temporal alignment, image preprocessing, and dataset quality rather than model capacity.

Ma et al.A Survey on Vision-Language-Action Models for Embodied AI

fields

years

verdicts

representative citing papers

citing papers explorer