Cocktail: Mixing multi-modality controls for text-conditional image generation

Hu, M · 2023 · arXiv 2306.00964

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

InstanceControl: Controllable Complex Image Generation without Instance Labeling

cs.CV · 2026-06-30 · unverdicted · novelty 6.0

InstanceControl uses VLMs to auto-generate instance masks from text and visual conditions, with adaptive refinement, to enable controllable multi-object image generation without manual labeling.

ROPA: Synthetic Robot Pose Generation for RGB-D Bimanual Data Augmentation

cs.RO · 2025-09-23 · unverdicted · novelty 5.0

ROPA augments bimanual imitation learning datasets by generating synthetic RGB-D observations and actions via fine-tuned diffusion models with physical consistency constraints.

citing papers explorer

Showing 2 of 2 citing papers.

InstanceControl: Controllable Complex Image Generation without Instance Labeling cs.CV · 2026-06-30 · unverdicted · none · ref 13
InstanceControl uses VLMs to auto-generate instance masks from text and visual conditions, with adaptive refinement, to enable controllable multi-object image generation without manual labeling.
ROPA: Synthetic Robot Pose Generation for RGB-D Bimanual Data Augmentation cs.RO · 2025-09-23 · unverdicted · none · ref 69
ROPA augments bimanual imitation learning datasets by generating synthetic RGB-D observations and actions via fine-tuned diffusion models with physical consistency constraints.

Cocktail: Mixing multi-modality controls for text-conditional image generation

fields

years

verdicts

representative citing papers

citing papers explorer