Teaching Vision-Language Models to Ask: Resolving Ambiguity in Visual Questions

Jian, Pu, Yu, Donglei, Yang, Wen, Ren, Shuo, Zhang, Jiajun · 2025 · DOI 10.18653/v1/2025.acl-long.182

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

open at publisher browse 1 citing papers

representative citing papers

PGT: Procedurally Generated Tasks for improving visual grounding in MLLMs

cs.CV · 2026-05-22 · unverdicted · novelty 6.0

PGT generates synthetic tasks via geometric overlays on images to supply dense visual supervision, improving spatial and relational understanding in MLLMs by up to 20% on targeted benchmarks.

citing papers explorer

Showing 1 of 1 citing paper.

PGT: Procedurally Generated Tasks for improving visual grounding in MLLMs cs.CV · 2026-05-22 · unverdicted · none · ref 46
PGT generates synthetic tasks via geometric overlays on images to supply dense visual supervision, improving spatial and relational understanding in MLLMs by up to 20% on targeted benchmarks.

Teaching Vision-Language Models to Ask: Resolving Ambiguity in Visual Questions

fields

years

verdicts

representative citing papers

citing papers explorer