Detect, Disambiguate, and Translate: On-Demand Visual Reasoning for Multimodal Machine Translation with Large Vision-Language Models

Liu, Danyang, Kong, Fanjie, Sun, Xiaohang, Patil, Dhruva, Vajpayee, Avijit, Liu, Zhu · 2025 · DOI 10.18653/v1/2025.naacl-long.74

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

open at publisher browse 1 citing papers

representative citing papers

A Multimodal Dataset for Visually Grounded Ambiguity in Machine Translation

cs.CL · 2026-05-03 · unverdicted · novelty 6.0

VIDA provides 2,500 visually-dependent ambiguous MT instances and LLM-judge metrics; chain-of-thought SFT improves disambiguation accuracy over standard SFT, especially out-of-distribution.

citing papers explorer

Showing 1 of 1 citing paper.

A Multimodal Dataset for Visually Grounded Ambiguity in Machine Translation cs.CL · 2026-05-03 · unverdicted · none · ref 47
VIDA provides 2,500 visually-dependent ambiguous MT instances and LLM-judge metrics; chain-of-thought SFT improves disambiguation accuracy over standard SFT, especially out-of-distribution.

Detect, Disambiguate, and Translate: On-Demand Visual Reasoning for Multimodal Machine Translation with Large Vision-Language Models

fields

years

verdicts

representative citing papers

citing papers explorer