MentisOculi: Revealing the limits of reasoning with mental imagery

Jana Zeller, Thaddäus Wiedemer, Fanfei Li, Thomas Klein, Prasanna Mayilvahanan, Matthias Bethge, Felix Wichmann, Ryan Cotterell, Wieland Brendel · 2026 · arXiv 2602.02465

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

open full Pith review browse 1 citing papers arXiv PDF

citation-role summary

dataset 1

citation-polarity summary

background 1

representative citing papers

Do multimodal models imagine electric sheep?

cs.CV · 2026-05-10 · conditional · novelty 6.0

Fine-tuning VLMs to output action sequences for puzzles causes emergent internal visual representations that improve performance when integrated into reasoning.

citing papers explorer

Showing 1 of 1 citing paper.

Do multimodal models imagine electric sheep? cs.CV · 2026-05-10 · conditional · none · ref 31 · internal anchor
Fine-tuning VLMs to output action sequences for puzzles causes emergent internal visual representations that improve performance when integrated into reasoning.

MentisOculi: Revealing the limits of reasoning with mental imagery

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer