arXiv preprint arXiv:2507.20804 (2025),https: //arxiv.org/abs/2507.20804

URLhttps://arxiv · 2025 · arXiv 2507.20804

3 Pith papers cite this work. Polarity classification is still indexing.

3 Pith papers citing it

read on arXiv browse 3 citing papers

citation-role summary

background 1

citation-polarity summary

background 1

representative citing papers

Task-Adaptive Retrieval over Agentic Multi-Modal Web Histories via Learned Graph Memory

cs.IR · 2026-04-09 · unverdicted · novelty 6.0

ACGM learns task-adaptive sparse graphs over multi-modal agent histories via policy-gradient optimization, reaching 82.7 nDCG@10 and 89.2% Precision@10 on WebShop, VisualWebArena, and Mind2Web while outperforming 19 baselines.

MG$^2$-RAG: Multi-Granularity Graph for Multimodal Retrieval-Augmented Generation

cs.IR · 2026-04-04 · unverdicted · novelty 6.0

MG²-RAG proposes a multi-granularity graph RAG framework that constructs hierarchical multimodal nodes via entity-driven visual grounding and performs structured retrieval, delivering SOTA results on four multimodal tasks with 43.3× faster graph construction.

Structured and Abstractive Reasoning on Multi-modal Relational Knowledge Images

cs.CV · 2025-10-22 · unverdicted · novelty 6.0

Authors build a synthetic data generator and two-stage training pipeline for structured abstractive reasoning on multi-modal relational knowledge images, releasing STAR-64K and showing 3B/7B models outperforming GPT-4o.

citing papers explorer

Showing 3 of 3 citing papers.

Task-Adaptive Retrieval over Agentic Multi-Modal Web Histories via Learned Graph Memory cs.IR · 2026-04-09 · unverdicted · none · ref 22
ACGM learns task-adaptive sparse graphs over multi-modal agent histories via policy-gradient optimization, reaching 82.7 nDCG@10 and 89.2% Precision@10 on WebShop, VisualWebArena, and Mind2Web while outperforming 19 baselines.
MG$^2$-RAG: Multi-Granularity Graph for Multimodal Retrieval-Augmented Generation cs.IR · 2026-04-04 · unverdicted · none · ref 65
MG²-RAG proposes a multi-granularity graph RAG framework that constructs hierarchical multimodal nodes via entity-driven visual grounding and performs structured retrieval, delivering SOTA results on four multimodal tasks with 43.3× faster graph construction.
Structured and Abstractive Reasoning on Multi-modal Relational Knowledge Images cs.CV · 2025-10-22 · unverdicted · none · ref 10
Authors build a synthetic data generator and two-stage training pipeline for structured abstractive reasoning on multi-modal relational knowledge images, releasing STAR-64K and showing 3B/7B models outperforming GPT-4o.

arXiv preprint arXiv:2507.20804 (2025),https: //arxiv.org/abs/2507.20804

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer