ArXiv:2405.17820 [cs]

Woo, S · 2024 · arXiv 2405.17820

5 Pith papers cite this work. Polarity classification is still indexing.

5 Pith papers citing it

read on arXiv browse 5 citing papers

citation-role summary

background 1 method 1

citation-polarity summary

background 1 use method 1

representative citing papers

Mitigating Multimodal Hallucination via Phase-wise Self-reward

cs.CV · 2026-04-20 · unverdicted · novelty 6.0

PSRD mitigates visual hallucinations in LVLMs via phase-wise self-reward decoding, cutting rates by 50% on LLaVA-1.5-7B and outperforming prior methods on five benchmarks.

Revisit What You See: Revealing Visual Semantics in Vision Tokens to Guide LVLM Decoding

cs.CV · 2025-06-11 · unverdicted · novelty 5.0

ReVisiT refines LVLM output distributions during decoding by projecting selected vision tokens into text space via context-aware constrained divergence minimization.

Mitigating Hallucination in Large Vision-Language Models via Adaptive Attention Calibration

cs.CV · 2025-05-27 · unverdicted · novelty 5.0

CAAC mitigates hallucinations in LVLMs via Visual-Token Calibration and Adaptive Attention Re-Scaling guided by model confidence, showing gains on CHAIR, AMBER, and POPE especially in long-form generation.

Hallucination of Multimodal Large Language Models: A Survey

cs.CV · 2024-04-29 · accept · novelty 5.0

The survey organizes causes of hallucinations in MLLMs, reviews evaluation benchmarks and metrics, and outlines mitigation approaches plus open questions.

Synergistic Perception-Reasoning Governance: Grounding Medical MLLMs with Verifiable Anatomical Evidence

cs.CV · 2026-06-30 · unverdicted · novelty 4.0

A dual-side evidence-injection method using ROI-guided modulation and semantic token mapping improves medical MLLM close-ended accuracy by up to 6% and cuts open-ended hallucinations by 35% across 5 datasets.

citing papers explorer

Showing 2 of 2 citing papers after filters.

Revisit What You See: Revealing Visual Semantics in Vision Tokens to Guide LVLM Decoding cs.CV · 2025-06-11 · unverdicted · none · ref 46
ReVisiT refines LVLM output distributions during decoding by projecting selected vision tokens into text space via context-aware constrained divergence minimization.
Mitigating Hallucination in Large Vision-Language Models via Adaptive Attention Calibration cs.CV · 2025-05-27 · unverdicted · none · ref 20
CAAC mitigates hallucinations in LVLMs via Visual-Token Calibration and Adaptive Attention Re-Scaling guided by model confidence, showing gains on CHAIR, AMBER, and POPE especially in long-form generation.

ArXiv:2405.17820 [cs]

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer