Fluxmem: Adaptive hierarchical memory for streaming video understanding

Yiweng Xie, Bo He, Junke Wang, Xiangyu Zheng, Ziyi Ye, Zuxuan Wu · 2026 · arXiv 2603.02096

3 Pith papers cite this work. Polarity classification is still indexing.

3 Pith papers citing it

read on arXiv browse 3 citing papers

citation-role summary

baseline 1

citation-polarity summary

baseline 1

representative citing papers

Semantic-Aware Adaptive Visual Memory for Streaming Video Understanding

cs.CV · 2026-05-08 · unverdicted · novelty 7.0

SAVEMem improves streaming video understanding scores by adding semantic awareness to memory compression and query-adaptive retrieval without any model training.

VLA-Pro: Cross-Task Procedural Memory Transfer for Vision-Language-Action Models

cs.RO · 2026-05-28 · unverdicted · novelty 5.0

VLA-Pro improves cross-task generalization in vision-language-action models by storing task-specific LoRA adapters as procedural memories and retrieving/fusing them at inference.

MemEye: A Visual-Centric Evaluation Framework for Multimodal Agent Memory

cs.CV · 2026-05-14 · unverdicted · novelty 5.0

MemEye benchmark evaluates multimodal memory on visual granularity and evidence synthesis, finding that 13 methods across 4 VLMs struggle with fine details and temporal state changes.

citing papers explorer

Showing 3 of 3 citing papers.

Semantic-Aware Adaptive Visual Memory for Streaming Video Understanding cs.CV · 2026-05-08 · unverdicted · none · ref 37
SAVEMem improves streaming video understanding scores by adding semantic awareness to memory compression and query-adaptive retrieval without any model training.
VLA-Pro: Cross-Task Procedural Memory Transfer for Vision-Language-Action Models cs.RO · 2026-05-28 · unverdicted · none · ref 43
VLA-Pro improves cross-task generalization in vision-language-action models by storing task-specific LoRA adapters as procedural memories and retrieving/fusing them at inference.
MemEye: A Visual-Centric Evaluation Framework for Multimodal Agent Memory cs.CV · 2026-05-14 · unverdicted · none · ref 45
MemEye benchmark evaluates multimodal memory on visual granularity and evidence synthesis, finding that 13 methods across 4 VLMs struggle with fine details and temporal state changes.

Fluxmem: Adaptive hierarchical memory for streaming video understanding

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer