{"total":13,"items":[{"citing_arxiv_id":"2606.22905","ref_index":45,"ref_count":1,"confidence":0.98,"is_internal_anchor":true,"paper_title":"InteractiveAvatar: Real-Time Streaming Video Generation for Consistent and Intent-Aware Avatars","primary_cat":"cs.CV","submitted_at":"2026-06-22T06:41:17+00:00","verdict":"UNVERDICTED","verdict_confidence":"LOW","novelty_score":6.0,"formal_verification":"none","one_line_summary":"InteractiveAvatar is a real-time infinite-streaming avatar video generation system using autoregressive distillation, Long-Short Visual Memory for consistency, and a Reasoning-Reaction Module for intent-aware interactions.","context_count":0,"top_context_role":null,"top_context_polarity":null,"context_text":null},{"citing_arxiv_id":"2606.07326","ref_index":61,"ref_count":1,"confidence":0.98,"is_internal_anchor":true,"paper_title":"AnchorWorld: Embodied Egocentric World Simulation with View-based Evolution Customization","primary_cat":"cs.CV","submitted_at":"2026-06-05T14:43:13+00:00","verdict":"UNVERDICTED","verdict_confidence":"LOW","novelty_score":5.0,"formal_verification":"none","one_line_summary":"AnchorWorld proposes a simulation framework that adds exogenous viewpoint supervision for full-body grounding and anchor-view text customization for dynamic world evolution in egocentric settings.","context_count":0,"top_context_role":null,"top_context_polarity":null,"context_text":null},{"citing_arxiv_id":"2606.04527","ref_index":47,"ref_count":1,"confidence":0.98,"is_internal_anchor":true,"paper_title":"Echo-Infinity: Learning Evolving Memory for Real-Time Infinite Video Generation","primary_cat":"cs.MM","submitted_at":"2026-06-03T07:09:01+00:00","verdict":"UNVERDICTED","verdict_confidence":"LOW","novelty_score":6.0,"formal_verification":"none","one_line_summary":"Echo-Infinity replaces handcrafted KV-cache schedules with end-to-end optimized Memory Queries and a Unified Relative RoPE recipe to support real-time infinite video generation in diffusion transformers.","context_count":0,"top_context_role":null,"top_context_polarity":null,"context_text":null},{"citing_arxiv_id":"2606.02553","ref_index":63,"ref_count":1,"confidence":0.98,"is_internal_anchor":true,"paper_title":"LongLive-RAG: A General Retrieval-Augmented Framework for Long Video Generation","primary_cat":"cs.CV","submitted_at":"2026-06-01T17:50:49+00:00","verdict":"UNVERDICTED","verdict_confidence":"LOW","novelty_score":7.0,"formal_verification":"none","one_line_summary":"LongLive-RAG formulates long video generation as retrieval-augmented generation by treating self-generated latents as a dynamic searchable history and adding a Window Temporal Delta Loss for better retrieval.","context_count":0,"top_context_role":null,"top_context_polarity":null,"context_text":null},{"citing_arxiv_id":"2605.30519","ref_index":22,"ref_count":1,"confidence":0.98,"is_internal_anchor":true,"paper_title":"OmniMem: Scalable and Adaptive Memory Retrieval for Long Video Generation","primary_cat":"cs.CV","submitted_at":"2026-05-28T19:56:00+00:00","verdict":"UNVERDICTED","verdict_confidence":"LOW","novelty_score":6.0,"formal_verification":"none","one_line_summary":"OmniMem enables scalable long video generation via adaptive sparse KV retrieval that addresses local bias and union explosion while preserving explicit historical access.","context_count":0,"top_context_role":null,"top_context_polarity":null,"context_text":null},{"citing_arxiv_id":"2605.21028","ref_index":20,"ref_count":2,"confidence":0.98,"is_internal_anchor":true,"paper_title":"DySink: Dynamic Frame Sinks for Autoregressive Long Video Generation","primary_cat":"cs.CV","submitted_at":"2026-05-20T11:01:01+00:00","verdict":"UNVERDICTED","verdict_confidence":"LOW","novelty_score":7.0,"formal_verification":"none","one_line_summary":"DySink maintains a memory bank and retrieves relevant historical frames as dynamic sinks while using an anomaly gate to suppress collapse, yielding higher temporal quality and dynamic degree on minute-long videos.","context_count":0,"top_context_role":null,"top_context_polarity":null,"context_text":null},{"citing_arxiv_id":"2605.20910","ref_index":37,"ref_count":1,"confidence":0.9,"is_internal_anchor":true,"paper_title":"FlowLong: Inference-time Long Video Generation via Manifold-constrained Tweedie Matching","primary_cat":"cs.CV","submitted_at":"2026-05-20T08:55:37+00:00","verdict":"UNVERDICTED","verdict_confidence":"LOW","novelty_score":6.0,"formal_verification":"none","one_line_summary":"FlowLong generates videos several times longer than native model windows by blending adjacent predictions with Tweedie matching to enforce manifold and temporal consistency while using stochastic noise injection early and deterministic sampling later.","context_count":0,"top_context_role":null,"top_context_polarity":null,"context_text":null},{"citing_arxiv_id":"2605.18733","ref_index":52,"ref_count":1,"confidence":0.9,"is_internal_anchor":true,"paper_title":"Advancing Narrative Long Video Generation via Training-Free Identity-Aware Memory","primary_cat":"cs.CV","submitted_at":"2026-05-18T17:54:34+00:00","verdict":"UNVERDICTED","verdict_confidence":"LOW","novelty_score":6.0,"formal_verification":"none","one_line_summary":"IAMFlow is a training-free identity-aware memory system that tracks entities via LLM global ID assignment and VLM frame verification to reduce identity drift in narrative long video generation from shifting prompts.","context_count":0,"top_context_role":null,"top_context_polarity":null,"context_text":null},{"citing_arxiv_id":"2605.15190","ref_index":30,"ref_count":1,"confidence":0.98,"is_internal_anchor":true,"paper_title":"RAVEN: Real-time Autoregressive Video Extrapolation with Consistency-model GRPO","primary_cat":"cs.CV","submitted_at":"2026-05-14T17:59:30+00:00","verdict":"UNVERDICTED","verdict_confidence":"LOW","novelty_score":6.0,"formal_verification":"none","one_line_summary":"RAVEN aligns training and inference for causal autoregressive video diffusion via interleaved rollout repacking and introduces CM-GRPO for direct RL on consistency-model kernels, claiming better quality than recent baselines.","context_count":0,"top_context_role":null,"top_context_polarity":null,"context_text":null},{"citing_arxiv_id":"2605.15042","ref_index":54,"ref_count":1,"confidence":0.98,"is_internal_anchor":true,"paper_title":"EverAnimate: Minute-Scale Human Animation via Latent Flow Restoration","primary_cat":"cs.CV","submitted_at":"2026-05-14T16:36:34+00:00","verdict":"UNVERDICTED","verdict_confidence":"LOW","novelty_score":6.0,"formal_verification":"none","one_line_summary":"EverAnimate restores drifted latent flow trajectories in chunked video generation via persistent latent propagation and restorative flow matching, achieving measurable gains in PSNR, SSIM, LPIPS, and FID over prior long-animation methods with only LoRA tuning.","context_count":0,"top_context_role":null,"top_context_polarity":null,"context_text":null},{"citing_arxiv_id":"2604.27443","ref_index":70,"ref_count":1,"confidence":0.9,"is_internal_anchor":true,"paper_title":"ABC: Any-Subset Autoregression via Non-Markovian Diffusion Bridges in Continuous Time and Space","primary_cat":"cs.LG","submitted_at":"2026-04-30T05:29:06+00:00","verdict":"UNVERDICTED","verdict_confidence":"LOW","novelty_score":7.0,"formal_verification":"none","one_line_summary":"ABC enables any-subset autoregressive generation of continuous stochastic processes via non-Markovian diffusion bridges that track physical time and allow path-dependent conditioning.","context_count":1,"top_context_role":"other","top_context_polarity":"unclear","context_text":"neural information processing systems32 (2019). [68] Jiangning Zhang et al. \"Dtvnet: Dynamic time-lapse video generation via single still image\". In:European conference on computer vision. Springer. 2020, pp. 300-315. [69] Lvmin Zhang et al. \"Frame context packing and drift prevention in next-frame-prediction video diffusion models\". In:arXiv preprint arXiv:2504.12626(2025). [70] Lvmin Zhang et al. \"Pretraining Frame Preservation in Autoregressive Video Memory Com- pression\". In:arXiv preprint arXiv:2512.23851(2025). [71] Linqi Zhou et al. \"Denoising diffusion bridge models\". In:arXiv preprint arXiv:2309.16948 (2023). [72] Hao Zhu et al. \"CelebV-HQ: A large-scale video facial attributes dataset\". In:European conference on computer vision."},{"citing_arxiv_id":"2604.15911","ref_index":183,"ref_count":1,"confidence":0.9,"is_internal_anchor":true,"paper_title":"Efficient Video Diffusion Models: Advancements and Challenges","primary_cat":"cs.CV","submitted_at":"2026-04-17T10:11:39+00:00","verdict":"UNVERDICTED","verdict_confidence":"LOW","novelty_score":7.0,"formal_verification":"none","one_line_summary":"A survey that groups efficient video diffusion methods into four paradigms—step distillation, efficient attention, model compression, and cache/trajectory optimization—and outlines open challenges for practical use.","context_count":1,"top_context_role":"background","top_context_polarity":"background","context_text":"FlashVideo: Flowing Fidelity to Detail for Efficient High-Resolution Video Generation. arXiv:2502.05179 https://arxiv.org/abs/2502.05179 [182] Yabo Zhang, Yuxiang Wei, Dongsheng Jiang, Xiaopeng Zhang, Wangmeng Zuo, and Qi Tian. 2023. ControlVideo: Training-free Controllable Text-to-Video Generation. arXiv:2305.13077 https://arxiv.org/abs/2305.13077 [183] Yuechen Zhang, Jinbo Xing, Bin Xia, Shaoteng Liu, Bohao Peng, Xin Tao, Pengfei Wan, Eric Lo, and Jiaya Jia. 2025. Training-Free Efficient Video Generation via Dynamic Token Carving. arXiv:2505.16864 https://arxiv.org/abs/2505.16864 [184] Sijie Zhao, Yong Zhang, Xiaodong Cun, Shaoshu Yang, Muyao Niu, Xiaoyu Li, Wenbo Hu, and Ying Shan. 2024. CV-VAE: A Compatible"},{"citing_arxiv_id":"2604.06939","ref_index":32,"ref_count":1,"confidence":0.9,"is_internal_anchor":true,"paper_title":"Grounded Forcing: Bridging Time-Independent Semantics and Proximal Dynamics in Autoregressive Video Synthesis","primary_cat":"cs.CV","submitted_at":"2026-04-08T11:03:22+00:00","verdict":"UNVERDICTED","verdict_confidence":"LOW","novelty_score":7.0,"formal_verification":"none","one_line_summary":"Grounded Forcing introduces dual memory caching, reference-based positional embeddings, and proximity-weighted recaching to bridge stable semantics with local dynamics, improving long-range consistency in autoregressive video synthesis.","context_count":1,"top_context_role":"background","top_context_polarity":"background","context_text":"Block-Relativistic RoPE, reformulating temporal encoding as a moving reference frame to enable infinite-horizon generation. However, as a purely inference-time adaptation, it inherits the base model's semantic drift due to the lack of training- stage semantic anchoring. Interactive and Controllable Long Video Generation.Interactive long video generation [32] enables user steering via streaming prompts and cinematic transitions, introducing three core challenges: prompt switching responsiveness (instant alignment with new prompts), fine-grained interactive control (adher- ing to new prompts without semantic contamination), and multi-shot transitions (abrupt scene cuts with global coherence). For prompt switching, KV cache re-"}],"limit":50,"offset":0}