Paper2poster: Towards multimodal poster automation from scientific papers,

· 2025 · arXiv 2505.21497

10 Pith papers cite this work. Polarity classification is still indexing.

10 Pith papers citing it

read on arXiv browse 10 citing papers

citation-role summary

background 3

citation-polarity summary

background 3

representative citing papers

PaperFit: Vision-in-the-Loop Typesetting Optimization for Scientific Documents

cs.AI · 2026-05-11 · unverdicted · novelty 7.0

PaperFit uses rendered page images in a closed loop to diagnose and repair typesetting defects in LaTeX documents, outperforming baselines on a new benchmark of 200 papers.

FORGE: Fine-grained Multimodal Evaluation for Manufacturing Scenarios

cs.CV · 2026-04-08 · conditional · novelty 7.0

FORGE benchmark shows domain-specific knowledge, not visual grounding, is the main bottleneck for MLLMs in manufacturing, with SFT on a 3B model delivering up to 90.8% relative accuracy improvement on held-out scenarios.

X+Slides: Benchmarking Audience-Conditioned Slide Generation

cs.AI · 2026-06-17 · unverdicted · novelty 6.0

X+Slides is a new benchmark that measures audience-conditioned slide generation quality via 8,133 source-grounded probes across 113 topics, reporting Audience Coverage, Domain-wise Coverage, Efficiency, and Correctness on three existing systems.

Self-Distillation Policy Optimization via Visual Feedback: Bridging Code and Visual Artifacts

cs.AI · 2026-06-09 · unverdicted · novelty 6.0

Visual-SDPO distills visual feedback from rendered code outputs into a student policy via grounded credit weighting and GRPO, yielding over 10-point gains on chart/UI/slide benchmarks.

Demo2Tutorial: From Human Experience to Multimodal Software Tutorials

cs.CV · 2026-06-02 · unverdicted · novelty 6.0

Demo2Tutorial distills human screen recordings into hierarchical image-text tutorials that outperform human-authored ones on a documentation-derived benchmark and improve downstream human task speed and GUI-agent planning.

PresentAgent-2: Towards Generalist Multimodal Presentation Agents

cs.CV · 2026-05-12 · unverdicted · novelty 6.0

PresentAgent-2 generates query-driven multimodal presentation videos with research grounding, supporting single-speaker, multi-speaker discussion, and interactive question-answering modes.

Narrative-Driven Paper-to-Slide Generation via ArcDeck

cs.AI · 2026-04-13 · unverdicted · novelty 6.0

ArcDeck models paper-to-slide generation as narrative reconstruction using discourse parsing and multi-agent refinement, plus a new ArcBench benchmark, to improve flow and coherence over direct summarization.

VideoAgent: Personalized Synthesis of Scientific Videos

cs.AI · 2025-09-14 · unverdicted · novelty 6.0

VideoAgent is a modular framework that redefines scientific video synthesis as an intent-driven planning problem and introduces the SciVidEval benchmark for multimodal quality and pedagogical utility.

Personalization as Inverse Planning: Learning Latent Design Intents for Agentic Slide Generation via Structural Denoising

cs.AI · 2026-07-01 · unverdicted · novelty 5.0

SPIRE approximates page-level slide personalization by training agents to denoise corrupted slide structures via collaborative RL, claiming a proof of consistency as a surrogate for inverse planning.

PosterForest: Hierarchical Multi-Agent Collaboration for Scientific Poster Generation

cs.AI · 2025-08-29

citing papers explorer

Showing 10 of 10 citing papers.

PaperFit: Vision-in-the-Loop Typesetting Optimization for Scientific Documents cs.AI · 2026-05-11 · unverdicted · none · ref 155
PaperFit uses rendered page images in a closed loop to diagnose and repair typesetting defects in LaTeX documents, outperforming baselines on a new benchmark of 200 papers.
FORGE: Fine-grained Multimodal Evaluation for Manufacturing Scenarios cs.CV · 2026-04-08 · conditional · none · ref 30
FORGE benchmark shows domain-specific knowledge, not visual grounding, is the main bottleneck for MLLMs in manufacturing, with SFT on a 3B model delivering up to 90.8% relative accuracy improvement on held-out scenarios.
X+Slides: Benchmarking Audience-Conditioned Slide Generation cs.AI · 2026-06-17 · unverdicted · none · ref 14
X+Slides is a new benchmark that measures audience-conditioned slide generation quality via 8,133 source-grounded probes across 113 topics, reporting Audience Coverage, Domain-wise Coverage, Efficiency, and Correctness on three existing systems.
Self-Distillation Policy Optimization via Visual Feedback: Bridging Code and Visual Artifacts cs.AI · 2026-06-09 · unverdicted · none · ref 21
Visual-SDPO distills visual feedback from rendered code outputs into a student policy via grounded credit weighting and GRPO, yielding over 10-point gains on chart/UI/slide benchmarks.
Demo2Tutorial: From Human Experience to Multimodal Software Tutorials cs.CV · 2026-06-02 · unverdicted · none · ref 20
Demo2Tutorial distills human screen recordings into hierarchical image-text tutorials that outperform human-authored ones on a documentation-derived benchmark and improve downstream human task speed and GUI-agent planning.
PresentAgent-2: Towards Generalist Multimodal Presentation Agents cs.CV · 2026-05-12 · unverdicted · none · ref 1
PresentAgent-2 generates query-driven multimodal presentation videos with research grounding, supporting single-speaker, multi-speaker discussion, and interactive question-answering modes.
Narrative-Driven Paper-to-Slide Generation via ArcDeck cs.AI · 2026-04-13 · unverdicted · none · ref 6
ArcDeck models paper-to-slide generation as narrative reconstruction using discourse parsing and multi-agent refinement, plus a new ArcBench benchmark, to improve flow and coherence over direct summarization.
VideoAgent: Personalized Synthesis of Scientific Videos cs.AI · 2025-09-14 · unverdicted · none · ref 13
VideoAgent is a modular framework that redefines scientific video synthesis as an intent-driven planning problem and introduces the SciVidEval benchmark for multimodal quality and pedagogical utility.
Personalization as Inverse Planning: Learning Latent Design Intents for Agentic Slide Generation via Structural Denoising cs.AI · 2026-07-01 · unverdicted · none · ref 30
SPIRE approximates page-level slide personalization by training agents to denoise corrupted slide structures via collaborative RL, claiming a proof of consistency as a surrogate for inverse planning.
PosterForest: Hierarchical Multi-Agent Collaboration for Scientific Poster Generation cs.AI · 2025-08-29 · unreviewed · ref 11

Paper2poster: Towards multimodal poster automation from scientific papers,

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer