Tacos: Temporally- aligned audio captions for language-audio pretraining,

· 2025 · arXiv 2505.07609

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

A Closer Look at Failure Modes in Temporal Understanding of Large Audio-Language Models

cs.SD · 2026-06-16 · unverdicted · novelty 6.0

Introduces a benchmark for mechanistic analysis of temporal failures in LALMs and shows attention scaling at bottleneck layers improves accuracy from 55.9% to 59.1%.

Escape the Language Prior: Mitigating Late-Stage Modality Collapse in Audio Reasoning via Modality-Aware Policy Optimization

cs.CL · 2026-05-26 · unverdicted · novelty 5.0

MAPO is a dual-branch RL framework using modality relevance masks from cross-modal differential entropy and auxiliary attention losses to reduce late-stage modality collapse in audio reasoning models and improve benchmark results.

citing papers explorer

Showing 1 of 1 citing paper after filters.

Escape the Language Prior: Mitigating Late-Stage Modality Collapse in Audio Reasoning via Modality-Aware Policy Optimization cs.CL · 2026-05-26 · unverdicted · none · ref 14
MAPO is a dual-branch RL framework using modality relevance masks from cross-modal differential entropy and auxiliary attention losses to reduce late-stage modality collapse in audio reasoning models and improve benchmark results.

Tacos: Temporally- aligned audio captions for language-audio pretraining,

fields

years

verdicts

representative citing papers

citing papers explorer