Weak-sigreg: Covariance regularization for stable deep learning

Habibullah Akbar · arXiv 2603.05924

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

ATMA: Length-Invariant Language Modeling via Polar Attention and Gated-Delta Compression Memory

cs.LG · 2026-06-23 · unverdicted · novelty 5.0

ATMA combines polar attention (direction + bounded-magnitude channels) with gated-delta recurrent compression to achieve length-invariant perplexity and >90% needle retrieval at 64K tokens after 2K training.

citing papers explorer

Showing 1 of 1 citing paper.

ATMA: Length-Invariant Language Modeling via Polar Attention and Gated-Delta Compression Memory cs.LG · 2026-06-23 · unverdicted · none · ref 1
ATMA combines polar attention (direction + bounded-magnitude channels) with gated-delta recurrent compression to achieve length-invariant perplexity and >90% needle retrieval at 64K tokens after 2K training.

Weak-sigreg: Covariance regularization for stable deep learning

fields

years

verdicts

representative citing papers

citing papers explorer