Under the standard deep-learning storage layout W=θ ⊤ ∈R dout×din, this corresponds to row normalization of the stored hidden-weight matrix

write linear weights as θ∈R din×dout, define column-wise normalization along the output dimension

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

cs.LG · 2026-03-30 · unverdicted · novelty 6.0

MuonEq introduces pre-orthogonalization equilibration schemes that improve Muon optimizer performance during large language model pretraining.

Showing 1 of 1 citing paper.

MuonEq: Balancing Before Orthogonalization with Lightweight Equilibration cs.LG · 2026-03-30 · unverdicted · none · ref 56
MuonEq introduces pre-orthogonalization equilibration schemes that improve Muon optimizer performance during large language model pretraining.