2602.13498 , archivePrefix=

Peng Cheng, Jiucheng Zang, Qingnan Li, Liheng Ma, Yufei Cui, Yingxue Zhang · 2026 · arXiv 2602.13498

3 Pith papers cite this work. Polarity classification is still indexing.

3 Pith papers citing it

representative citing papers

Hierarchical Muon: Tiled Newton-Schulz Updates for Efficient Muon Optimization

math.NA · 2026-06-25 · unverdicted · novelty 7.0

HiMuon partitions momentum-gradient matrices into T x T tiles, runs independent Newton-Schulz iterations on each tile, and reassembles the results, reducing leading cost to O(H W T K) while defining a local rather than global matrix map.

Why Muon Outperforms Adam: A Curvature Perspective

cs.LG · 2026-06-03 · conditional · novelty 7.0

Muon outperforms Adam by reducing curvature penalty via lower Normalized Directional Sharpness, as shown via Taylor approximation on LLM training and proven on stylized quadratic problems with heterogeneous curvature.

Zeta: Dual Whitening for Matrix Optimization via Coordinate-Adaptive Preconditioning

cs.LG · 2026-06-12 · unverdicted · novelty 5.0

Zeta applies coordinate whitening followed by spectral whitening in a fixed order to reduce orthogonalization error in matrix optimization for neural networks.

citing papers explorer

Showing 3 of 3 citing papers after filters.

Hierarchical Muon: Tiled Newton-Schulz Updates for Efficient Muon Optimization math.NA · 2026-06-25 · unverdicted · none · ref 56
HiMuon partitions momentum-gradient matrices into T x T tiles, runs independent Newton-Schulz iterations on each tile, and reassembles the results, reducing leading cost to O(H W T K) while defining a local rather than global matrix map.
Why Muon Outperforms Adam: A Curvature Perspective cs.LG · 2026-06-03 · conditional · none · ref 132
Muon outperforms Adam by reducing curvature penalty via lower Normalized Directional Sharpness, as shown via Taylor approximation on LLM training and proven on stylized quadratic problems with heterogeneous curvature.
Zeta: Dual Whitening for Matrix Optimization via Coordinate-Adaptive Preconditioning cs.LG · 2026-06-12 · unverdicted · none · ref 18
Zeta applies coordinate whitening followed by spectral whitening in a fixed order to reduce orthogonalization error in matrix optimization for neural networks.

2602.13498 , archivePrefix=

fields

years

verdicts

representative citing papers

citing papers explorer