The marginal value of momentum for small learning rate SGD

Runzhe Wang, Sadhika Malladi, Tianhao Wang, Kaifeng Lyu, Zhiyuan Li · 2023 · arXiv 2307.15196

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

Momentum Further Constrains Sharpness at the Edge of Stochastic Stability

cs.LG · 2026-04-15 · unverdicted · novelty 7.0

Momentum SGD exhibits two distinct EoSS regimes for batch sharpness, stabilizing at 2(1-β)/η for small batches and 2(1+β)/η for large batches, aligning with linear stability thresholds.

Perfect Parallelization in Mini-Batch SGD with Classical Momentum Acceleration

cs.LG · 2026-05-18 · unverdicted · novelty 6.0

Classical momentum acceleration in mini-batch SGD for quadratics is proportional to batch size up to saturation, enabling perfect parallelization under minimal noise assumptions.

citing papers explorer

Showing 2 of 2 citing papers.

Momentum Further Constrains Sharpness at the Edge of Stochastic Stability cs.LG · 2026-04-15 · unverdicted · none · ref 43
Momentum SGD exhibits two distinct EoSS regimes for batch sharpness, stabilizing at 2(1-β)/η for small batches and 2(1+β)/η for large batches, aligning with linear stability thresholds.
Perfect Parallelization in Mini-Batch SGD with Classical Momentum Acceleration cs.LG · 2026-05-18 · unverdicted · none · ref 56
Classical momentum acceleration in mini-batch SGD for quadratics is proportional to batch size up to saturation, enabling perfect parallelization under minimal noise assumptions.

The marginal value of momentum for small learning rate SGD

fields

years

verdicts

representative citing papers

citing papers explorer