arXiv preprint arXiv:2406.03495 , year=

Grokking Modular Polynomials , author= · 2024 · arXiv 2406.03495

3 Pith papers cite this work. Polarity classification is still indexing.

3 Pith papers citing it

read on arXiv browse 3 citing papers

citation-role summary

background 1

citation-polarity summary

support 1

representative citing papers

Feature Learning in Linear-Width Two-Layer Networks: Two vs. One Step of Gradient Descent

stat.ML · 2026-05-18 · unverdicted · novelty 7.0 · 2 refs

Two steps of gradient descent on first-layer weights in linear-width two-layer networks produce a spiked random matrix with floor(alpha2/(1/2-alpha1)) outliers, each a learned direction, and batch reuse allows capturing directions with information exponent exceeding one.

Egalitarian Gradient Descent: A Simple Approach to Accelerated Grokking

cs.LG · 2025-10-06 · unverdicted · novelty 7.0

EGD equalizes gradient speeds across singular directions, eliminating or shortening grokking plateaus on modular addition and sparse parity problems.

Learning Large-Scale Modular Addition with an Auxiliary Modulus

cs.LG · 2026-05-08 · unverdicted · novelty 6.0

An auxiliary modulus during training reduces wrap-around issues and preserves train-test input distributions, enabling better accuracy and sample efficiency for large N and q in modular addition learning.

citing papers explorer

Showing 3 of 3 citing papers.

Feature Learning in Linear-Width Two-Layer Networks: Two vs. One Step of Gradient Descent stat.ML · 2026-05-18 · unverdicted · none · ref 199 · 2 links
Two steps of gradient descent on first-layer weights in linear-width two-layer networks produce a spiked random matrix with floor(alpha2/(1/2-alpha1)) outliers, each a learned direction, and batch reuse allows capturing directions with information exponent exceeding one.
Egalitarian Gradient Descent: A Simple Approach to Accelerated Grokking cs.LG · 2025-10-06 · unverdicted · none · ref 2
EGD equalizes gradient speeds across singular directions, eliminating or shortening grokking plateaus on modular addition and sparse parity problems.
Learning Large-Scale Modular Addition with an Auxiliary Modulus cs.LG · 2026-05-08 · unverdicted · none · ref 8
An auxiliary modulus during training reduces wrap-around issues and preserves train-test input distributions, enabling better accuracy and sample efficiency for large N and q in modular addition learning.

arXiv preprint arXiv:2406.03495 , year=

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer