arXiv preprint arXiv:2402.14951 , year=

In-context learning of a linear Transformer block: benefits of the MLP component, one-step GD initialization , author= · arXiv 2402.14951

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

read on arXiv browse 2 citing papers

representative citing papers

Looped Transformers with Layer Normalization Provably Learn the Power Method

cs.LG · 2026-05-30 · unverdicted · novelty 8.0

Looped linear transformers with LN provably converge via GD to implement the power method on principal component prediction.

Transformers Efficiently Perform In-Context Logistic Regression via Normalized Gradient Descent

cs.LG · 2026-05-07 · conditional · novelty 7.0

Multi-layer transformers can implement in-context logistic regression by performing normalized gradient descent steps layer by layer, obtained via supervised training of a single attention layer followed by recurrent application with convergence and OOD guarantees.

citing papers explorer

Showing 2 of 2 citing papers.

Looped Transformers with Layer Normalization Provably Learn the Power Method cs.LG · 2026-05-30 · unverdicted · none · ref 61
Looped linear transformers with LN provably converge via GD to implement the power method on principal component prediction.
Transformers Efficiently Perform In-Context Logistic Regression via Normalized Gradient Descent cs.LG · 2026-05-07 · conditional · none · ref 56
Multi-layer transformers can implement in-context logistic regression by performing normalized gradient descent steps layer by layer, obtained via supervised training of a single attention layer followed by recurrent application with convergence and OOD guarantees.

arXiv preprint arXiv:2402.14951 , year=

fields

years

verdicts

representative citing papers

citing papers explorer