Modular addition without black-boxes: Compressing explanations of mlps that compute numerical integration, 2024

Chun Hei Yip, Rajashree Agrawal, Lawrence Chan, Jason Gross · 2024 · arXiv 2412.03773

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

Interactions Between Crosscoder Features: A Compact Proofs Perspective

cs.LG · 2026-06-08 · unverdicted · novelty 6.0

Derives an interaction measure between crosscoder features from reconstruction error in compact proofs and applies it to produce computationally sparse crosscoders retaining 60% MLP performance with single-feature selection versus 10% for standard crosscoders.

citing papers explorer

Showing 1 of 1 citing paper.

Interactions Between Crosscoder Features: A Compact Proofs Perspective cs.LG · 2026-06-08 · unverdicted · none · ref 39
Derives an interaction measure between crosscoder features from reconstruction error in compact proofs and applies it to produce computationally sparse crosscoders retaining 60% MLP performance with single-feature selection versus 10% for standard crosscoders.

Modular addition without black-boxes: Compressing explanations of mlps that compute numerical integration, 2024

fields

years

verdicts

representative citing papers

citing papers explorer