arXiv preprint arXiv:2310.17230 , year=

Codebook Features: Sparse, Discrete Interpretability for Neural Networks , author= · 2023 · arXiv 2310.17230

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

Explicit Fuzzy Logic in the Feed-Forward Layer: Self-Forgetting Quantifiers Discover Legible Grammatical-Licensing Detectors

cs.CL · 2026-06-30 · unverdicted · novelty 7.0

A parameter-neutral fuzzy-logic FFN augmented with self-forgetting quantifiers produces legible grammatical-licensing detectors while matching baseline perplexity on OpenWebText.

Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet

cs.AI · 2026-05-28 · unverdicted · novelty 6.0

Sparse autoencoders scaled to 34 million features on Claude 3 Sonnet yield interpretable, steerable representations of concrete and abstract concepts that generalize across languages and modalities.

citing papers explorer

Showing 1 of 1 citing paper after filters.

Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet cs.AI · 2026-05-28 · unverdicted · none · ref 68
Sparse autoencoders scaled to 34 million features on Claude 3 Sonnet yield interpretable, steerable representations of concrete and abstract concepts that generalize across languages and modalities.

arXiv preprint arXiv:2310.17230 , year=

fields

years

verdicts

representative citing papers

citing papers explorer