arXiv preprint arXiv:2509.25002 , year=

Circuit Distillation , author= · 2025 · arXiv 2509.25002

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

Symbolic Mechanistic Data Attribution: Tracing Training Influence to Learned Behavioral Policies

cs.LG · 2026-06-28 · unverdicted · novelty 7.0

SMDA fits ridge regression on SAE features to distill symbolic policies then decomposes each SFT example's influence via feature-activation and output-probability deltas, demonstrated on refusal behavior in Llama-3.2-3B-Instruct.

Characterize Then Distill: Mechanistic Reasoning in Large Output Spaces

cs.CL · 2026-06-05 · unverdicted · novelty 5.0

Reasoning in large output spaces proceeds via shortlisting then fine-grained reasoning; this characterization enables a mechanistic distillation strategy that outperforms standard distillation.

citing papers explorer

Showing 1 of 1 citing paper after filters.

Characterize Then Distill: Mechanistic Reasoning in Large Output Spaces cs.CL · 2026-06-05 · unverdicted · none · ref 4
Reasoning in large output spaces proceeds via shortlisting then fine-grained reasoning; this characterization enables a mechanistic distillation strategy that outperforms standard distillation.

arXiv preprint arXiv:2509.25002 , year=

fields

years

verdicts

representative citing papers

citing papers explorer