Yongchan Kwon, Eric Wu, Kevin Wu, and James Zou

URL https://arxiv · 2026 · arXiv 2602.14869

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

Symbolic Mechanistic Data Attribution: Tracing Training Influence to Learned Behavioral Policies

cs.LG · 2026-06-28 · unverdicted · novelty 7.0

SMDA fits ridge regression on SAE features to distill symbolic policies then decomposes each SFT example's influence via feature-activation and output-probability deltas, demonstrated on refusal behavior in Llama-3.2-3B-Instruct.

PRISM: Preference-Aware Influence Function Based Data Selection Method for Efficient Fine-Tuning

cs.LG · 2026-05-20 · unverdicted · novelty 6.0 · 2 refs

PRISM weights target examples by model preference to build an improved direction for influence-based data selection in LLM fine-tuning.

citing papers explorer

Showing 2 of 2 citing papers.

Symbolic Mechanistic Data Attribution: Tracing Training Influence to Learned Behavioral Policies cs.LG · 2026-06-28 · unverdicted · none · ref 55
SMDA fits ridge regression on SAE features to distill symbolic policies then decomposes each SFT example's influence via feature-activation and output-probability deltas, demonstrated on refusal behavior in Llama-3.2-3B-Instruct.
PRISM: Preference-Aware Influence Function Based Data Selection Method for Efficient Fine-Tuning cs.LG · 2026-05-20 · unverdicted · none · ref 8 · 2 links
PRISM weights target examples by model preference to build an improved direction for influence-based data selection in LLM fine-tuning.

Yongchan Kwon, Eric Wu, Kevin Wu, and James Zou

fields

years

verdicts

representative citing papers

citing papers explorer