URL https: //aclanthology.org/2024.acl-long.309/

Tianyi Tang, Wenyang Luo, Haoyang Huang, Dongdong Zhang, Xiaolei Wang, Xin Zhao, Furu Wei, Ji-Rong Wen · 2024 · DOI 10.18653/v1/2024.acl-long.309

4 Pith papers cite this work. Polarity classification is still indexing.

4 Pith papers citing it

open at publisher browse 4 citing papers

representative citing papers

Copy First, Translate Later: Interpreting Translation Dynamics in Multilingual Pretraining

cs.CL · 2026-04-19 · unverdicted · novelty 7.0

Multilingual pretraining develops translation in two phases: early copying driven by surface similarities, followed by generalizing mechanisms while copying is refined.

One Model to Translate Them All? A Journey to Mount Doom for Multilingual Model Merging

cs.CL · 2026-04-03 · unverdicted · novelty 7.0

Merging fine-tuned models for multilingual translation fails because fine-tuning redistributes language-specific neurons rather than sharpening them, increasing representational divergence in output-generating layers.

Do Language Models Encode Knowledge of Linguistic Constraint Violations?

cs.CL · 2026-05-12 · unverdicted · novelty 6.0

Sparse autoencoder analysis of language model activations finds limited evidence for a unified set of features detecting linguistic constraint violations.

From Heads to Neurons: Causal Attribution and Steering in Multi-Task Vision-Language Models

cs.CV · 2026-04-20 · unverdicted · novelty 5.0

HONES ranks feed-forward neurons by their causal contributions from task-relevant attention heads and uses lightweight scaling to steer performance on multiple vision-language tasks.

citing papers explorer

Showing 4 of 4 citing papers.

Copy First, Translate Later: Interpreting Translation Dynamics in Multilingual Pretraining cs.CL · 2026-04-19 · unverdicted · none · ref 12
Multilingual pretraining develops translation in two phases: early copying driven by surface similarities, followed by generalizing mechanisms while copying is refined.
One Model to Translate Them All? A Journey to Mount Doom for Multilingual Model Merging cs.CL · 2026-04-03 · unverdicted · none · ref 34
Merging fine-tuned models for multilingual translation fails because fine-tuning redistributes language-specific neurons rather than sharpening them, increasing representational divergence in output-generating layers.
Do Language Models Encode Knowledge of Linguistic Constraint Violations? cs.CL · 2026-05-12 · unverdicted · none · ref 11
Sparse autoencoder analysis of language model activations finds limited evidence for a unified set of features detecting linguistic constraint violations.
From Heads to Neurons: Causal Attribution and Steering in Multi-Task Vision-Language Models cs.CV · 2026-04-20 · unverdicted · none · ref 101
HONES ranks feed-forward neurons by their causal contributions from task-relevant attention heads and uses lightweight scaling to steer performance on multiple vision-language tasks.

URL https: //aclanthology.org/2024.acl-long.309/

fields

years

verdicts

representative citing papers

citing papers explorer