Language Contamination Helps Explains the Cross-lingual Capabilities of E nglish Pretrained Models

Terra Blevins, Luke Zettlemoyer · 2022 · DOI 10.18653/v1/2022.emnlp-main.233

5 Pith papers cite this work. Polarity classification is still indexing.

5 Pith papers citing it

open at publisher browse 5 citing papers

citation-role summary

background 1

citation-polarity summary

background 1

representative citing papers

First-Token Broadcasters: Mechanistic Origins of Language Identity and Distributed Robustness in Transformers

cs.CL · 2026-06-21 · unverdicted · novelty 7.0

Introduces LIHA ablation to locate first-token broadcaster heads and provides causal evidence that instruction tuning localizes language identity circuits to early layers in transformers.

Dango: A Strictly L1-Only Large Language Model for Studying Second Language Acquisition

cs.CL · 2026-06-17 · unverdicted · novelty 6.0

Introduces Dango, a 1.8B strictly L1-only LLM using corpus filtering and lesson fine-tuning to simulate Japanese-to-English SLA and produce human-like L2 output patterns.

DEPART: DEcomposing PARiTy across Multilingual LLMs

cs.CL · 2026-05-27 · unverdicted · novelty 6.0

A Bayesian framework decomposes mLLM variance, showing language features explain 79-92% of language identity variance and that model identity vs. benchmark-model interactions dominate differently for understanding versus reasoning tasks.

Benchmark Data Contamination of Large Language Models: A Survey

cs.CL · 2024-06-06 · unverdicted · novelty 3.0

A survey reviewing benchmark data contamination in LLMs, its impact on evaluation, and alternative assessment approaches.

Copy First, Translate Later: Interpreting Translation Dynamics in Multilingual Pretraining

cs.CL · 2026-04-19

citing papers explorer

Showing 5 of 5 citing papers.

First-Token Broadcasters: Mechanistic Origins of Language Identity and Distributed Robustness in Transformers cs.CL · 2026-06-21 · unverdicted · none · ref 7
Introduces LIHA ablation to locate first-token broadcaster heads and provides causal evidence that instruction tuning localizes language identity circuits to early layers in transformers.
Dango: A Strictly L1-Only Large Language Model for Studying Second Language Acquisition cs.CL · 2026-06-17 · unverdicted · none · ref 37
Introduces Dango, a 1.8B strictly L1-only LLM using corpus filtering and lesson fine-tuning to simulate Japanese-to-English SLA and produce human-like L2 output patterns.
DEPART: DEcomposing PARiTy across Multilingual LLMs cs.CL · 2026-05-27 · unverdicted · none · ref 11
A Bayesian framework decomposes mLLM variance, showing language features explain 79-92% of language identity variance and that model identity vs. benchmark-model interactions dominate differently for understanding versus reasoning tasks.
Benchmark Data Contamination of Large Language Models: A Survey cs.CL · 2024-06-06 · unverdicted · none · ref 13
A survey reviewing benchmark data contamination in LLMs, its impact on evaluation, and alternative assessment approaches.
Copy First, Translate Later: Interpreting Translation Dynamics in Multilingual Pretraining cs.CL · 2026-04-19 · unreviewed · ref 74

Language Contamination Helps Explains the Cross-lingual Capabilities of E nglish Pretrained Models

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer