DuDi: Dual-Signal Distillation with Cross-Lingual Verbalizer

Alham Fikri Aji; Jian Gang Ngui; Patomporn Payoungkhamdee; Peerat Limkonchotiwat; Sarana Nutanong; Tinnakit Udsa

arxiv: 2606.04694 · v2 · pith:RSSB5XUEnew · submitted 2026-06-03 · 💻 cs.CL

DuDi: Dual-Signal Distillation with Cross-Lingual Verbalizer

Patomporn Payoungkhamdee , Tinnakit Udsa , Jian Gang Ngui , Sarana Nutanong , Alham Fikri Aji , Peerat Limkonchotiwat This is my paper

classification 💻 cs.CL

keywords dudimultilingualcross-lingualdistillationdual-signalscalessequence-levelsettings

0 comments

read the original abstract

Small language models (SLMs) are efficient and scalable, but their multilingual capabilities degrade severely at sub-billion scales, especially for Southeast Asian (SEA) languages. We introduce DuDi, a dual-signal multilingual distillation framework that combines an online sequence-level signal with off-policy and on-policy token-level signals. DuDi further uses a cross-lingual verbalizer to refine teacher feedback and improve teacher-student transferability in multilingual settings. Experiments on SEA-HELM across multiple model families, scales, and teacher-student settings show that DuDi consistently outperforms competitive distillation baselines. Ablations and analyses confirm that sequence-level optimization, token-level supervision, and cross-lingual verbalization provide complementary and transferable learning signals for multilingual SLMs.

This paper has not been read by Pith yet.

DuDi: Dual-Signal Distillation with Cross-Lingual Verbalizer

discussion (0)