Effect of Unknown and Fragmented Tokens on the Performance of Multilingual Language Models at Low-Resource Tasks

· 2024 · DOI 10.1007/978-3-031-64451-1

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

open at publisher browse 1 citing papers

representative citing papers

Script Sensitivity: Benchmarking Language Models on Unicode, Romanized and Mixed-Script Sinhala

cs.CL · 2026-01-21 · unverdicted · novelty 7.0

Language models degrade over 300 times in performance on Romanized Sinhala versus Unicode, with model size showing no correlation to script robustness.

citing papers explorer

Showing 1 of 1 citing paper.

Script Sensitivity: Benchmarking Language Models on Unicode, Romanized and Mixed-Script Sinhala cs.CL · 2026-01-21 · unverdicted · none · ref 11
Language models degrade over 300 times in performance on Romanized Sinhala versus Unicode, with model size showing no correlation to script robustness.

Effect of Unknown and Fragmented Tokens on the Performance of Multilingual Language Models at Low-Resource Tasks

fields

years

verdicts

representative citing papers

citing papers explorer