Token Drop mechanism for Neural Machine Translation

Zhang, Huaao, Qiu, Shigui, Duan, Xiangyu, Zhang, Min · 2020 · DOI 10.18653/v1/2020.coling-main.379

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

open at publisher browse 1 citing papers

representative citing papers

Data-Constrained Language Model Pretraining: Improved Regularization and Scaling Laws

cs.LG · 2026-06-05 · unverdicted · novelty 6.0

MIR improves validation loss in repeated-data pretraining and SoftQ fits data-constrained scaling experiments better than additive laws, equating MIR gains to roughly 1.3 times more unique data.

citing papers explorer

Showing 1 of 1 citing paper.

Data-Constrained Language Model Pretraining: Improved Regularization and Scaling Laws cs.LG · 2026-06-05 · unverdicted · none · ref 7
MIR improves validation loss in repeated-data pretraining and SoftQ fits data-constrained scaling experiments better than additive laws, equating MIR gains to roughly 1.3 times more unique data.

Token Drop mechanism for Neural Machine Translation

fields

years

verdicts

representative citing papers

citing papers explorer