Joint selection for large-scale pre-training data via policy gradient-based mask learning.arXiv preprint arXiv:2512.24265

Ziqing Fan, Yuqiao Xian, Yan Sun, Li Shen · arXiv 2512.24265

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

cs.CL · 2026-05-09 · unverdicted · novelty 5.0

SimReg regularization accelerates LLM pretraining convergence by over 30% and raises average zero-shot performance by over 1% across benchmarks.

Showing 1 of 1 citing paper.

SimReg: Achieving Higher Performance in the Pretraining via Embedding Similarity Regularization cs.CL · 2026-05-09 · unverdicted · none · ref 2
SimReg regularization accelerates LLM pretraining convergence by over 30% and raises average zero-shot performance by over 1% across benchmarks.