Decoupled knowledge distillation

URLhttp://arxiv · 2024 · arXiv 2203.08679

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

read on arXiv browse 2 citing papers

citation-role summary

background 1

citation-polarity summary

background 1

representative citing papers

Mask the Target: A Plug-and-Play Regularizer Against LoRA Forgetting

cs.CL · 2026-05-28 · unverdicted · novelty 5.0

A plug-and-play KL regularizer that masks the target token and renormalizes probabilities to improve the learning-forgetting trade-off in LoRA adaptation of LLMs.

Cross-Lingual Attention Distillation with Personality-Informed Generative Augmentation for Multilingual Personality Recognition

cs.CL · 2026-04-10 · unverdicted · novelty 5.0

ADAM uses personality-guided LLM augmentation and cross-lingual attention distillation to raise balanced accuracy on multilingual personality recognition to 0.6332 on Essays and 0.7448 on Kaggle, outperforming standard BCE loss.

citing papers explorer

Showing 2 of 2 citing papers after filters.

Mask the Target: A Plug-and-Play Regularizer Against LoRA Forgetting cs.CL · 2026-05-28 · unverdicted · none · ref 62
A plug-and-play KL regularizer that masks the target token and renormalizes probabilities to improve the learning-forgetting trade-off in LoRA adaptation of LLMs.
Cross-Lingual Attention Distillation with Personality-Informed Generative Augmentation for Multilingual Personality Recognition cs.CL · 2026-04-10 · unverdicted · none · ref 38
ADAM uses personality-guided LLM augmentation and cross-lingual attention distillation to raise balanced accuracy on multilingual personality recognition to 0.6332 on Essays and 0.7448 on Kaggle, outperforming standard BCE loss.

Decoupled knowledge distillation

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer