Towards safer large language models through machine unlearning

Zheyuan Liu, Guangyao Dou, Zhaoxuan Tan, Yijun Tian, Meng Jiang · 2024 · DOI 10.18653/v1/2024.findings-acl.107

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

open at publisher browse 1 citing papers

representative citing papers

Position: AI Safety Requires Effective Controllability

cs.AI · 2026-05-26 · unverdicted · novelty 4.0

Position paper claiming that AI safety requires explicit runtime controllability and introducing ControlBench to demonstrate gaps in existing alignment methods.

citing papers explorer

Showing 1 of 1 citing paper.

Position: AI Safety Requires Effective Controllability cs.AI · 2026-05-26 · unverdicted · none · ref 44
Position paper claiming that AI safety requires explicit runtime controllability and introducing ControlBench to demonstrate gaps in existing alignment methods.

Towards safer large language models through machine unlearning

fields

years

verdicts

representative citing papers

citing papers explorer