Keep Security! Benchmarking Security Policy Preservation in Large Language Model Contexts Against Indirect Attacks in Question Answering

Hwan Chang, Yumin Kim, Yonghyun Jun, Hwanhee Lee · 2025 · DOI 10.18653/v1/2025.emnlp-main.345

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

open at publisher browse 2 citing papers

representative citing papers

Beyond Single-Policy: Evaluating Composed Organization-Specific Policy Alignment in LLM Chatbots

cs.SE · 2026-06-03 · unverdicted · novelty 5.0

COPAL reveals a 33.1% average error rate on composed-policy queries across nine LLM chatbots, showing that existing single-policy benchmarks miss common failures.

LiSA: Lifelong Safety Adaptation via Conservative Policy Induction

cs.LG · 2026-05-14 · unverdicted · novelty 5.0

LiSA improves AI guardrails lifelong by inducing conservative policies from sparse noisy failure reports via structured memory, conflict-aware rules, and posterior lower-bound gating.

citing papers explorer

Showing 2 of 2 citing papers after filters.

Beyond Single-Policy: Evaluating Composed Organization-Specific Policy Alignment in LLM Chatbots cs.SE · 2026-06-03 · unverdicted · none · ref 34
COPAL reveals a 33.1% average error rate on composed-policy queries across nine LLM chatbots, showing that existing single-policy benchmarks miss common failures.
LiSA: Lifelong Safety Adaptation via Conservative Policy Induction cs.LG · 2026-05-14 · unverdicted · none · ref 45
LiSA improves AI guardrails lifelong by inducing conservative policies from sparse noisy failure reports via structured memory, conflict-aware rules, and posterior lower-bound gating.

Keep Security! Benchmarking Security Policy Preservation in Large Language Model Contexts Against Indirect Attacks in Question Answering

fields

years

verdicts

representative citing papers

citing papers explorer