IHE val: Evaluating Language Models on Following the Instruction Hierarchy

Zhang, Zhihan, Li, Shiyang, Zhang, Zixuan, Liu, Xin, Jiang, Haoming, Tang, Xianfeng · 2025 · DOI 10.18653/v1/2025.naacl-long.425

4 Pith papers cite this work. Polarity classification is still indexing.

4 Pith papers citing it

open at publisher browse 4 citing papers

representative citing papers

IHDec: Divergence-Steered Contrastive Decoding for Securing Multi-Turn Instruction Hierarchies

cs.CL · 2026-06-29 · unverdicted · novelty 6.0

IHDec applies JSD-steered contrastive decoding to enforce multi-turn instruction hierarchies in LLMs without fine-tuning.

Decoupling Thought from Speech: Knowledge-Grounded Counterfactual Reasoning for Resilient Multi-Agent Argumentation

cs.MA · 2026-06-09 · unverdicted · novelty 5.0

KG-CFR decouples planning from execution via knowledge-grounded counterfactual reasoning, preventing critical degradation in over 95% of perturbed runs and raising argument quality from 0.694 to 0.822 in a 1v1v1 simulation.

Beyond Single-Policy: Evaluating Composed Organization-Specific Policy Alignment in LLM Chatbots

cs.SE · 2026-06-03 · unverdicted · novelty 5.0

COPAL reveals a 33.1% average error rate on composed-policy queries across nine LLM chatbots, showing that existing single-policy benchmarks miss common failures.

Position: AI Safety Requires Effective Controllability

cs.AI · 2026-05-26 · unverdicted · novelty 4.0

Position paper claiming that AI safety requires explicit runtime controllability and introducing ControlBench to demonstrate gaps in existing alignment methods.

citing papers explorer

Showing 4 of 4 citing papers.

IHDec: Divergence-Steered Contrastive Decoding for Securing Multi-Turn Instruction Hierarchies cs.CL · 2026-06-29 · unverdicted · none · ref 16
IHDec applies JSD-steered contrastive decoding to enforce multi-turn instruction hierarchies in LLMs without fine-tuning.
Decoupling Thought from Speech: Knowledge-Grounded Counterfactual Reasoning for Resilient Multi-Agent Argumentation cs.MA · 2026-06-09 · unverdicted · none · ref 13
KG-CFR decouples planning from execution via knowledge-grounded counterfactual reasoning, preventing critical degradation in over 95% of perturbed runs and raising argument quality from 0.694 to 0.822 in a 1v1v1 simulation.
Beyond Single-Policy: Evaluating Composed Organization-Specific Policy Alignment in LLM Chatbots cs.SE · 2026-06-03 · unverdicted · none · ref 59
COPAL reveals a 33.1% average error rate on composed-policy queries across nine LLM chatbots, showing that existing single-policy benchmarks miss common failures.
Position: AI Safety Requires Effective Controllability cs.AI · 2026-05-26 · unverdicted · none · ref 24
Position paper claiming that AI safety requires explicit runtime controllability and introducing ControlBench to demonstrate gaps in existing alignment methods.

IHE val: Evaluating Language Models on Following the Instruction Hierarchy

fields

years

verdicts

representative citing papers

citing papers explorer