Jailbreaking large language models through iterative tool-disguised attacks via reinforcement learning,

· 2026 · arXiv 2601.05466

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

Beyond the Prompt: Jailbreaking Function-Calling LLMs via Simulated Moderation Traces

cs.CR · 2026-07-01 · conditional · novelty 6.0

SMT achieves the highest attack success rate and HarmScore on commercial function-calling LLMs from five providers by using simulated moderation traces in multi-turn trajectories, outperforming baselines with near-minimal queries.

citing papers explorer

Showing 1 of 1 citing paper.

Beyond the Prompt: Jailbreaking Function-Calling LLMs via Simulated Moderation Traces cs.CR · 2026-07-01 · conditional · none · ref 21
SMT achieves the highest attack success rate and HarmScore on commercial function-calling LLMs from five providers by using simulated moderation traces in multi-turn trajectories, outperforming baselines with near-minimal queries.

Jailbreaking large language models through iterative tool-disguised attacks via reinforcement learning,

fields

years

verdicts

representative citing papers

citing papers explorer