Hagendorff, Deception abilities emerged in large language models, arXiv:2307.16513, 2023

· 2023 · arXiv 2307.16513

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

RogueAI: A Reverse Turing Test for Detecting Licensed AI Deception in Dialogue

cs.CL · 2026-06-11 · unverdicted · novelty 6.0

RogueAI operationalizes a reverse Turing test as a one-on-two interrogation game to detect licensed deception in LLMs, with pilot data from 467 sessions showing a simple linguistic heuristic at 75.6% accuracy versus 56.6% for human players.

citing papers explorer

Showing 1 of 1 citing paper after filters.

RogueAI: A Reverse Turing Test for Detecting Licensed AI Deception in Dialogue cs.CL · 2026-06-11 · unverdicted · none · ref 2
RogueAI operationalizes a reverse Turing test as a one-on-two interrogation game to detect licensed deception in LLMs, with pilot data from 467 sessions showing a simple linguistic heuristic at 75.6% accuracy versus 56.6% for human players.

Hagendorff, Deception abilities emerged in large language models, arXiv:2307.16513, 2023

fields

years

verdicts

representative citing papers

citing papers explorer