Transactions of the Association for Computational Linguistics , volume=

Reducing conversational agents’ overconfidence through linguistic calibration , author= · 2022

3 Pith papers cite this work. Polarity classification is still indexing.

3 Pith papers citing it

browse 3 citing papers

representative citing papers

Chain-of-Verification Reduces Hallucination in Large Language Models

cs.CL · 2023-09-20 · unverdicted · novelty 6.0

Chain-of-Verification reduces hallucinations in large language models by drafting responses, planning independent verification questions, answering them separately, and generating a final verified output.

Evaluating Pragmatic Reasoning in Large Language Models: Evidence from Scalar Diversity

cs.CL · 2026-05-09 · unverdicted · novelty 5.0

Pragmatic reasoning in LLMs varies substantially by evaluation method and model family, with scalar diversity patterns appearing only in certain conditions rather than reflecting stable competence.

Calibrating Model-Based Evaluation Metrics for Summarization

cs.CL · 2026-04-19 · unverdicted · novelty 5.0

A reference-free proxy scoring framework combined with GIRB calibration produces better-aligned evaluation metrics for summarization and outperforms baselines across seven datasets.

citing papers explorer

Showing 3 of 3 citing papers.

Chain-of-Verification Reduces Hallucination in Large Language Models cs.CL · 2023-09-20 · unverdicted · none · ref 110
Chain-of-Verification reduces hallucinations in large language models by drafting responses, planning independent verification questions, answering them separately, and generating a final verified output.
Evaluating Pragmatic Reasoning in Large Language Models: Evidence from Scalar Diversity cs.CL · 2026-05-09 · unverdicted · none · ref 14
Pragmatic reasoning in LLMs varies substantially by evaluation method and model family, with scalar diversity patterns appearing only in certain conditions rather than reflecting stable competence.
Calibrating Model-Based Evaluation Metrics for Summarization cs.CL · 2026-04-19 · unverdicted · none · ref 94
A reference-free proxy scoring framework combined with GIRB calibration produces better-aligned evaluation metrics for summarization and outperforms baselines across seven datasets.

Transactions of the Association for Computational Linguistics , volume=

fields

years

verdicts

representative citing papers

citing papers explorer