Replicability analysis for natural language processing: Testing significance with multiple datasets

Rotem Dror, Gili Baumer, Marina Bogomolov, Roi Reichart · 2017 · DOI 10.1162/tacl_a_00074

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

open at publisher browse 2 citing papers

representative citing papers

The Harder Text Embedding Benchmark (HTEB): Beyond One-dimensional Static Robustness

cs.CL · 2026-05-27 · unverdicted · novelty 7.0

HTEB introduces dynamic, multi-axis evaluation of text embedding robustness using LLM transformations, finding decoupled profiles across models and that scaling does not close all robustness gaps.

"I've Seen How This Goes": Characterizing Diversity via Progressive Conditional Surprise

cs.CL · 2026-06-01 · unverdicted · novelty 6.0

Decan (D_Ca_n = C × a_n) measures text diversity as progressive conditional surprise from base LM log-probabilities, scoring 0.846 OCA on McDiv benchmark and detecting monotonic diversity drop across base→SFT→DPO→RLVR stages.

citing papers explorer

Showing 2 of 2 citing papers.

The Harder Text Embedding Benchmark (HTEB): Beyond One-dimensional Static Robustness cs.CL · 2026-05-27 · unverdicted · none · ref 12
HTEB introduces dynamic, multi-axis evaluation of text embedding robustness using LLM transformations, finding decoupled profiles across models and that scaling does not close all robustness gaps.
"I've Seen How This Goes": Characterizing Diversity via Progressive Conditional Surprise cs.CL · 2026-06-01 · unverdicted · none · ref 4
Decan (D_Ca_n = C × a_n) measures text diversity as progressive conditional surprise from base LM log-probabilities, scoring 0.846 OCA on McDiv benchmark and detecting monotonic diversity drop across base→SFT→DPO→RLVR stages.

Replicability analysis for natural language processing: Testing significance with multiple datasets

fields

years

verdicts

representative citing papers

citing papers explorer