fine-clip: Enhancing zero-shot fine-grained surgical action recognition with vision-language models.arXiv preprint arXiv:2503.19670, 2025

Saurav Sharma et al · 2025 · arXiv 2503.19670

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

Reasoning Text-to-Video Retrieval for Operating Room Clips via Action-Driven Digital Twins

cs.CV · 2026-06-15 · conditional · novelty 7.0

OR3 converts OR clips to action-driven digital twins, uses LLM imagination for hypothetical ActDTs, and achieves 57.6 R@1 and 77.3 R@5 on 276 implicit queries from 386 robotic knee procedure clips, outperforming baselines.

citing papers explorer

Showing 1 of 1 citing paper.

Reasoning Text-to-Video Retrieval for Operating Room Clips via Action-Driven Digital Twins cs.CV · 2026-06-15 · conditional · none · ref 18
OR3 converts OR clips to action-driven digital twins, uses LLM imagination for hypothetical ActDTs, and achieves 57.6 R@1 and 77.3 R@5 on 276 implicit queries from 386 robotic knee procedure clips, outperforming baselines.

fine-clip: Enhancing zero-shot fine-grained surgical action recognition with vision-language models.arXiv preprint arXiv:2503.19670, 2025

fields

years

verdicts

representative citing papers

citing papers explorer