Responsiblerobotbench: Benchmarking responsible robot manipulation using multi-modal large language models

Lei Zhang, Ju Dong, Kaixin Bai, Minheng Ni, Zoltan-Csaba Marton, Zhaopeng Chen, Jianwei Zhang · 2025 · arXiv 2512.04308

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

read on arXiv browse 2 citing papers

citation-role summary

background 1

citation-polarity summary

background 1

representative citing papers

SafeManip: A Property-Driven Benchmark for Temporal Safety Evaluation in Robotic Manipulation

cs.RO · 2026-05-12 · unverdicted · novelty 7.0 · 2 refs

SafeManip is a benchmark applying reusable LTLf templates across eight safety categories to evaluate temporal properties in robotic manipulation on VLA policies.

Probing Collision Grounding in Vision-Language Models for Safe Human-Robot Collaboration

cs.CV · 2026-05-29 · unverdicted · novelty 6.0

TouchSafeBench evaluates VLMs on collision grounding, finding best Macro-F1 below 50% and that explicit depth does not yield reliable robot-body contact inference.

citing papers explorer

Showing 2 of 2 citing papers.

SafeManip: A Property-Driven Benchmark for Temporal Safety Evaluation in Robotic Manipulation cs.RO · 2026-05-12 · unverdicted · none · ref 25 · 2 links
SafeManip is a benchmark applying reusable LTLf templates across eight safety categories to evaluate temporal properties in robotic manipulation on VLA policies.
Probing Collision Grounding in Vision-Language Models for Safe Human-Robot Collaboration cs.CV · 2026-05-29 · unverdicted · none · ref 20
TouchSafeBench evaluates VLMs on collision grounding, finding best Macro-F1 below 50% and that explicit depth does not yield reliable robot-body contact inference.

Responsiblerobotbench: Benchmarking responsible robot manipulation using multi-modal large language models

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer