{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2024:JI3Z6YVCF5RLGNTHADWA23KVNN","short_pith_number":"pith:JI3Z6YVC","schema_version":"1.0","canonical_sha256":"4a379f62a22f62b3366700ec0d6d556b74a11e61e7ee5efdbfa03c45d356fc85","source":{"kind":"arxiv","id":"2410.06703","version":7},"attestation_state":"computed","paper":{"title":"ST-WebAgentBench: A Benchmark for Evaluating Safety and Trustworthiness in Web Agents","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":[],"primary_cat":"cs.AI","authors_text":"Alon Oved, Avi Yaeli, Ben Wiesel, Ido Levy, Nir Mashkif, Sami Marreed, Segev Shlomov","submitted_at":"2024-10-09T09:13:38Z","abstract_excerpt":"Autonomous web agents solve complex browsing tasks, yet existing benchmarks measure only whether an agent finishes a task, ignoring whether it does so safely or in a way enterprises can trust. To integrate these agents into critical workflows, safety and trustworthiness (ST) are prerequisite conditions for adoption. We introduce \\textbf{\\textsc{ST-WebAgentBench}}, a configurable and easily extensible suite for evaluating web agent ST across realistic enterprise scenarios. Each of its 222 tasks is paired with ST policies, concise rules that encode constraints, and is scored along six orthogonal"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2410.06703","kind":"arxiv","version":7},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.AI","submitted_at":"2024-10-09T09:13:38Z","cross_cats_sorted":[],"title_canon_sha256":"23add7f293ce524fd2c9995226ef030c2f5d65ef6c8e054ae1bc8eab1abbf5b2","abstract_canon_sha256":"6675346fa5220e0cd03deb80eddda43e4b121494c02111057fbd7a0d301262b0"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-06-05T01:15:12.007933Z","signature_b64":"wpP/veI/N3iInhK2JdkPpNfo4idsRLZlTjnsYJNjopVmwJwSvJ4G9VyUpXPjUJTEs8ZLe5SvYbj6lum0repBCg==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"4a379f62a22f62b3366700ec0d6d556b74a11e61e7ee5efdbfa03c45d356fc85","last_reissued_at":"2026-06-05T01:15:12.007244Z","signature_status":"signed_v1","first_computed_at":"2026-06-05T01:15:12.007244Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"ST-WebAgentBench: A Benchmark for Evaluating Safety and Trustworthiness in Web Agents","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":[],"primary_cat":"cs.AI","authors_text":"Alon Oved, Avi Yaeli, Ben Wiesel, Ido Levy, Nir Mashkif, Sami Marreed, Segev Shlomov","submitted_at":"2024-10-09T09:13:38Z","abstract_excerpt":"Autonomous web agents solve complex browsing tasks, yet existing benchmarks measure only whether an agent finishes a task, ignoring whether it does so safely or in a way enterprises can trust. To integrate these agents into critical workflows, safety and trustworthiness (ST) are prerequisite conditions for adoption. We introduce \\textbf{\\textsc{ST-WebAgentBench}}, a configurable and easily extensible suite for evaluating web agent ST across realistic enterprise scenarios. Each of its 222 tasks is paired with ST policies, concise rules that encode constraints, and is scored along six orthogonal"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2410.06703","kind":"arxiv","version":7},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2410.06703/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2410.06703","created_at":"2026-06-05T01:15:12.007329+00:00"},{"alias_kind":"arxiv_version","alias_value":"2410.06703v7","created_at":"2026-06-05T01:15:12.007329+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2410.06703","created_at":"2026-06-05T01:15:12.007329+00:00"},{"alias_kind":"pith_short_12","alias_value":"JI3Z6YVCF5RL","created_at":"2026-06-05T01:15:12.007329+00:00"},{"alias_kind":"pith_short_16","alias_value":"JI3Z6YVCF5RLGNTH","created_at":"2026-06-05T01:15:12.007329+00:00"},{"alias_kind":"pith_short_8","alias_value":"JI3Z6YVC","created_at":"2026-06-05T01:15:12.007329+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":14,"internal_anchor_count":14,"sample":[{"citing_arxiv_id":"2605.20874","citing_title":"Governance by Construction for Generalist Agents","ref_index":10,"is_internal_anchor":true},{"citing_arxiv_id":"2605.16282","citing_title":"Taxonomy and Consistency Analysis of Safety Benchmarks for AI Agents","ref_index":27,"is_internal_anchor":true},{"citing_arxiv_id":"2506.03610","citing_title":"Orak: A Foundational Benchmark for Training and Evaluating LLM Agents on Diverse Video Games","ref_index":7,"is_internal_anchor":true},{"citing_arxiv_id":"2510.10073","citing_title":"SecureWebArena: A Holistic Security Evaluation Benchmark for LVLM-based Web Agents","ref_index":20,"is_internal_anchor":true},{"citing_arxiv_id":"2510.23883","citing_title":"Agentic AI Security: Threats, Defenses, Evaluation, and Open Challenges","ref_index":238,"is_internal_anchor":true},{"citing_arxiv_id":"2601.18842","citing_title":"GUIGuard-Bench: Toward a General Evaluation for Privacy-Preserving GUI Agents","ref_index":88,"is_internal_anchor":true},{"citing_arxiv_id":"2507.21046","citing_title":"A Survey of Self-Evolving Agents: What, When, How, and Where to Evolve on the Path to Artificial Super Intelligence","ref_index":76,"is_internal_anchor":true},{"citing_arxiv_id":"2605.11030","citing_title":"An Executable Benchmarking Suite for Tool-Using Agents","ref_index":22,"is_internal_anchor":true},{"citing_arxiv_id":"2604.28139","citing_title":"Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2604.23772","citing_title":"PageGuide: Browser extension to assist users in navigating a webpage and locating information","ref_index":26,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06161","citing_title":"Beyond Accuracy: Policy Invariance as a Reliability Test for LLM Safety Judges","ref_index":23,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06992","citing_title":"Why Does Agentic Safety Fail to Generalize Across Tasks?","ref_index":63,"is_internal_anchor":true},{"citing_arxiv_id":"2605.07699","citing_title":"DRIP-R: A Benchmark for Decision-Making and Reasoning Under Real-World Policy Ambiguity in the Retail Domain","ref_index":12,"is_internal_anchor":true},{"citing_arxiv_id":"2604.06367","citing_title":"WebSP-Eval: Evaluating Web Agents on Website Security and Privacy Tasks","ref_index":25,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/JI3Z6YVCF5RLGNTHADWA23KVNN","json":"https://pith.science/pith/JI3Z6YVCF5RLGNTHADWA23KVNN.json","graph_json":"https://pith.science/api/pith-number/JI3Z6YVCF5RLGNTHADWA23KVNN/graph.json","events_json":"https://pith.science/api/pith-number/JI3Z6YVCF5RLGNTHADWA23KVNN/events.json","paper":"https://pith.science/paper/JI3Z6YVC"},"agent_actions":{"view_html":"https://pith.science/pith/JI3Z6YVCF5RLGNTHADWA23KVNN","download_json":"https://pith.science/pith/JI3Z6YVCF5RLGNTHADWA23KVNN.json","view_paper":"https://pith.science/paper/JI3Z6YVC","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2410.06703&json=true","fetch_graph":"https://pith.science/api/pith-number/JI3Z6YVCF5RLGNTHADWA23KVNN/graph.json","fetch_events":"https://pith.science/api/pith-number/JI3Z6YVCF5RLGNTHADWA23KVNN/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/JI3Z6YVCF5RLGNTHADWA23KVNN/action/timestamp_anchor","attest_storage":"https://pith.science/pith/JI3Z6YVCF5RLGNTHADWA23KVNN/action/storage_attestation","attest_author":"https://pith.science/pith/JI3Z6YVCF5RLGNTHADWA23KVNN/action/author_attestation","sign_citation":"https://pith.science/pith/JI3Z6YVCF5RLGNTHADWA23KVNN/action/citation_signature","submit_replication":"https://pith.science/pith/JI3Z6YVCF5RLGNTHADWA23KVNN/action/replication_record"}},"created_at":"2026-06-05T01:15:12.007329+00:00","updated_at":"2026-06-05T01:15:12.007329+00:00"}