{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:IMFNAPE74GOHAKYKLLHZRGMA5N","short_pith_number":"pith:IMFNAPE7","schema_version":"1.0","canonical_sha256":"430ad03c9fe19c702b0a5acf989980eb7ae1008ce6c3607ddf5585fc1220cb43","source":{"kind":"arxiv","id":"2510.14276","version":1},"attestation_state":"computed","paper":{"title":"Qwen3Guard Technical Report","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"Qwen3Guard provides multilingual guardrail models that output tri-class safety labels and monitor generation token by token.","cross_cats":[],"primary_cat":"cs.CL","authors_text":"An Yang, Baosong Yang, Bowen Yu, Chen Cheng, Chenhan Yuan, Dayiheng Liu, Fei Huang, Haiquan Zhao, Jialong Tang, Jiandong Jiang, Jianwei Zhang, Jijie Xu, Jingren Zhou, Junyang Lin, Ming Yan, Minmin Sun, Pei Zhang, Pengjun Xie, Qiaoyu Tang, Qin Zhu, Rong Zhang, Shibin Wu, Shuo Zhang, Tao He, Tianyi Tang, Tingyu Xia, Wei Liao, Weizhou Shen, Wenbiao Yin, Wenmeng Zhou, Wenyuan Yu, Xiaobin Wang, Xiaodong Deng, Xiaodong Xu, Xiaomeng Hu, Xinyu Zhang, Yang Liu, Yeqiu Li, Yichang Zhang, Yi Zhang, Yong Jiang, Yu Wan, Yuxin Zhou","submitted_at":"2025-10-16T04:00:18Z","abstract_excerpt":"As large language models (LLMs) become more capable and widely used, ensuring the safety of their outputs is increasingly critical. Existing guardrail models, though useful in static evaluation settings, face two major limitations in real-world applications: (1) they typically output only binary \"safe/unsafe\" labels, which can be interpreted inconsistently across diverse safety policies, rendering them incapable of accommodating varying safety tolerances across domains; and (2) they require complete model outputs before performing safety checks, making them fundamentally incompatible with stre"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":true},"canonical_record":{"source":{"id":"2510.14276","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CL","submitted_at":"2025-10-16T04:00:18Z","cross_cats_sorted":[],"title_canon_sha256":"ab0ccf8d585da5e613101ccec325d943c4f32875736af300f67fdcedf5789039","abstract_canon_sha256":"5d4577516de4a67ba89213f4e39493936f922e5d0a4db65b1a8a6e8d4c5d6d13"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-18T04:15:07.172448Z","signature_b64":"dkq7eoJ8cqe3ShgEmxcb14NUD0srXPH1cW/Lk7V9lIOr/yHUs+4e+8UiHpSUoNYwJxGWI2EeTJkP5ZADIjdIDg==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"430ad03c9fe19c702b0a5acf989980eb7ae1008ce6c3607ddf5585fc1220cb43","last_reissued_at":"2026-05-18T04:15:07.171718Z","signature_status":"signed_v1","first_computed_at":"2026-05-18T04:15:07.171718Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Qwen3Guard Technical Report","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"Qwen3Guard provides multilingual guardrail models that output tri-class safety labels and monitor generation token by token.","cross_cats":[],"primary_cat":"cs.CL","authors_text":"An Yang, Baosong Yang, Bowen Yu, Chen Cheng, Chenhan Yuan, Dayiheng Liu, Fei Huang, Haiquan Zhao, Jialong Tang, Jiandong Jiang, Jianwei Zhang, Jijie Xu, Jingren Zhou, Junyang Lin, Ming Yan, Minmin Sun, Pei Zhang, Pengjun Xie, Qiaoyu Tang, Qin Zhu, Rong Zhang, Shibin Wu, Shuo Zhang, Tao He, Tianyi Tang, Tingyu Xia, Wei Liao, Weizhou Shen, Wenbiao Yin, Wenmeng Zhou, Wenyuan Yu, Xiaobin Wang, Xiaodong Deng, Xiaodong Xu, Xiaomeng Hu, Xinyu Zhang, Yang Liu, Yeqiu Li, Yichang Zhang, Yi Zhang, Yong Jiang, Yu Wan, Yuxin Zhou","submitted_at":"2025-10-16T04:00:18Z","abstract_excerpt":"As large language models (LLMs) become more capable and widely used, ensuring the safety of their outputs is increasingly critical. Existing guardrail models, though useful in static evaluation settings, face two major limitations in real-world applications: (1) they typically output only binary \"safe/unsafe\" labels, which can be interpreted inconsistently across diverse safety policies, rendering them incapable of accommodating varying safety tolerances across domains; and (2) they require complete model outputs before performing safety checks, making them fundamentally incompatible with stre"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"Evaluated across English, Chinese, and multilingual benchmarks, Qwen3Guard achieves state-of-the-art performance in both prompt and response safety classification.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"The chosen benchmarks and tri-class/streaming formulations accurately reflect real-world safety needs and do not create new failure modes or policy inconsistencies when deployed at scale.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"Qwen3Guard releases generative and streaming safety guard models in 0.6B/4B/8B sizes that deliver tri-class judgments and real-time token-level monitoring across 119 languages while claiming state-of-the-art benchmark results.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"Qwen3Guard provides multilingual guardrail models that output tri-class safety labels and monitor generation token by token.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"b33e561007a388d2fb77525d86612ef99e0693320c7776cf48e46481932c9cc9"},"source":{"id":"2510.14276","kind":"arxiv","version":1},"verdict":{"id":"eb60f1ec-7b5d-4643-91fb-198f8c8bf88d","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-13T22:27:15.436293Z","strongest_claim":"Evaluated across English, Chinese, and multilingual benchmarks, Qwen3Guard achieves state-of-the-art performance in both prompt and response safety classification.","one_line_summary":"Qwen3Guard releases generative and streaming safety guard models in 0.6B/4B/8B sizes that deliver tri-class judgments and real-time token-level monitoring across 119 languages while claiming state-of-the-art benchmark results.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"The chosen benchmarks and tri-class/streaming formulations accurately reflect real-world safety needs and do not create new failure modes or policy inconsistencies when deployed at scale.","pith_extraction_headline":"Qwen3Guard provides multilingual guardrail models that output tri-class safety labels and monitor generation token by token."},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":2,"snapshot_sha256":"a469441380dc5dbf4c048d107d3aab06f3f98f3c8aedd3682b55a5072fad3fd6"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2510.14276","created_at":"2026-05-18T04:15:07.171809+00:00"},{"alias_kind":"arxiv_version","alias_value":"2510.14276v1","created_at":"2026-05-18T04:15:07.171809+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2510.14276","created_at":"2026-05-18T04:15:07.171809+00:00"},{"alias_kind":"pith_short_12","alias_value":"IMFNAPE74GOH","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"IMFNAPE74GOHAKYK","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"IMFNAPE7","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":33,"internal_anchor_count":33,"sample":[{"citing_arxiv_id":"2605.22373","citing_title":"Boundary-targeted Membership Inference Attacks on Safety Classifiers","ref_index":35,"is_internal_anchor":true},{"citing_arxiv_id":"2605.22373","citing_title":"Boundary-targeted Membership Inference Attacks on Safety Classifiers","ref_index":35,"is_internal_anchor":true},{"citing_arxiv_id":"2605.22321","citing_title":"Benchmarking Autonomous Agents against Temporal, Spatial, and Semantic Evasions","ref_index":50,"is_internal_anchor":true},{"citing_arxiv_id":"2605.16346","citing_title":"PropGuard: Safeguarding LLM-MAS via Propagation-Aware Exploration and Remediation","ref_index":31,"is_internal_anchor":true},{"citing_arxiv_id":"2605.17329","citing_title":"LPG: Balancing Efficiency and Policy Reasoning in Latent Policy Guardrails","ref_index":38,"is_internal_anchor":true},{"citing_arxiv_id":"2602.07954","citing_title":"Bielik Guard: Efficient Polish Language Safety Classifiers for LLM Content Moderation","ref_index":23,"is_internal_anchor":true},{"citing_arxiv_id":"2602.17283","citing_title":"Towards Cross-lingual Values Judgment: A Consensus-Pluralism Perspective","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2602.23636","citing_title":"FlexGuard: Continuous Risk Scoring for Strictness-Adaptive LLM Content Moderation","ref_index":4,"is_internal_anchor":true},{"citing_arxiv_id":"2604.02022","citing_title":"ATBench: A Diverse and Realistic Agent Trajectory Benchmark for Safety Evaluation and Diagnosis","ref_index":40,"is_internal_anchor":true},{"citing_arxiv_id":"2604.01444","citing_title":"Cooking Up Risks: Benchmarking and Reducing Food Safety Risks in Large Language Models","ref_index":39,"is_internal_anchor":true},{"citing_arxiv_id":"2604.02022","citing_title":"ATBench: A Diverse and Realistic Agent Trajectory Benchmark for Safety Evaluation and Diagnosis","ref_index":40,"is_internal_anchor":true},{"citing_arxiv_id":"2604.02947","citing_title":"AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents","ref_index":20,"is_internal_anchor":true},{"citing_arxiv_id":"2605.05630","citing_title":"One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue","ref_index":43,"is_internal_anchor":true},{"citing_arxiv_id":"2605.11882","citing_title":"On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment","ref_index":48,"is_internal_anchor":true},{"citing_arxiv_id":"2605.11002","citing_title":"MT-JailBench: A Modular Benchmark for Understanding Multi-Turn Jailbreak Attacks","ref_index":47,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08936","citing_title":"Self-ReSET: Learning to Self-Recover from Unsafe Reasoning Trajectories","ref_index":25,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08878","citing_title":"Why Do Aligned LLMs Remain Jailbreakable: Refusal-Escape Directions, Operator-Level Sources, and Safety-Utility Trade-off","ref_index":24,"is_internal_anchor":true},{"citing_arxiv_id":"2604.25716","citing_title":"Cross-Lingual Jailbreak Detection via Semantic Codebooks","ref_index":20,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06230","citing_title":"Safactory: A Scalable Agentic Infrastructure for Training Trustworthy Autonomous Intelligence","ref_index":99,"is_internal_anchor":true},{"citing_arxiv_id":"2605.05630","citing_title":"One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue","ref_index":43,"is_internal_anchor":true},{"citing_arxiv_id":"2605.00689","citing_title":"ML-Bench&Guard: Policy-Grounded Multilingual Safety Benchmark and Guardrail for Large Language Models","ref_index":7,"is_internal_anchor":true},{"citing_arxiv_id":"2605.02946","citing_title":"RouteHijack: Routing-Aware Attack on Mixture-of-Experts LLMs","ref_index":80,"is_internal_anchor":true},{"citing_arxiv_id":"2604.12616","citing_title":"Every Picture Tells a Dangerous Story: Memory-Augmented Multi-Agent Jailbreak Attacks on VLMs","ref_index":60,"is_internal_anchor":true},{"citing_arxiv_id":"2605.01687","citing_title":"MultiBreak: A Scalable and Diverse Multi-turn Jailbreak Benchmark for Evaluating LLM Safety","ref_index":75,"is_internal_anchor":true},{"citing_arxiv_id":"2604.12284","citing_title":"WebAgentGuard: A Reasoning-Driven Guard Model for Detecting Prompt Injection Attacks in Web Agents","ref_index":5,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":2,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/IMFNAPE74GOHAKYKLLHZRGMA5N","json":"https://pith.science/pith/IMFNAPE74GOHAKYKLLHZRGMA5N.json","graph_json":"https://pith.science/api/pith-number/IMFNAPE74GOHAKYKLLHZRGMA5N/graph.json","events_json":"https://pith.science/api/pith-number/IMFNAPE74GOHAKYKLLHZRGMA5N/events.json","paper":"https://pith.science/paper/IMFNAPE7"},"agent_actions":{"view_html":"https://pith.science/pith/IMFNAPE74GOHAKYKLLHZRGMA5N","download_json":"https://pith.science/pith/IMFNAPE74GOHAKYKLLHZRGMA5N.json","view_paper":"https://pith.science/paper/IMFNAPE7","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2510.14276&json=true","fetch_graph":"https://pith.science/api/pith-number/IMFNAPE74GOHAKYKLLHZRGMA5N/graph.json","fetch_events":"https://pith.science/api/pith-number/IMFNAPE74GOHAKYKLLHZRGMA5N/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/IMFNAPE74GOHAKYKLLHZRGMA5N/action/timestamp_anchor","attest_storage":"https://pith.science/pith/IMFNAPE74GOHAKYKLLHZRGMA5N/action/storage_attestation","attest_author":"https://pith.science/pith/IMFNAPE74GOHAKYKLLHZRGMA5N/action/author_attestation","sign_citation":"https://pith.science/pith/IMFNAPE74GOHAKYKLLHZRGMA5N/action/citation_signature","submit_replication":"https://pith.science/pith/IMFNAPE74GOHAKYKLLHZRGMA5N/action/replication_record"}},"created_at":"2026-05-18T04:15:07.171809+00:00","updated_at":"2026-05-18T04:15:07.171809+00:00"}