{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2018:6UGOGP3AXIFNY35KOVFRLJJRDT","short_pith_number":"pith:6UGOGP3A","schema_version":"1.0","canonical_sha256":"f50ce33f60ba0adc6faa754b15a5311cf1579b1fb7edc64f2d27472bd4f7c28f","source":{"kind":"arxiv","id":"1801.08757","version":1},"attestation_state":"computed","paper":{"title":"Safe Exploration in Continuous Action Spaces","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":[],"primary_cat":"cs.AI","authors_text":"Cosmin Paduraru, Gal Dalal, Krishnamurthy Dvijotham, Matej Vecerik, Todd Hester, Yuval Tassa","submitted_at":"2018-01-26T11:11:18Z","abstract_excerpt":"We address the problem of deploying a reinforcement learning (RL) agent on a physical system such as a datacenter cooling unit or robot, where critical constraints must never be violated. We show how to exploit the typically smooth dynamics of these systems and enable RL algorithms to never violate constraints during learning. Our technique is to directly add to the policy a safety layer that analytically solves an action correction formulation per each state. The novelty of obtaining an elegant closed-form solution is attained due to a linearized model, learned on past trajectories consisting"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"1801.08757","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.AI","submitted_at":"2018-01-26T11:11:18Z","cross_cats_sorted":[],"title_canon_sha256":"5c43a7166bdf4497f8d819d70e1d81ea05528b300c96fc98859b046385ee3ecf","abstract_canon_sha256":"5140949796d4acf72f21c94cf17ab59fbda0ffe045a81b530ffe8ec8d57096ec"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-18T00:25:03.096576Z","signature_b64":"wIgDkPOAKbM5gE3FHmM4eFaeNj3AYb0RWUhQbdca7bY45RgYMPKv596Zq8tzyPdHmcazoGe2QlbW+sp3z0hyCg==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"f50ce33f60ba0adc6faa754b15a5311cf1579b1fb7edc64f2d27472bd4f7c28f","last_reissued_at":"2026-05-18T00:25:03.096154Z","signature_status":"signed_v1","first_computed_at":"2026-05-18T00:25:03.096154Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Safe Exploration in Continuous Action Spaces","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":[],"primary_cat":"cs.AI","authors_text":"Cosmin Paduraru, Gal Dalal, Krishnamurthy Dvijotham, Matej Vecerik, Todd Hester, Yuval Tassa","submitted_at":"2018-01-26T11:11:18Z","abstract_excerpt":"We address the problem of deploying a reinforcement learning (RL) agent on a physical system such as a datacenter cooling unit or robot, where critical constraints must never be violated. We show how to exploit the typically smooth dynamics of these systems and enable RL algorithms to never violate constraints during learning. Our technique is to directly add to the policy a safety layer that analytically solves an action correction formulation per each state. The novelty of obtaining an elegant closed-form solution is attained due to a linearized model, learned on past trajectories consisting"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1801.08757","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"1801.08757","created_at":"2026-05-18T00:25:03.096227+00:00"},{"alias_kind":"arxiv_version","alias_value":"1801.08757v1","created_at":"2026-05-18T00:25:03.096227+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1801.08757","created_at":"2026-05-18T00:25:03.096227+00:00"},{"alias_kind":"pith_short_12","alias_value":"6UGOGP3AXIFN","created_at":"2026-05-18T12:32:11.075285+00:00"},{"alias_kind":"pith_short_16","alias_value":"6UGOGP3AXIFNY35K","created_at":"2026-05-18T12:32:11.075285+00:00"},{"alias_kind":"pith_short_8","alias_value":"6UGOGP3A","created_at":"2026-05-18T12:32:11.075285+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":11,"internal_anchor_count":7,"sample":[{"citing_arxiv_id":"1906.12189","citing_title":"Learning-based Model Predictive Control for Safe Exploration and Reinforcement Learning","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2503.03480","citing_title":"SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Constrained Learning","ref_index":92,"is_internal_anchor":true},{"citing_arxiv_id":"2604.07833","citing_title":"Harnessing Embodied Agents: Runtime Governance for Policy-Constrained Execution","ref_index":32,"is_internal_anchor":true},{"citing_arxiv_id":"2605.22446","citing_title":"Pre-VLA: Preemptive Runtime Verification for Reliable Vision-Language-Action and World-Model Rollouts","ref_index":33,"is_internal_anchor":true},{"citing_arxiv_id":"2508.16474","citing_title":"Reinforcement Learning-based Control via Y-wise Affine Neural Networks (YANNs)","ref_index":66,"is_internal_anchor":true},{"citing_arxiv_id":"2509.12833","citing_title":"Safe Reinforcement Learning using Action Projection: Safeguard the Policy or the Environment?","ref_index":1,"is_internal_anchor":true},{"citing_arxiv_id":"2510.11491","citing_title":"Constraint-Aware Reinforcement Learning via Adaptive Action Scaling","ref_index":30,"is_internal_anchor":true},{"citing_arxiv_id":"2605.04185","citing_title":"Constraint-Enhanced Reinforcement Learning Based on Dynamic Decoupled Spherical Radial Squashing","ref_index":35,"is_internal_anchor":false},{"citing_arxiv_id":"2604.07457","citing_title":"CMP: Robust Whole-Body Tracking for Loco-Manipulation via Competence Manifold Projection","ref_index":11,"is_internal_anchor":false},{"citing_arxiv_id":"2604.07833","citing_title":"Harnessing Embodied Agents: Runtime Governance for Policy-Constrained Execution","ref_index":32,"is_internal_anchor":false},{"citing_arxiv_id":"2605.06992","citing_title":"Why Does Agentic Safety Fail to Generalize Across Tasks?","ref_index":27,"is_internal_anchor":false}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/6UGOGP3AXIFNY35KOVFRLJJRDT","json":"https://pith.science/pith/6UGOGP3AXIFNY35KOVFRLJJRDT.json","graph_json":"https://pith.science/api/pith-number/6UGOGP3AXIFNY35KOVFRLJJRDT/graph.json","events_json":"https://pith.science/api/pith-number/6UGOGP3AXIFNY35KOVFRLJJRDT/events.json","paper":"https://pith.science/paper/6UGOGP3A"},"agent_actions":{"view_html":"https://pith.science/pith/6UGOGP3AXIFNY35KOVFRLJJRDT","download_json":"https://pith.science/pith/6UGOGP3AXIFNY35KOVFRLJJRDT.json","view_paper":"https://pith.science/paper/6UGOGP3A","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=1801.08757&json=true","fetch_graph":"https://pith.science/api/pith-number/6UGOGP3AXIFNY35KOVFRLJJRDT/graph.json","fetch_events":"https://pith.science/api/pith-number/6UGOGP3AXIFNY35KOVFRLJJRDT/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/6UGOGP3AXIFNY35KOVFRLJJRDT/action/timestamp_anchor","attest_storage":"https://pith.science/pith/6UGOGP3AXIFNY35KOVFRLJJRDT/action/storage_attestation","attest_author":"https://pith.science/pith/6UGOGP3AXIFNY35KOVFRLJJRDT/action/author_attestation","sign_citation":"https://pith.science/pith/6UGOGP3AXIFNY35KOVFRLJJRDT/action/citation_signature","submit_replication":"https://pith.science/pith/6UGOGP3AXIFNY35KOVFRLJJRDT/action/replication_record"}},"created_at":"2026-05-18T00:25:03.096227+00:00","updated_at":"2026-05-18T00:25:03.096227+00:00"}