{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2026:54WC7TJ5YMVDJFDRYQRPGO37FB","short_pith_number":"pith:54WC7TJ5","schema_version":"1.0","canonical_sha256":"ef2c2fcd3dc32a349471c422f33b7f28695ab87239779bafd9d4a9ddf4ad19e2","source":{"kind":"arxiv","id":"2605.30914","version":1},"attestation_state":"computed","paper":{"title":"Automating Formal Verification with Reinforcement Learning and Recursive Inference","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.SE"],"primary_cat":"cs.LG","authors_text":"Max Tan","submitted_at":"2026-05-29T06:59:28Z","abstract_excerpt":"Automated formal verification remains challenging for large language models because data for proof assistants and verification-aware languages is scarce, and correctness depends on satisfying precise machine-checkable specifications rather than producing plausible code. This thesis studies how verifier environments can improve LLM generation of verified programs and proofs through reinforcement learning from verifiable rewards (RLVR) and verifier-guided inference-time search. First, we train open-source models in Dafny with RLVR using Group Relative Policy Optimization (GRPO) and related varia"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2605.30914","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2026-05-29T06:59:28Z","cross_cats_sorted":["cs.SE"],"title_canon_sha256":"db0ed0bbdba9aa31a4a1b7cf50b362fcf9e394946453b012359fa0542b40ca98","abstract_canon_sha256":"a987b362c6adadf94d053e610744de9db9db9787969af0a0a5fdd2c2b7941d8d"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-06-01T01:03:25.600185Z","signature_b64":"KAmKsPmQ7NdqAeVuDs2qjgGjFnrnyOY+tlFMx/LTzm3Jyia8cIyqzRsiQkkxBMXXkU4Kgs9S3MDhrb3SAEwpCQ==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"ef2c2fcd3dc32a349471c422f33b7f28695ab87239779bafd9d4a9ddf4ad19e2","last_reissued_at":"2026-06-01T01:03:25.599378Z","signature_status":"signed_v1","first_computed_at":"2026-06-01T01:03:25.599378Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Automating Formal Verification with Reinforcement Learning and Recursive Inference","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.SE"],"primary_cat":"cs.LG","authors_text":"Max Tan","submitted_at":"2026-05-29T06:59:28Z","abstract_excerpt":"Automated formal verification remains challenging for large language models because data for proof assistants and verification-aware languages is scarce, and correctness depends on satisfying precise machine-checkable specifications rather than producing plausible code. This thesis studies how verifier environments can improve LLM generation of verified programs and proofs through reinforcement learning from verifiable rewards (RLVR) and verifier-guided inference-time search. First, we train open-source models in Dafny with RLVR using Group Relative Policy Optimization (GRPO) and related varia"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2605.30914","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2605.30914/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2605.30914","created_at":"2026-06-01T01:03:25.599496+00:00"},{"alias_kind":"arxiv_version","alias_value":"2605.30914v1","created_at":"2026-06-01T01:03:25.599496+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2605.30914","created_at":"2026-06-01T01:03:25.599496+00:00"},{"alias_kind":"pith_short_12","alias_value":"54WC7TJ5YMVD","created_at":"2026-06-01T01:03:25.599496+00:00"},{"alias_kind":"pith_short_16","alias_value":"54WC7TJ5YMVDJFDR","created_at":"2026-06-01T01:03:25.599496+00:00"},{"alias_kind":"pith_short_8","alias_value":"54WC7TJ5","created_at":"2026-06-01T01:03:25.599496+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":0,"internal_anchor_count":0,"sample":[]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/54WC7TJ5YMVDJFDRYQRPGO37FB","json":"https://pith.science/pith/54WC7TJ5YMVDJFDRYQRPGO37FB.json","graph_json":"https://pith.science/api/pith-number/54WC7TJ5YMVDJFDRYQRPGO37FB/graph.json","events_json":"https://pith.science/api/pith-number/54WC7TJ5YMVDJFDRYQRPGO37FB/events.json","paper":"https://pith.science/paper/54WC7TJ5"},"agent_actions":{"view_html":"https://pith.science/pith/54WC7TJ5YMVDJFDRYQRPGO37FB","download_json":"https://pith.science/pith/54WC7TJ5YMVDJFDRYQRPGO37FB.json","view_paper":"https://pith.science/paper/54WC7TJ5","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2605.30914&json=true","fetch_graph":"https://pith.science/api/pith-number/54WC7TJ5YMVDJFDRYQRPGO37FB/graph.json","fetch_events":"https://pith.science/api/pith-number/54WC7TJ5YMVDJFDRYQRPGO37FB/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/54WC7TJ5YMVDJFDRYQRPGO37FB/action/timestamp_anchor","attest_storage":"https://pith.science/pith/54WC7TJ5YMVDJFDRYQRPGO37FB/action/storage_attestation","attest_author":"https://pith.science/pith/54WC7TJ5YMVDJFDRYQRPGO37FB/action/author_attestation","sign_citation":"https://pith.science/pith/54WC7TJ5YMVDJFDRYQRPGO37FB/action/citation_signature","submit_replication":"https://pith.science/pith/54WC7TJ5YMVDJFDRYQRPGO37FB/action/replication_record"}},"created_at":"2026-06-01T01:03:25.599496+00:00","updated_at":"2026-06-01T01:03:25.599496+00:00"}