{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2026:76FCZQPFFJKD5H62VJC52YBL76","short_pith_number":"pith:76FCZQPF","schema_version":"1.0","canonical_sha256":"ff8a2cc1e52a543e9fdaaa45dd602bffacdfb647b6896d80dbcd9d68d22d260a","source":{"kind":"arxiv","id":"2606.20206","version":1},"attestation_state":"computed","paper":{"title":"Off-Policy Evaluation for Missingness-Aware Policies in MDPs with Rewards Missing Not at Random","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.LG"],"primary_cat":"stat.ML","authors_text":"Annie Qu, Rui Miao, Ziheng Wei","submitted_at":"2026-06-18T13:19:43Z","abstract_excerpt":"In offline Reinforcement Learning, immediate rewards in logged batch data are often unobserved due to sparse or irregular record-keeping, or censored beyond certain reward values. This issue arises in practical settings, including health care and marketing. We investigate off-policy evaluation (OPE) in finite-horizon Markov decision processes when rewards are missing not at random (MNAR), which breaks ignorability and induces selection bias even after conditioning on states and actions. To address this, we formalize a reward-dependent propensity model and use future states as shadow variables "},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2606.20206","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"stat.ML","submitted_at":"2026-06-18T13:19:43Z","cross_cats_sorted":["cs.LG"],"title_canon_sha256":"e1338dc3c4077f00e4b0b736a629fc5d69b2c2676663bfffc5c04ac48142664d","abstract_canon_sha256":"5f8a666f7f9375e3947c06554034cb52363f27ba1d2756ee785e4eee88df90ee"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-06-19T16:13:05.653277Z","signature_b64":"eidD3aF2911+OCrfJ9CbMJCSbevPD7gwT8B3O1jQq6O9+/dynKazkojlMKpbh81uxECjlDnjCHCuSeVkcgqfDQ==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"ff8a2cc1e52a543e9fdaaa45dd602bffacdfb647b6896d80dbcd9d68d22d260a","last_reissued_at":"2026-06-19T16:13:05.652923Z","signature_status":"signed_v1","first_computed_at":"2026-06-19T16:13:05.652923Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Off-Policy Evaluation for Missingness-Aware Policies in MDPs with Rewards Missing Not at Random","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.LG"],"primary_cat":"stat.ML","authors_text":"Annie Qu, Rui Miao, Ziheng Wei","submitted_at":"2026-06-18T13:19:43Z","abstract_excerpt":"In offline Reinforcement Learning, immediate rewards in logged batch data are often unobserved due to sparse or irregular record-keeping, or censored beyond certain reward values. This issue arises in practical settings, including health care and marketing. We investigate off-policy evaluation (OPE) in finite-horizon Markov decision processes when rewards are missing not at random (MNAR), which breaks ignorability and induces selection bias even after conditioning on states and actions. To address this, we formalize a reward-dependent propensity model and use future states as shadow variables "},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2606.20206","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2606.20206/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2606.20206","created_at":"2026-06-19T16:13:05.652981+00:00"},{"alias_kind":"arxiv_version","alias_value":"2606.20206v1","created_at":"2026-06-19T16:13:05.652981+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2606.20206","created_at":"2026-06-19T16:13:05.652981+00:00"},{"alias_kind":"pith_short_12","alias_value":"76FCZQPFFJKD","created_at":"2026-06-19T16:13:05.652981+00:00"},{"alias_kind":"pith_short_16","alias_value":"76FCZQPFFJKD5H62","created_at":"2026-06-19T16:13:05.652981+00:00"},{"alias_kind":"pith_short_8","alias_value":"76FCZQPF","created_at":"2026-06-19T16:13:05.652981+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":0,"internal_anchor_count":0,"sample":[]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/76FCZQPFFJKD5H62VJC52YBL76","json":"https://pith.science/pith/76FCZQPFFJKD5H62VJC52YBL76.json","graph_json":"https://pith.science/api/pith-number/76FCZQPFFJKD5H62VJC52YBL76/graph.json","events_json":"https://pith.science/api/pith-number/76FCZQPFFJKD5H62VJC52YBL76/events.json","paper":"https://pith.science/paper/76FCZQPF"},"agent_actions":{"view_html":"https://pith.science/pith/76FCZQPFFJKD5H62VJC52YBL76","download_json":"https://pith.science/pith/76FCZQPFFJKD5H62VJC52YBL76.json","view_paper":"https://pith.science/paper/76FCZQPF","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2606.20206&json=true","fetch_graph":"https://pith.science/api/pith-number/76FCZQPFFJKD5H62VJC52YBL76/graph.json","fetch_events":"https://pith.science/api/pith-number/76FCZQPFFJKD5H62VJC52YBL76/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/76FCZQPFFJKD5H62VJC52YBL76/action/timestamp_anchor","attest_storage":"https://pith.science/pith/76FCZQPFFJKD5H62VJC52YBL76/action/storage_attestation","attest_author":"https://pith.science/pith/76FCZQPFFJKD5H62VJC52YBL76/action/author_attestation","sign_citation":"https://pith.science/pith/76FCZQPFFJKD5H62VJC52YBL76/action/citation_signature","submit_replication":"https://pith.science/pith/76FCZQPFFJKD5H62VJC52YBL76/action/replication_record"}},"created_at":"2026-06-19T16:13:05.652981+00:00","updated_at":"2026-06-19T16:13:05.652981+00:00"}