{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:4GETQN3LW5FXTG7XHGV66TQJCC","short_pith_number":"pith:4GETQN3L","schema_version":"1.0","canonical_sha256":"e18938376bb74b799bf739abef4e09108cfeabc94093784c0af5d9396b8ceb0d","source":{"kind":"arxiv","id":"2512.21218","version":2},"attestation_state":"computed","paper":{"title":"Latent Implicit Visual Reasoning","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Chuyi Shang, Kelvin Li, Leonid Karlinsky, Roei Herzig, Rogerio Feris, Trevor Darrell","submitted_at":"2025-12-24T14:59:49Z","abstract_excerpt":"While Large Multimodal Models (LMMs) have made significant progress, they remain largely text-centric, relying on language as their core reasoning modality. As a result, they are limited in their ability to handle reasoning tasks that are predominantly visual. Recent approaches have sought to address this by supervising intermediate visual steps with helper images, depth maps, or image crops. However, these strategies impose restrictive priors on what \"useful\" visual abstractions look like, add heavy annotation costs, and struggle to generalize across tasks. To address this critical limitation"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2512.21218","kind":"arxiv","version":2},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.CV","submitted_at":"2025-12-24T14:59:49Z","cross_cats_sorted":[],"title_canon_sha256":"8a80afb1648ea5700fff51b91d2e3239c06a338761ade10e22d671544d9aedd8","abstract_canon_sha256":"5cdd7ff354060d90293ef302417c89af4f9e53cb62926bf269fd47c1303591d9"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-06-05T00:13:44.946108Z","signature_b64":"jYERyqs+Tu4UYTMG+jjCsugZaDv0oWF3ovstyLaT2lhAxMLPZ0+XvQ1ENAtJ97C7oew5xq35Zh88ZUuR6enLCw==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"e18938376bb74b799bf739abef4e09108cfeabc94093784c0af5d9396b8ceb0d","last_reissued_at":"2026-06-05T00:13:44.945494Z","signature_status":"signed_v1","first_computed_at":"2026-06-05T00:13:44.945494Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Latent Implicit Visual Reasoning","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Chuyi Shang, Kelvin Li, Leonid Karlinsky, Roei Herzig, Rogerio Feris, Trevor Darrell","submitted_at":"2025-12-24T14:59:49Z","abstract_excerpt":"While Large Multimodal Models (LMMs) have made significant progress, they remain largely text-centric, relying on language as their core reasoning modality. As a result, they are limited in their ability to handle reasoning tasks that are predominantly visual. Recent approaches have sought to address this by supervising intermediate visual steps with helper images, depth maps, or image crops. However, these strategies impose restrictive priors on what \"useful\" visual abstractions look like, add heavy annotation costs, and struggle to generalize across tasks. To address this critical limitation"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2512.21218","kind":"arxiv","version":2},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2512.21218/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2512.21218","created_at":"2026-06-05T00:13:44.945562+00:00"},{"alias_kind":"arxiv_version","alias_value":"2512.21218v2","created_at":"2026-06-05T00:13:44.945562+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2512.21218","created_at":"2026-06-05T00:13:44.945562+00:00"},{"alias_kind":"pith_short_12","alias_value":"4GETQN3LW5FX","created_at":"2026-06-05T00:13:44.945562+00:00"},{"alias_kind":"pith_short_16","alias_value":"4GETQN3LW5FXTG7X","created_at":"2026-06-05T00:13:44.945562+00:00"},{"alias_kind":"pith_short_8","alias_value":"4GETQN3L","created_at":"2026-06-05T00:13:44.945562+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":6,"internal_anchor_count":6,"sample":[{"citing_arxiv_id":"2605.21642","citing_title":"Ablate-to-Validate: Are Vision-Language Models Really Using Continuous Thought Tokens?","ref_index":11,"is_internal_anchor":true},{"citing_arxiv_id":"2605.22012","citing_title":"LatentOmni: Rethinking Omni-Modal Understanding via Unified Audio-Visual Latent Reasoning","ref_index":46,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12374","citing_title":"Fill the GAP: A Granular Alignment Paradigm for Visual Reasoning in Multimodal Large Language Models","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12374","citing_title":"Fill the GAP: A Granular Alignment Paradigm for Visual Reasoning in Multimodal Large Language Models","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12374","citing_title":"Fill the GAP: A Granular Alignment Paradigm for Visual Reasoning in Multimodal Large Language Models","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2604.21027","citing_title":"HypEHR: Hyperbolic Modeling of Electronic Health Records for Efficient Question Answering","ref_index":77,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/4GETQN3LW5FXTG7XHGV66TQJCC","json":"https://pith.science/pith/4GETQN3LW5FXTG7XHGV66TQJCC.json","graph_json":"https://pith.science/api/pith-number/4GETQN3LW5FXTG7XHGV66TQJCC/graph.json","events_json":"https://pith.science/api/pith-number/4GETQN3LW5FXTG7XHGV66TQJCC/events.json","paper":"https://pith.science/paper/4GETQN3L"},"agent_actions":{"view_html":"https://pith.science/pith/4GETQN3LW5FXTG7XHGV66TQJCC","download_json":"https://pith.science/pith/4GETQN3LW5FXTG7XHGV66TQJCC.json","view_paper":"https://pith.science/paper/4GETQN3L","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2512.21218&json=true","fetch_graph":"https://pith.science/api/pith-number/4GETQN3LW5FXTG7XHGV66TQJCC/graph.json","fetch_events":"https://pith.science/api/pith-number/4GETQN3LW5FXTG7XHGV66TQJCC/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/4GETQN3LW5FXTG7XHGV66TQJCC/action/timestamp_anchor","attest_storage":"https://pith.science/pith/4GETQN3LW5FXTG7XHGV66TQJCC/action/storage_attestation","attest_author":"https://pith.science/pith/4GETQN3LW5FXTG7XHGV66TQJCC/action/author_attestation","sign_citation":"https://pith.science/pith/4GETQN3LW5FXTG7XHGV66TQJCC/action/citation_signature","submit_replication":"https://pith.science/pith/4GETQN3LW5FXTG7XHGV66TQJCC/action/replication_record"}},"created_at":"2026-06-05T00:13:44.945562+00:00","updated_at":"2026-06-05T00:13:44.945562+00:00"}