{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2026:QVVWEMU62DDKEQMBS53UH5M5HO","short_pith_number":"pith:QVVWEMU6","schema_version":"1.0","canonical_sha256":"856b62329ed0c6a24181977743f59d3b846c74788605d4054b5c781d7b8fee02","source":{"kind":"arxiv","id":"2607.01855","version":1},"attestation_state":"computed","paper":{"title":"Regression Accumulation in Multi-Turn LLM Programming Conversations","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":[],"primary_cat":"cs.SE","authors_text":"Amjed Tahir, Lin Ma, Liwen Xiao, Lysa Xiao, Qian Zhang, Yonghui (Andie) Huang","submitted_at":"2026-07-02T08:15:40Z","abstract_excerpt":"In LLM-assisted software development, coding is often iterative. We study regression accumulation in multi-turn LLM programming conversations, where later code suggestions may break requirements introduced in earlier turns. Reliability therefore depends not only on satisfying the current request, but also on preserving previously satisfied behavior.\n  We construct 542 tasks from HumanEval+ and MBPP+ and extend each task into an 8-turn requirement-evolution chain. We evaluate six LLMs on 26,016 turn instances (542 x 6 x 8). At each turn, we test whether the current code still passes earlier ben"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2607.01855","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.SE","submitted_at":"2026-07-02T08:15:40Z","cross_cats_sorted":[],"title_canon_sha256":"99cd563c1188d43dda67c87e038707f1eb4862a0d146df79bd949b147df3b927","abstract_canon_sha256":"29e921d1841c9ac0547318ee92f05aaee2497fdbed71224e18a78760e99cc709"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-07-03T01:17:31.751576Z","signature_b64":"8VGnsMNUZSeEusMC1DJ2HXYj5kpxDwNQSO2KHeqt7D2vm/lOLYj0ljsYEcwqvEhO1bxPS0tXYgsXwGU8nkdxDw==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"856b62329ed0c6a24181977743f59d3b846c74788605d4054b5c781d7b8fee02","last_reissued_at":"2026-07-03T01:17:31.751213Z","signature_status":"signed_v1","first_computed_at":"2026-07-03T01:17:31.751213Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Regression Accumulation in Multi-Turn LLM Programming Conversations","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":[],"primary_cat":"cs.SE","authors_text":"Amjed Tahir, Lin Ma, Liwen Xiao, Lysa Xiao, Qian Zhang, Yonghui (Andie) Huang","submitted_at":"2026-07-02T08:15:40Z","abstract_excerpt":"In LLM-assisted software development, coding is often iterative. We study regression accumulation in multi-turn LLM programming conversations, where later code suggestions may break requirements introduced in earlier turns. Reliability therefore depends not only on satisfying the current request, but also on preserving previously satisfied behavior.\n  We construct 542 tasks from HumanEval+ and MBPP+ and extend each task into an 8-turn requirement-evolution chain. We evaluate six LLMs on 26,016 turn instances (542 x 6 x 8). At each turn, we test whether the current code still passes earlier ben"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2607.01855","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2607.01855/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2607.01855","created_at":"2026-07-03T01:17:31.751276+00:00"},{"alias_kind":"arxiv_version","alias_value":"2607.01855v1","created_at":"2026-07-03T01:17:31.751276+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2607.01855","created_at":"2026-07-03T01:17:31.751276+00:00"},{"alias_kind":"pith_short_12","alias_value":"QVVWEMU62DDK","created_at":"2026-07-03T01:17:31.751276+00:00"},{"alias_kind":"pith_short_16","alias_value":"QVVWEMU62DDKEQMB","created_at":"2026-07-03T01:17:31.751276+00:00"},{"alias_kind":"pith_short_8","alias_value":"QVVWEMU6","created_at":"2026-07-03T01:17:31.751276+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":0,"internal_anchor_count":0,"sample":[]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/QVVWEMU62DDKEQMBS53UH5M5HO","json":"https://pith.science/pith/QVVWEMU62DDKEQMBS53UH5M5HO.json","graph_json":"https://pith.science/api/pith-number/QVVWEMU62DDKEQMBS53UH5M5HO/graph.json","events_json":"https://pith.science/api/pith-number/QVVWEMU62DDKEQMBS53UH5M5HO/events.json","paper":"https://pith.science/paper/QVVWEMU6"},"agent_actions":{"view_html":"https://pith.science/pith/QVVWEMU62DDKEQMBS53UH5M5HO","download_json":"https://pith.science/pith/QVVWEMU62DDKEQMBS53UH5M5HO.json","view_paper":"https://pith.science/paper/QVVWEMU6","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2607.01855&json=true","fetch_graph":"https://pith.science/api/pith-number/QVVWEMU62DDKEQMBS53UH5M5HO/graph.json","fetch_events":"https://pith.science/api/pith-number/QVVWEMU62DDKEQMBS53UH5M5HO/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/QVVWEMU62DDKEQMBS53UH5M5HO/action/timestamp_anchor","attest_storage":"https://pith.science/pith/QVVWEMU62DDKEQMBS53UH5M5HO/action/storage_attestation","attest_author":"https://pith.science/pith/QVVWEMU62DDKEQMBS53UH5M5HO/action/author_attestation","sign_citation":"https://pith.science/pith/QVVWEMU62DDKEQMBS53UH5M5HO/action/citation_signature","submit_replication":"https://pith.science/pith/QVVWEMU62DDKEQMBS53UH5M5HO/action/replication_record"}},"created_at":"2026-07-03T01:17:31.751276+00:00","updated_at":"2026-07-03T01:17:31.751276+00:00"}