{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2024:BUZ7W4MF2MBT2C65V4HB3BKU6K","short_pith_number":"pith:BUZ7W4MF","schema_version":"1.0","canonical_sha256":"0d33fb7185d3033d0bddaf0e1d8554f28a4ebede14e0f23f82c674abe7cb32e0","source":{"kind":"arxiv","id":"2404.16994","version":2},"attestation_state":"computed","paper":{"title":"PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning","license":"http://creativecommons.org/licenses/by-nc-nd/4.0/","headline":"A parameter-free temporal pooling strategy lets image-language models extend directly to video dense captioning and question answering without added parameters or heavy retraining.","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Daquan Zhou, Jiashi Feng, Lin Xu, See Kiong Ng, Yilin Zhao, Zhijie Lin","submitted_at":"2024-04-25T19:29:55Z","abstract_excerpt":"Vision-language pre-training has significantly elevated performance across a wide range of image-language applications. Yet, the pre-training process for video-related tasks demands exceptionally large computational and data resources, which hinders the progress of video-language models. This paper investigates a straight-forward, highly efficient, and resource-light approach to adapting an existing image-language pre-trained model for dense video understanding. Our preliminary experiments reveal that directly fine-tuning pre-trained image-language models with multiple frames as inputs on vide"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2404.16994","kind":"arxiv","version":2},"metadata":{"license":"http://creativecommons.org/licenses/by-nc-nd/4.0/","primary_cat":"cs.CV","submitted_at":"2024-04-25T19:29:55Z","cross_cats_sorted":[],"title_canon_sha256":"f6dc7cafb3ca23a25cca7272ff45a3eee92caa94cdd7e103c0d0d8552bddf719","abstract_canon_sha256":"00e0c64dde30021d2f834453a2d09e667f67fe7f2f1ae48439d07281cc292fe5"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:50.286985Z","signature_b64":"7BZmRL9cpIAqj+azgWjNLK9iOiMAQauMIhCl+lMdhPYYB7YQGe+ShETOZpoDp0EXINcjq4f1CmHN8u6TSqrgAg==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"0d33fb7185d3033d0bddaf0e1d8554f28a4ebede14e0f23f82c674abe7cb32e0","last_reissued_at":"2026-05-17T23:38:50.286434Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:50.286434Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning","license":"http://creativecommons.org/licenses/by-nc-nd/4.0/","headline":"A parameter-free temporal pooling strategy lets image-language models extend directly to video dense captioning and question answering without added parameters or heavy retraining.","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Daquan Zhou, Jiashi Feng, Lin Xu, See Kiong Ng, Yilin Zhao, Zhijie Lin","submitted_at":"2024-04-25T19:29:55Z","abstract_excerpt":"Vision-language pre-training has significantly elevated performance across a wide range of image-language applications. Yet, the pre-training process for video-related tasks demands exceptionally large computational and data resources, which hinders the progress of video-language models. This paper investigates a straight-forward, highly efficient, and resource-light approach to adapting an existing image-language pre-trained model for dense video understanding. Our preliminary experiments reveal that directly fine-tuning pre-trained image-language models with multiple frames as inputs on vide"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"PLLaVA achieves 3.48/5 on VideoChatGPT (9% above GPT-4V IG-VLM) and 58.1% on MVBench (14.5% above GPT-4V IG-VLM) by applying a parameter-free temporal pooling strategy that mitigates high-norm feature bias.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That the performance drop when feeding multiple frames directly is caused primarily by high-norm visual feature bias rather than by other factors such as temporal modeling capacity or training data mismatch.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"A temporal pooling layer added to LLaVA smooths video feature distributions and lifts performance on dense video captioning and QA to new SOTA levels without extra parameters.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"A parameter-free temporal pooling strategy lets image-language models extend directly to video dense captioning and question answering without added parameters or heavy retraining.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"8a4a1585ddad7ccb6a1212c7f6ee77426fcbbde33839b6d7d1f901555d7a0dba"},"source":{"id":"2404.16994","kind":"arxiv","version":2},"verdict":{"id":"0ab945e4-32d6-48c8-a134-bce6542669c1","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-15T20:18:37.088390Z","strongest_claim":"PLLaVA achieves 3.48/5 on VideoChatGPT (9% above GPT-4V IG-VLM) and 58.1% on MVBench (14.5% above GPT-4V IG-VLM) by applying a parameter-free temporal pooling strategy that mitigates high-norm feature bias.","one_line_summary":"A temporal pooling layer added to LLaVA smooths video feature distributions and lifts performance on dense video captioning and QA to new SOTA levels without extra parameters.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That the performance drop when feeding multiple frames directly is caused primarily by high-norm visual feature bias rather than by other factors such as temporal modeling capacity or training data mismatch.","pith_extraction_headline":"A parameter-free temporal pooling strategy lets image-language models extend directly to video dense captioning and question answering without added parameters or heavy retraining."},"references":{"count":53,"sample":[{"doi":"","year":2023,"title":"GPT-4 Technical Report","work_id":"b928e041-6991-4c08-8c81-0359e4097c7b","ref_index":1,"cited_arxiv_id":"2303.08774","is_internal_anchor":true},{"doi":"","year":2021,"title":"Frozen in time: A joint video and image encoder for end-to-end retrieval","work_id":"2a136f10-92cd-4a8d-96ba-7aa9ab74f8d3","ref_index":2,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2023,"title":"Videollm: Modeling video sequence with large language models","work_id":"b2dab7c7-a0c3-46e2-99e3-b19a08e2436b","ref_index":3,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2021,"title":"Evaluating Large Language Models Trained on Code","work_id":"042493e9-b26f-4b4e-bbde-382072ca9b08","ref_index":4,"cited_arxiv_id":"2107.03374","is_internal_anchor":true},{"doi":"","year":2023,"title":"Vicuna: An open-source chatbot impressing gpt-4 with 90%* chatgpt quality","work_id":"61034f5e-003f-4ba2-b05e-f332bf79c5d5","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":53,"snapshot_sha256":"835ef22f9bfc629c0781e381327ee441ddf0421407bcaf20da4642a10abe07dc","internal_anchors":9},"formal_canon":{"evidence_count":1,"snapshot_sha256":"ac4edc97a35346b99dd1c7e90cd9aca510e25c658d24c49337c19bcc59f27eb0"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2404.16994","created_at":"2026-05-17T23:38:50.286503+00:00"},{"alias_kind":"arxiv_version","alias_value":"2404.16994v2","created_at":"2026-05-17T23:38:50.286503+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2404.16994","created_at":"2026-05-17T23:38:50.286503+00:00"},{"alias_kind":"pith_short_12","alias_value":"BUZ7W4MF2MBT","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"BUZ7W4MF2MBT2C65","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"BUZ7W4MF","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":32,"internal_anchor_count":32,"sample":[{"citing_arxiv_id":"2411.02327","citing_title":"PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2412.17574","citing_title":"HumanVBench: Probing Human-Centric Video Understanding in MLLMs with Automatically Synthesized Benchmarks","ref_index":54,"is_internal_anchor":true},{"citing_arxiv_id":"2501.02955","citing_title":"MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models","ref_index":44,"is_internal_anchor":true},{"citing_arxiv_id":"2505.15269","citing_title":"LiveVLM: Efficient Online Video Understanding via Streaming-Oriented KV Cache and Retrieval","ref_index":36,"is_internal_anchor":true},{"citing_arxiv_id":"2605.22269","citing_title":"MuKV: Multi-Grained KV Cache Compression for Long Streaming Video Question-Answering","ref_index":49,"is_internal_anchor":true},{"citing_arxiv_id":"2605.22078","citing_title":"Enhancing Visual Token Representations for Video Large Language Models via Training-Free Spatial-Temporal Pooling and Gridding","ref_index":9,"is_internal_anchor":true},{"citing_arxiv_id":"2408.04840","citing_title":"mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models","ref_index":256,"is_internal_anchor":true},{"citing_arxiv_id":"2406.08035","citing_title":"LVBench: An Extreme Long Video Understanding Benchmark","ref_index":43,"is_internal_anchor":true},{"citing_arxiv_id":"2501.00574","citing_title":"VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling","ref_index":60,"is_internal_anchor":true},{"citing_arxiv_id":"2408.10188","citing_title":"LongVILA: Scaling Long-Context Visual Language Models for Long Videos","ref_index":27,"is_internal_anchor":true},{"citing_arxiv_id":"2512.08410","citing_title":"Towards Effective Long Video Understanding of Multimodal Large Language Models via One-shot Clip Retrieval","ref_index":54,"is_internal_anchor":true},{"citing_arxiv_id":"2501.04001","citing_title":"Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos","ref_index":98,"is_internal_anchor":true},{"citing_arxiv_id":"2602.17555","citing_title":"GraphThinker: Reinforcing Temporally Grounded Video Reasoning with Event Graph Thinking","ref_index":66,"is_internal_anchor":true},{"citing_arxiv_id":"2603.01400","citing_title":"Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models","ref_index":66,"is_internal_anchor":true},{"citing_arxiv_id":"2605.13080","citing_title":"Learning to See What You Need: Gaze Attention for Multimodal Large Language Models","ref_index":134,"is_internal_anchor":true},{"citing_arxiv_id":"2604.02891","citing_title":"Progressive Video Condensation with MLLM Agent for Long-form Video Understanding","ref_index":7,"is_internal_anchor":true},{"citing_arxiv_id":"2604.03045","citing_title":"STEAR: Layer-Aware Spatiotemporal Evidence Intervention for Hallucination Mitigation in Video Large Language Models","ref_index":47,"is_internal_anchor":true},{"citing_arxiv_id":"2506.15564","citing_title":"Show-o2: Improved Native Unified Multimodal Models","ref_index":131,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08412","citing_title":"SYNCR: A Cross-Video Reasoning Benchmark with Synthetic Grounding","ref_index":30,"is_internal_anchor":true},{"citing_arxiv_id":"2605.05848","citing_title":"VideoRouter: Query-Adaptive Dual Routing for Efficient Long-Video Understanding","ref_index":5,"is_internal_anchor":true},{"citing_arxiv_id":"2605.02262","citing_title":"WindowQuant: Mixed-Precision KV Cache Quantization based on Window-Level Similarity for VLMs Inference Optimization","ref_index":46,"is_internal_anchor":true},{"citing_arxiv_id":"2412.20404","citing_title":"Open-Sora: Democratizing Efficient Video Production for All","ref_index":35,"is_internal_anchor":true},{"citing_arxiv_id":"2604.12115","citing_title":"HTDC: Hesitation-Triggered Differential Calibration for Mitigating Hallucination in Large Vision-Language Models","ref_index":41,"is_internal_anchor":true},{"citing_arxiv_id":"2604.11283","citing_title":"Multimodal Large Language Model-Enabled Video Translation: A Role-Oriented Survey","ref_index":61,"is_internal_anchor":true},{"citing_arxiv_id":"2605.05848","citing_title":"VideoRouter: Query-Adaptive Dual Routing for Efficient Long-Video Understanding","ref_index":5,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":1,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/BUZ7W4MF2MBT2C65V4HB3BKU6K","json":"https://pith.science/pith/BUZ7W4MF2MBT2C65V4HB3BKU6K.json","graph_json":"https://pith.science/api/pith-number/BUZ7W4MF2MBT2C65V4HB3BKU6K/graph.json","events_json":"https://pith.science/api/pith-number/BUZ7W4MF2MBT2C65V4HB3BKU6K/events.json","paper":"https://pith.science/paper/BUZ7W4MF"},"agent_actions":{"view_html":"https://pith.science/pith/BUZ7W4MF2MBT2C65V4HB3BKU6K","download_json":"https://pith.science/pith/BUZ7W4MF2MBT2C65V4HB3BKU6K.json","view_paper":"https://pith.science/paper/BUZ7W4MF","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2404.16994&json=true","fetch_graph":"https://pith.science/api/pith-number/BUZ7W4MF2MBT2C65V4HB3BKU6K/graph.json","fetch_events":"https://pith.science/api/pith-number/BUZ7W4MF2MBT2C65V4HB3BKU6K/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/BUZ7W4MF2MBT2C65V4HB3BKU6K/action/timestamp_anchor","attest_storage":"https://pith.science/pith/BUZ7W4MF2MBT2C65V4HB3BKU6K/action/storage_attestation","attest_author":"https://pith.science/pith/BUZ7W4MF2MBT2C65V4HB3BKU6K/action/author_attestation","sign_citation":"https://pith.science/pith/BUZ7W4MF2MBT2C65V4HB3BKU6K/action/citation_signature","submit_replication":"https://pith.science/pith/BUZ7W4MF2MBT2C65V4HB3BKU6K/action/replication_record"}},"created_at":"2026-05-17T23:38:50.286503+00:00","updated_at":"2026-05-17T23:38:50.286503+00:00"}