Distflashattn: Distributed memory-efficient atten- tion for long-context llms training.arXiv preprint arXiv:2401.07248, 2024

Jiarui Fang, Zilin Zhu, Yang Yu, Xin Liu · 2024 · arXiv 2401.07248

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

HCMS: Head-Chunked Multi-Stream Pipeline for Communication-Computation Overlap in Long-Sequence Parallel Attention

cs.DC · 2026-07-02 · unverdicted · novelty 7.0

HCMS partitions multi-head attention into chunks and pipelines them across dual CUDA streams to overlap communication and computation, delivering 10-17.5% speedup over Ulysses for 31K-56K token sequences.

citing papers explorer

Showing 1 of 1 citing paper.

HCMS: Head-Chunked Multi-Stream Pipeline for Communication-Computation Overlap in Long-Sequence Parallel Attention cs.DC · 2026-07-02 · unverdicted · none · ref 11
HCMS partitions multi-head attention into chunks and pipelines them across dual CUDA streams to overlap communication and computation, delivering 10-17.5% speedup over Ulysses for 31K-56K token sequences.

Distflashattn: Distributed memory-efficient atten- tion for long-context llms training.arXiv preprint arXiv:2401.07248, 2024

fields

years

verdicts

representative citing papers

citing papers explorer