Proceedings of the IEEE/CVF conference on computer vision and pattern recognition , pages=

Masked-attention mask transformer for universal image segmentation , author=

4 Pith papers cite this work. Polarity classification is still indexing.

4 Pith papers citing it

browse 4 citing papers

representative citing papers

Feasibility of Indoor Frame-Wise Lidar Semantic Segmentation via Distillation from Visual Foundation Model

cs.CV · 2026-04-20 · unverdicted · novelty 7.0

Distillation from visual foundation models to lidar enables frame-wise indoor semantic segmentation without manual annotations, achieving up to 56% mIoU on pseudo labels and 36% on real labels.

Coarse Semantic Injection for LLM-Conditioned Structured Indoor Prediction

cs.CV · 2026-05-16 · unverdicted · novelty 6.0

Coarse four-group semantic color coding (RGBB) appended to point clouds before tokenization improves LLM-based structured indoor prediction on Structured3D, SpatialLM, and ARKitScenes, especially for openings and furniture instances.

MambaPanoptic: A Vision Mamba-based Structured State Space Framework for Panoptic Segmentation

cs.CV · 2026-05-12 · unverdicted · novelty 6.0

MambaPanoptic is a fully Mamba-based panoptic segmentation model that uses MambaFPN for multi-scale features and a QuadMamba kernel generator to outperform PanopticDeepLab and PanopticFCN on Cityscapes and COCO while using fewer parameters than Mask2Former.

Diagnosing and Correcting Concept Omission in Multimodal Diffusion Transformers

cs.CV · 2026-05-14

citing papers explorer

Showing 4 of 4 citing papers.

Feasibility of Indoor Frame-Wise Lidar Semantic Segmentation via Distillation from Visual Foundation Model cs.CV · 2026-04-20 · unverdicted · none · ref 37
Distillation from visual foundation models to lidar enables frame-wise indoor semantic segmentation without manual annotations, achieving up to 56% mIoU on pseudo labels and 36% on real labels.
Coarse Semantic Injection for LLM-Conditioned Structured Indoor Prediction cs.CV · 2026-05-16 · unverdicted · none · ref 10
Coarse four-group semantic color coding (RGBB) appended to point clouds before tokenization improves LLM-based structured indoor prediction on Structured3D, SpatialLM, and ARKitScenes, especially for openings and furniture instances.
MambaPanoptic: A Vision Mamba-based Structured State Space Framework for Panoptic Segmentation cs.CV · 2026-05-12 · unverdicted · none · ref 4
MambaPanoptic is a fully Mamba-based panoptic segmentation model that uses MambaFPN for multi-scale features and a QuadMamba kernel generator to outperform PanopticDeepLab and PanopticFCN on Cityscapes and COCO while using fewer parameters than Mask2Former.
Diagnosing and Correcting Concept Omission in Multimodal Diffusion Transformers cs.CV · 2026-05-14 · unreviewed · ref 46

Proceedings of the IEEE/CVF conference on computer vision and pattern recognition , pages=

fields

years

verdicts

representative citing papers

citing papers explorer