TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning

Jan 1, 2025·

Xiangyu Zeng

,

Kunchang Li

,

Chenting Wang

,

Xinhao Li

,

Tianxiang Jiang

,

Ziang Yan

,

Songze Li

,

Yansong Shi

,

Zhengrong Yue

,

Yi Wang

,

Yali Wang

,

Yu Qiao

Limin Wang

Limin Wang

· 0 min read

Cite URL

Type

Conference paper

Publication

The Thirteenth International Conference on Learning Representations

Last updated on Jan 1, 2025

Limin Wang

Authors

Nanjing University

← Taste more, taste better: diverse data and strong model boost semi-supervised crowd counting Jan 1, 2025

Tra-MoE: learning trajectory prediction model from multiple domains for adaptive policy conditioning Jan 1, 2025 →