Hongyi's Blog

Hongyi Wang9/17/25Less than 1 minute

VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs

InternVideo2: Scaling Video Foundation Models for Multimodal Video Understanding
https://github.com/OpenGVLab/InternVideo

INTERNVIDEO2: SCALING VIDEO FOUNDATION MODELS FOR MULTIMODAL VIDEO UNDERSTANDING
https://github.com/OpenGVLab/InternVideo2

InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation
https://github.com/OpenGVLab/InternVideo/tree/main/Data/InternVid