Meta斯坦福全新多模态Apollo60分钟视频轻松理解!7B性能超越30B
2024-12-20
编辑:KingHZ 【新智元导读】Meta斯坦福大学联合团队全面研究多模态大模型(LMM)中驱动视频理解的机制,扩展了视频多模态大模型的设计空间,提出新的训练调度和数据混合方法,并通过语言先验或单帧输入解决了已有的评价基准中的低效问题。 虽然语言和图像语言建模进展迅速,但视频多模态大模型(LMM)却难以望其项背。 近日,Meta和斯坦福大学的团队联手,从评估基准、模型设计到开源模型, 做出了全方位...