我院师生在计算机视觉领域顶级会议CVPR发表学术论文
探索多模态智能的新高度《Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models》研究背景:多模态大模型(LMM)是整合了文本和视觉处理能力的先进人工智能系统,GPT-4展示的强大多模态能力引发了对多模态大模型的研究热潮。研究亮点:旨在构建一个凭借丰富知识和出色对话能力,能够同人类一样深入理解和感知世界的通用多模态大模型。技术突破:构建了通用多模态大模型Monkey,它在图像...