探索多模态智能的新高度
《Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models》
研究背景:多模态大模型(LMM)是整合了文本和视觉处理能力的先进人工智能系统,GPT-4展示的强大多模态能力引发了对多模态大模型的研究热潮。
研究亮点:旨在构建一个凭借丰富知识和出色对话能力,能够同人类一样深入理解和感知世界的通用多模态大模型。
技术突破:构建了通用多模态大模型Monkey,它在图像描述和视觉问答任务方面超越了众多现有知名模型,同时也在文本密集的问答任务中表现出显著优势,甚至在某些样本上超越了OpenAI的多模态大模型GPT-4V。
团队贡献:在白翔教授的指导下,我院硕士生李长、杨彪为共同第一作者,该项工作得到了国家自然科学基金项目的支持。
学术成就:被人工智能领域的国际顶级会议CVPR2024接收为Highlight(全球仅324篇),曾名列Meta AI公认的国际权威“司南”多模态大模型排行榜的开源模型榜首。
创新图像抠图技术的突破
《In-Context Matting》
研究背景:图像抠图是计算机视觉中的一个重要任务,本研究克服了抠图中准确锁定前景的挑战。
研究亮点:提出了一种新颖的图像抠图任务设置——上下文抠图,平衡了抠图精度与自动化水平。
技术突破:引入了IconMatting模型,这是一种基于预训练的文本到图像扩散模型,能够通过给定一张特定前景的参考图像和引导先验,利用参考上下文在一批同类前景的目标图像上实现自动alpha蒙版估计,无需额外辅助输入。
团队贡献:我院硕士研究生郭赫在陆昊副教授和曹治国教授的指导下完成。
学术成就:“In-Context Matting”在CVPR 2024以亮点论文的形式进行了海报展示。此外,团队另一篇论文“Unifying Automatic and Interactive Matting with Pretrained ViTs”也在大会上进行了展示。两篇论文均聚焦于图像抠图领域,展现了团队在这一前沿领域的研究实力。
我院在计算机视觉领域的探索,如同不息的江河,源源不断地汇聚着创新的智慧与力量。这些高水平论文不仅彰显了我院的深厚学术底蕴和创新活力,更在国际学术界舞台上闪耀着耀眼的光芒。
CVPR作为计算机视觉和模式识别领域中最重要、最具影响力的国际学术会议之一,每年吸引着无数研究者、学者和业界专家,展示和讨论最新的研究成果与技术进展,共同编织着科技进步的华章。我院师生的论文能在这样的盛会上绽放光彩,不仅是对我院学术探索的崇高赞誉,更是对我院未来无限可能的坚定预言。这是我院多年来不懈追求学术卓越、持续创新的结果,也是我院未来持续更新、不断超越的坚实基石。我们诚挚邀请各界同仁持续关注我院在计算机视觉领域的最新动态,共同见证我院在科技创新道路上的每一步成长与飞跃。