杨小汕,中国科学院自动化研究所研究员、博士生导师。近年来聚焦开放环境下多媒体内容理解开展研究,在相关领域发表80余篇论文, 其中TPAMI、TMM等IEEE/ACM Trans.期刊和CVPR、NeurIPS、MM等CCF-A类会议60余篇。负责国家优秀青年基金项目、面上项目、XXX重点项目课题等。获中科院院长奖、中科院优博、腾讯卓创奖,相关算法为腾讯、咪咕、航天二院提供了重要的技术支持。
报告摘要:多模态大模型能够从不同模态数据中学习共性知识,与视觉大模型和语言大模型相比具有更强的通用性,也更接近人类的认知能力,是目前人工智能进一步发展的关键所在。尽管目前的多模态大模型已取得了重要进展,在跨模态检索、跨模态生成等任务中取得了优异的性能,但在实际应用中面临的开放世界,已有多模态大模型仍然存在很多尚未解决的 挑战。本报告主要探讨解决两个方面的问题: (1) 如何在保留不同模态数据本身特性的前提下建模多模态数据关联;(2)如何在保证模型泛化性的前提下实现多模态大模型在下游任务中的跨域迁移和小样本迁移。报告分析多模态大模型中理想的视觉系统所应具备的要素,并提出基于解耦视觉系统的多模态大模型;同时也介绍针对多模态大模型的多个泛化性保持的跨域和小样本迁移方法。