11月14日下午,北京大学智能学院姜浩博士,应我院邀请在北校区图书馆学术报告厅作了题为《细粒度视频理解中时序片段定位技术研究》的学术讲座。讲座由霍占强教授主持,我院教师、研究生听取了报告。
姜浩从视频理解技术中表征学习发展历程入手,介绍了细粒度视频理解场景中时序片段定位技术。首先他概述了视频理解特征骨干网络的演变及其背后的动机,分析了这些关键技术在推动视频理解任务发展中的重要性。接着,他介绍了时序定位技术如何辅助视频摘要模型,通过跨样本迁移有效解决了标注数据不足的问题,促进了时序定位与视频摘要技术的融合。最后,他强调了时序定位对视频理解的重要性,并探讨了通过加强表征学习和提高模型泛化能力来进一步推动视频理解的发展。会后,姜浩与师生就如何设计高效的视频理解模型进行了深入探讨,激发了大家浓厚的研究兴趣。
姜浩,北京大学智能学院博士,主要研究方向:基于多模态大语言模型的视觉理解技术。在计算机视觉和机器学习领域国际会议CVPR/NeurIPS/ AAAL/ACM MM上发表多篇论文,其中多篇入选oral/spotlight,担任TIP/CVPR/NeurIPS/ICLR/ACM MM等多个国际期刊/会议审稿人。先后在北京智源人工智能研究院和快手科技实习,主要负责大语言模型和视觉基础模型的训练和部署工作。
(通讯员 高佳佳)