近日,多媒体技术领域的“奥林匹克”盛会——ACM MM 2025(中国计算机学会最高级别推荐的A类国际会议)揭晓论文录用结果。我校计算机与信息工程学院师生的两篇研究成果从数千篇论文中成功突围获录用,彰显了我校在人工智能前沿领域的科研实力。
本届会议竞争激烈,全球有效投稿达4672篇,仅1251篇获录用,录用率低至26.8%。由我校研究生赵启延(第一作者)在王大寒教授指导下完成的论文:Manhattan Causal Attention for Reducing Hallucination in Large Vision-Language Models(让模型更“诚实”——减少图文生成中的“幻觉”问题)直击AI“幻觉”痼疾,针对大模型“看图说话”时易产生的虚假信息问题,提出根治良方。团队发现主流视觉语言模型存在显著“位置偏见”——如同“右撇子”般偏爱关注图像右下角,导致理解错漏。创新提出的“曼哈顿因果注意力”机制,首次融合一维序列与二维空间信息建模,赋予AI更均衡的视觉感知力。该方法犹如为模型装上“全景扫描仪”,大幅提升分析准确性,显著遏制“信口开河”现象。成果获中科院自动化所张煦尧研究员等合作支持。
另一篇被录用的论文则聚焦工业质检革新维度,研究生胡洪敏在王晓栋副教授带领下完成的UniAD: Integrating Geometric and Semantic Cues for Unified Anomaly Detection(工业质检新突破——用AI同时检测“看得见”和“看不见”的缺陷),开创性实现“表里双修”的缺陷检测。传统方法往往只能识别表面划痕、裂纹等物理瑕疵,对“错装漏装”等逻辑错误束手无策。团队提出的无监督框架UniAD,巧妙融合几何结构与语义线索,构建起物理异常与逻辑异常的联合检测网络。引入文字描述辅助决策,更使系统具备类人推理能力。该技术已在合作企业测试中展现卓越性能,为智能制造装上“火眼金睛”。(计算机与信息工程学院、宣传部)

论文《让模型更“诚实”》研究团队提出的位置建模方法

论文《工业质检新突破》研究团队提出的异常检测模型架构图