5 月 19 日消息,小米技术官方宣布,近日,小米在 CVPR 2026 NTIRE 赛事中获三项奖项。其中,小米玄戒多媒体算法团队夺得高效超分辨率赛道冠军,小米大模型应用团队获人像修复赛道冠军与反光消除赛道亚军。

IT之家注:NTIRE(New Trends in Image Restoration and Enhancement)由 CVPR 组委会承办,是全球规模最大、水平最高的图像恢复与增强领域学术研讨会。
据小米技术介绍,在 NTIRE 高效超分辨率挑战赛的最终评估中,小米玄戒多媒体算法团队依托在芯片多媒体影像算法领域的软硬融合方向积累,延续了上一届冠军方案 SPAN 技术路线,提出了全新一代方法 SPANV2,并以综合得分 4.43 位列第一,在推理速度、计算量、参数规模之间取得了整体均衡。

与上一代 SPAN 相比,SPANV2 的改动集中在两处:一是让网络在修复图像时不再套用一种固定策略处理全图,而是能根据画面内容自适应判断哪里需要精修、以什么方式精修;二是把 GPU 在注意力计算中原本需要三次读写显存的步骤合并为一次完成,省下了大量重复的数据搬运开销。两点叠加,使模型在画质几乎无损的前提下,推理速度再次被提高。

在人像修复赛道上,小米大模型应用团队提出了双阶段级联框架 + 单步扩散细化的技术方案,从全球参赛队伍中脱颖而出,获第一名(Team name: MiPlusCV),在无参考图像质量与身份一致性综合评测中全面领先。

小米官方表示,真实世界中的老照片、模糊、压缩损伤、噪声和低分辨率往往属于复合退化,若直接一步生成,容易出现结构漂移、人脸失真甚至身份变化。为此,团队采用了更稳健的双阶段设计:
第一阶段:基于 OSDFace 进行粗修复与结构恢复,重点解决五官布局恢复、严重退化修正和整体人脸结构稳定,确保人脸结构修复正确
第二阶段:基于 Z-Image One-step Diffusion 进行细节增强,进一步补充皮肤纹理、发丝、边缘和高频细节,确保细节真实自然
此外,小米团队还引入了单步扩散细节增强机制(One-step Diffusion),将复杂的多步推理压缩至单步完成,在保证生成质量的同时提升推理效率。
最后是反光消除赛道,小米大模型应用团队基于 RDNet-XL 架构,通过骨干网络升级、扩散模型知识蒸馏与渐进式多分辨率训练策略,在 CVPR 2026 主观评分中荣获第二名(4.31 分),同时多项客观指标位列第一。

团队的技术路线非常清晰:以强大的骨干网络为基础,用扩散模型知识蒸馏攻克困难样本,通过渐进式训练稳定优化过程。
方案基于 XReflection 框架中的 RDNet(Reversible Decoupling Network)架构,将原始骨干从 FocalNet-L 替换为更大规模的 FocalNet-XL。这一升级带来了显著的多尺度表征能力提升和全局上下文建模增强,使模型能够更精确地抑制反射并保留细节。

针对强反射、复杂反射等困难样本,团队创新性地引入了扩散模型知识蒸馏策略:
困难样本生成:使用扩散模型 SOTA 方法(WindowSeat、DAI)对大规模开源图像进行反光消除,生成 1000 对高质量伪标签数据;
域对齐处理:将每张反射图像通过与扩散模型相同的 VAE 编码器-解码器处理,用重建图像作为网络输入,消除 VAE 编解码带来的域差异;
蒸馏训练:以扩散模型的输出作为教师信号,对已完成渐进式训练的模型进行额外蒸馏训练。
此外,为了在大分辨率图像上实现稳定训练,团队还采用了三阶段渐进式分辨率训练策略(384×384 → 512×512 → 768×768)。这种从小到大的训练方式,使模型先学习局部反射模式,再逐步扩展至全局结构理解,避免了直接在大分辨率上训练的不稳定性。
IT之家附技术报告如下:
人像修复:https://arxiv.org/abs/2604.10532
反光消除:https://arxiv.org/abs/2604.10321
高效图像超分辨率:https://arxiv.org/abs/2604.03198
【来源:IT之家】