MMaDA 项目介绍

背景简介

核心创新

  1. 统一扩散架构:基于模态无关的概率建模,无需额外模块即可处理文本与图像等多种输入。
  2. 混合长链式思考(Mixed Long CoT):在微调阶段引入跨文本与视觉的链式思考格式,为后续强化学习提供高质量初始策略。
  3. UniGRPO 强化学习算法:统一扩散模型的策略梯度方法,通过多元奖励设计,实现推理与生成任务的协同优化。

性能表现

开源资源

参考文献

  1. Yang L., Tian Y., Li B., Zhang X., Shen K., Tong Y., Wang M. MMaDA: Multimodal Large Diffusion Language Models. arXiv preprint arXiv:2505.15809, 2025.
  2. Gen-Verse 团队. MMaDA GitHub Repository. https://github.com/Gen-Verse/MMaDA.