MMaDA 项目介绍
背景简介
- 项目名称:MMaDA(多模态大规模扩散语言模型)
- 提交时间:2025年5月21日
- 联合团队:普林斯顿大学、字节跳动 Seed、北京大学、清华大学 等
- 主要作者:Ling Yang、Ye Tian、Bowen Li、Xinchen Zhang、Ke Shen、Yunhai Tong、Mengdi Wang
核心创新
- 统一扩散架构:基于模态无关的概率建模,无需额外模块即可处理文本与图像等多种输入。
- 混合长链式思考(Mixed Long CoT):在微调阶段引入跨文本与视觉的链式思考格式,为后续强化学习提供高质量初始策略。
- UniGRPO 强化学习算法:统一扩散模型的策略梯度方法,通过多元奖励设计,实现推理与生成任务的协同优化。
参考文献
- Yang L., Tian Y., Li B., Zhang X., Shen K., Tong Y., Wang M. MMaDA: Multimodal Large Diffusion Language Models. arXiv preprint arXiv:2505.15809, 2025.
- Gen-Verse 团队. MMaDA GitHub Repository. https://github.com/Gen-Verse/MMaDA.