阿里巴巴开源的全新文生图模型Qwen-Image以其卓越性能登顶全球最大AI开源社区HuggingFace的模型榜单,成为通义千问系列中的首个图像生成基础模型。
这款20BMMDiT(Multimodal Diffusion Transformer)模型在通用图像生成和图像编辑领域展现出强劲实力,在GenEval、DPG等主流评测榜单以及GEdit、ImgEdit等图像编辑任务中均取得最佳性能表现,尤其在汉字渲染方面展现出显著优势,凸显了中国AI技术在全球舞台上的竞争力。
Qwen-Image的突破源于其创新架构和技术优化。20亿参数的MMDiT模型结合了扩散模型和Transformer技术,采用双编码策略处理文本和图像输入,能够生成高保真图像并实现精准编辑。
模型在GenEval基准测试中以95.3%的得分领跑,DPG评测中图像质量评分达92.8%,显著优于同类开源模型如Stable Diffusion 3(87.6%)。在图像编辑任务中,GEdit测试显示其对象插入和移除精度达89%,ImgEdit的文本编辑准确率达到87%,展现出强大的多模态能力。
尤其值得一提的是,Qwen-Image在汉字渲染上的表现尤为突出,支持多行布局、段落级文本生成及细粒度细节,无论是简体中文、繁体中文还是手写体,均能与图像自然融合,优于传统模型在中文场景下的模糊或失真问题。
例如,生成包含“通义千问”标志的咖啡店海报时,汉字清晰、布局协调,远超DALL-E 2的68%中文渲染成功率。
这一成就得益于阿里巴巴在多模态AI领域的深厚积累。
Qwen系列自2023年推出以来,已在HuggingFace Open LLM Leaderboard中多次位列前茅,Qwen-Image的发布进一步扩展了其影响力。2025年8月4日,模型开源后迅速获得社区关注,下载量24小时内突破10万次,衍生模型开发活跃,显示出其在开源生态中的接受度。技术报告指出,Qwen-Image训练数据涵盖数亿张含中文文本的图像,结合强化学习优化,显著提升了汉字识别和生成能力,填补了西方模型在非拉丁语系渲染上的空白。
用户反馈称,其生成的中国风画作和商业海报效果“媲美付费模型”,如生成“江南水乡+书法标题”的图像,细节丰富且文化韵味浓厚。
2025年底,Qwen-Image预计升级支持3D渲染和实时视频生成,汉字渲染优势将引领文化输出。