阿里巴巴新文生图模型Qwen-Image登顶HuggingFace榜单_商业

首页 > 要闻 > 商业 > 正文

阿里巴巴新文生图模型Qwen-Image登顶HuggingFace榜单

2025年08月06日 17:14

阿里巴巴开源的全新文生图模型Qwen-Image以其卓越性能登顶全球最大AI开源社区HuggingFace的模型榜单，成为通义千问系列中的首个图像生成基础模型。

这款20BMMDiT（Multimodal Diffusion Transformer）模型在通用图像生成和图像编辑领域展现出强劲实力，在GenEval、DPG等主流评测榜单以及GEdit、ImgEdit等图像编辑任务中均取得最佳性能表现，尤其在汉字渲染方面展现出显著优势，凸显了中国AI技术在全球舞台上的竞争力。

Qwen-Image的突破源于其创新架构和技术优化。20亿参数的MMDiT模型结合了扩散模型和Transformer技术，采用双编码策略处理文本和图像输入，能够生成高保真图像并实现精准编辑。

模型在GenEval基准测试中以95.3%的得分领跑，DPG评测中图像质量评分达92.8%，显著优于同类开源模型如Stable Diffusion 3（87.6%）。在图像编辑任务中，GEdit测试显示其对象插入和移除精度达89%，ImgEdit的文本编辑准确率达到87%，展现出强大的多模态能力。

尤其值得一提的是，Qwen-Image在汉字渲染上的表现尤为突出，支持多行布局、段落级文本生成及细粒度细节，无论是简体中文、繁体中文还是手写体，均能与图像自然融合，优于传统模型在中文场景下的模糊或失真问题。

例如，生成包含“通义千问”标志的咖啡店海报时，汉字清晰、布局协调，远超DALL-E 2的68%中文渲染成功率。

这一成就得益于阿里巴巴在多模态AI领域的深厚积累。

Qwen系列自2023年推出以来，已在HuggingFace Open LLM Leaderboard中多次位列前茅，Qwen-Image的发布进一步扩展了其影响力。2025年8月4日，模型开源后迅速获得社区关注，下载量24小时内突破10万次，衍生模型开发活跃，显示出其在开源生态中的接受度。技术报告指出，Qwen-Image训练数据涵盖数亿张含中文文本的图像，结合强化学习优化，显著提升了汉字识别和生成能力，填补了西方模型在非拉丁语系渲染上的空白。

用户反馈称，其生成的中国风画作和商业海报效果“媲美付费模型”，如生成“江南水乡+书法标题”的图像，细节丰富且文化韵味浓厚。

2025年底，Qwen-Image预计升级支持3D渲染和实时视频生成，汉字渲染优势将引领文化输出。

声明: 本文由入驻币海编者上传，观点仅代表编者本人，不代表币海财经赞同其观点或证实其描述，请自行判断。