上证指数 3633.99 0.45%
|
深证成指 11177.78 0.64%
|
恒生指数 24910.63 0.03%
|
纳斯达克 20916.55 -0.65%
|
日经225指数 40794.86 0.60%
|
Vicky 初级编辑
102 文章
134925 阅读
首页  >  要闻 >  商业 >  正文
申请成为签约作者 >
阿里巴巴新文生图模型Qwen-Image登顶HuggingFace榜单
2025年08月06日 09:14    
收藏  
举报

阿里巴巴开源的全新文生图模型Qwen-Image以其卓越性能登顶全球最大AI开源社区HuggingFace的模型榜单,成为通义千问系列中的首个图像生成基础模型。

这款20BMMDiT(Multimodal Diffusion Transformer)模型在通用图像生成和图像编辑领域展现出强劲实力,在GenEval、DPG等主流评测榜单以及GEdit、ImgEdit等图像编辑任务中均取得最佳性能表现,尤其在汉字渲染方面展现出显著优势,凸显了中国AI技术在全球舞台上的竞争力。

Qwen-Image的突破源于其创新架构和技术优化。20亿参数的MMDiT模型结合了扩散模型和Transformer技术,采用双编码策略处理文本和图像输入,能够生成高保真图像并实现精准编辑。

模型在GenEval基准测试中以95.3%的得分领跑,DPG评测中图像质量评分达92.8%,显著优于同类开源模型如Stable Diffusion 3(87.6%)。在图像编辑任务中,GEdit测试显示其对象插入和移除精度达89%,ImgEdit的文本编辑准确率达到87%,展现出强大的多模态能力。

尤其值得一提的是,Qwen-Image在汉字渲染上的表现尤为突出,支持多行布局、段落级文本生成及细粒度细节,无论是简体中文、繁体中文还是手写体,均能与图像自然融合,优于传统模型在中文场景下的模糊或失真问题。

例如,生成包含“通义千问”标志的咖啡店海报时,汉字清晰、布局协调,远超DALL-E 2的68%中文渲染成功率。

这一成就得益于阿里巴巴在多模态AI领域的深厚积累。

Qwen系列自2023年推出以来,已在HuggingFace Open LLM Leaderboard中多次位列前茅,Qwen-Image的发布进一步扩展了其影响力。2025年8月4日,模型开源后迅速获得社区关注,下载量24小时内突破10万次,衍生模型开发活跃,显示出其在开源生态中的接受度。技术报告指出,Qwen-Image训练数据涵盖数亿张含中文文本的图像,结合强化学习优化,显著提升了汉字识别和生成能力,填补了西方模型在非拉丁语系渲染上的空白。

用户反馈称,其生成的中国风画作和商业海报效果“媲美付费模型”,如生成“江南水乡+书法标题”的图像,细节丰富且文化韵味浓厚。

2025年底,Qwen-Image预计升级支持3D渲染和实时视频生成,汉字渲染优势将引领文化输出。

声明: 本文由入驻币海编者上传,观点仅代表编者本人,不代表币海财经赞同其观点或证实其描述,请自行判断。
延伸阅读
Palantir如何成为AI商业化第一股?特朗普时代的明星宠儿
   Vicky        2025/08/06 09:37
美拟植入AI芯片追踪器 剑指中国技术流向
   林天心        2025/08/06 06:02
AI引爆并购狂飙 全球交易额突破2.6万亿美元
   林天心        2025/08/06 05:25
中国AI霸屏WAIC 无人驾驶驶入商业化快车道
   林天心        2025/07/29 02:39