快科技今日(5月14日)消息,今日,腾讯旗下混元文生图大模型(混元DiT,Diffusion Models with Transformers)宣布全面开源。
目前已在Hugging Face、Github上发布,包含模型权重、推理代码、模型算法等完整模型,供企业与个人开发者免费商用。
据媒体报道,腾讯混元文生图负责人卢清林表示,混元DiT开源的价值有两方面。
一方面这是业内首个中文原生DiT架构,弥补了开源社区的空白,另一方面混元DiT为全面开放,与现网版本完全一致。
据介绍,此次开源的混元DiT采用了与Sora同样的背后关键技术——DiT架构,还支持256字中文理解,不仅支持文生图,也可作为视频等多模态视觉生成的基础。
腾讯方面表示,为了构建混元DiT设计了Transformer结构、文本编码器和位置编码,构建了完整的数据管道,用于更新和评估数据,为模型优化迭代提供帮助。
为了实现细粒度的文本理解,还训练了多模态大语言模型来优化图像的文本描述。
最终,混元DiT能够与用户进行多轮对话,根据上下文生成并完善图像。
相关
文章安卓 | V1.0
简体中文 | 7 MB
8.1
安卓 | v1.5.0
简体中文 | 328 MB
8.8
安卓 | V1.0.1
简体中文 | 2.1 MB
7.4
安卓 | v1.0.1
简体中文 | 55.2 MB
7.6
安卓 | v0.1.54
简体中文 | 33.1 MB
9.5
安卓 | v1.1.39
简体中文 | 61 MB
9.9
安卓 | V1.0.3
简体中文 | 82.6 MB
7.2
安卓 | v1.0.0
简体中文 | 221 MB
8.0
本站为非营利性个人网站,本站所有游戏来自于互联网,版权属原著所有。如有侵犯你的版权,请发邮件给wishdown2023@163.com
湘ICP备2021017279号-3 公安部备案号:13092602000101
Copyright©2006-2019 www.wishdown.com All rights reserved