3月8日 消息:华为近日发布了一项名为 pixart-\sigma 的图像生成模型,该模型采用了 dit 架构,可以直接生成4k 分辨率的图像。相比于其前身 pixart-\alpha,pixart-\sigma 在图像保真度上有了明显的提升,并改善了与文本提示的一致性。
项目地址:
pixart-\sigma 的一个关键特点是其训练效率。借助 pixart-\alpha 的基础预训练,它通过整合更高质量的数据,从”较弱”的基线逐步演变为”较强”的模型,这个过程被称为”弱到强训练”。pixart-\sigma 的进步主要体现在两个方面:高质量的训练数据和高效的 token 压缩。pixart-\sigma 结合了更高质量的图像数据,配对更精确和详细的图像标题,同时在 dit 框架内提出了一个新的注意力模块,可以压缩键(key)和值(value),显著提高效率,促进超高分辨率图像的生成。
由于这些改进,pixart-\sigma 以较小的模型规模(6亿参数)实现了优于现有文本到图像扩散模型(如 sdxl(26亿参数)和 sd cascade(51亿参数))的图像质量和用户提示遵从能力。
此外,pixart-\sigma 能够生成4k 图像,为创建高分辨率海报和壁纸提供了支持,有效地增强了电影和游戏等行业中高质量视觉内容的制作。
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系918博天堂官网进行处理。