一个文本到图像的扩散模型,具有前所未有的写实主义程度和深度的语言理解。Imagen建立在理解文本的大型变压器语言模型的基础上,并依赖于在高保真图像生成中扩散模型的强度。我们的关键发现是,在纯文本语料库上进行预训练的通用大型语言模型(例如T5)在编码用于图像合成的文本方面惊人地有效:在Imagen中增加语言模型的大小比增加图像扩散模型的大小更能提高样本保真度和图像-文本对齐。Imagen在没有经过COCO训练的情况下,在COCO数据集上获得了7.27的最新FID分数,并且人类评分者发现Imagen样本在图像-文本对齐方面与COCO数据本身不相上下。为了更深入地评估文本到图像模型,我们引入了DrawBench,这是一个全面且具有挑战性的文本到图像模型基准测试。使用DrawBench,我们将Imagen与最近的方法进行了比较,包括VQ-GAN+CLIP、潜在扩散模型和DALL-E 2,并发现人类评分者在并排比较中更喜欢Imagen,无论是在样本质量还是图像-文本对齐方面。
相关导航

「造梦日记」是西湖心辰(杭州)科技有限公司和西湖大学深度学习实验室共同推出的一款AI绘画平台。 由前谷歌人工智能研究院科学家、NLP自然语言处理领域预训练语言模型“ALBERT”第一作者——蓝振忠博士带队研发。依托于西湖大学良好的科研和成果转化环境、充足的科研资金及软硬件设备,西湖心辰组建了一支长期致力于研究自然语言处理,计算机视觉及深度学习的结合与应用的团队,专注于人工智能、大数据算法等领域的产品与应用。凭借在AI领域多年的深耕以及西湖大学实验室的成熟算力,于今年9月推出了造梦日记这款基于AI算法、将文字描述快速生成高质量图片作品的应用。用户输入一些关键词或者一段描述某场景的文字,便可在几秒内生成一张独创的、版权归属于自己的图片。