Stable Diffusion-XL开启公测,让你摆脱繁琐的长prompt!

自从Midjourney发布v5之后,在生成图像的人物真实程度、手指细节等方面都有了显著改善,并且在prompt理解的准确性、审美多样性和语言理解方面也都取得了进步。

相比之下,Stable Diffusion虽然免费、开源,但每次都要写一大长串的prompt,想生成高质量的图像全靠多次抽卡。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

最近Stability AI的官宣,正在研发的Stable Diffusion XL开始面向公众测试,目前可以在Clipdrop平台免费试用。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

试用链接:​https://clipdrop.co/stable-diffusion​

Stability AI的创始人兼首席执行官Emad Mostaque表示,目前该模型仍然处于训练阶段,等参数稳定后将会开源;SD-XL在「握手」等图像细节方面会表现更好,几乎完全可控。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Stable Diffusion XL也并不是最终发布版的名字,并且也并非是v3,因为SD-XL的架构和SD-v2系列的模型架构非常相似。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Minimalistic home gym with rubber flooring, wall-mounted TV, weight bench, medicine ball, dumbbells, yoga mats, high-tech equipment, high detail, organized and efficient.

简约的家庭健身房,橡胶地板,壁挂式电视,举重凳,药球,哑铃,瑜伽垫,高科技设备,高细节,组织和效率

下面几张SD-XL官方发布的例图,可以看出图像的质量已经非常能打了。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

不过有时候less并不代表more,有网友认为SD-XL为了摆脱「糟糕的品味」,设定了太多的规则,定制化空间越来越小,不符合大多数人的喜好。目前v1.5的Stable Diffusion仍然是社区内最流行的基座模型。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

网友表示希望新版SD能够和SD 2.1版本的嵌入、hypernetworkds和Lora模型保持兼容,再从零开始重训的话就太难受了。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

也有网友认为,SD-XL的表现和civit网站上网友分享的模型差不多,新模型的效果也并不是特别惊艳,也就是平均水平。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

SD-XL:开源版Midjourney

关于Stable Diffusion XL模型的具体信息,官方并没有透露太多,目前只知道是一个与v2模型架构相似、但规模和参数量更大的模型。

SD-v2.1包括9亿参数,SD-XL大约有23亿参数,Emad表示正式版可能会额外发布一个更小的蒸馏版本。

SD-XL相比之前版本的改进如下:

使用较短的描述性prompt即可生成高质量图像可以生成更贴合prompt的图像图像中的人体结构更合理与 v2.1和 v1.5版本(程度较轻)相比,SD-XL生成的图片更符合大众审美负面提示词(negative prompt)是可选项生成的肖像图更逼真图像中的文本更清晰

需要注意的是,SD-XL可能与之前版本的插件不兼容。

清晰可读的文字

在v1系列和v2.1版本的Stable Diffusion模型中,并不具备在图片中生成可读文本的能力。

虽然SD-XL生成的文本信息并不总是准确,但确实得到了巨大的提升。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Photo of a woman sitting in a restaurant holding a menu that says “Menu”

一个女人坐在餐馆里拿着写着「Menu」的菜单

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Photo of a man holding a sign that says “Stable Diffusion”

一个男人举着写着「Stable Diffusion」的牌子

a young female holding a sign that says “Stable Diffusion”, highlights in hair, sitting outside restaurant, brown eyes, wearing a dress, side light

一个年轻的女性举着一个牌子,上面写着「Stable Diffusion」,头发高亮,坐在餐厅外面,棕色的眼睛,穿着裙子,侧灯

更好的人体结构

Stable Diffusion在生成人体解剖结构方面一直存在诸多问题,多几条腿、少个胳膊实在是太常见不过的问题,通常需要使用inpaint功能进一步对图像细节进行修正;或者是使用ControlNet的Open Pose功能从参考图像中复制人体的姿态。

比如说SD-v1.5生成瑜伽的图像,经常会出现扭曲的人体。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Photo of a woman in yoga outfit, triangle pose, beach in evening, rim lighting

一个女人的照片在瑜伽服装,三角形的姿势,海滩在晚上,边缘照明

SD-XL虽然生成的图像并不完美,不过在人体姿态方面已经有了显著的进步。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

更有美感(more aesthetic)

比如同样以屋子为主题,SD-XL可以生成更对称、视觉效果更好的照片。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

SD-XL在肖像照片上也有显著改进。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

photo shot of a woman

一个女人的照片

更贴合prompt的图像

SD-XL可以更好地理解输入的prompt,并生成更精确的图像。

比如以duotone(双色)为例,SD-v1.5只会生成黑白图像,而SD-XL则可以生成具有多种颜色的双色调图像。

与 v1模型相比,理解提示符的能力有所提高。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

duotone portrait of a woman

一个女人的双色调肖像

因为SD-XL同属v2系列模型,所以文本模型尺寸更大,可以比v1模型更好地理解提示词。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

比如下面的例子中,v1.5模型始终无法理解图像中的两个主题(机器人和人类),但SD-XL模型可以生成正常的图像(虽然机器人还是不够big)。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

big robot friend sitting next to a human, ghost in the shell style, anime wallpaper

大机器人朋友坐在人类旁边攻壳机动队风格的动漫壁纸

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

a young man, highlights in hair, brown eyes, in white shirt and blue jean on a beach with a volcano in background

一个年轻人,头发染得很亮,棕色眼睛,穿着白衬衫和蓝色牛仔裤,站在海滩上,背景是一座火山

艺术风格

在艺术风格上,SD-XL并没有显著改进,和之前的版本各有千秋。

比如两个模型以不同的角度生成了Edward Hopper风格的图像。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

New York city by Edward Hopper

Edward Hopper绘制的纽约

Leonid Afmov 的风格中,SD-v1.5更准确,SD-XL缺少了不同颜色的笔刷(unmistakable colorful board brushstrokes)。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

New York city by Leonid Afremov

Leonid Afemov绘制的纽约

William-Adolphe Bouguereau风格中,V1.5和SDXL都可以生成一些类似的内容,其中SD-XL更接近Bouguereau创作的经典学院派绘画,并且面部细节更多。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Portrait of beautiful woman by William-Adolphe Bouguereau

William-Adolphe Bouguereau绘制的美女肖像

风格转变问题

在添加一些无关紧要的关键字后,模型的风格可能会突然转变。

比如先生成一张照片风格的图像。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

a young man, highlights in hair, brown eyes, in white shirt and blue jean on a beach with a volcano in background

一个年轻人,头发染得很亮,棕色眼睛,穿着白衬衫和蓝色牛仔裤,站在海滩上,背景是一座火山

再添加一条黄色的围巾后,图像风格就变成了卡通风格。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

a young man, highlights in hair, brown eyes, wearing a yellow scarf, in white shirt and blue jean on a beach with a volcano in background

一个年轻人,头发染得很亮,棕色的眼睛,围着黄色的围巾,穿着白衬衫和蓝色牛仔裤,站在一个火山为背景的海滩上

问题的故障可能源于预览问题,在正式发布后该问题不知能否得到解决。

以上就是Stable Diffusion-XL开启公测,让你摆脱繁琐的长prompt!的详细内容,更多请关注【创想鸟】其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至253000106@qq.com举报,一经查实,本站将立刻删除。

发布者:PHP中文网,转转请注明出处:https://www.chuangxiangniao.com/p/3046687.html

(0)
上一篇 2025年3月13日 18:23:04
下一篇 2025年3月13日 18:24:20

AD推荐 黄金广告位招租... 更多推荐

相关推荐

  • Maven解析:了解这个开源工具的目的是什么?

    深入了解Maven:这个开源工具的作用是什么? 摘要:Maven是一个流行的项目管理和构建工具,对于Java开发人员来说是必不可少的。本文将深入探讨Maven的作用,并通过具体的代码示例来演示其强大的功能。 介绍Maven:Maven是由A…

    2025年3月13日
    200
  • PHP实现开源智慧城市平台系统

    随着城市的发展和人口的增长,智慧城市的建设已经成为越来越多城市的重要任务。智慧城市是指利用信息技术、物联网、云计算等现代科技手段,对城市进行全面、高效、智能的管理和服务,实现城市可持续发展的一种城市模式。为了实现智慧城市的建设,需要一个开源…

    编程技术 2025年3月13日
    200
  • 什么是开源

    相信很多人经常在网上看到开源一词,那么什么是开源?在这里我们认识一下开源。 一:什么是开源 在了解什么是开源之前,首先需要知道源代码是什么,因此,我们首先解释一下源代码。 当计算机在执行程序时,计算机使用机器语言理解并执行程序中的内容,但是…

    2025年3月12日
    200
  • 开源图片编辑工具 GIMP 发布 2.10.34 更新

    php小编柚子推荐:开源图片编辑工具 gimp 迎来全新版本 2.10.34 更新!这次更新带来了更多强大功能和稳定性改进,让用户能够更轻松地编辑和处理图片。gimp 2.10.34 版本带来了更新的界面设计,增强了插件管理系统,改进了各种…

    2025年3月9日 互联网
    200
  • 开源办公套件 LibreOffice 7.5.2维护版本更新

    php小编百草libreoffice 7.5.2维护版本更新,这是一款功能强大的开源办公套件。新版本修复了一些bug,并增加了一些新功能,提升了软件的稳定性和性能表现。用户可以通过更新升级到最新版本,以获得更好的使用体验。libreoffi…

    2025年3月9日
    200
  • 10个顶级的CSS UI开源框架_html/css_WEB-ITnose

    随着css3和html5的流行,我们的web页面不仅需要更人性化的设计理念,而且需要更酷的页面特效和用户体验。作为开发者,我们需要了解一些 宝贵的css ui开源框架资源,它们可以帮助我们更快更好地实现一些现代化的界面,包括一些移动设备的网…

    编程技术 2025年3月9日
    200
  • midjourney电脑如何安装 midjourney电脑安装完整教程

    本文提供了一份详细的指南,介绍如何在电脑上安装和设置 Midjourney。Midjourney 是一款人工智能驱动的艺术生成器,允许用户通过文本提示创建引人入胜的图像。这篇文章涵盖了从安装必需软件到输入命令提示符以生成图像的每个步骤,即使…

    2025年3月8日
    200
  • ps怎么制作图片

    有以下几种图片制作方法:使用图像编辑软件从头开始创建。使用在线图像生成器基于文本提示创建。使用相机拍摄照片。从图片库下载图片。也可以编辑现有图片,并优化尺寸、格式和压缩。 如何制作图片 制作图片的方法有多种,具体取决于所需图片的类型和目的。…

    2025年3月8日
    200
  • Midjourney使用教程-Midjourney注册以及使用说明

    midjourney绘画软件使用指南:快速上手ai绘画!midjourney是一款强大的ai绘画工具,只需输入文字提示,即可在几分钟内生成高质量图像。本文将指导您完成注册、充值和使用,轻松开启ai绘画之旅! 一、注册与充值 访问官网注册: …

    2025年3月7日 互联网
    200
  • 人工智能工具市场

    AIprophetic.com 网站文章列表: 2025年: 2025-01-24: 人工智能工具市场概览 (https://www.php.cn/link/1c52486ff0b2a44fbfefeb15d21f53ae)2025-01-…

    2025年3月7日
    200

发表回复

登录后才能评论