🙈Stable Diffusion从安装到绘图一站式教程之系列一(安装)
文章标签:
AI工具评测
🙈Stable Diffusion从安装到绘图一站式教程之系列一(安装)

相信大家都知道AI绘画领域两个明星产品——stable diffusion和midjourney,由于AI绘画的落地场景要比文字生成式的更加具体、想象空间也更大,因此关于这俩产品的教程也是铺天盖地而来,但市面上的教程大都比较分散,不成体系,对于想入门的小白来说,信息的检索整合变成了一个壁垒。本系列文章就帮助大家建立Stable Diffusion(以下简称SD)从问世到安装、再到利用SD落地挣钱的教程。帮助大家解决:

👉🏻大火的SD到底牛在哪?

👉🏻小白要怎么安装使用SD?

👉🏻一直被提及的Lora、CheckPoint模型倒是什么?跟SD有什么关系?

👉🏻两大AI绘画巨头SD、MJ的区别在哪?

等等一系列问题…

大名鼎鼎的SD的前世今生

在某站的搜索栏中搜索Stable Diffusion,排名前2的关键词都跟安装部署有关,是什么导致SD这么高的安装门槛呢?

🙈Stable Diffusion从安装到绘图一站式教程之系列一(安装)

SD在安装上的难度其实是由它的诞生方式决定的,它的开放者是一个来自慕尼黑大学的研究团队,后续得到一家人工智能公司Stability AI的资助。Stability AI公司秉承始终遵守着其创业口号“AI by the people,for the people”的伟大愿景,在SD模型问世后,面向大众是完全免费开源的。然而这也是问题所在,官方开放出来的其实只是一段源代码而已。这就造成了安装使用SD的高门槛,但这种形式也使得SD有着更高的内容可控度。

当然现在市面上也出现了海量的基于SD的底层架构制作的商业化套壳应用,苹果应用商店里就有许多类似的应用,但这种应用因为是做了一层封装,其对图片的可控性肯定是没有直接部署SD模型去画图的可控性高的。

🙈Stable Diffusion从安装到绘图一站式教程之系列一(安装)

同时,市面上也出现了一批有编程基础的大佬们自告奋勇的为SD制作了GUI(图形用户界面),其中最出名的是“越南超人”A41的SD WEBUI项目。是目前公认应用最为方便的SD落地应用。以下是SD开源代码生态图:

🙈Stable Diffusion从安装到绘图一站式教程之系列一(安装)

今天我们将介绍有几种安装部署SD模型的方法,以及如何安装。

SD安装教程

当前SD模型的安装方式大体上可以分为两种:本地部署和云端部署。两种方式分别各有利弊:

  • 本地部署:可扩展性强;隐私性和安全性高;自由度高;完全免费对本机硬件要求高
  • 云端部署:不需要配置环境;不吃本地硬件资源;免费GPU使用时长不固定

但综合来看,云端部署会更方便,普适性也更高(对电脑配置无要求),所以本文将给出基于GoogleColab进行云端部署的方法。

准备

谷歌云账号,注册地址:https://drive.google.com/drive/my-drive

第一步

访问以下GitHub网址,找到Colab安装包,这个就是大佬整理好的SD整合包。其中又lite、stable、nightly三个版本的,选择stable这个稳定版,在新的标签页打开:https://github.com/camenduru/stable-diffusion-webui-colab

🙈Stable Diffusion从安装到绘图一站式教程之系列一(安装)

第二步

进入Colab安装包后,可以将安装包复制到谷歌云盘,以后就可以直接在谷歌云盘中找到该安装包了。复制过程中会要登入到谷歌云盘,复制成功后上面的的名字会显示xxx的副本。然后前几左右的启动键,进行程序运行。这一步就是在借用谷歌云端资源进行SD模型的安装和相关模型所需环境的配置。

🙈Stable Diffusion从安装到绘图一站式教程之系列一(安装)
🙈Stable Diffusion从安装到绘图一站式教程之系列一(安装)

第三步

程序大概运营5、6分钟就会跳出三个地址,其中的后两个地址都可以打开SD WebUI界面,到这一步就已经可以开始使用SD来画图了。只不过此时的SD是未加载任何模型、未经过任何训练的模型,其画出的图跟MJ相比,也是天差地别。

🙈Stable Diffusion从安装到绘图一站式教程之系列一(安装)
🙈Stable Diffusion从安装到绘图一站式教程之系列一(安装)

同Prompt,由SD和MJ出图对比(左SD,右MJ):The little girl is immersed in a dreamy wonderland, dancing with graceful Chinese-style movements. Her figure harmoniously blends with the romantic backdrop, like a poem come to life.可以明显看出,未经训练的stable diffusion出的图远不如midjourney,在另一方面也凸显了,SD的门槛不仅体现在安装上,也体现在使用上,类似于美图修修和PS。😂

🙈Stable Diffusion从安装到绘图一站式教程之系列一(安装)
🙈Stable Diffusion从安装到绘图一站式教程之系列一(安装)

SD四大模型介绍

在SD的使用概念中有4种模型,分别是:

  1. Checkpoint模型:这是真正的Stable Diffusion模型,包含了生成图像所需的所有内容,不需要任何额外的文件。它们通常很大,通常在2-7GB之间。这些模型可以被微调以生成特定风格的图像。微调的方法包括附加训练、Dreambooth和文本反转。
    • 附加训练:这是一种微调方法,通过在基础模型上使用额外的数据集进行训练,以生成特定风格的图像。
    • Dreambooth:这是另一种微调方法,通过将自定义主题注入到文本到图像的模型中,以生成特定主题的图像。这种方法只需要3-5张自定义图像就可以工作。
    • 文本反转(embedding):这是第三种微调方法,通过将自定义主题注入到模型中,以生成特定主题的图像。这种方法只需要几个例子就可以工作。
  2. LoRA模型:这些是小型的补丁文件,用于修改样式。它们需要与Checkpoint模型一起使用。
  3. Hypernetworks:这些是添加到Checkpoint模型的额外网络模块。它们也需要与Checkpoint模型一起使用。
  4. AVE:这种模型一般已经被集成到checkpoint里了,可以理解为其可作用为图片的滤镜。

在这个结构框架中,Checkpoint模型是基础,而其他的模型和方法(如Dreambooth、文本反转、LoRA模型和Hypernetworks)都是在这个基础上进行微调和修改的工具。

SD的WebUI界面功能介绍

🙈Stable Diffusion从安装到绘图一站式教程之系列一(安装)
  • txt2img(文本生成图片)
    • 正向提示词:描述图片中希望出现的内容
    • 反向提示词:描述图片中不希望出现的内容
    • Sampling method:采样方法,推荐选择 Euler a 或 DPM++ 系列,采样速度快
    • Sampling steps:迭代步数,数值越大图像质量越好,生成时间也越长,一般控制在 30-50 就能出效果
    • Restore faces:可以优化脸部生成
    • Tiling:平铺/分块
    • Hires.fix:高清修复
    • Width/Height:生成图片的宽高,越大越消耗显存,生成时间也越长,一般方图 512×512,竖图 512×768,需要更大尺寸,可以到 Extras 功能里进行等比高清放大
    • CFG:提示词相关性,数值越大越相关,数值越小越不相关,一般建议 7-12 区间
    • Batch count/Batch size:生成批次和每批数量,如果需要多图,可以调整下每批数量
    • Seed:种子数,-1表示随机,相同的种子数可以保持图像的一致性,如果觉得一张图的结构不错,但对风格不满意,可以将种子数固定,再调整 prompt 生成
🙈Stable Diffusion从安装到绘图一站式教程之系列一(安装)
  • img2img(图片生成图片)
    • Resize mode:缩放模式,Justresize只调整图片大小,如果输入与输出长宽比例不同,图片会被拉伸。Crop andresize裁剪与调整大小,如果输入与输出长宽比例不同,会以图片中心向四周,将比例外的部分进行裁剪。Resizeandfill调整大小与填充,如果输入与输出分辨率不同,会以图片中心向四周,将比例内多余的部分进行填充
    • Mask blur:蒙版模糊度,值越大与原图边缘的过度越平滑,越小则边缘越锐利
    • Mask mode:蒙版模式,Inpaint masked 只重绘涂色部分,Inpaint not masked 重绘除了涂色的部分
    • Masked Content:蒙版内容,fill 用其他内容填充,original 在原来的基础上重绘
    • Inpaint area:重绘区域,Whole picture 整个图像区域,Only masked 只在蒙版区域
    • Denoising strength:重绘幅度,值越大越自由发挥,越小越和原图接近
🙈Stable Diffusion从安装到绘图一站式教程之系列一(安装)
  • PNG info(图片信息)
    • 图片信息板块能识别出🈶️SD生成的图片的文字信息、参数等明细
🙈Stable Diffusion从安装到绘图一站式教程之系列一(安装)
  • ControlNet
    • Enable:启用 ControlNet
    • Low VRAM:低显存模式优化,建议 8G 显存以下开启
    • Guess mode:猜测模式,可以不设置提示词,自动生成图片
    • Preprocessor:选择预处理器,主要有 OpenPose、Canny、HED、Scribble、Mlsd、Seg、Normal Map、Depth
    • Model:ControlNet 模型,模型选择要与预处理器对应
    • Weight:权重影响,使用 ControlNet 生成图片的权重占比影响
    • Guidance strength(T):引导强度,值为 1 时,代表每迭代 1 步就会被 ControlNet 引导 1 次
    • Preprocessor resolution:数值越高,预处理图像越精细
    • Canny low/high threshold:控制最低和最高采样深度
    • Resize mode:图像大小模式,默认选择缩放至合适
    • Canvas width/height:画布宽高
    • Create blank canvas:创建空白画布
    • Preview annotator result:预览注释器结果,得到一张 ControlNet 模型提取的特征图片
    • Hide annotator result:隐藏预览图像窗口
  • 模型下载

下载地址:https://civitai.com/

在首页中筛选需要下载的模型类型,这里我们筛选了lora模型

🙈Stable Diffusion从安装到绘图一站式教程之系列一(安装)

然后选择一个喜欢的风格,点击进入模型页面,复制模型名称

🙈Stable Diffusion从安装到绘图一站式教程之系列一(安装)
🙈Stable Diffusion从安装到绘图一站式教程之系列一(安装)

回到SD界面,选择CivitAi,将模型名称复制到search term中(记得勾选上search by term),然后点击get list;选择模型后,再在version版本中选择自己所需要的版本进行下载;下载点击down model。

🙈Stable Diffusion从安装到绘图一站式教程之系列一(安装)

这边注意,点击了down model之后,界面并不会有反应,当模型其实已经开始下载了,这时候我们应该回到代码程序界面,当代码运营出现successfully downloaded的时候,说明模型已经下载完成。

🙈Stable Diffusion从安装到绘图一站式教程之系列一(安装)

下载好后我们要在哪里找呢,回到txt2img界面,点击generated按钮下的第三个小标,然后选择下图红框中的lora,此时就能看到我们下载好的3D rendering style模型了

用SD简单画图

今天先来介绍下使用SD完成文字绘图的教程,对于AI绘图工具来说,一份清晰的prompt一定是一份优秀作品的关键因素之一,这边我们先给出SD中最基本、通用的prompt公式:

主体+环境(背景)+质量风格+照明+色彩+情绪+构图

  1. 主体:这是你想要模型生成的图像的主要对象或主题。例如,“猫”、“汽车”或“山”。
  2. 环境(背景):这是你想要的背景或环境。例如,“在森林中”、“在城市街道上”或“在沙滩上”。
  3. 质量风格:这是你想要的图像的质量或风格。例如,“卡通风格”、“写实风格”或“油画风格”。
  4. 照明:这是你想要的图像的照明条件。例如,“日光下”、“月光下”或“灯光下”。
  5. 色彩:这是你想要的图像的主要颜色。例如,“蓝色调”、“暖色调”或“黑白”。
  6. 情绪:这是你想要的图像所传达的情绪或氛围。例如,“快乐的”、“悲伤的”或“神秘的”。
  7. 构图:这是你想要的图像的构图或布局。例如,“对称构图”、“规则的三分法构图”或“中心构图”。

以下是一个具体的示例:

  • 主体:猫
  • 环境(背景):在森林中
  • 质量风格:卡通风格
  • 照明:日光下
  • 色彩:蓝色调
  • 情绪:快乐的
  • 构图:对称构图

所以,完整的提示词可能是:“快乐的卡通风格的猫在日光下的蓝色调的森林中,使用对称构图。“

通用关键词

1、构图

  • dynamic angle
  • from above
  • from below
  • wide shot
  • Aerial View
  • full body shot(全身)
  • cowboy shot ( 半身)
  • close-up shot (接近)
  • looking at viewer
  • looking at another
  • looking away
  • looking back
  • looking up

2、照明

  • cinematic lighting (电影光)
  • dynamic lighting (动感光)

3、风格

  • sketch, one-hour drawing challenge (手绘风)

4、情绪

  • blush(脸红)
  • wet sweat(大汗)
  • flying sweatdrops (飞汗 )

权重调整

  1. 数值调整法:在关键词后面加上括号和一个数值,如(关键词数值)。数值范围是0.1到100,其中默认值是1。如果数值低于1,表示减弱权重;如果数值大于1,表示增强权重。例如,(1girl1.2)(cat ears1.1)(nice_dress0.9)
  2. 括号调整法:在关键词周围加上一层或多层括号或方括号。每增加一层圆括号,权重增强1.1倍;每增加一层方括号,权重减弱1.1倍。例如,((1girl))(cat ears)[nice_dress]

分步描写

当Stable Diffusion(SD)生成图像时,它会根据提供的关键词在特定的步骤中进行渲染。我们可以通过使用”[A B 2]”这样的格式来指定从哪一步开始使用某个关键词进行渲染。

以”[beach girl 10]”为例,如果我们设置的总步数为40,那么在前10步中,”beach”这个关键词会被用来指导渲染。然后,在接下来的30步中,”girl”这个关键词会被用来进一步指导渲染。这样,我们就可以在渲染过程中逐步引入不同的元素,从而创建出更复杂和丰富的图像。

通用正向提示词

masterpiece, best quality, (masterpiece: 1,2), highres, original, perfect lighting, extremely detailed wallpaper, (extremely detailed CG: 1.2)

通用负向提示词

NSFW, (worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality,blurry, ((monochrome)), ((grayscale)), skin spots, acnes, skin blemishes, age spot, (ugly:1.331), (duplicate:1.331),(morbid:1.21), (mutilated:1.21), (tranny: 1.331), mutated hands,(poorly drawn hands: 1.5), (bad anatomy: 1.21), (bad proportions:1.331), extra limbs, (disfigured:1.331), (missingarms:1.331), (extra legs: 1.331), (fused fingers: 1.61051), (too many fingers: 1.61051), (easynegative:1.2), (unclear eyes: 1.331), bad hands, missing fingers, extra digit, (((extraarms and legs))), ng_deepnegative_v1_75t

提示词tip

现在市面上存在大量AI绘图软件的提示词网站,不会写提示词的小伙伴可以借助这些提示词网站来生成一份优秀的提示词,以下推荐1个比较有名的——PromptHero(绘图提示词):https://prompthero.com/

实际案例

首先我们根据提示词公式来生成一份提示词:

小女孩在中国古风的环境中跳舞,唯美的氛围,日光下的照明,色彩丰富,情绪快乐,照片写实风格的构图。A little girl dancing in an ancient Chinese setting, with an aesthetic atmosphere, under daylight, rich in color, conveying a happy emotion, in a photorealistic composition

这个提示词包含了所有的元素:主体(小女孩跳舞)、环境(中国古风)、质量风格(唯美)、照明(日光下)、色彩(丰富)、情绪(快乐)和构图(照片写实风格)。

翻译成英文后,填写到SD提示词框中,这边我们还选用了lora模型,这里要说明下lora模型的使用方法,当我们点击lora模型后,在提示词框中会出现以下公式:<lora:JPfilmColor_Heavy_grain:0.8>。最重要的是公式最后的这个数字参数,这个参数代表了生成的图片风格中,lora模型参与的权重,取值在0-1之间,越接近1,权重占比越高。一般都取0.8左右,也可根据实际生成的图片进行调整。

下图是SD中生成的图片(图片出现畸形,主体也不是很清晰)

🙈Stable Diffusion从安装到绘图一站式教程之系列一(安装)

此外我们再对比较下加入通用正向提示词和通用负向提示词后的图像,可以明显看出图像质量更好了

🙈Stable Diffusion从安装到绘图一站式教程之系列一(安装)

接下来我们再看下同样的提示词,由midjourney生成的图像是什么样的

🙈Stable Diffusion从安装到绘图一站式教程之系列一(安装)

综合使用下来,确实会发现midjourney的上手门槛较低,不用自己配置环境,训练模型。只要调整prompt能画出非常好的图片了,但是对于更加有特定要求的人来说,midjourney的可控性也不高,SD中支持通过线稿来固定画面的构图、人物的姿态、服装等等,下一篇文章我们将更加深入的介绍SD中的一些功能,如controlnet等。

分享到:
0
0

发表回复

猜你喜欢
近期文章
生成式AI看起来很美,ROI怎么算
利用生成式AI推动创新 美国本田这样做
东方Project-个人AI绘画合集-8(更新至2024-2-14)
AI绘画(动物科普)—兔狲
12.28乾坤AI日报 — 2023年度十大科技名词发布
近期评论
ai-world发表在
AI赛博机车—借助SD技术赚取第一桶金
mulei77发表在
AI赛博机车—借助SD技术赚取第一桶金
An Vũ( CEO AGBIG GROUP)发表在
12.25乾坤AI日报 — 苹果正购买新闻采集权用于训练生成式 AI