一、Stable Diffusion介绍

二、Stable Diffusion环境搭建

1.Anaconda下载与安装

2.Pycharm（IDE）下载与安装

3.CUDA、CuDNN下载与安装

三、Stable Diffusion的本地部署

1.克隆项目到本地

2.初始化打开项目

3.安装环境所需库

4.运行代码以及效果展示

至此，AI绘画 Stable Diffusion本地部署以及初步功能实现完成！制作不易，望喜欢！

一、Stable Diffusion介绍

最近火热的AI绘画技术吸引了很多人的目光，AI绘画今年取得如此广泛关注的原因，有很大的功劳得益于Stable Diffusion的开源。它是由德国慕尼黑大学机器视觉与学习研究小组和Runway的研究人员基于CVPR2022的一篇论文：《High-Resolution Image Synthesis with Latent Diffusion Models》，并与其他社区团队合作开发的一款开源模型。

以上是Stable Diffusion的效果图。有经验、有条件的小伙伴可以去翻阅大佬们的Paper，刚接触AI绘画的零基础小白也可以随我去一步步部署、搭建、复现这篇论文的功能哦！此项目有显卡门槛，建议显存越大越好。

Stable Diffusion是一个基于Latent Diffusion Models（潜在扩散模型，LDMs）的文图生成（text-to-image）模型。具体来说，得益于Stability AI的计算资源支持和LAION的数据资源支持，Stable Diffusion在LAION-5B的数据库子集上训练了一个Latent Diffusion Models，该模型专门用于文图生成。Latent Diffusion Models通过在一个潜在表示空间中迭代“去噪”数据来生成图像，然后将表示结果解码为完整的图像，让文本转图片生成能够在10G显存的GPU下运行，并在几秒钟内生成图像，无需预处理和后处理，这确实是速度和质量上的突破。

二、Stable Diffusion环境搭建

1.Anaconda下载与安装

1.Anaconda介绍：Anaconda是开源的Python发行版本，其包含了conda、Python等180多个科学包及其依赖项。conda是一个开源的包、环境管理器，可以用于在同一个机器上安装不同版本的软件包及其依赖，并能够在不同的环境之间切换。总之，它是放实现代码条件的容器！

2.Anaconda下载：Anaconda | The World's Most Popular Data Science Platform

进入官网后如下图所示，点击Download即可开始下载：

下载完成后在文件夹中有一个exe程序文件，双击打开：

3.Anaconda安装：依次点击Next-I agree-All Usrs-Next，然后到如下图片所示：

把两个选项都勾选上，这样省去自己去添加环境变量，之后点击Install-Next-Next-Finish就完成安装了。

4.测试Anaconda：按下win+R,输入cmd，打开终端，输入conda有输出即可，输入conda -V可查看Anaconda版本。

至此Anaconda安装完成！底下是一些配置。

5.添加Anaconda镜像：添加镜像源之后底下的安装各种库速度会快很多

打开Anaconda PowerShell Prompt（建议添加桌面快捷方式以后要经常打开）：

输入如下代码即可：

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --set show_channel_urls yes

6.继续输入以下代码创建本项目AI绘画的基础环境（其中包含了python，名字可自定）：

conda create -n ai-painting python=3.10

2.Pycharm（IDE）下载与安装

1.Pycharm介绍：PyCharm是一种Python IDE（Integrated Development Environment，集成开发环境），带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具，比如调试、语法高亮、项目管理、代码跳转、智能提示、自动完成、单元测试、版本控制。总之它是运行代码的地方啦！

2.Pycharm下载：PyCharm: the Python IDE for Professional Developers by JetBrains

进入官网后如下图所示，点击Download即可开始下载：

选择Community日常学习就已足够：

下载完成后在文件夹中有一个exe程序文件，双击打开：

点击Next-选择路径再点Next-勾选所有选项再点Next-Install-Finish，至此Pycharm安装完成。

3.CUDA、CuDNN下载与安装

1.CUDA、CuDNN介绍：

CUDA 是 NVIDIA 发明的一种并行计算平台和编程模型。它通过利用GPU的处理能力，可大幅提升计算性能；

CuDNN (NVIDIA CUDA 深度神经网络库) 是一个 GPU 加速的深度神经网络基元库，能够以高度优化的方式实现标准例程（如前向和反向卷积、池化层、归一化和激活层）。

全球的深度学习研究人员和框架开发者都依赖CuDNN 来实现高性能 GPU 加速。借助 CuDNN，研究人员和开发者可以专注于训练神经网络及开发软件应用，而不必花时间进行低层级的 GPU 性能调整。

CuDNN 可加速广泛应用的深度学习框架，包括 Caffe2、Chainer、Keras、MATLAB、MxNet、PaddlePaddle、PyTorch 和 TensorFlow。我们接下来就需要用到Pytorch深度学习框架。

2.CUDA下载与安装：

首先需要查看自己的笔记本最高支持CUDA多少，方法是：win+R，输入cmd，在命令行输入

nvidia-smi

可以看到中间的Driver Version驱动版本以及右上角的CUDA VersionCUDA版本，我最高支持到12.0，而底下的Pytorch官网推荐只支持最新的11.6和11.7，所以我们只需下载其中之一就可，此处我下载的是11.7（前提是你的算力得达到11.7，所以电脑配置不高的小伙伴就不好做了哦），下面可查看驱动版本和CUDA版本匹配情况，各位根据实际情况来。如果达不到最新的CUDA版本，可以去官网搜索下载低等级的，但是能做这个项目的显卡门槛都得3060以上，一般都往最新的去下载就行。

下面我们打开如下网址来下载CUDA11.7：CUDA Toolkit Archive | NVIDIA Developer

此处我选择了第二个CUDA11.7.1版本，点击Windows=>x86-64=>11=>exe(local)（本地离线下载），最后点击Download，这里大家根据自己电脑实际情况来操作，此处我只在win11上完成。

下载完安装CUDA时，首先设置临时解压目录，默认就好，继续往下。

选择自定义安装，自己设置安装目录，可放C盘可放D盘，放D盘的话可以新建一个跟预设一样的路径，看着舒服。

自定义安装选项如下：如需要CUDA的部分就行，然后把VS取消。

自定义安装位置，我在D盘相同位置新建了个文件夹存放。

继续往下，到最后CUDA安装完成！

至于环境变量问题，一般是都设置好了，但如果你有之前版本的CUDA环境变量最好删掉，把新安装的优先级往前放。

如何打开并查看系统环境变量：此电脑右击，选择属性，点击中间的高级系统设置，

点击环境变量，

点击系统环境变量，可查看到CUDA_PATH是否为自己新安装的版本。

下面验证是否安装成功：win+R，输入cmd，打开终端，输入：

nvcc -V

至此，CUDA安装完毕，下面介绍CuDNN的下载与安装。

3.CuDNN下载与配置

下载CuDNN的网址如下：cuDNN Archive | NVIDIA Developer

要想下载CuDNN，首先得注册一下NVIDIA的账号，建议用网易163或者有条件的Gmail邮箱都可，QQ邮箱劝退，可能收不到验证邮件。

验证完邮件会填写相关信息，其中NVIDIA的Organization URL，随便找个URL就可。

注册完毕，出现CuDNN下载界面，根据提示，选择for CUDA 11.x的版本就可，点击选择Windows版本即可下载，这是一个zip文件。

下载解压到D盘，打开可以发现CuDNN并不是一个exe，而是三个配置文件夹，是给CUDA锦上添花的，能更强悍地通过GPU进行高性能加速。

于是，把这三个文件夹复制到CUDA的安装路径的文件夹下：D:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.7，即可完成CUDA与CuDNN的合体。

检查是否合体成功，需要验证功能，打开如下文件夹：D:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.7\extras\demo_suite，在文件夹空白处右击，选择在终端打开，输入ba然后迅速TAB（键盘左边），意思就是打开bandwidthTest.exe文件，开始验证。

验证如下，如看见Result = PASS，即成功安装。

还需验证下deviceQuery.exe文件，运行下PASS即可。

至此，CUDA与CuDNN的安装配置全部完成！

三、Stable Diffusion的本地部署

1.克隆项目到本地

Stable Diffusion项目地址：GitHub - CompVis/stable-diffusion: A latent text-to-image diffusion model

可以选择直接在终端git，但需要下载git相关工具，我选择直接点击如上图的绿色图标，选择Download ZIP即可下载项目压缩包，下载完解压到你的D盘，D盘是我的学术盘，我所有的代码以及配置都存放在D盘里。

2.初始化打开项目

解压后的文件夹可以直接拖到Pycharm图标上打开：

打开之后的第一件事就是配置解释器，因为我们之前已经创建过Anaconda的环境，直接选择先前配置的解释器，选中自己创建的环境即可。

3.安装环境所需库

此时我们新创建的解释器里只有于Python相关的最基础的几个库，如下图所示：

我们还要根据项目所需，安装相应的库。可以发现，项目里有一个environment.yaml文件，里面保存着项目作者实现项目所需要的库以及版本，我们可以根据它的版本来一键安装。但是，一键安装有时候会因为网速等问题出现一系列报错失败，所以因为库的数量不多，本人选择单独一个个安装库，并记录版本。

1.numpy库安装：

打开如下Anaconda终端，激活创建的环境：

conda activate ai-painting

底下要安装的库都会安装在这个环境（容器）里，这样一个项目一个环境，很舒服。

执行如下代码安装numpy库：

pip install numpy

再次介绍一下pip工具，是下载python库的工具，但是有的时候会遇到网速问题，可以参考我以前的博客pip配置镜像源。国内常用pip镜像源地址及使用+永久修改_YIBO0408的博客-CSDN博客_pip 资源

2.Pytorch下载与安装：

Pytorch下载踩坑特别多，比如根据官网指令下载没有反应、网速慢等问题，在此本人选择如下方法可避坑。

首先去官方版本匹配网址查看版本https://github.com/pytorch/vision/blob/main/README.rst

下图是torch与torchvision以及python版本的对应关系：

https://github.com/pytorch/audio

下图是torch与torchaudio的对应关系：

从上图可总结出我们要下载的torch、torchvision、torchaudio版本分别为：torch 1.13.0, torchaudio 0.13.0, torchvison 0.14.0。torchvision是pytorch的一个图形库，它服务于PyTorch深度学习框架的，主要用来构建计算机视觉模型；torchaudio 支持以 wav 和 mp3 格式加载声音文件，有加载声音、数据增强、特征提取等功能。此项目对于torchaudio可下载可不下载，但总体完整的pytorch是需要的。

由于在线下载的不确定性，我们选择离线下载，速度快而且下载安装简单。以下是torch离线安装包下载地址：

https://download.pytorch.org/whl/torch_stable.html

我们找到以下三个whl文件，文件名cu117代表CUDA11.7版本，cp310代表python3.10版本，win_amd86_64代表Windows版本。

下载完需要安装，同样需要在环境ai-painting里的终端指令行输入指令，打开Anaconda Powershell Prompt，激活ai-painting环境，此时需要cd（切换）到下载的目录下，我是默认下载到Downloads里的，于是直接cd Downloads即可。

此处教一下怎么切盘，切到D盘：

返回上一级：（中间有空格）

于是，安装三个torch的whl文件指令为：

pip install .\torch-1.13.0+cu117-cp310-cp310-win_amd64.whl

pip install .\torchvision-0.14.0+cu117-cp310-cp310-win_amd64.whl

 pip install .\torchaudio-0.13.0+cu117-cp310-cp310-win_amd64.whl

至此Pytorch框架全部安装完毕！

最后来验证一下Pytorch是否成功安装：

python
import torch
torch.cuda.is_available()

如果结果是True，代表安装完毕啦！

3.其他库的安装：

大部分库只需要如下一键pip install就好了，前提是配置好pip源，这样底下下载就不会卡住了，方法是提前在指令行输入如下：

pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

之后可以输入以下指令一键安装。

pip install albumentations diffusers opencv-python pudb invisible-watermark imageio imageio-ffmpeg pytorch-lightning omegaconf test-tube streamlit einops torch-fidelity transformers torchmetrics kornia

我自己一个个试完发现无阻碍无错误，所以大家也可以直接根据environment.yaml文件来一键配置环境。要cd到项目目录下（因为下面还要把另外两个项目克隆配置到本项目目录下）：

一键配置指令如下：

conda env create -f environment.yaml

最后还需把另外两个项目克隆到本地项目新建的src工作目录中，运行指令如下：

pip install -e git+https://github.com/CompVis/taming-transformers.git@master#egg=taming-transformers

pip install -e git+https://github.com/openai/CLIP.git@main#egg=clip

此处两个指令需要kexue上网才能成功，想了解可私信我。全部配置完项目目录如下：

可以发现新建了src目录，目录下有clip和taming-transformers两个文件夹。

4.模型的下载：

模型下载地址：CompVis (CompVis)

这里我们下载的版本是stable-diffusion-v-1-4-original（也可下载其他版本），点击下载权重：sd-v1-4.ckpt，此处同样需要kexue上网才可下载，如需要模型下载ckpt文件，本人已存百度网盘，可私信自取。

接下来，在项目目录models/ldm下手动创建stable-diffusion-v1文件夹，用来存放下载好的权重文件，即需要把下载文件夹里的sd-v1-4.ckpt文件改名为model.ckpt，然后粘贴到手动创建的stable-diffusion-v1文件夹下即可。（注意文件名遵照原作者的名称来，否则下面运行代码会找不到文件）操作完项目目录如下图所示。

权重文件介绍：Stable-Diffusion-v-1-4 checkpoint使用 Stable-Diffusion-v-1-2 checkpoint的权重进行初始化，随后在“laion-aesthetics v25+”分辨率为 512x512 的 225k steps上进行微调，下降 10% 改进无分类器指导抽样的文本调节。

至此，调试代码前的所有准备工作完成！

4.运行代码以及效果展示

1.文本转图片（Txt To Image(Txt2Img)):

打开终端，激活环境，cd到项目目录，运行如下官方基础代码：

python scripts/txt2img.py --prompt "a photograph of an astronaut riding a horse" --plms

BUG解决：

（1）ModuleNotFoundError: No module named 'ldm'

解决方式：在txt2img.py第二行添加如下代码，旨在获取当前工作目录加入路径。

sys.path.append(os.getcwd())

（2）在huggingface_hub下载文件时出现使用警告如下：

UserWarning: `huggingface_hub` cache-system uses symlinks by default to efficiently store duplicated files but your machine does not support them in C:\Users\XX\.cache\huggingface\hub. Caching files will still work but in a degraded version that might require more space on your disk. This warning can be disabled by setting the `HF_HUB_DISABLE_SYMLINKS_WARNING` environment variable. For more details, see https://huggingface.co/docs/huggingface_hub/how-to-cache#limitations.

解决方式：如果想从Windows11的基于符号链接的缓存系统中受益，需要激活开发者模式或以管理员身份运行Python。

激活开发者模式：打开设置-->点击隐私与安全性-->点击开发者选项-->开发人员模式-开

以管理员身份运行Python：右击Anaconda Powershell Prompt (Anaconda3)终端-->点击以管理员身份运行

（3）torch.cuda.OutOfMemoryError: CUDA out of memory.

解决方式：换大显存的显卡，我的是6G显存的3060笔记本GPU，按照官方基础代码运行会出现如上情况，我们需要调整batch size，也就是后缀说明里的--n_samples，设置其值为1；还需要把生成图片的尺寸大小（默认512*512）改为256*256。以上是我在github问题里搜集到的，亲测无效。

python scripts/txt2img.py --prompt "a photograph of an astronaut riding a horse" --plms --n_samples 1 --H 256 --W 256

以上对于我的显存依旧不够，大家有比我更好的条件的可以试试以上代码。适当地增加batch size（1,2,4,8,16,32...）以及图片尺寸大小(512*512...)

经过各种资料调研，只为降低显存占用，

一种有效的解决方式（对于我的6G笔记本GPU显存）：打开pycharm，打开txt2img.py文件，找到如下代码，添加一行：

model.half()

它的原理是：保存模型时，调用model.half()，将算子存储为fp16（半精度）格式，低精度带来了性能和功耗的优势，但需要解决量化误差问题。这是Pytorch框架提供的一个方便好用的trick：开启半精度。直接可以加快运行速度、减少GPU占用，并且只有不明显的accuracy损失。对于本项目误差图片差别属实不大，本人认为可忽略。

添加完一行代码，后输入如下指令可实现跑图：

python scripts/txt2img.py --prompt "a photograph of an astronaut riding a horse" --plms --n_samples 1 --H 512 --W 512 --n_iter 50

以上是显存使用情况，可以看出刚好快占满显存。

prompt可以自定义一段英文或者关键单词以英文逗号分开，尺寸可根据显卡自行设置512*512，生成图片50张。下图可以看出效果还是很不错的。

以下是txt2img.py的使用后缀说明：

usage: txt2img.py
optional arguments:
  -h, --help            show this help message and exit 显示此帮助信息并退出
  --prompt [PROMPT]     the prompt to render 要渲染的提示信息
  --outdir [OUTDIR]     dir to write results to 渲染结果路径
  --skip_grid           do not save a grid, only individual samples. Helpful when evaluating lots of samples 不保存网格，仅保存单个样本，在评估大量样品时很有用
  --skip_save           do not save individual samples. For speed measurements. 不保存单个样本，用于速度测量。
  --ddim_steps DDIM_STEPS
                        number of ddim sampling steps ddim采样的steps数量
  --plms                use plms sampling 使用plms采样 
  --laion400m           uses the LAION400M model 使用LAION400M模型
  --fixed_code          if enabled, uses the same starting code across samples 如果支持，跨样本使用相同的起始代码
  --ddim_eta DDIM_ETA   ddim eta (eta=0.0 corresponds to deterministic sampling
  --n_iter N_ITER       sample this often
  --H H                 image height, in pixel space 图片高度
  --W W                 image width, in pixel space 图片宽度
  --C C                 latent channels 潜在通道
  --f F                 downsampling factor 下采样因子
  --n_samples N_SAMPLES
                        how many samples to produce for each given prompt. A.k.a. batch size 每个给定prompt要生成多少样本。又名batch size（批大小）
  --n_rows N_ROWS       rows in the grid (default: n_samples) 网格中的行（默认值：n_samples）
  --scale SCALE         unconditional guidance scale: eps = eps(x, empty) + scale * (eps(x, cond) - eps(x, empty))
  --from-file FROM_FILE
                        if specified, load prompts from this file 如果指定，从该文件加载提示
  --config CONFIG       path to config which constructs model 构造模型的配置路径
  --ckpt CKPT           path to checkpoint of model 模型checkpoint的路径
  --seed SEED           the seed (for reproducible sampling) 种子（用于可重复采样）
  --precision {full,autocast}
                        evaluate at this precision 以此精度进行评估

2.图片转图片(Image To Image(Img2Img))：

以下是官方基础代码，同样我的显卡跑不动：

python scripts/img2img.py --prompt "A fantasy landscape, trending on artstation" --init-img <path-to-img.jpg> --strength 0.8

strength是一个介于 0.0 和 1.0 之间的值，它控制添加到输入图像的噪声量。接近 1.0 的值允许很多变化，但也会产生与输入在语义上不一致的图像。

以下是img2img.py的使用后缀说明：

usage:img2img.py
options:
  -h, --help            show this help message and exit
  --prompt [PROMPT]     the prompt to render
  --init-img [INIT_IMG]
                        path to the input image
  --outdir [OUTDIR]     dir to write results to
  --skip_grid           do not save a grid, only individual samples. Helpful when evaluating lots of samples
  --skip_save           do not save indiviual samples. For speed measurements.
  --ddim_steps DDIM_STEPS
                        number of ddim sampling steps
  --plms                use plms sampling
  --fixed_code          if enabled, uses the same starting code across all samples
  --ddim_eta DDIM_ETA   ddim eta (eta=0.0 corresponds to deterministic sampling
  --n_iter N_ITER       sample this often
  --C C                 latent channels
  --f F                 downsampling factor, most often 8 or 16
  --n_samples N_SAMPLES
                        how many samples to produce for each given prompt. A.k.a batch size
  --n_rows N_ROWS       rows in the grid (default: n_samples)
  --scale SCALE         unconditional guidance scale: eps = eps(x, empty) + scale * (eps(x, cond) - eps(x, empty))
  --strength STRENGTH   strength for noising/unnoising. 1.0 corresponds to full destruction of information in init image
  --from-file FROM_FILE
                        if specified, load prompts from this file
  --config CONFIG       path to config which constructs model
  --ckpt CKPT           path to checkpoint of model
  --seed SEED           the seed (for reproducible sampling)
  --precision {full,autocast}
                        evaluate at this precision

目前原作者的开源代码并没有对GPU显存消耗量大的问题进行优化，经搜索有另外的分支，另一个作者对项目进行了优化，具体地址如下：https://github.com/basujindal/stable-diffusion

大家可去自行下载，复制粘贴相关模型去model文件夹就行，出现bug，上述已经提及并解决，其他都一样。他把显存消耗降到了一半，经检测我的降到3GB，而效果可以说是同样的好。这个项目你可以用docker也提供了GUI图形界面，如果你不想在交互式终端执行，可以用GUI方便操作。

要想使用GUI，需要下载一个库：

pip install gradio

要想运行Txt2Img：

python optimizedSD/txt2img_gradio.py

要想运行Img2Img：

python optimizedSD/img2img_gradio.py

出现一个地址，点击地址即可进入GUI：

以下是GUI界面，各种参数可以方便在上面调节：

以下是我根据我的证件照跑出来的图，可以看到效果不错，与现在市场上的AI绘画程序效果相当。

至此，AI绘画 Stable Diffusion本地部署以及初步功能实现完成！制作不易，望喜欢！

最后放一张俺女朋友的初中证件照，咱就是说妥妥的二次元美少女哇！！！

标签 diff, Fusion, windows

发表回复取消回复

要发表评论，您必须先登录。

AI专业教您保姆级在暗影精灵8Windows11上本地部署实现AI绘画：Stable Diffusion（万字教程，多图预警）

一、Stable Diffusion介绍

二、Stable Diffusion环境搭建

1.Anaconda下载与安装

2.Pycharm（IDE）下载与安装

3.CUDA、CuDNN下载与安装

三、Stable Diffusion的本地部署

1.克隆项目到本地

2.初始化打开项目

3.安装环境所需库

4.运行代码以及效果展示

至此，AI绘画 Stable Diffusion本地部署以及初步功能实现完成！制作不易，望喜欢！

发表回复 取消回复

发表回复取消回复