琼中黎族苗族自治县网站建设_网站建设公司_Linux

Datawhale干货

教程作者：Mark，华南理工大学

继此前的《再也不担心论文！Nano-Banana Pro 论文绘图最全教程发布》获得10W+ 阅读后，我们精心打磨了一套更系统的 AI 绘图总结。

这不是一篇快餐式的操作手册，而是一张带你系统看懂 AI 视觉革命的“完整航海图”。全文约 16000 字，建议收藏后通过目录按需阅读：

🌱 如果你是 AI 小白：建议通读全文。从发展史到工具选择，这篇文章能帮你建立最完整的认知框架。

🎨 如果你急着上手画图：可以直接跳转至第四部分（工具论）和第五部分（方法论），那里有关于闭源 vs 开源的选择建议，以及拿来即用的提示词公式。

⚙️ 如果你是技术极客/开发者：第三部分（基本原理）是为你准备的。我们将深入潜空间，拆解 Stable Diffusion 背后的 U-Net、VAE 和 CLIP 是如何协同工作的。

准备好了吗？让我们开始这场AI绘画探险。

引言

你可能已经在豆包、ChatGPT 或 Midjourney 里体验过“一键生图”的惊艳，可能听说过Stable Diffusion、ComfyUI这些看起来复杂难懂的AI绘图工作流界面，也可能在短视频中刷到过那些瞬息万变的 AI 视频，艳羡于它们逼真的光影，或者为这项技术可能带来的冲击感到隐隐担忧。

在这个信息爆炸的当下，大家都在谈论 AIGC（人工智能生成内容），但它到底是个什么东西？

💡 你是否也产生过这样的好奇：
当我们在屏幕前输入一行文字，几十秒后得到一张精美绝伦的画作时，这背后究竟发生了什么？为什么有时候它能精准读懂你的心意，有时候却又只能生成一堆不可控的“废片”？我到底要怎么描述才能让它精准生成我所想要的东西？那些一键生成图片的软件和复杂的工作流又到底有什么区别？

其实，互联网上关于 AI 绘图的教程浩如烟海，但大多要么过于碎片化，只教你抄作业；要么过于晦涩，让人望而却步。为此，我特意整理了这样一篇教程，来向你分享。

AI绘图现在到底有多强

当我们谈论 AI 绘图时，如果你对它的印象还停留在三四年前那些画风诡异、手指错乱的抽象画作上，那你可能太低估了这项技术进化的速度。如今，AI 生成能力早已跨越了“娱乐”的边界，正在重塑视觉生产的每一个环节。如果说过去我们只是把它当作一个生成随机盲盒的“玩具”，那么现在，它已经切切实实地成为了服务于设计、电商、科研等多个产业的“生产力工具”。

1. 无中生有：打破物理限制

最基础也最震撼的能力，依然是“无中生有”的文生图（Text-to-Image）。这是真正意义上的“所想即所得”。你只需要用自然语言描述一个不存在的场景，比如“赛博朋克风格的故宫”或者“印象派笔触下的火锅宴”，AI 就能在几秒钟内将其具象化。

现在的顶尖模型如 nano-banana、即梦、Wan或者 Midjourney，其生成的图像在光影逻辑、物理材质甚至微小的皮肤纹理上，已经达到了照片级的逼真度。这不再仅仅是绘画，而是一种“没有相机的摄影”，它打破了现实拍摄的物理限制，让创意的落地成本无限趋近于零。

Z-image-Turbo样图

2. 有的放矢：从不可控到可控

然而，如果 AI 仅止步于此，它永远无法真正接入工业级的生产管线。为什么？因为语言在描述画面细节时往往是苍白且模糊的。我们很难通过一段文字，精确控制一个杯子把手的弯曲角度，或者模特眼神的微小偏转。“不可控”曾是专业人士对 AI 最大的顾虑。对于设计师和画师来说，他们需要的是精准的表达——基于已有的草图或参考图，通过更直观的手段去控制每一个像素的细节。

因此，AI 进化的第二阶段，便在于“有的放矢”的图生图与可控性（Image-to-Image & Control）。

试想一下，你只需要在纸上随手涂鸦几笔潦草的线条，或者画一个粗糙的火柴人构图，AI 就能识别你的意图，将其渲染成一张精美的厚涂插画或建筑效果图。

草图转绘

这就是“图生图”与结构控制的魔力。它并没有剥夺人类的创造力，而是成为了最高效的“渲染引擎”，将人类从繁琐的铺色和细节刻画中解放出来，让我们能专注于构图与核心创意的打磨。

3. 商业落地与全能进化

随着控制精度的进一步提升，AI 开始深度介入垂直行业的商业落地：

其中最典型的就是虚拟试衣与电商应用。在过去，拍摄一组服装广告需要协调模特、摄影师、灯光师以及昂贵的影棚租赁；而现在，AI 能够通过“万物迁移”与重绘技术，将一件衣服完美地“穿”在虚拟模特身上，甚至可以随意切换模特的姿态、肤色以及背景环境。这不仅带来了效率的百倍提升，更实现了商业成本的断崖式下降。

万物迁移与ConrolNet的实际应用效果

此外，风格转绘与漫画绘制能力的成熟，标志着 AI 开始具备了“审美统一性”和“叙事能力”。我们不仅可以将一张普通的自拍瞬间转化为吉卜力风格的卡通形象，更能够利用 AI 保持角色面部特征的一致性，从而连续生成多格分镜，绘制出连贯的漫画故事。从单张图片的惊艳，到成套内容的输出，AI 正在从一个只会画画的“工具人”，进化为能够理解业务需求、输出标准化资产的“全能创意总监”。

风格转绘（左）与漫画绘制（右）

最后，原生文字渲染能力的突破，为 AI 的应用补上了最后一块拼图。过去 AI 最不擅长处理画面中的字符，总是生成一堆乱码。而现在，像 Z-Image、nano-banana pro 等模型已经具备了强大的文字理解与生成能力。它们不仅能完美融合画面与文字，甚至被用户直接用来生成电影海报、带有对白的四格漫画，乃至复杂的项目架构图和科研图表。这意味着 AI 终于跨越了“纯图像”的限制，开始向图文混排的综合平面设计领域发起冲击。

Nano Banana Pro生成的海报、漫画与架构图（左、中）；Z-image-Turbo生成的海报（右）

AI绘图的发展历程：从“模仿”到“扩散”

要理解现在的 AI 为何如此强大，我们得把时间轴稍微拉长一点。其实 AI 绘图的发展历程并不短，它并非一夜之间就学会了创作，而是经历了一个从“机械模仿”到“深刻理解”的漫长跨越。

第一阶段：GAN 时代

在早期的 AI 绘画时代，大约 2014 年左右，生成对抗网络（GAN）占据了统治地位。那时的 AI 就像是一个处于“左右互搏”状态的偏科天才：它的内部有一个负责造假的“生成器”和一个负责找茬的“判别器”，两者在不断的博弈中进化，通过这种方式训练出一个能够近乎以假乱真的图片生成模型。

GAN原理图

但这个时期的 AI 有一个巨大的局限性——它是“照葫芦画瓢”的极致，却没有任何逻辑理解能力。为什么这么说？因为当时的 GAN 模型通常是高度垂直化的：

如果你喂给它一万张猫的图片，它能生成足以乱真的猫咪；如果你喂给它一万张自行车的照片，它能生成逼真的自行车。但这种生成是割裂的。那时的我们想要生成图片，并不是像现在这样通过聊天说“画一个在骑自行车的猫”，而是更像在做单选题：通过输入参数或选择标签，你只能告诉 AI “给我一只猫”或者“给我一辆车”。你无法要求它把这两个毫不相关的概念融合在一起。

这就导致了一个根本性的问题：它不懂“语义组合”。它只是在机械地拟合像素的概率分布。如果你非要尝试让当时的 AI 去处理“猫骑车”这种复杂概念，这几乎是不可能的任务。因为在它的世界里，“猫”是一堆毛茸茸的像素规律，“自行车”是另一堆金属质感的像素规律，它不知道两者之间存在什么物理联系，更无法理解“骑”这个动作的含义。强行生成的后果，往往是将猫的毛发纹理生硬地贴在车轮上，产出令人啼笑皆非的“怪兽”。

第二阶段：CLIP 的出现

真正的转折点，发生在人工智能终于打通了“视觉”与“语言”之间的壁垒。这就是 OpenAI 发布 CLIP 模型带来的革命。

在此之前，计算机眼里的世界是分裂的：计算机视觉（看图）和自然语言处理（读文）是两个相对独立的领域。模型知道“Cat”这个词的含义，也识别得出“猫”的图像特征，但无法直接将两者联系起来。

而 CLIP 做了一件极其简单却伟大的事：它阅读了互联网上数亿对图片和文本，建立了一种数学上的映射关系。简单来说，它学会了理解一张图片和一段文字描述之间的关联。它能够将人类的自然语言，翻译成计算机所能读懂的视觉语言，从而让模型知道它正在生成的内容到底“是不是”我们要的东西。

🗺️ CLIP 就像一个拿着地图的向导
当我们输入“一只骑自行车的猫”时，模型能够实时计算出当前的画面是否符合这段文字描述，并指导生成的方向。
它能不断修正后续生成模型的路径：“不对，你画的那是猫毛贴在轮子上了，不像这句话描述的样子，重画！”

这种能力的引入，让 AI 具备了真正的语义理解能力。这为后续能够通过自然语言精准控制 AI 绘图奠定了基础。

第三阶段：扩散模型时代

在 CLIP 诞生的同期，另一种图像生成技术也在悄然进化。即迎来了我们如今的主角——扩散模型（Diffusion Model，DM）的登场，它彻底改变了游戏规则。

那么，扩散模型到底是怎么运作的？

在训练阶段，我们做的事情是“破坏”：把一张清晰的图片，一步步地添加高斯噪声，直到它变成一张完全看不出内容的“雪花图”（前向扩散过程）。而模型需要学会的，就是这个过程的“逆操作”——即如何从一张噪点图中，一步步把刚才添加的噪声预测出来并减去，从而还原回原本的清晰图片（反向扩散过程）。

到了真正的生成（推理）阶段，其实就是重演这个“反向过程”。我们会随机拿一张全是噪点的“雪花图”给模型，让它运用学会的“去噪能力”开始工作。

Diffusion Modle的降噪过程

这里有一个关键点：这个去噪过程并非一蹴而就，而是多步迭代的。模型会在数十次甚至上百次的循环中，一点点去除画面中的杂质。如果我们在扩散模型基础上引入前文提到的 CLIP 模型，那么在每一次去噪时，它就会像一位拿着设计图的监工，不断地告诉模型：“我们要画的是‘一只猫’，不要偏离方向。”

你可以把这个过程形象地理解为“雕刻石膏🗿 ”
最开始的那张全噪点图，就是一块未经打磨、看不出任何轮廓的粗糙石膏。而扩散模型则是那位手持刻刀的雕刻家。
它根据我们的指令（提示词）和对目标的描述，一步一步地去除掉（去噪）那些不需要的部位（噪声）。随着噪声被一点点剥离，原本混沌的石膏中逐渐显露出轮廓、光影和细节，最终保留下来的，就是我们心中所想的目标作品。

这种“步步为营”的生成方式，正是 AI 能够画出极致细节的关键。

💡 GAN vs 扩散模型

读到这里你可能会困惑：GAN 一次就能生成图片，速度极快；而扩散模型要像雕刻一样“一步一步”去噪，计算量大且速度慢。为什么这种看似“笨重”的方法反而淘汰了 GAN？

答案就在于四个字：慢工出细活。

1. 多样化的细节学习（拒绝“偏科”）： GAN 最大的软肋在于它非常“懒”。在训练中，一旦 GAN 发现画某种特定的脸（比如金发碧眼）最容易骗过判别器，它就会疯狂地只画这一种脸，而忽略掉黑发、卷发等其他可能性，这在学术上被称为“模式坍塌”。而扩散模型是通过去噪来还原数据分布。它无法偷懒，必须学会处理各种各样的噪声情况，这迫使它老老实实地学习所有的图像特征。因此，扩散模型生成的图片多样性（Diversity）极高，无论是极简主义还是繁复的巴洛克风格，它都能驾驭。

2. 极高的训练稳定性（拒绝“内耗”）：还记得 GAN 是“生成器”和“判别器”的博弈吗？这在数学上极其难达到平衡，一方太强，另一方就学不到东西，导致训练经常失败。而扩散模型的训练目标非常单纯且脚踏实地：“准确预测当前画面中的噪声是多少”。为什么说这很单纯？因为在训练时的前向过程中，噪声是我们亲手加进去的，这是一个有标准答案的数学题，而不是一个动态变化的博弈游戏。这种稳定的训练特性，让我们可以放心地把模型做大、把数据量加倍，从而造就了像 Stable Diffusion 这样拥有数十亿参数的超级模型。

3. 精细度的降维打击（拒绝“一锤子买卖”）：因为 GAN 是一次性成图，如果这一笔画歪了，就没有修正的机会。而扩散模型的“雕刻”过程是迭代的。这一步去噪没去干净？没关系，下一步继续修。这种反复打磨的机制，让 AI 能够处理极其复杂的纹理和光影，实现了画质上的飞跃。

你可以这样理解：
GAN 像是一个才华横溢但情绪不稳定的天才画家，而扩散模型则是一个基本功扎实、耐心极致的工匠大师。在算力逐渐升级，且追求极致生成质量的今天，大师最终战胜了天才。

AI绘图的基本原理：基于Stable Diffusion的系统梳理

既然你已经明白了“扩散”和“去噪”的宏观逻辑——即“像雕刻石膏一样，从噪声中去除杂质还原图像”。那么， Stable Diffusion (SD) 这个改变世界的模型，究竟是如何把这个理论变成现实的？实际上，SD 并没有推翻扩散模型（Diffusion Model），而是站在巨人的肩膀上进行了一次天才般的架构重组。

Stable Diffusion的原理图

这是 SD 的官方原理图。虽然它看起来密密麻麻全是箭头，但请别被吓退。它其实仅仅包含了三个分工明确的“职能部门”。如果你玩过 ComfyUI，或者哪怕只是听说过它，等看完这个章节，我打赌你会发现这张原理图的逻辑出奇地熟悉。

如果要用一句话概括 SD 的核心机制，那就是：在潜空间（Latent Space）中，利用 CLIP 提取的语义指令，指挥 U-Net 网络一步步预测并剔除噪声，最后解码成我们看到的图片。

比起传统的扩散模型，SD 最核心的创新点，就在于引入了潜空间。接下来，我们拆解这三个关键步骤。

1. 为什么要进入“潜空间”？

你可能会好奇，我们明明已经有了扩散模型，为什么还引入“潜空间”这个概念？它到底带来了什么改变？

其实扩散模型虽然已经有了很不错的效果，但有个致命缺点：计算成本太高！一张的图片需要在像素级别上进行扩散，计算量巨大。

在 SD 出现之前，绝大多数扩散模型是直接在像素空间（Pixel Space）上“干活”的。试想一下，一张的高清图片，包含约 78 万个像素点，每个点还有 RGB 三个通道。如果让 AI 直接对这就 200 多万个数据点进行几百轮的去噪计算，算力消耗简直是天文数字，这也是早期扩散模型难以普及的根本原因。

Stable Diffusion 的聪明之处在于，它认为图片中大量的像素细节（比如平滑的蓝天、纯色的背景）在计算上是冗余的。于是，它引入了 VAE 来进行“降维打击”。VAE 包含一个编码器和一个解码器：在开始画画前，编码器先把巨大的像素图片压缩成一个极小的潜空间向量（Latent Vector），其大小仅为原图的 1/64（在 SD v1.5 中，一张的图会被压缩成的张量）；而在画完之后，解码器再负责把这个“压缩包”解压回高清图片。这就是 SD 全称 Latent Diffusion Model (LDM) 中“Latent”的含义，也是它能跑进消费级显卡的关键。

你可以清晰的在上面的原理图中看到，左侧红色区域代表原本的像素空间，输入和输出的图像都在这个空间当中；而中间复杂的处理过程，都在绿色区域所代表的潜空间中进行的。

如果你并不是很理解潜空间这个概念，你可以认为SD是把原先512x512的图像压缩到一个数据空间中（这个数据的量可能只有64×64），在这个数据空间里进行之前扩散模型的推理过程，最后再解压回原本尺寸的图像。而VAE就是负责压缩和解压的模块。这样计算量减少了约16倍，大大降低了它的计算效率。

2. CLIP 是如何“听懂人话”的？

解决了“画得快”的问题，接下来要解决“画得准”的问题。我们在上一节提到了 CLIP 是“翻译官”，从宏观上来讲，这样理解完全没问题。不过在 SD 的内部流程中，它其实更像是一个精准的指令发送器。前面我们在讨论扩散模型的时候提到，它生成图像的过程是一步一步接力生成的，在这里我们只要明确一下CLIP是把翻译好的指令发送给了生成图片的每一步就可以了。

这个过程在原理图中体现的可能并不是很明显，你可以认为右侧的“条件”（Condition）中的Text部分到达特定领域编码器后被转化并发送到各个U-net的降噪步骤过程中就是Clip的过程。

具体来讲就是，当你输入“一只骑自行车的猫”这句提示词时，CLIP 的文本编码器（Text Encoder）会立即开始工作。它首先将这些文字切分成计算机能读懂的 Token，然后将它们转化为一个高维的语义向量（Embedding）。这个向量不仅仅包含“猫”这个单词的字面意思，还深度编码了“自行车”、“骑自行车”等上下文的关联信息。这个富含语义的向量随后会作为核心指令（Condition），被注入到图像生成的每一个环节中。

3. Stable Diffusion 的核心引擎：U-Net 与采样

前两步我们准备好了“压缩后的画布”（潜空间）和“翻译好的指令”（CLIP向量），现在终于到了最关键的作画环节。在 SD 中，承担“画师”角色的核心组件就是 U-Net。

1. U-Net 与交叉注意力

U-Net 的名字来源于它那像字母“U”一样的网络结构。在推理（生成）阶段，SD 会进行几十次迭代（Step），每一次迭代其实都是在调用 U-Net。

这就是它的原理图。其实你并不需要了解这张图。你只需要知道U-Net 的工作非常单纯，就是我们前面提到过的预测噪声。

U-Net原理图

U-Net 的工作非常单纯且枯燥：盯着当前的画面，找出哪里是噪声，并计算出该减去多少。但是，一个核心问题出现了：U-Net 面对一团乱糟糟的噪点，它怎么知道该把这些噪点还原成“猫”还是“狗”？

聪明的你一定会想到我们提到了很多次的CLIP模型。还记得 CLIP 生成的那些语义向量（Condition）吗？它们并不是在开始时喊一嗓子就完了，而是被注入到了 U-Net 的每一次运算中。这个注入的过程，就是大名鼎鼎的交叉注意力机制（Cross-Attention）。这是 SD 架构有别于前面扩散模型在U-Net部分的特殊机制。

现在再回看那张SD的原理图时，你是否注意到绿色潜空间区域中央包含 QKV 的Denosing U-Net？其实这就是一步降噪过程，而更左面代表更多的降噪步数（Denoisng Step）。我们前面讲到CLIP的指令被发送到每一个U-Net内，而打开一个U-Net，你可以看到里面每个QKV的框都被注入了一个指令，这就是我们所说的交叉注意力机制了。

在 U-Net 进行去噪运算的每一层，它都会通过 Cross-Attention 机制“看”一眼 CLIP 传过来的文本向量。

具体来说，其工作原理包含三个核心部件，在原理图中标记为 Q、K、V。这其实源自 Transformer 架构的术语，但在 SD 里，它们的身份非常明确：

Q (Query，查询)：来自 U-Net 当前在处理的图像。这是当前正在被 U-Net 处理的潜空间图像特征。你可以把它想象成画面在问：“我现在长这样，这一块区域我该画点什么？”
K (Key，键) & V (Value，值)：来自 CLIP 外部的文本。这两者都是由我们的提示词（比如“一只橘猫”）转化而来的语义向量（翻译的结果）。K 就像是文本的“索引标签”，V 就像是文本的“具体内容”。

U-Net 中的图像特征 (Q) 会不断地去扫描文本索引 (K)。一旦图像的某个区域（比如画面中间）发现自己和文本里的“猫”匹配上了，它就会把对应的视觉特征 (V) 投影过来，融合进当前的噪点图中。这就是为什么文字能精准控制画面的本质：用图像的“形”去检索文字的“意”，再把“意”填回图像里。

一个更直观的类比：
想象 U-Net 拿着手电筒在画面上扫描（Query），当它扫到一块原本应该是“猫耳朵”的区域时，它会拿着这个区域的特征去 CLIP 的文本数据库里查表（Key）。一旦匹配成功（Attention 命中），它就会把文本中关于“毛茸茸、三角形”的具体描述信息（Value）提取出来，投影到画面上。

那么，为什么 CLIP 的指令（）要指向 U-Net 里的每一个 QKV 块呢？

这就涉及到了 U-Net 的结构特性。U-Net 是一个由深到浅的网络：

浅层网络负责处理细节（如毛发的纹理、光影的边缘）；
深层网络负责处理宏观结构（如构图、物体的形状）。

深层网络对应原理图梯形宽的部位；浅层网络对应窄的部位。

如果你输入“一只长毛猫”，这个指令必须同时指导这两个层面：在深层，它要告诉 U-Net “画出猫的轮廓”；在浅层，它要告诉 U-Net “画出长长的毛发质感”。

因此，CLIP 生成的这本“全息操作手册”（K 和 V），必须被分发到 U-Net 的每一个层级（SpatialTransformer 层）。这确保了无论 U-Net 里的哪个工人在干活——不管是负责构图的还是负责描边的，都能随时查阅这本手册，保证生成的内容始终不跑题。

2. 采样器的迭代策略

如果说 U-Net 是干活的工匠，那采样器（Sampler）和调度器（Scheduler）就是指挥施工的包工头组合。

U-Net 虽然能预测噪声，但它不知道每一步该减去多少噪声（降噪强度，Denosing Strength），也不知道一共要走多少步（采样步数，Steps）。这就需要它们来配合制定策略。你在 Comfy UI 或者 SD WebUI 里常看到的选项（如 DPM++ 2M Karras），本质上就是这两者的分工合作（Comfy UI 通常分开选择两者，而 WebUI 则会将两者合并选择）：

调度器（如 Karras）：负责规划节奏。它根据总步数，安排每一步的降噪强度（是先快后慢，还是匀速进行）。
采样器（如 Euler, DPM++）：负责执行解算。它利用数学公式，根据调度器要求的强度，计算出具体要减去的数值。

它们指挥着 U-Net 在潜空间里进行几十轮的循环：预测噪声减去噪声得到更清晰的草图。当循环结束，一张清晰的“潜空间草图”就此诞生，最后只需交还给 VAE 解码器，即可还原为高清美图。

4. 小结

恭喜你！现在你已经完全掌握了 Stable Diffusion 的核心生成逻辑。让我们把刚才拆解的零件重新组装起来，看看完整的流水线是怎样的：

对于文生图 (Text-to-Image)而言，一切从零开始。我们先在潜空间生成一张纯粹的随机噪声图，然后通过 CLIP 把你的提示词翻译成指令，最后由采样器（包工头）指挥 U-Net（工匠）一步步去除噪声，直到原本混沌的画面中浮现出清晰的影像，最后经由 VAE 解码变为肉眼可见的图片。

对于图生图 (Image-to-Image)，其实稍有不同，我们不再从零开始。我们先用 VAE编码器把一张现有的照片压缩进潜空间，然后根据你设置的重绘幅度 (Denoising Strength) 给它添加一定量的噪声（这一步决定了你是想微调还是大改），剩下的过程就和文生图一样——把这些添加的噪声再“雕刻”掉，从而得到一张既保留原图神韵又有新变化的图片。

通过梳理，你会惊喜地发现，这个流程其实就是 ComfyUI 默认工作流的完美复刻：

Checkpoint 加载：加载模型大包（通常包含 U-Net、CLIP 和 VAE）。
CLIP 文本编码：把提示词（Prompt）变成指令。
空 Latent Image：准备画布（噪声）。
K采样器：这是最忙碌的核心节点，我们要在这里挑选采样器、调度器、设置步数和降噪幅度。
VAE Decode：最后的解压缩，把数据变成美图。

一个ComfyUI标准的文生图工作流

💡 知识小贴士：什么是 Checkpoint？
我们下载的那几个 G 的 Checkpoint（大模型/底模），本质上就是一个打包好的工具箱。它里面通常已经内置了训练好的 U-Net（核心画师）、CLIP（翻译官）以及 VAE（压缩/解压工具）。所以只要加载这一个文件，你就能拥有画画所需的全套班底。

到这里，关于 AI 生成图像最核心的原理就介绍完了。当然，在这个飞速发展的领域里，你肯定还听过许多高频词汇。为了不让这篇教程变得过于晦涩，我把它们简单地整理在下面，作为你的“进阶词典”：

LoRA (Low-Rank Adaptation) ：滤镜 / 特效贴纸如果说 Checkpoint 是全能的大画家，那 LoRA 就是专门为了画某种特定风格（如二次元、水墨风）或特定人物（如某个动漫角色）而打的“补丁”。它体积很小，不需要重新训练整个大模型，即插即用，是目前最主流的微调方式。
ControlNet ：骨架 / 临摹纸它解决了 AI “画得不准”的问题。通过提取原图的轮廓、姿态或深度信息，ControlNet 能像给 AI 戴上了“手铐”一样，强制它必须按照我们指定的姿势或构图来画画。它是让 AI 迈入工业级精准控制的关键技术。
Text Embedding (Textual Inversion) ：自造词 / 暗号想象一下，如果你想画一只这一款非常特殊的“红蓝相间且戴眼镜的猫”，每次都要写几百字的描述很麻烦。Text Embedding 就是把这只猫的特征打包，训练成一个特殊的“单词”（比如叫 <my-cat>）。以后你只要在提示词里输入这个暗号，AI 就能立刻调取对应的形象。

补充： AI 视频的爆发

如果说图片是潜空间里的一个“点”，那么视频就是潜空间里的一条“线”。Sora、Veo、可灵、即梦等视频模型的爆发，本质上是在解决“时间的一致性”。难点不在于画出一帧好看的画面，而在于让第一帧的“猫”在变成第十帧的时候，依然是那只“猫”，而不是变成了“狗”或者一团乱码。

目前的 ComfyUI 已经可以通过 AnimateDiff 等插件，配合 ControlNet，实现极其稳定的视频重绘。未来，“一个人就是一支动画制作团队”将不再是梦想。

工具论：我该怎么选择AI生图工具

明白了原理，我们该如何选择上手的工具？

首先我们要打破一个误区：开源和闭源并没有本质的技术壁垒，它们的底层逻辑大多是一样的。无论是闭源的 Midjourney，还是开源的 Stable Diffusion，它们依然都遵循着我们在上一章讲的“扩散去噪”原理。

它们的根本区别，其实在于“封装程度”和“控制权”的不同。这就像是你可以选择直接入住开发商装修好的“精装房”，也可以选择从打地基开始自己盖的“自建房”。

1. 整合型生图：厂商调教好的“精装房”

这一类的代表是 Midjourney、集成在 Gemini 中的 Nano-Banana，以及国内的即梦（对应的豆包模型）等。

为什么叫“精装房”？因为厂商已经提前帮你把所有的“家具”（参数）都摆好了，把“水电”（工作流）都接通了。

模型与平台的关系：通常，各家模型会深度集成在自家的生态网站或平台中。例如 Nano-Banana 之于 Gemini，即梦之于豆包。你是在用他们的平台调用他们封装好的 API。
黑盒体验：这是最大的特点。厂商为了保证出图的下限，在后台固定了复杂的 Prompt 优化逻辑和采样参数。你只需要输入“一只猫”，后台可能会自动帮你优化成“一只可爱的、毛茸茸的、电影级光影的猫”。
优势与代价：优势是下限极高，你很难画出难看的东西，且无需昂贵的显卡；代价是你失去了控制权。你无法调整它具体用哪个采样器，无法精确控制光影的角度，甚至同一款模型在不同平台的网页端，因为厂商预设参数不同，画出来的效果都可能天差地别。

2. 开源生态：高度自由的“自建房”

如果说闭源模型是“精装房”，那开源生态（以 Stable Diffusion 为核心）就是把设计图纸和全套施工队都交到了你手里。在这里，所有的组件——U-Net、VAE、CLIP、甚至是一个微小的插件，都可以随意更换。

但在开源世界里，如何操控这些复杂的组件？你需要选择合适的“操作系统”（前端界面）。目前最主流的有两种：

(1) SD WebUI：全能的“单反相机”

长什么样？它提供了一个集成的仪表盘。所有的参数（步数、采样器、提示词框）都像相机上的按钮一样整齐排列，你需要什么就调什么。
能干什么？
- 常规绘图与修图：它非常适合单任务操作。比如你要画一个女生，或者用“局部重绘（Inpaint）”修复画面中的一只坏手，WebUI 的操作逻辑最符合直觉，上手即用，所见即所得。
- 插件库：WebUI 曾拥有最庞大的插件生态。你可以像给浏览器装插件一样，一键安装 ControlNet、Tiled Diffusion（高清放大）等工具，快速赋予 AI 新能力。（注：随着 ComfyUI 的崛起，部分 WebUI 插件的更新频率有所下降，但经典插件依然稳健。且虽然 WebUI 也能通过插件使用 ControlNet，但很难像 ComfyUI 那样实现多图批量的自动化处理。）

适合谁？适合 80% 的日常绘图需求，以及习惯“参数调试”逻辑、追求直观操作的用户。

(2) ComfyUI：可视化的“编程电路板”

如果说 WebUI 是填参数，那 ComfyUI 就是连电路。它是目前进阶玩家和商业落地的首选。

长什么样？它没有固定的仪表盘，而是一张无限大的画布。你需要把 VAE、CLIP、K采样器像搭积木一样，通过一根根连线把它们串起来，不仅能看到图像生成的全过程，还能看清数据是怎么流动的。
到底强在哪？
- 定制复杂工作流：这是它的杀手锏。在 WebUI 里，如果你想“先生成图→检测脸部→修复脸部→扩图→高清放大”，往往需要手动分步操作。而在 ComfyUI 里，你可以把这些步骤连成一条自动化流水线。这意味着只要跑通一次，它就能批量化、全自动地帮你处理海量图片。
- 更高效利用资源：它的底层优化极佳，显存管理更智能。加载同样的模型，ComfyUI 消耗的显存显著少于 WebUI，速度也更快。
- 极速的更新迭代：响应速度极快。每当有最新的模型（如 Flux，混元，Qwen）发布，ComfyUI 往往能第一时间更新适配。
- 强大的节点生态：ComfyUI 拥有更新频率极高的自定义节点库（Custom Nodes），能辅助你完成各种匪夷所思的操作。
- 视频与动画生成：目前的 AI 视频技术（如 AnimateDiff）和复杂的风格迁移，在 ComfyUI 中配合特定节点能实现最精准的控制，这是 WebUI 难以企及的。
- 适合谁？适合想要理解底层原理、搭建自动化生产管线，或者进行复杂科研实验的用户。但需注意，ComfyUI 的入门门槛远高于 WebUI，需要投入一定时间学习节点逻辑。

⚠️ 硬件小贴士
随着 AI 模型的不断进化（尤其是 FLUX 等新一代模型），对硬件的要求也水涨船高。如果你想要在本地流畅运行这些前沿模型，建议显存至少在 12GB 以上。

💡 并没有显卡？

讲到这，你可能会问：“开源虽好，但我没有的高端显卡怎么办？”

这里有一个巨大的误区：玩开源模型必须买显卡。

现在的部署方式非常灵活，除了本地部署（Local），还有一种极其强大的云端部署（Cloud）方式。请注意，这里指的不是那种“只有输入框”的套壳网站，而是真正的云端容器（如 RunningHub, AutoDL, Comfy Cloud, Liblib工作台）。这些平台相当于你在云端租了一台按小时计费的高性能电脑。

你打开网页，看到的就是完整的 ComfyUI 或 WebUI 界面。
你可以上传自己训练的 LoRA 模型，可以像在本地一样随意连线、安装自定义节点（Custom Nodes），甚至可以调试 Python 代码。

优势：你无需为几万元的硬件买单，用几块钱一小时的成本，就能调用 H100 或 4090 这种顶级显卡来跑你的复杂工作流。（计费方式通常灵活，按使用时长或显卡型号计费）。

总结一下选择策略：

方法论：从“抽卡”到“掌控”的三重境界

拿到工具只是第一步。无论你是用简单的 Midjourney，还是复杂的 ComfyUI，决定作品质量的往往不是工具本身，而是你的“控制思维”。

很多人的困惑在于：“提示词到底该怎么写？什么情况下我需要去换到ComfyUI？什么时候又需要用 ControlNet？又在什么极端情况下，我得自己去训练模型？”

我们把这个过程划分为三重境界，每一层都为了解决上一层的“能力边界”。

第一重境界：咒语通神 —— 提示词工程

这是所有人的起点，也是整合型绘图平台（如 Midjourney、即梦）和在线生图站用户的核心战场。对于 90% 的日常娱乐、配图需求，这一层足够了。（注：本节主要讨论正面提示词，负面提示词通常在进阶控制时才会大量使用。）

很多人误以为写 Prompt 就是写作文。其实不然，AI 并不真的懂人类的语法，它懂的是“标签（Tags）”与画面的关联。为了让你更精准地控制画面，我们可以参考阿里云百炼大模型服务平台提供的“提示词公式”。

1. 新手入门：基础公式

如果你是初次尝试 AI 创作，或者只是想找找灵感，可以使用这个简洁的公式，让画面保留更多的想象空间：

📝 基础公式 = 主体 + 场景 + 风格

主体：你想画什么？（人、动物、物品或想象之物）
场景：在哪画？（室内外、季节、天气、光线等）
风格：怎么画？（写实、抽象、二次元等）

举个栗子：

提示词：25岁中国女孩，圆脸，看着镜头（主体） + 室外，电影级光照（场景） + 优雅的民族服装，商业摄影，精致的淡妆（风格/修饰）。

2. 进阶玩家：高阶公式

当你对画面质感、细节丰富度有更高要求时，就需要在此基础上做加法。一个工业级的提示词往往包含以下六个维度：

🚀 进阶公式 = 主体(及描述) + 场景(及描述) + 风格 + 镜头语言 + 氛围词 + 细节修饰

镜头语言：像导演一样思考。景别（特写/全景）、视角（俯视/仰视/航拍）决定了画面的冲击力。
氛围词：界定画面的情绪。是“梦幻”、“孤独”还是“宏伟”？
细节修饰：最后亿点点细节。比如“光源的位置”、“道具搭配”、“高分辨率”等。
进阶案例：
提示词：由羊毛毡制成的大熊猫，穿着蓝色警服马甲，大步奔跑姿态（主体细节） + 动物王国城市街道，路灯，夜晚（场景） + 毛毡风格，皮克斯风格（风格） + 摄影镜头，居中构图，逆光（镜头与光线） + 奇妙童趣，明亮，自然（氛围） + 高级滤镜，4K（细节修饰）。

3. 随身锦囊：提示词“词典”

遇到描述瓶颈怎么办？建立自己的“关键词库”非常重要。以下是几个关键维度，供你参考检索：

4. 让AI帮你写提示词

其实，当你明确了自己要画的内容后，完全可以把你的想法、目标和上述的提示词公式要求一起“丢”给 LLM（大语言模型），让它帮你逐步完善。当它调试好一个令你满意的提示词后，你就可以直接把它复制到“图片生成”的窗口去出图了。

5. “整合型工具”的边界在哪里？

当你在这个阶段玩了一段时间，你一定会撞上一堵墙。这堵墙就是“自然语言的模糊性”。

场景 A：你想要画“一个眼神向左看、左手拿着红色杯子、右手扶着眼镜的女孩”。
- 结果：AI 可能会画成眼神向右，或者杯子拿反了。因为语言描述空间关系是非常无力的。
场景 B：你想要画“皮影戏风格的变形金刚”。
- 结果：AI 大概率画不出，因为它训练时没见过这种奇怪组合，或者它理解的“皮影”和你心中的不一样。

结论：当你发现“怎么改提示词 AI 都听不懂”，或者“构图和动作始终随机不可控”时，恭喜你，你触碰到了第一层的天花板。你需要进入第二重境界，并开始接触 WebUI 或 ComfyUI（包括云端版本）。

（当然，值得一提的是，随着 Nano Banana Pro 等模型智能程度的提升，对话式生成的边界也在不断延伸，但在精准控制领域，它依然无法取代专业工作流。）

第二重境界：积木宗师 —— 模型选择与插件控制

这一层是为了解决“画不出特定风格”和“控制不了特定构图”的问题。这也是开源生态相对于“整合型工具”最大的杀手锏。

1. 选对“地基”：大模型 (Checkpoint)

大模型决定了画面的基础世界观。

怎么选？

- 如果你要画写实人像，首选 MajicMix Realistic (麦橘写实) 或 RealVisXL等模型。
- 如果你要画二次元，首选 Pony Diffusion V6 XL 等模型。
- 如果你要画通用且高质量的图，首选最新的Z-image、 FLUX 系列或者是闭源的Nano Banana Pro。
开源模型去哪找？
- C站 (Civitai)：全球最大的模型库，不仅有模型，还有无数用户的返图和参数参考。
- Huggingface: 很多模型会首发到 Huggingface。
- 魔搭社区：绝大多数Huggingface有的模型你都可以在这里找到，访问和下载速度快。

2. 加上“滤镜”：LoRA

什么时候引入？当你发现大模型画得很好，但“画风”或“人物长相”不对味时。
- 例子：大模型画出了很棒的风景，但你想把它变成“乐高积木风”；或者大模型画出了美女，但你想让她长得像“林黛玉”。
效果： LoRA 就像是一个轻量级的“风格滤镜”或“人物补丁”。你不需要懂画画，只需要下载一个几十 MB 的 LoRA 文件挂载上去，AI 瞬间就能学会这种特定的画风。

3. 戴上“镣铐”：ControlNet

什么时候引入？这是商业落地的分水岭。当你对“构图、姿势、线条”有严格要求，绝不允许 AI 自由发挥时。
- 例子：电商做海报，模特的姿势必须完全匹配产品图；建筑师做效果图，楼的轮廓必须严格对齐 CAD 线稿。
效果： ControlNet 让 AI 变成了“填色工具”。
- OpenPose：锁定人物骨架，想怎么摆就怎么摆。
- Canny/Lineart：锁定线条，线稿直接上色。
- Depth：锁定空间深度，保持场景结构不变。

4. 其他神兵利器

Inpaint（局部重绘)：画完发现手崩了？不需要重画，涂抹手部区域，让 AI 只重画这一小块。
Upscale (高清放大)：生成的图只有 1024px 不够清晰？用放大脚本让细节指数级增加。

第三重境界：造物主 —— 训练与微调

绝大多数人停留在第二层就足够应对 99% 的工作了。但总有 1% 的极端情况，连现有的模型库都满足不了你。

这时候，你需要自己“炼丹”。

1. 什么时候训练 Text Embedding？

场景：你只需要固定一个非常简单的物体或概念，且希望文件极小（几 KB）。
比如：你家里特定的一个花瓶，或者一种特殊的图腾花纹。

2. 什么时候训练 LoRA？

场景：这是目前最主流的训练需求。你需要 AI 稳定生成某个特定的人（比如你自己、公司老板），或者某种特定的产品（公司的新款球鞋），又或者是一种独创的艺术画风。

操作：准备 20-50 张高清图片，打好标签，喂给训练器。几个小时后，你就拥有了一个专属的 LoRA，以后只要在提示词里调用它，AI 就能画出你想要的人或物。

3. 什么时候微调 Checkpoint (全量微调)？

场景：这通常是大厂或专业工作室的事。你需要改变 AI 的底层认知，或者灌输海量的行业数据（比如医疗影像、特殊的工业设计图纸）。这对算力和数据量的要求极高，普通玩家极少涉足。

AI 会淘汰人类吗？

当我们站在 2025 年的节点回望，你会发现 AI 绘图的发展速度快得令人眩晕。从 2022 年 SD v1.5 横空出世时还常常出现“六指琴魔”的笑话，到如今 FLUX、Qwen、Nano Banana顶尖模型的神仙打架，我们不得不感慨，现如今我们正处于一场视觉革命的中心。未来还会发生什么？

AI 会淘汰人类吗？这是每一篇 AI 文章都绕不开的终极追问。看着 AI 一秒钟生成的大片，很多画师和设计师感到了前所未有的焦虑：“我会失业吗？”

作为一个熟悉 AI 技术，却自认对艺术涉猎不深的观察者，我的答案是：并不会。

在我看来， AI 实际上是一个“能力放大器”。对于没有审美基础的人，AI 让他跨过了“手头功夫”的门槛，能画出合格的行活；而对于有深厚审美和设计功底的人，AI 则是最高效的助手，帮他省去了铺色、渲染等重复性劳动，让他终于能把全部精力集中在创意、构图和故事内核上。

正因如此，我时常感叹：审美的价值，从未像今天这样重要。

在一个生成一张“中庸且合格”图片的成本无限趋近于零的时代，“画得出来”不再稀缺，“想得精彩”和“选得准确”才成为了真正的核心竞争力。在一万张由算法生成的、看似完美的图片中，到底哪一张才是真正触动人心的？到底什么样的设计才是有灵魂的好设计？这个极其复杂的决策与博弈过程，是 AI 永远无法替代人类的最后堡垒。

在这个新的时代，AI 是那匹日行千里的良驹，它拥有不知疲倦的体力和惊人的速度。但请记住，只有你会骑马，且只有你知道该去往何方（审美与创意），这匹马才能带你发现真正的新大陆，而不是在原地打转。

结语：别只站在岸边

到这里，我们已经一起走完了这趟从“看热闹”到“懂门道”的旅程。我们从 GAN 的模仿讲到了扩散模型的雕刻，从 WebUI 的仪表盘讲到了 ComfyUI 的电路板，从 Prompt 的咒语讲到了 ControlNet 的镣铐。

我希望这篇文章能成为你手中的一张地图。在这张地图的指引下，你是选择去“快餐店”点一份精美的 AI 套餐，还是选择走进“私房菜厨房”自己动手炼丹，全看你的兴趣与需求。

但最重要的是：别只站在岸边看，跳下去，游起来。

去生成你的第一张图吧，就现在。

一起“点赞”三连↓

琼中黎族苗族自治县网站建设_网站建设公司_Linux_seo优化

引言

AI绘图现在到底有多强

1. 无中生有：打破物理限制

2. 有的放矢：从不可控到可控

3. 商业落地与全能进化

AI绘图的发展历程：从“模仿”到“扩散”

第一阶段：GAN 时代

第二阶段：CLIP 的出现

第三阶段：扩散模型时代

💡 GAN vs 扩散模型

AI绘图的基本原理：基于Stable Diffusion的系统梳理

1. 为什么要进入“潜空间”？

2. CLIP 是如何“听懂人话”的？

3. Stable Diffusion 的核心引擎：U-Net 与采样

1. U-Net 与交叉注意力

2. 采样器的迭代策略

4. 小结

补充： AI 视频的爆发

工具论：我该怎么选择AI生图工具

1. 整合型生图：厂商调教好的“精装房”

2. 开源生态：高度自由的“自建房”

(1) SD WebUI：全能的“单反相机”

长什么样？ 它提供了一个集成的仪表盘。所有的参数（步数、采样器、提示词框）都像相机上的按钮一样整齐排列，你需要什么就调什么。

能干什么？

常规绘图与修图：它非常适合单任务操作。比如你要画一个女生，或者用“局部重绘（Inpaint）”修复画面中的一只坏手，WebUI 的操作逻辑最符合直觉，上手即用，所见即所得。

适合谁？适合 80% 的日常绘图需求，以及习惯“参数调试”逻辑、追求直观操作的用户。

(2) ComfyUI：可视化的“编程电路板”

💡 并没有显卡？

第一重境界：咒语通神 —— 提示词工程

1. 新手入门：基础公式

2. 进阶玩家：高阶公式

3. 随身锦囊：提示词“词典”

5. “整合型工具”的边界在哪里？

第二重境界：积木宗师 —— 模型选择与插件控制

1. 选对“地基”：大模型 (Checkpoint)

2. 加上“滤镜”：LoRA

什么时候引入？ 当你发现大模型画得很好，但“画风”或“人物长相”不对味时。

例子：大模型画出了很棒的风景，但你想把它变成“乐高积木风”；或者大模型画出了美女，但你想让她长得像“林黛玉”。

效果： LoRA 就像是一个轻量级的“风格滤镜”或“人物补丁”。你不需要懂画画，只需要下载一个几十 MB 的 LoRA 文件挂载上去，AI 瞬间就能学会这种特定的画风。

3. 戴上“镣铐”：ControlNet

什么时候引入？ 这是商业落地的分水岭。当你对“构图、姿势、线条”有严格要求，绝不允许 AI 自由发挥时。

例子：电商做海报，模特的姿势必须完全匹配产品图；建筑师做效果图，楼的轮廓必须严格对齐 CAD 线稿。

效果： ControlNet 让 AI 变成了“填色工具”。

OpenPose：锁定人物骨架，想怎么摆就怎么摆。

Canny/Lineart：锁定线条，线稿直接上色。

Depth：锁定空间深度，保持场景结构不变。

4. 其他神兵利器

Inpaint（局部重绘)：画完发现手崩了？不需要重画，涂抹手部区域，让 AI 只重画这一小块。

Upscale (高清放大)：生成的图只有 1024px 不够清晰？用放大脚本让细节指数级增加。

第三重境界：造物主 —— 训练与微调

1. 什么时候训练 Text Embedding？

2. 什么时候训练 LoRA？

场景：这是目前最主流的训练需求。你需要 AI 稳定生成某个特定的人（比如你自己、公司老板），或者某种特定的产品（公司的新款球鞋），又或者是一种独创的艺术画风。

3. 什么时候微调 Checkpoint (全量微调)？

场景：这通常是大厂或专业工作室的事。你需要改变 AI 的底层认知，或者灌输海量的行业数据（比如医疗影像、特殊的工业设计图纸）。这对算力和数据量的要求极高，普通玩家极少涉足。

AI 会淘汰人类吗？

结语：别只站在岸边

热门文章

文章分类

标签云

相关文章

如何利用 LLM 推动基因编辑革命

LLM 的思考方式

上海交大《科学》发文，首次实现支持大模型的全光计算芯片

需要专业的网站建设服务？

长什么样？它提供了一个集成的仪表盘。所有的参数（步数、采样器、提示词框）都像相机上的按钮一样整齐排列，你需要什么就调什么。

什么时候引入？当你发现大模型画得很好，但“画风”或“人物长相”不对味时。

什么时候引入？这是商业落地的分水岭。当你对“构图、姿势、线条”有严格要求，绝不允许 AI 自由发挥时。