琼中黎族苗族自治县网站建设_网站建设公司_Linux_seo优化
2025/12/21 0:42:23 网站建设 项目流程

Datawhale干货

教程作者:Mark,华南理工大学

继此前的《再也不担心论文!Nano-Banana Pro 论文绘图最全教程发布》获得10W+ 阅读后,我们精心打磨了一套更系统的 AI 绘图总结

这不是一篇快餐式的操作手册,而是一张带你系统看懂 AI 视觉革命的“完整航海图”。全文约 16000 字,建议收藏后通过目录按需阅读:

🌱 如果你是 AI 小白:建议通读全文。从发展史到工具选择,这篇文章能帮你建立最完整的认知框架。

🎨 如果你急着上手画图:可以直接跳转至 第四部分(工具论) 和 第五部分(方法论),那里有关于闭源 vs 开源的选择建议,以及拿来即用的提示词公式。

⚙️ 如果你是技术极客/开发者:第三部分(基本原理) 是为你准备的。我们将深入潜空间,拆解 Stable Diffusion 背后的 U-Net、VAE 和 CLIP 是如何协同工作的。

准备好了吗?让我们开始这场AI绘画探险。

引言

你可能已经在豆包、ChatGPT 或 Midjourney 里体验过“一键生图”的惊艳,可能听说过Stable Diffusion、ComfyUI这些看起来复杂难懂的AI绘图工作流界面,也可能在短视频中刷到过那些瞬息万变的 AI 视频,艳羡于它们逼真的光影,或者为这项技术可能带来的冲击感到隐隐担忧。

在这个信息爆炸的当下,大家都在谈论 AIGC(人工智能生成内容),但它到底是个什么东西?

💡 你是否也产生过这样的好奇:

当我们在屏幕前输入一行文字,几十秒后得到一张精美绝伦的画作时,这背后究竟发生了什么?为什么有时候它能精准读懂你的心意,有时候却又只能生成一堆不可控的“废片”?我到底要怎么描述才能让它精准生成我所想要的东西?那些一键生成图片的软件和复杂的工作流又到底有什么区别?

其实,互联网上关于 AI 绘图的教程浩如烟海,但大多要么过于碎片化,只教你抄作业;要么过于晦涩,让人望而却步。为此,我特意整理了这样一篇教程,来向你分享。

AI绘图现在到底有多强

当我们谈论 AI 绘图时,如果你对它的印象还停留在三四年前那些画风诡异、手指错乱的抽象画作上,那你可能太低估了这项技术进化的速度。如今,AI 生成能力早已跨越了“娱乐”的边界,正在重塑视觉生产的每一个环节。如果说过去我们只是把它当作一个生成随机盲盒的“玩具”,那么现在,它已经切切实实地成为了服务于设计、电商、科研等多个产业的“生产力工具”。

1. 无中生有:打破物理限制

最基础也最震撼的能力,依然是“无中生有”的文生图(Text-to-Image)。这是真正意义上的“所想即所得”。你只需要用自然语言描述一个不存在的场景,比如“赛博朋克风格的故宫”或者“印象派笔触下的火锅宴”,AI 就能在几秒钟内将其具象化。

现在的顶尖模型如 nano-banana、即梦、Wan或者 Midjourney,其生成的图像在光影逻辑、物理材质甚至微小的皮肤纹理上,已经达到了照片级的逼真度。这不再仅仅是绘画,而是一种“没有相机的摄影”,它打破了现实拍摄的物理限制,让创意的落地成本无限趋近于零。

Z-image-Turbo样图

2. 有的放矢:从不可控到可控

然而,如果 AI 仅止步于此,它永远无法真正接入工业级的生产管线。为什么?因为语言在描述画面细节时往往是苍白且模糊的。我们很难通过一段文字,精确控制一个杯子把手的弯曲角度,或者模特眼神的微小偏转。“不可控”曾是专业人士对 AI 最大的顾虑。对于设计师和画师来说,他们需要的是精准的表达——基于已有的草图或参考图,通过更直观的手段去控制每一个像素的细节。

因此,AI 进化的第二阶段,便在于“有的放矢”的图生图与可控性(Image-to-Image & Control)。

试想一下,你只需要在纸上随手涂鸦几笔潦草的线条,或者画一个粗糙的火柴人构图,AI 就能识别你的意图,将其渲染成一张精美的厚涂插画或建筑效果图。

草图转绘

这就是“图生图”与结构控制的魔力。它并没有剥夺人类的创造力,而是成为了最高效的“渲染引擎”,将人类从繁琐的铺色和细节刻画中解放出来,让我们能专注于构图与核心创意的打磨。

3. 商业落地与全能进化

随着控制精度的进一步提升,AI 开始深度介入垂直行业的商业落地:

其中最典型的就是虚拟试衣与电商应用。在过去,拍摄一组服装广告需要协调模特、摄影师、灯光师以及昂贵的影棚租赁;而现在,AI 能够通过“万物迁移”与重绘技术,将一件衣服完美地“穿”在虚拟模特身上,甚至可以随意切换模特的姿态、肤色以及背景环境。这不仅带来了效率的百倍提升,更实现了商业成本的断崖式下降。

万物迁移与ConrolNet的实际应用效果

此外,风格转绘与漫画绘制能力的成熟,标志着 AI 开始具备了“审美统一性”和“叙事能力”。我们不仅可以将一张普通的自拍瞬间转化为吉卜力风格的卡通形象,更能够利用 AI 保持角色面部特征的一致性,从而连续生成多格分镜,绘制出连贯的漫画故事。从单张图片的惊艳,到成套内容的输出,AI 正在从一个只会画画的“工具人”,进化为能够理解业务需求、输出标准化资产的“全能创意总监”。

风格转绘(左)与漫画绘制(右)

最后,原生文字渲染能力的突破,为 AI 的应用补上了最后一块拼图。过去 AI 最不擅长处理画面中的字符,总是生成一堆乱码。而现在,像 Z-Image、nano-banana pro 等模型已经具备了强大的文字理解与生成能力。它们不仅能完美融合画面与文字,甚至被用户直接用来生成电影海报、带有对白的四格漫画,乃至复杂的项目架构图和科研图表。这意味着 AI 终于跨越了“纯图像”的限制,开始向图文混排的综合平面设计领域发起冲击。

Nano Banana Pro生成的海报、漫画与架构图(左、中);Z-image-Turbo生成的海报(右)

AI绘图的发展历程:从“模仿”到“扩散”

要理解现在的 AI 为何如此强大,我们得把时间轴稍微拉长一点。其实 AI 绘图的发展历程并不短,它并非一夜之间就学会了创作,而是经历了一个从“机械模仿”到“深刻理解”的漫长跨越。

第一阶段:GAN 时代

在早期的 AI 绘画时代,大约 2014 年左右,生成对抗网络(GAN)占据了统治地位。那时的 AI 就像是一个处于“左右互搏”状态的偏科天才:它的内部有一个负责造假的“生成器”和一个负责找茬的“判别器”,两者在不断的博弈中进化,通过这种方式训练出一个能够近乎以假乱真的图片生成模型。

GAN原理图

但这个时期的 AI 有一个巨大的局限性——它是“照葫芦画瓢”的极致,却没有任何逻辑理解能力。为什么这么说?因为当时的 GAN 模型通常是高度垂直化的:

如果你喂给它一万张猫的图片,它能生成足以乱真的猫咪;如果你喂给它一万张自行车的照片,它能生成逼真的自行车。但这种生成是割裂的。那时的我们想要生成图片,并不是像现在这样通过聊天说“画一个在骑自行车的猫”,而是更像在做单选题:通过输入参数或选择标签,你只能告诉 AI “给我一只猫”或者“给我一辆车”。你无法要求它把这两个毫不相关的概念融合在一起。

这就导致了一个根本性的问题:它不懂“语义组合”。它只是在机械地拟合像素的概率分布。如果你非要尝试让当时的 AI 去处理“猫骑车”这种复杂概念,这几乎是不可能的任务。因为在它的世界里,“猫”是一堆毛茸茸的像素规律,“自行车”是另一堆金属质感的像素规律,它不知道两者之间存在什么物理联系,更无法理解“骑”这个动作的含义。强行生成的后果,往往是将猫的毛发纹理生硬地贴在车轮上,产出令人啼笑皆非的“怪兽”。

第二阶段:CLIP 的出现

真正的转折点,发生在人工智能终于打通了“视觉”与“语言”之间的壁垒。这就是 OpenAI 发布 CLIP 模型带来的革命。

在此之前,计算机眼里的世界是分裂的:计算机视觉(看图)和自然语言处理(读文)是两个相对独立的领域。模型知道“Cat”这个词的含义,也识别得出“猫”的图像特征,但无法直接将两者联系起来。

而 CLIP 做了一件极其简单却伟大的事:它阅读了互联网上数亿对图片和文本,建立了一种数学上的映射关系。简单来说,它学会了理解一张图片和一段文字描述之间的关联。它能够将人类的自然语言,翻译成计算机所能读懂的视觉语言,从而让模型知道它正在生成的内容到底“是不是”我们要的东西。

🗺️ CLIP 就像一个拿着地图的向导

当我们输入“一只骑自行车的猫”时,模型能够实时计算出当前的画面是否符合这段文字描述,并指导生成的方向。

它能不断修正后续生成模型的路径:“不对,你画的那是猫毛贴在轮子上了,不像这句话描述的样子,重画!”

这种能力的引入,让 AI 具备了真正的语义理解能力。这为后续能够通过自然语言精准控制 AI 绘图奠定了基础。

第三阶段:扩散模型时代

在 CLIP 诞生的同期,另一种图像生成技术也在悄然进化。即迎来了我们如今的主角——扩散模型(Diffusion Model,DM)的登场,它彻底改变了游戏规则。

那么,扩散模型到底是怎么运作的?

在训练阶段,我们做的事情是“破坏”:把一张清晰的图片,一步步地添加高斯噪声,直到它变成一张完全看不出内容的“雪花图”(前向扩散过程)。而模型需要学会的,就是这个过程的“逆操作”——即如何从一张噪点图中,一步步把刚才添加的噪声预测出来并减去,从而还原回原本的清晰图片(反向扩散过程)。

到了真正的生成(推理)阶段,其实就是重演这个“反向过程”。我们会随机拿一张全是噪点的“雪花图”给模型,让它运用学会的“去噪能力”开始工作。

Diffusion Modle的降噪过程

这里有一个关键点:这个去噪过程并非一蹴而就,而是多步迭代的。模型会在数十次甚至上百次的循环中,一点点去除画面中的杂质。如果我们在扩散模型基础上引入前文提到的 CLIP 模型,那么在每一次去噪时, 它就会像一位拿着设计图的监工,不断地告诉模型:“我们要画的是‘一只猫’,不要偏离方向。”

你可以把这个过程形象地理解为“雕刻石膏🗿 ”

最开始的那张全噪点图,就是一块未经打磨、看不出任何轮廓的粗糙石膏。而扩散模型则是那位手持刻刀的雕刻家。

它根据我们的指令(提示词)和对目标的描述,一步一步地去除掉(去噪)那些不需要的部位(噪声)。随着噪声被一点点剥离,原本混沌的石膏中逐渐显露出轮廓、光影和细节,最终保留下来的,就是我们心中所想的目标作品。

这种“步步为营”的生成方式,正是 AI 能够画出极致细节的关键。

💡 GAN vs 扩散模型

读到这里你可能会困惑:GAN 一次就能生成图片,速度极快;而扩散模型要像雕刻一样“一步一步”去噪,计算量大且速度慢。为什么这种看似“笨重”的方法反而淘汰了 GAN?

答案就在于四个字:慢工出细活。

1. 多样化的细节学习(拒绝“偏科”): GAN 最大的软肋在于它非常“懒”。在训练中,一旦 GAN 发现画某种特定的脸(比如金发碧眼)最容易骗过判别器,它就会疯狂地只画这一种脸,而忽略掉黑发、卷发等其他可能性,这在学术上被称为“模式坍塌”。 而扩散模型是通过去噪来还原数据分布。它无法偷懒,必须学会处理各种各样的噪声情况,这迫使它老老实实地学习所有的图像特征。因此,扩散模型生成的图片多样性(Diversity)极高,无论是极简主义还是繁复的巴洛克风格,它都能驾驭。

2. 极高的训练稳定性(拒绝“内耗”): 还记得 GAN 是“生成器”和“判别器”的博弈吗?这在数学上极其难达到平衡,一方太强,另一方就学不到东西,导致训练经常失败。 而扩散模型的训练目标非常单纯且脚踏实地:“准确预测当前画面中的噪声是多少”。 为什么说这很单纯? 因为在训练时的前向过程中,噪声是我们亲手加进去的,这是一个有标准答案的数学题,而不是一个动态变化的博弈游戏。这种稳定的训练特性,让我们可以放心地把模型做大、把数据量加倍,从而造就了像 Stable Diffusion 这样拥有数十亿参数的超级模型。

3. 精细度的降维打击(拒绝“一锤子买卖”): 因为 GAN 是一次性成图,如果这一笔画歪了,就没有修正的机会。而扩散模型的“雕刻”过程是迭代的。这一步去噪没去干净?没关系,下一步继续修。这种反复打磨的机制,让 AI 能够处理极其复杂的纹理和光影,实现了画质上的飞跃。

你可以这样理解:

GAN 像是一个才华横溢但情绪不稳定的天才画家,而扩散模型则是一个基本功扎实、耐心极致的工匠大师。在算力逐渐升级,且追求极致生成质量的今天,大师最终战胜了天才。

AI绘图的基本原理:基于Stable Diffusion的系统梳理

既然你已经明白了“扩散”和“去噪”的宏观逻辑——即“像雕刻石膏一样,从噪声中去除杂质还原图像”。那么, Stable Diffusion (SD) 这个改变世界的模型,究竟是如何把这个理论变成现实的?实际上,SD 并没有推翻扩散模型(Diffusion Model),而是站在巨人的肩膀上进行了一次天才般的架构重组。

Stable Diffusion的原理图

这是 SD 的官方原理图。虽然它看起来密密麻麻全是箭头,但请别被吓退。它其实仅仅包含了三个分工明确的“职能部门”。如果你玩过 ComfyUI,或者哪怕只是听说过它,等看完这个章节,我打赌你会发现这张原理图的逻辑出奇地熟悉。

如果要用一句话概括 SD 的核心机制,那就是:在潜空间(Latent Space)中,利用 CLIP 提取的语义指令,指挥 U-Net 网络一步步预测并剔除噪声,最后解码成我们看到的图片。

比起传统的扩散模型,SD 最核心的创新点,就在于引入了潜空间。接下来,我们拆解这三个关键步骤。

1. 为什么要进入“潜空间”?

你可能会好奇,我们明明已经有了扩散模型,为什么还引入“潜空间”这个概念?它到底带来了什么改变?

其实扩散模型虽然已经有了很不错的效果,但有个致命缺点:计算成本太高!一张 的图片需要在像素级别上进行扩散,计算量巨大。

在 SD 出现之前,绝大多数扩散模型是直接在像素空间(Pixel Space)上“干活”的。试想一下,一张 的高清图片,包含约 78 万个像素点,每个点还有 RGB 三个通道。如果让 AI 直接对这就 200 多万个数据点进行几百轮的去噪计算,算力消耗简直是天文数字,这也是早期扩散模型难以普及的根本原因。

Stable Diffusion 的聪明之处在于,它认为图片中大量的像素细节(比如平滑的蓝天、纯色的背景)在计算上是冗余的。于是,它引入了 VAE 来进行“降维打击”。VAE 包含一个编码器和一个解码器:在开始画画前,编码器先把巨大的像素图片压缩成一个极小的潜空间向量(Latent Vector),其大小仅为原图的 1/64(在 SD v1.5 中,一张 的图会被压缩成 的张量);而在画完之后,解码器再负责把这个“压缩包”解压回高清图片。这就是 SD 全称 Latent Diffusion Model (LDM) 中“Latent”的含义,也是它能跑进消费级显卡的关键。

你可以清晰的在上面的原理图中看到,左侧红色区域代表原本的像素空间,输入和输出的图像都在这个空间当中;而中间复杂的处理过程,都在绿色区域所代表的潜空间中进行的。

如果你并不是很理解潜空间这个概念,你可以认为SD是把原先512x512的图像压缩到一个数据空间中(这个数据的量可能只有64×64),在这个数据空间里进行之前扩散模型的推理过程,最后再解压回原本尺寸的图像。而VAE就是负责压缩和解压的模块。这样计算量减少了约16倍,大大降低了它的计算效率。

2. CLIP 是如何“听懂人话”的?

解决了“画得快”的问题,接下来要解决“画得准”的问题。我们在上一节提到了 CLIP 是“翻译官”,从宏观上来讲,这样理解完全没问题。不过在 SD 的内部流程中,它其实更像是一个精准的指令发送器。前面我们在讨论扩散模型的时候提到,它生成图像的过程是一步一步接力生成的,在这里我们只要明确一下CLIP是把翻译好的指令发送给了生成图片的每一步就可以了。

这个过程在原理图中体现的可能并不是很明显,你可以认为右侧的“条件”(Condition)中的Text部分到达特定领域编码器后被转化并发送到各个U-net的降噪步骤过程中就是Clip的过程。

具体来讲就是,当你输入“一只骑自行车的猫”这句提示词时,CLIP 的文本编码器(Text Encoder)会立即开始工作。它首先将这些文字切分成计算机能读懂的 Token,然后将它们转化为一个高维的语义向量(Embedding)。这个向量不仅仅包含“猫”这个单词的字面意思,还深度编码了“自行车”、“骑自行车”等上下文的关联信息。这个富含语义的向量随后会作为核心指令(Condition),被注入到图像生成的每一个环节中。

3. Stable Diffusion 的核心引擎:U-Net 与采样

前两步我们准备好了“压缩后的画布”(潜空间)和“翻译好的指令”(CLIP向量),现在终于到了最关键的作画环节。在 SD 中,承担“画师”角色的核心组件就是 U-Net。

1. U-Net 与交叉注意力

U-Net 的名字来源于它那像字母“U”一样的网络结构。在推理(生成)阶段,SD 会进行几十次迭代(Step),每一次迭代其实都是在调用 U-Net。

这就是它的原理图。其实你并不需要了解这张图。你只需要知道U-Net 的工作非常单纯,就是我们前面提到过的预测噪声。

U-Net原理图

U-Net 的工作非常单纯且枯燥:盯着当前的画面,找出哪里是噪声,并计算出该减去多少。但是,一个核心问题出现了:U-Net 面对一团乱糟糟的噪点,它怎么知道该把这些噪点还原成“猫”还是“狗”?

聪明的你一定会想到我们提到了很多次的CLIP模型。还记得 CLIP 生成的那些语义向量(Condition)吗?它们并不是在开始时喊一嗓子就完了,而是被注入到了 U-Net 的每一次运算中。这个注入的过程,就是大名鼎鼎的交叉注意力机制(Cross-Attention)。这是 SD 架构有别于前面扩散模型在U-Net部分的特殊机制。

现在再回看那张SD的原理图时,你是否注意到绿色潜空间区域中央包含 QKV 的Denosing U-Net?其实这就是一步降噪过程,而更左面代表更多的降噪步数(Denoisng Step)。我们前面讲到CLIP的指令被发送到每一个U-Net内,而打开一个U-Net,你可以看到里面每个QKV的框都被注入了一个指令,这就是我们所说的交叉注意力机制了。

在 U-Net 进行去噪运算的每一层,它都会通过 Cross-Attention 机制“看”一眼 CLIP 传过来的文本向量。

具体来说,其工作原理包含三个核心部件,在原理图中标记为 Q、K、V。这其实源自 Transformer 架构的术语,但在 SD 里,它们的身份非常明确:

  • Q (Query,查询):来自 U-Net 当前在处理的图像。 这是当前正在被 U-Net 处理的潜空间图像特征。你可以把它想象成画面在问:“我现在长这样,这一块区域我该画点什么?”

  • K (Key,键) & V (Value,值):来自 CLIP 外部的文本。 这两者都是由我们的提示词(比如“一只橘猫”)转化而来的语义向量(翻译的结果)。K 就像是文本的“索引标签”,V 就像是文本的“具体内容”。

U-Net 中的图像特征 (Q) 会不断地去扫描文本索引 (K)。一旦图像的某个区域(比如画面中间)发现自己和文本里的“猫”匹配上了,它就会把对应的视觉特征 (V) 投影过来,融合进当前的噪点图中。这就是为什么文字能精准控制画面的本质:用图像的“形”去检索文字的“意”,再把“意”填回图像里。

一个更直观的类比:

想象 U-Net 拿着手电筒在画面上扫描(Query),当它扫到一块原本应该是“猫耳朵”的区域时,它会拿着这个区域的特征去 CLIP 的文本数据库里查表(Key)。一旦匹配成功(Attention 命中),它就会把文本中关于“毛茸茸、三角形”的具体描述信息(Value)提取出来,投影到画面上。

那么,为什么 CLIP 的指令()要指向 U-Net 里的每一个 QKV 块呢?

这就涉及到了 U-Net 的结构特性。U-Net 是一个由深到浅的网络:

  • 浅层网络负责处理细节(如毛发的纹理、光影的边缘);

  • 深层网络负责处理宏观结构(如构图、物体的形状)。

深层网络对应原理图梯形宽的部位;浅层网络对应窄的部位。

如果你输入“一只长毛猫”,这个指令必须同时指导这两个层面:在深层,它要告诉 U-Net “画出猫的轮廓”;在浅层,它要告诉 U-Net “画出长长的毛发质感”。

因此,CLIP 生成的这本“全息操作手册”(K 和 V),必须被分发到 U-Net 的每一个层级(SpatialTransformer 层)。这确保了无论 U-Net 里的哪个工人在干活——不管是负责构图的还是负责描边的,都能随时查阅这本手册,保证生成的内容始终不跑题。

2. 采样器的迭代策略

如果说 U-Net 是干活的工匠,那 采样器(Sampler) 和 调度器(Scheduler) 就是指挥施工的包工头组合。

U-Net 虽然能预测噪声,但它不知道每一步该减去多少噪声(降噪强度,Denosing Strength),也不知道一共要走多少步(采样步数,Steps)。这就需要它们来配合制定策略。你在 Comfy UI 或者 SD WebUI 里常看到的选项(如 DPM++ 2M Karras),本质上就是这两者的分工合作(Comfy UI 通常分开选择两者,而 WebUI 则会将两者合并选择):

  • 调度器(如 Karras):负责规划节奏。它根据总步数,安排每一步的降噪强度(是先快后慢,还是匀速进行)。

  • 采样器(如 Euler, DPM++):负责执行解算。它利用数学公式,根据调度器要求的强度,计算出具体要减去的数值。

它们指挥着 U-Net 在潜空间里进行几十轮的循环:预测噪声 减去噪声 得到更清晰的草图。当循环结束,一张清晰的“潜空间草图”就此诞生,最后只需交还给 VAE 解码器,即可还原为高清美图。

4. 小结

恭喜你!现在你已经完全掌握了 Stable Diffusion 的核心生成逻辑。让我们把刚才拆解的零件重新组装起来,看看完整的流水线是怎样的:

对于文生图 (Text-to-Image)而言,一切从零开始。我们先在潜空间生成一张纯粹的随机噪声图,然后通过 CLIP 把你的提示词翻译成指令,最后由采样器(包工头)指挥 U-Net(工匠)一步步去除噪声,直到原本混沌的画面中浮现出清晰的影像,最后经由 VAE 解码变为肉眼可见的图片。

对于图生图 (Image-to-Image),其实稍有不同,我们不再从零开始。我们先用 VAE编码器 把一张现有的照片压缩进潜空间,然后根据你设置的重绘幅度 (Denoising Strength) 给它添加一定量的噪声(这一步决定了你是想微调还是大改),剩下的过程就和文生图一样——把这些添加的噪声再“雕刻”掉,从而得到一张既保留原图神韵又有新变化的图片。

通过梳理,你会惊喜地发现,这个流程其实就是 ComfyUI 默认工作流 的完美复刻:

  1. Checkpoint 加载:加载模型大包(通常包含 U-Net、CLIP 和 VAE)。

  2. CLIP 文本编码:把 提示词(Prompt)变成指令。

  3. 空 Latent Image:准备画布(噪声)。

  4. K采样器:这是最忙碌的核心节点,我们要在这里挑选采样器、调度器、设置步数和降噪幅度。

  5. VAE Decode:最后的解压缩,把数据变成美图。

一个ComfyUI标准的文生图工作流

💡 知识小贴士:什么是 Checkpoint?

我们下载的那几个 G 的 Checkpoint(大模型/底模),本质上就是一个打包好的工具箱。它里面通常已经内置了训练好的 U-Net(核心画师)、CLIP(翻译官)以及 VAE(压缩/解压工具)。所以只要加载这一个文件,你就能拥有画画所需的全套班底。

到这里,关于 AI 生成图像最核心的原理就介绍完了。当然,在这个飞速发展的领域里,你肯定还听过许多高频词汇。为了不让这篇教程变得过于晦涩,我把它们简单地整理在下面,作为你的“进阶词典”:

  • LoRA (Low-Rank Adaptation) :滤镜 / 特效贴纸 如果说 Checkpoint 是全能的大画家,那 LoRA 就是专门为了画某种特定风格(如二次元、水墨风)或特定人物(如某个动漫角色)而打的“补丁”。它体积很小,不需要重新训练整个大模型,即插即用,是目前最主流的微调方式。

  • ControlNet :骨架 / 临摹纸 它解决了 AI “画得不准”的问题。通过提取原图的轮廓、姿态或深度信息,ControlNet 能像给 AI 戴上了“手铐”一样,强制它必须按照我们指定的姿势或构图来画画。它是让 AI 迈入工业级精准控制的关键技术。

  • Text Embedding (Textual Inversion) :自造词 / 暗号 想象一下,如果你想画一只这一款非常特殊的“红蓝相间且戴眼镜的猫”,每次都要写几百字的描述很麻烦。Text Embedding 就是把这只猫的特征打包,训练成一个特殊的“单词”(比如叫 <my-cat>)。以后你只要在提示词里输入这个暗号,AI 就能立刻调取对应的形象。

补充: AI 视频的爆发

如果说图片是潜空间里的一个“点”,那么视频就是潜空间里的一条“线”。Sora、Veo、可灵、即梦等视频模型的爆发,本质上是在解决“时间的一致性”。难点不在于画出一帧好看的画面,而在于让第一帧的“猫”在变成第十帧的时候,依然是那只“猫”,而不是变成了“狗”或者一团乱码。

目前的 ComfyUI 已经可以通过 AnimateDiff 等插件,配合 ControlNet,实现极其稳定的视频重绘。未来,“一个人就是一支动画制作团队”将不再是梦想。

工具论:我该怎么选择AI生图工具

明白了原理,我们该如何选择上手的工具?

首先我们要打破一个误区:开源和闭源并没有本质的技术壁垒,它们的底层逻辑大多是一样的。 无论是闭源的 Midjourney,还是开源的 Stable Diffusion,它们依然都遵循着我们在上一章讲的“扩散去噪”原理。

它们的根本区别,其实在于“封装程度”和“控制权”的不同。这就像是你可以选择直接入住开发商装修好的“精装房”,也可以选择从打地基开始自己盖的“自建房”。

1. 整合型生图:厂商调教好的“精装房”

这一类的代表是 Midjourney、集成在 Gemini 中的 Nano-Banana,以及国内的 即梦(对应的豆包模型)等。

为什么叫“精装房”?因为厂商已经提前帮你把所有的“家具”(参数)都摆好了,把“水电”(工作流)都接通了。

  • 模型与平台的关系:通常,各家模型会深度集成在自家的生态网站或平台中。例如 Nano-Banana 之于 Gemini,即梦之于豆包。你是在用他们的平台调用他们封装好的 API。

  • 黑盒体验:这是最大的特点。厂商为了保证出图的下限,在后台固定了复杂的 Prompt 优化逻辑和采样参数。你只需要输入“一只猫”,后台可能会自动帮你优化成“一只可爱的、毛茸茸的、电影级光影的猫”。

  • 优势与代价:优势是下限极高,你很难画出难看的东西,且无需昂贵的显卡;代价是你失去了控制权。你无法调整它具体用哪个采样器,无法精确控制光影的角度,甚至同一款模型在不同平台的网页端,因为厂商预设参数不同,画出来的效果都可能天差地别。

2. 开源生态:高度自由的“自建房”

如果说闭源模型是“精装房”,那开源生态(以 Stable Diffusion 为核心)就是把设计图纸和全套施工队都交到了你手里。在这里,所有的组件——U-Net、VAE、CLIP、甚至是一个微小的插件,都可以随意更换。

但在开源世界里,如何操控这些复杂的组件?你需要选择合适的“操作系统”(前端界面)。目前最主流的有两种:

(1) SD WebUI:全能的“单反相机”
  • 长什么样? 它提供了一个集成的仪表盘。所有的参数(步数、采样器、提示词框)都像相机上的按钮一样整齐排列,你需要什么就调什么。
  • 能干什么?
    • 常规绘图与修图:它非常适合单任务操作。比如你要画一个女生,或者用“局部重绘(Inpaint)”修复画面中的一只坏手,WebUI 的操作逻辑最符合直觉,上手即用,所见即所得。
    • 插件库:WebUI 曾拥有最庞大的插件生态。你可以像给浏览器装插件一样,一键安装 ControlNet、Tiled Diffusion(高清放大)等工具,快速赋予 AI 新能力。(注:随着 ComfyUI 的崛起,部分 WebUI 插件的更新频率有所下降,但经典插件依然稳健。且虽然 WebUI 也能通过插件使用 ControlNet,但很难像 ComfyUI 那样实现多图批量的自动化处理。)
  • 适合谁?适合 80% 的日常绘图需求,以及习惯“参数调试”逻辑、追求直观操作的用户。
(2) ComfyUI:可视化的“编程电路板”

如果说 WebUI 是填参数,那 ComfyUI 就是连电路。它是目前进阶玩家和商业落地的首选。

  • 长什么样? 它没有固定的仪表盘,而是一张无限大的画布。你需要把 VAE、CLIP、K采样器 像搭积木一样,通过一根根连线把它们串起来,不仅能看到图像生成的全过程,还能看清数据是怎么流动的。

  • 到底强在哪?

    • 定制复杂工作流:这是它的杀手锏。在 WebUI 里,如果你想“先生成图→检测脸部→修复脸部→扩图→高清放大”,往往需要手动分步操作。而在 ComfyUI 里,你可以把这些步骤连成一条自动化流水线。这意味着只要跑通一次,它就能批量化、全自动地帮你处理海量图片。

    • 更高效利用资源:它的底层优化极佳,显存管理更智能。加载同样的模型,ComfyUI 消耗的显存显著少于 WebUI,速度也更快。

    • 极速的更新迭代:响应速度极快。每当有最新的模型(如 Flux,混元,Qwen)发布,ComfyUI 往往能第一时间更新适配。

    • 强大的节点生态:ComfyUI 拥有更新频率极高的自定义节点库(Custom Nodes),能辅助你完成各种匪夷所思的操作。

    • 视频与动画生成:目前的 AI 视频技术(如 AnimateDiff)和复杂的风格迁移,在 ComfyUI 中配合特定节点能实现最精准的控制,这是 WebUI 难以企及的。

    • 适合谁? 适合想要理解底层原理、搭建自动化生产管线,或者进行复杂科研实验的用户。但需注意,ComfyUI 的入门门槛远高于 WebUI,需要投入一定时间学习节点逻辑。

⚠️ 硬件小贴士

随着 AI 模型的不断进化(尤其是 FLUX 等新一代模型),对硬件的要求也水涨船高。如果你想要在本地流畅运行这些前沿模型,建议显存至少在 12GB 以上。

💡 并没有显卡?

讲到这,你可能会问:“开源虽好,但我没有的高端显卡怎么办?”

这里有一个巨大的误区:玩开源模型 必须买显卡。

现在的部署方式非常灵活,除了本地部署(Local),还有一种极其强大的云端部署(Cloud)方式。请注意,这里指的不是那种“只有输入框”的套壳网站,而是真正的云端容器(如 RunningHub, AutoDL, Comfy Cloud, Liblib工作台)。这些平台相当于你在云端租了一台按小时计费的高性能电脑。

  • 你打开网页,看到的就是完整的 ComfyUI 或 WebUI 界面。

  • 你可以上传自己训练的 LoRA 模型,可以像在本地一样随意连线、安装自定义节点(Custom Nodes),甚至可以调试 Python 代码。

优势:你无需为几万元的硬件买单,用几块钱一小时的成本,就能调用 H100 或 4090 这种顶级显卡来跑你的复杂工作流。(计费方式通常灵活,按使用时长或显卡型号计费)。

总结一下选择策略:

方法论:从“抽卡”到“掌控”的三重境界

拿到工具只是第一步。无论你是用简单的 Midjourney,还是复杂的 ComfyUI,决定作品质量的往往不是工具本身,而是你的“控制思维”。

很多人的困惑在于:“提示词到底该怎么写?什么情况下我需要去换到ComfyUI?什么时候又需要用 ControlNet?又在什么极端情况下,我得自己去训练模型?”

我们把这个过程划分为三重境界,每一层都为了解决上一层的“能力边界”。

第一重境界:咒语通神 —— 提示词工程

这是所有人的起点,也是整合型绘图平台(如 Midjourney、即梦)和在线生图站用户的核心战场。对于 90% 的日常娱乐、配图需求,这一层足够了。(注:本节主要讨论正面提示词,负面提示词通常在进阶控制时才会大量使用。)

很多人误以为写 Prompt 就是写作文。其实不然,AI 并不真的懂人类的语法,它懂的是“标签(Tags)”与画面的关联。为了让你更精准地控制画面,我们可以参考阿里云百炼大模型服务平台提供的“提示词公式”。

1. 新手入门:基础公式

如果你是初次尝试 AI 创作,或者只是想找找灵感,可以使用这个简洁的公式,让画面保留更多的想象空间:

📝 基础公式 = 主体 + 场景 + 风格

  • 主体:你想画什么?(人、动物、物品或想象之物)

  • 场景:在哪画?(室内外、季节、天气、光线等)

  • 风格:怎么画?(写实、抽象、二次元等)

举个栗子:

提示词:25岁中国女孩,圆脸,看着镜头(主体) + 室外,电影级光照(场景) + 优雅的民族服装,商业摄影,精致的淡妆(风格/修饰)。

2. 进阶玩家:高阶公式

当你对画面质感、细节丰富度有更高要求时,就需要在此基础上做加法。一个工业级的提示词往往包含以下六个维度:

🚀 进阶公式 = 主体(及描述) + 场景(及描述) + 风格 + 镜头语言 + 氛围词 + 细节修饰

  • 镜头语言:像导演一样思考。景别(特写/全景)、视角(俯视/仰视/航拍)决定了画面的冲击力。

    氛围词:界定画面的情绪。是“梦幻”、“孤独”还是“宏伟”?

    细节修饰:最后亿点点细节。比如“光源的位置”、“道具搭配”、“高分辨率”等。

    进阶案例:

    提示词:由羊毛毡制成的大熊猫,穿着蓝色警服马甲,大步奔跑姿态(主体细节) + 动物王国城市街道,路灯,夜晚(场景) + 毛毡风格,皮克斯风格(风格) + 摄影镜头,居中构图,逆光(镜头与光线) + 奇妙童趣,明亮,自然(氛围) + 高级滤镜,4K(细节修饰)。

3. 随身锦囊:提示词“词典”

遇到描述瓶颈怎么办?建立自己的“关键词库”非常重要。以下是几个关键维度,供你参考检索:

4. 让AI帮你写提示词

其实,当你明确了自己要画的内容后,完全可以把你的想法、目标和上述的提示词公式要求一起“丢”给 LLM(大语言模型),让它帮你逐步完善。当它调试好一个令你满意的提示词后,你就可以直接把它复制到“图片生成”的窗口去出图了。

5. “整合型工具”的边界在哪里?

当你在这个阶段玩了一段时间,你一定会撞上一堵墙。这堵墙就是“自然语言的模糊性”。

  • 场景 A:你想要画“一个眼神向左看、左手拿着红色杯子、右手扶着眼镜的女孩”。

    • 结果:AI 可能会画成眼神向右,或者杯子拿反了。因为语言描述空间关系是非常无力的。

  • 场景 B:你想要画“皮影戏风格的变形金刚”。

    • 结果:AI 大概率画不出,因为它训练时没见过这种奇怪组合,或者它理解的“皮影”和你心中的不一样。

结论:当你发现“怎么改提示词 AI 都听不懂”,或者“构图和动作始终随机不可控”时,恭喜你,你触碰到了第一层的天花板。你需要进入第二重境界,并开始接触 WebUI 或 ComfyUI(包括云端版本)。

(当然,值得一提的是,随着 Nano Banana Pro 等模型智能程度的提升,对话式生成的边界也在不断延伸,但在精准控制领域,它依然无法取代专业工作流。)

第二重境界:积木宗师 —— 模型选择与插件控制

这一层是为了解决“画不出特定风格”和“控制不了特定构图”的问题。这也是开源生态相对于“整合型工具”最大的杀手锏。

1. 选对“地基”:大模型 (Checkpoint)

大模型决定了画面的基础世界观。

  • 怎么选?

    • 如果你要画写实人像,首选 MajicMix Realistic (麦橘写实) 或 RealVisXL等模型。

    • 如果你要画二次元,首选 Pony Diffusion V6 XL 等模型。

    • 如果你要画通用且高质量的图,首选最新的Z-image、 FLUX 系列或者是闭源的Nano Banana Pro。

  • 开源模型去哪找?

    • C站 (Civitai):全球最大的模型库,不仅有模型,还有无数用户的返图和参数参考。

    • Huggingface: 很多模型会首发到 Huggingface。

    • 魔搭社区:绝大多数Huggingface有的模型你都可以在这里找到,访问和下载速度快。

2. 加上“滤镜”:LoRA
  • 什么时候引入? 当你发现大模型画得很好,但“画风”或“人物长相”不对味时。
    • 例子:大模型画出了很棒的风景,但你想把它变成“乐高积木风”;或者大模型画出了美女,但你想让她长得像“林黛玉”。
  • 效果: LoRA 就像是一个轻量级的“风格滤镜”或“人物补丁”。你不需要懂画画,只需要下载一个几十 MB 的 LoRA 文件挂载上去,AI 瞬间就能学会这种特定的画风。
3. 戴上“镣铐”:ControlNet
  • 什么时候引入? 这是商业落地的分水岭。当你对“构图、姿势、线条”有严格要求,绝不允许 AI 自由发挥时。
    • 例子:电商做海报,模特的姿势必须完全匹配产品图;建筑师做效果图,楼的轮廓必须严格对齐 CAD 线稿。
  • 效果: ControlNet 让 AI 变成了“填色工具”。
    • OpenPose:锁定人物骨架,想怎么摆就怎么摆。
    • Canny/Lineart:锁定线条,线稿直接上色。
    • Depth:锁定空间深度,保持场景结构不变。
4. 其他神兵利器
  • Inpaint(局部重绘):画完发现手崩了?不需要重画,涂抹手部区域,让 AI 只重画这一小块。
  • Upscale (高清放大):生成的图只有 1024px 不够清晰?用放大脚本让细节指数级增加。

第三重境界:造物主 —— 训练与微调

绝大多数人停留在第二层就足够应对 99% 的工作了。但总有 1% 的极端情况,连现有的模型库都满足不了你。

这时候,你需要自己“炼丹”。

1. 什么时候训练 Text Embedding?
  • 场景:你只需要固定一个非常简单的物体或概念,且希望文件极小(几 KB)。

  • 比如:你家里特定的一个花瓶,或者一种特殊的图腾花纹。

2. 什么时候训练 LoRA?
场景:这是目前最主流的训练需求。你需要 AI 稳定生成某个特定的人(比如你自己、公司老板),或者某种特定的产品(公司的新款球鞋),又或者是一种独创的艺术画风。
  • 操作:准备 20-50 张高清图片,打好标签,喂给训练器。几个小时后,你就拥有了一个专属的 LoRA,以后只要在提示词里调用它,AI 就能画出你想要的人或物。

3. 什么时候微调 Checkpoint (全量微调)?
场景:这通常是大厂或专业工作室的事。你需要改变 AI 的底层认知,或者灌输海量的行业数据(比如医疗影像、特殊的工业设计图纸)。这对算力和数据量的要求极高,普通玩家极少涉足。

AI 会淘汰人类吗?

当我们站在 2025 年的节点回望,你会发现 AI 绘图的发展速度快得令人眩晕。从 2022 年 SD v1.5 横空出世时还常常出现“六指琴魔”的笑话,到如今 FLUX、Qwen、Nano Banana顶尖模型的神仙打架,我们不得不感慨,现如今我们正处于一场视觉革命的中心。未来还会发生什么?

AI 会淘汰人类吗?这是每一篇 AI 文章都绕不开的终极追问。看着 AI 一秒钟生成的大片,很多画师和设计师感到了前所未有的焦虑:“我会失业吗?”

作为一个熟悉 AI 技术,却自认对艺术涉猎不深的观察者,我的答案是:并不会。

在我看来, AI 实际上是一个“能力放大器”。对于没有审美基础的人,AI 让他跨过了“手头功夫”的门槛,能画出合格的行活;而对于有深厚审美和设计功底的人,AI 则是最高效的助手,帮他省去了铺色、渲染等重复性劳动,让他终于能把全部精力集中在创意、构图和故事内核上。

正因如此,我时常感叹:审美的价值,从未像今天这样重要。

在一个生成一张“中庸且合格”图片的成本无限趋近于零的时代,“画得出来”不再稀缺,“想得精彩”和“选得准确”才成为了真正的核心竞争力。在一万张由算法生成的、看似完美的图片中,到底哪一张才是真正触动人心的?到底什么样的设计才是有灵魂的好设计?这个极其复杂的决策与博弈过程,是 AI 永远无法替代人类的最后堡垒。

在这个新的时代,AI 是那匹日行千里的良驹,它拥有不知疲倦的体力和惊人的速度。但请记住,只有你会骑马,且只有你知道该去往何方(审美与创意),这匹马才能带你发现真正的新大陆,而不是在原地打转。

结语:别只站在岸边

到这里,我们已经一起走完了这趟从“看热闹”到“懂门道”的旅程。我们从 GAN 的模仿讲到了 扩散模型 的雕刻,从 WebUI 的仪表盘讲到了 ComfyUI 的电路板,从 Prompt 的咒语讲到了 ControlNet 的镣铐。

我希望这篇文章能成为你手中的一张地图。在这张地图的指引下,你是选择去“快餐店”点一份精美的 AI 套餐,还是选择走进“私房菜厨房”自己动手炼丹,全看你的兴趣与需求。

但最重要的是:别只站在岸边看,跳下去,游起来。

去生成你的第一张图吧,就现在。


一起“赞”三连

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询