事件
今天我来聊一个关于ComfyUI的报错问题。想象一下,当你正在专心地搭建AI工作流,刚把整个工作流项目搭建完成,满怀期待地运行——突然眼前跳出下面整个黑底白字的界面:告诉我两个矩阵的大小不匹配!!!
正当我准备对组件的各个输出尺寸大小进行大刀阔斧的改革时,我的经验告诉我:眼前的报错并不是问题的根本,只是表象。果然,当我把报错的内容复制到网上搜索时,发现了很多人都遇到了这个问题,并且给出了这个问题的原因,并不是矩阵尺寸对不上,而是导入的各种模型加载器中的模型(所有的基准模型与微调模型)不匹配导致的。
我的工作流中用到的四个模型,蓝色圈的三个都是用了底模为flux 1的模型,而VAE加载器中的模型(绿色圈)却是底模为SD 1.5的(如下图)。
想知道自己的微调模型是以哪个为基准模型的,一般会在它的模型文件名或者在你下载的网站中可以找到。
模型的类别
在C站,打开筛选器(Filtes),我们可以看到下图的内容:
在Model types那一栏我们可以看到很多模型种类,而在它的下一栏的Base model就是基础模型了。
我们先来讨论模型的种类,一下是各类模型的简单介绍:
🔵 1. Checkpoint(基础模型)
作用:包含完整的SD生成架构(U-Net + CLIP + VAE),决定生成图像的分辨率、风格基础和能力边界。
版本:SD 1.5(512px)、SD 2.1(768px)、SDXL(1024px)、SD3(2048px)。
特点:文件体积大(通常2-7GB),需作为工作流核心加载。
🔵 2. Embedding(文本嵌入模型)
原理:将特定概念(如画风、对象)压缩为低维向量(如
*_embed.pt
)。用途:通过触发词激活训练过的视觉特征(如
embedding:VanGogh
生成梵高风格)。优势:轻量(仅几十KB),可复用性强。
🔵 3. Hypernetwork(超网络)
机制:动态生成神经网络权重,微调SD内部层的参数分布。
效果:比LoRA更灵活但训练成本高,多用于风格化调整。
文件:
.pt
或.safetensors
格式。
🔵 4. Aesthetic Gradient(美学梯度)
功能:引入基于人类审美的损失函数,优化生成图像的艺术性。
应用:避免畸形肢体、不协调构图等“恐怖谷效应”。
技术:通过梯度调制增强输出美感。
🔵 5. LoRA(低秩适配模型)
核心:冻结原模型,注入低秩矩阵微调特定层(UNet/CLIP)。
优势:体积小(几十至几百MB),快速定制风格/角色。
场景:动漫化、特定人脸生成(如
lora:CyberpunkStyle
)。
🔵 6. LyCORIS(高效微调框架)
定位:LoRA的进阶技术,支持更复杂的矩阵分解(如Kron/Locon)。
效果:同等参数下表现优于LoRA,但生态兼容性略低。
文件:
.lycoris
或.safetensors
格式。
🔵 7. DoRA(权重分解微调)
突破:将权重更新分解为方向(Direction)与幅度(Magnitude)分量。
价值:提升训练稳定性,尤其擅长细节纹理控制(如布料/金属)。
🟢 8. ControlNet(控制网络)
革命性意义:通过条件图(深度/边缘/姿态)精确控制生成结构。
类型:
Canny:边缘约束
Depth:空间结构
OpenPose:人体姿态
文件:
.pth
或.safetensors
。
🟢 9. Upscaler(超分模型)
功能:提升图像分辨率并修复细节(如从512px → 4K)。
主流模型:
ESRGAN:通用超分
SwinIR:Transformer架构,擅长纹理恢复
4x-UltraSharp:商业级清晰度优化
🟢 10. Motion(动态模型)
用途:扩展SD至视频生成(如AnimateDiff架构)。
原理:在潜空间注入时序模块,生成帧间连贯动态。
输出:支持3-24fps短视频(如
.mp4
格式)。
🟣 11. VAE(变分自编码器)
核心职能:
编码器:图像 → 潜变量(如
torch.Size([1,4,64,64])
)解码器:潜变量 → 图像
为什么关键?
解码器决定最终输出色彩风格(如复古/鲜艳)和细节质量。兼容风险:SDXL与SD1.5的VAE结构不互通,混用会导致画面扭曲。
🟣 12. Poses(姿态模型)
联动ControlNet:提供人体/动物骨骼绑定数据驱动生成。
工具链:如Blender插件生成OpenPose JSON文件。
应用:角色设计、动画分镜预可视化。
🟣 13. Wildcards(通配符脚本)
功能:动态扩展提示词(如
__animal__
→ 随机替换为"tiger"或"eagle")。技术文件:文本脚本(
.txt
),无需训练。用途:批量生成时增加多样性。
🟣 14. Workflows(工作流模板)
本质:JSON配置文件,记录节点连接与参数(非模型)。
作用:一键复现复杂流程(如超分+ControlNet+Inpainting)。
平台:ComfyUI的核心共享资源。
⚫ 15. Detection(检测器)
技术关联:为ControlNet提供预处理支持(如YOLOv8分割人体)。
输入:原始图像 → 输出:条件图(语义分割/边缘等)。
案例:SAM(分割一切模型)生成蒙版供Inpainting使用。
(内容为AI生成,仅供参考)
部分模型类别之间存在着一定的联系:
基础模型版本
为帮助快速识别即装即用型模型和需要特定环境的专用模型,我将C站的Base Model模型分为以下两类通用模型和非通用模型: