事件

今天我来聊一个关于ComfyUI的报错问题。想象一下，当你正在专心地搭建AI工作流，刚把整个工作流项目搭建完成，满怀期待地运行——突然眼前跳出下面整个黑底白字的界面：告诉我两个矩阵的大小不匹配！！！

正当我准备对组件的各个输出尺寸大小进行大刀阔斧的改革时，我的经验告诉我：眼前的报错并不是问题的根本，只是表象。果然，当我把报错的内容复制到网上搜索时，发现了很多人都遇到了这个问题，并且给出了这个问题的原因，并不是矩阵尺寸对不上，而是导入的各种模型加载器中的模型（所有的基准模型与微调模型）不匹配导致的。

我的工作流中用到的四个模型，蓝色圈的三个都是用了底模为flux 1的模型，而VAE加载器中的模型（绿色圈）却是底模为SD 1.5的（如下图）。

想知道自己的微调模型是以哪个为基准模型的，一般会在它的模型文件名或者在你下载的网站中可以找到。

模型的类别

在C站，打开筛选器（Filtes），我们可以看到下图的内容：

在Model types那一栏我们可以看到很多模型种类，而在它的下一栏的Base model就是基础模型了。

我们先来讨论模型的种类，一下是各类模型的简单介绍：

🔵 1. Checkpoint（基础模型）

作用：包含完整的SD生成架构（U-Net + CLIP + VAE），决定生成图像的分辨率、风格基础和能力边界。
版本：SD 1.5（512px）、SD 2.1（768px）、SDXL（1024px）、SD3（2048px）。
特点：文件体积大（通常2-7GB），需作为工作流核心加载。

🔵 2. Embedding（文本嵌入模型）

原理：将特定概念（如画风、对象）压缩为低维向量（如 *_embed.pt）。
用途：通过触发词激活训练过的视觉特征（如 embedding:VanGogh 生成梵高风格）。
优势：轻量（仅几十KB），可复用性强。

🔵 3. Hypernetwork（超网络）

机制：动态生成神经网络权重，微调SD内部层的参数分布。
效果：比LoRA更灵活但训练成本高，多用于风格化调整。
文件：.pt 或 .safetensors 格式。

🔵 4. Aesthetic Gradient（美学梯度）

功能：引入基于人类审美的损失函数，优化生成图像的艺术性。
应用：避免畸形肢体、不协调构图等“恐怖谷效应”。
技术：通过梯度调制增强输出美感。

🔵 5. LoRA（低秩适配模型）

核心：冻结原模型，注入低秩矩阵微调特定层（UNet/CLIP）。
优势：体积小（几十至几百MB），快速定制风格/角色。
场景：动漫化、特定人脸生成（如 lora:CyberpunkStyle）。

🔵 6. LyCORIS（高效微调框架）

定位：LoRA的进阶技术，支持更复杂的矩阵分解（如Kron/Locon）。
效果：同等参数下表现优于LoRA，但生态兼容性略低。
文件：.lycoris 或 .safetensors 格式。

🔵 7. DoRA（权重分解微调）

突破：将权重更新分解为方向（Direction）与幅度（Magnitude）分量。
价值：提升训练稳定性，尤其擅长细节纹理控制（如布料/金属）。

🟢 8. ControlNet（控制网络）

革命性意义：通过条件图（深度/边缘/姿态）精确控制生成结构。
类型：
- Canny：边缘约束
- Depth：空间结构
- OpenPose：人体姿态
文件：.pth 或 .safetensors。

🟢 9. Upscaler（超分模型）

功能：提升图像分辨率并修复细节（如从512px → 4K）。
主流模型：
- ESRGAN：通用超分
- SwinIR：Transformer架构，擅长纹理恢复
- 4x-UltraSharp：商业级清晰度优化

🟢 10. Motion（动态模型）

用途：扩展SD至视频生成（如AnimateDiff架构）。
原理：在潜空间注入时序模块，生成帧间连贯动态。
输出：支持3-24fps短视频（如 .mp4 格式）。

🟣 11. VAE（变分自编码器）

核心职能：
- 编码器：图像 → 潜变量（如 torch.Size([1,4,64,64])）
- 解码器：潜变量 → 图像
为什么关键？
解码器决定最终输出色彩风格（如复古/鲜艳）和细节质量。
兼容风险：SDXL与SD1.5的VAE结构不互通，混用会导致画面扭曲。

🟣 12. Poses（姿态模型）

联动ControlNet：提供人体/动物骨骼绑定数据驱动生成。
工具链：如Blender插件生成OpenPose JSON文件。
应用：角色设计、动画分镜预可视化。

🟣 13. Wildcards（通配符脚本）

功能：动态扩展提示词（如 __animal__ → 随机替换为"tiger"或"eagle"）。
技术文件：文本脚本（.txt），无需训练。
用途：批量生成时增加多样性。

🟣 14. Workflows（工作流模板）

本质：JSON配置文件，记录节点连接与参数（非模型）。
作用：一键复现复杂流程（如超分+ControlNet+Inpainting）。
平台：ComfyUI的核心共享资源。

⚫ 15. Detection（检测器）

技术关联：为ControlNet提供预处理支持（如YOLOv8分割人体）。
输入：原始图像 → 输出：条件图（语义分割/边缘等）。
案例：SAM（分割一切模型）生成蒙版供Inpainting使用。

（内容为AI生成，仅供参考）

部分模型类别之间存在着一定的联系：

组件	角色定位	协作逻辑
Motion	动态生成起点	驱动时序控制（如视频生成），输入时间参数至核心引擎
Checkpoint	核心生成引擎	接收所有指令，协调各组件输出原始结果
VAE	潜空间编解码器	将Checkpoint生成的潜变量解码为图像 → 决定最终画质与色彩风格
LoRA/LyCORIS	风格微调模块	通过低秩矩阵注入新知识 → 定制化调整生成主题/画风
ControlNet	结构控制器	接收条件图（深度/边缘）约束构图 → 需Detection预处理器支持
Embedding	语义概念注入器	将抽象词压缩为向量 → 联动Wildcards动态扩展提示词
Upscaler	分辨率增强器	对生成图像超分辨率重建（如4K修复）→ 工作流末端画质抛光
Detection	ControlNet的预处理器	生成条件图（如人体姿态检测）→ 仅为支持性工具，不直接参与生成
Wildcards	Embedding的扩展工具	动态替换提示词占位符→ 增加输出多样性

基础模型版本

为帮助快速识别即装即用型模型和需要特定环境的专用模型，我将C站的Base Model模型分为以下两类通用模型和非通用模型：

🧩通用型模型（兼容主流工作流）

模型名称	可互操作格式	适用场景	备注
SD 1.4/1.5	`.ckpt` `.safetensors`	文生图/图生图	社区兼容性最佳
SD 1.5 Hyper	`.pt` `.bin`	超分辨率重建	需搭配ESRGAN
SD 2.0/2.1	`.ckpt` `.safetensors`	多语言提示词	需中文CLIP
SD 3.5 Medium	`.safetensors`	商业设计	HiresFix优化
SDXL 1.0	`.safetensors`	广告设计	需SDXL专用VAE
SDXL Lightning	`.safetensors`	实时渲染	低显存需求
Aura	`.pth`	光影艺术	需专用光影节点
Pony	`.safetensors`	动漫生成	依赖NovelAI词库
PixArt α/Σ	`.gguf`	像素/矢量图	需8bit量化

⚠️ 非通用型/专用模型（需特定环境）

模型名称	依赖组件	限制说明
Flux .1 S/D	Flux采样器+Vision Adapter	仅限Flux工作流
SVD	Motion节点+姿态库	必须输入运动轨迹
Hunyuan Video	Tencent VAE	仅兼容腾讯生态
Wan Video全系	Wan时序插件	强制绑定480p/720p输出
CogVideoX	Cog镜头控制包	需多镜头配置文件
Flow	FluidX物理引擎	需GPU支持FP8运算
Mochi LTXV	Mochi Lite插件	仅移动端部署
Kolors	ProPhoto RGB	特殊色彩空间
HiDream	DreamNet插件	需梦境词库

[ComfyUI]采样器提示mat1 and mat2 shapes cannot be multiplied错误

事件