[ComfyUI]采样器提示mat1 and mat2 shapes cannot be multiplied错误

[ComfyUI]采样器提示mat1 and mat2 shapes cannot be multiplied错误

事件

今天我来聊一个关于ComfyUI的报错问题。想象一下,当你正在专心地搭建AI工作流,刚把整个工作流项目搭建完成,满怀期待地运行——突然眼前跳出下面整个黑底白字的界面:告诉我两个矩阵的大小不匹配!!!

正当我准备对组件的各个输出尺寸大小进行大刀阔斧的改革时,我的经验告诉我:眼前的报错并不是问题的根本,只是表象。果然,当我把报错的内容复制到网上搜索时,发现了很多人都遇到了这个问题,并且给出了这个问题的原因,并不是矩阵尺寸对不上,而是导入的各种模型加载器中的模型(所有的基准模型与微调模型)不匹配导致的。

我的工作流中用到的四个模型,蓝色圈的三个都是用了底模为flux 1的模型,而VAE加载器中的模型(绿色圈)却是底模为SD 1.5的(如下图)。

想知道自己的微调模型是以哪个为基准模型的,一般会在它的模型文件名或者在你下载的网站中可以找到。

模型的类别

在C站,打开筛选器(Filtes),我们可以看到下图的内容:

在Model types那一栏我们可以看到很多模型种类,而在它的下一栏的Base model就是基础模型了。

我们先来讨论模型的种类,一下是各类模型的简单介绍:

🔵 ​​1. Checkpoint(基础模型)​​

  • ​作用​​:包含完整的SD生成架构(U-Net + CLIP + VAE),决定生成图像的分辨率、风格基础和能力边界。

  • ​版本​​:SD 1.5(512px)、SD 2.1(768px)、SDXL(1024px)、SD3(2048px)。

  • ​特点​​:文件体积大(通常2-7GB),需作为工作流核心加载。

🔵 ​​2. Embedding(文本嵌入模型)​​

  • ​原理​​:将特定概念(如画风、对象)压缩为低维向量(如 *_embed.pt)。

  • ​用途​​:通过触发词激活训练过的视觉特征(如 embedding:VanGogh 生成梵高风格)。

  • ​优势​​:轻量(仅几十KB),可复用性强。

🔵 ​​3. Hypernetwork(超网络)​​

  • ​机制​​:动态生成神经网络权重,微调SD内部层的参数分布。

  • ​效果​​:比LoRA更灵活但训练成本高,多用于风格化调整。

  • ​文件​​:.pt.safetensors 格式。

🔵 ​​4. Aesthetic Gradient(美学梯度)​​

  • ​功能​​:引入基于人类审美的损失函数,优化生成图像的艺术性。

  • ​应用​​:避免畸形肢体、不协调构图等“恐怖谷效应”。

  • ​技术​​:通过梯度调制增强输出美感。

🔵 ​​5. LoRA(低秩适配模型)​​

  • ​核心​​:冻结原模型,注入低秩矩阵微调特定层(UNet/CLIP)。

  • ​优势​​:体积小(几十至几百MB),快速定制风格/角色。

  • ​场景​​:动漫化、特定人脸生成(如 lora:CyberpunkStyle)。

🔵 ​​6. LyCORIS(高效微调框架)​​

  • ​定位​​:LoRA的进阶技术,支持更复杂的矩阵分解(如Kron/Locon)。

  • ​效果​​:同等参数下表现优于LoRA,但生态兼容性略低。

  • ​文件​​:.lycoris.safetensors 格式。

🔵 ​​7. DoRA(权重分解微调)​​

  • ​突破​​:将权重更新分解为方向(Direction)与幅度(Magnitude)分量。

  • ​价值​​:提升训练稳定性,尤其擅长细节纹理控制(如布料/金属)。


🟢 ​​8. ControlNet(控制网络)​​

  • ​革命性意义​​:通过条件图(深度/边缘/姿态)精确控制生成结构。

  • ​类型​​:

    • ​Canny​​:边缘约束

    • ​Depth​​:空间结构

    • ​OpenPose​​:人体姿态

  • ​文件​​:.pth.safetensors

🟢 ​​9. Upscaler(超分模型)​​

  • ​功能​​:提升图像分辨率并修复细节(如从512px → 4K)。

  • ​主流模型​​:

    • ​ESRGAN​​:通用超分

    • ​SwinIR​​:Transformer架构,擅长纹理恢复

    • ​4x-UltraSharp​​:商业级清晰度优化

🟢 ​​10. Motion(动态模型)​​

  • ​用途​​:扩展SD至视频生成(如AnimateDiff架构)。

  • ​原理​​:在潜空间注入时序模块,生成帧间连贯动态。

  • ​输出​​:支持3-24fps短视频(如 .mp4 格式)。


🟣 ​​11. VAE(变分自编码器)​​

  • ​核心职能​​:

    • ​编码器​​:图像 → 潜变量(如 torch.Size([1,4,64,64])

    • ​解码器​​:潜变量 → 图像

  • ​为什么关键​​?
    解码器决定最终输出色彩风格(如复古/鲜艳)和细节质量。

  • ​兼容风险​​:SDXL与SD1.5的VAE结构不互通,混用会导致画面扭曲。

🟣 ​​12. Poses(姿态模型)​​

  • ​联动ControlNet​​:提供人体/动物骨骼绑定数据驱动生成。

  • ​工具链​​:如Blender插件生成OpenPose JSON文件。

  • ​应用​​:角色设计、动画分镜预可视化。

🟣 ​​13. Wildcards(通配符脚本)​​

  • ​功能​​:动态扩展提示词(如 __animal__ → 随机替换为"tiger"或"eagle")。

  • ​技术文件​​:文本脚本(.txt),无需训练。

  • ​用途​​:批量生成时增加多样性。

🟣 ​​14. Workflows(工作流模板)​​

  • ​本质​​:JSON配置文件,记录节点连接与参数(非模型)。

  • ​作用​​:一键复现复杂流程(如超分+ControlNet+Inpainting)。

  • ​平台​​:ComfyUI的核心共享资源。


⚫ ​​15. Detection(检测器)​​

  • ​技术关联​​:为ControlNet提供预处理支持(如YOLOv8分割人体)。

  • ​输入​​:原始图像 → ​​输出​​:条件图(语义分割/边缘等)。

  • ​案例​​:SAM(分割一切模型)生成蒙版供Inpainting使用。

(内容为AI生成,仅供参考)

部分模型类别之间存在着一定的联系:

组件​​

​​角色定位​​

​​协作逻辑​​

​Motion​

动态生成起点

驱动时序控制(如视频生成),输入时间参数至核心引擎

​Checkpoint​

核心生成引擎

接收所有指令,协调各组件输出原始结果​

​VAE​

潜空间编解码器

将Checkpoint生成的潜变量解码为图像 → ​​决定最终画质与色彩风格​

​LoRA/LyCORIS​

风格微调模块

通过低秩矩阵注入新知识 → 定制化调整生成主题/画风

​ControlNet​

结构控制器

接收条件图(深度/边缘)约束构图 → ​​需Detection预处理器支持​

​Embedding​

语义概念注入器

将抽象词压缩为向量 → ​​联动Wildcards动态扩展提示词​

​Upscaler​

分辨率增强器

对生成图像超分辨率重建(如4K修复)→ 工作流末端画质抛光

​Detection​

ControlNet的预处理器

生成条件图(如人体姿态检测)→ ​​仅为支持性工具,不直接参与生成​

​Wildcards​

Embedding的扩展工具

动态替换提示词占位符→ ​​增加输出多样性​

基础模型版本​

为帮助快速识别即装即用型模型和需要特定环境的专用模型,我将C站的Base Model模型分为以下两类通用模型​非通用模型

🧩通用型模型(兼容主流工作流)

​​模型名称​​

​​可互操作格式​​

​​适用场景​​

​​备注​​

​SD 1.4/1.5​

.ckpt .safetensors

文生图/图生图

社区兼容性最佳

​SD 1.5 Hyper​

.pt .bin

超分辨率重建

需搭配ESRGAN

​SD 2.0/2.1​

.ckpt .safetensors

多语言提示词

需中文CLIP

​SD 3.5 Medium​

.safetensors

商业设计

HiresFix优化

​SDXL 1.0​

.safetensors

广告设计

需SDXL专用VAE

​SDXL Lightning​

.safetensors

实时渲染

低显存需求

​Aura​

.pth

光影艺术

需专用光影节点

​Pony​

.safetensors

动漫生成

依赖NovelAI词库

​PixArt α/Σ​

.gguf

像素/矢量图

需8bit量化

⚠️ 非通用型/专用模型(需特定环境)

​​模型名称​​

​​依赖组件​​

​​限制说明​​

​Flux .1 S/D​

Flux采样器+Vision Adapter

仅限Flux工作流

​SVD​

Motion节点+姿态库

必须输入运动轨迹

​Hunyuan Video​

Tencent VAE

仅兼容腾讯生态

​Wan Video全系​

Wan时序插件

强制绑定480p/720p输出

​CogVideoX​

Cog镜头控制包

需多镜头配置文件

​Flow​

FluidX物理引擎

需GPU支持FP8运算

​Mochi LTXV​

Mochi Lite插件

仅移动端部署

​Kolors​

ProPhoto RGB

特殊色彩空间

​HiDream​

DreamNet插件

需梦境词库