为什么蒸馏后的扩散模型反而更好量化?
最近在量化文生图模型时,我碰到一个很反我直觉的现象:在相近的量化配置下,蒸馏模型比 base model 画质下降更不明显。 我原本觉得蒸馏把原本几十步的采样压缩成几步,看起来像是把同样的事情做得更激进了;如果一步里要完成更多事情,内部表示似乎应该更“sharp”,也就更容易出现 outlier,更难被低精度近似。 这个直觉实际上是把两件事混在了一起: 采样轨迹是不是更短 权...
最近在量化文生图模型时,我碰到一个很反我直觉的现象:在相近的量化配置下,蒸馏模型比 base model 画质下降更不明显。 我原本觉得蒸馏把原本几十步的采样压缩成几步,看起来像是把同样的事情做得更激进了;如果一步里要完成更多事情,内部表示似乎应该更“sharp”,也就更容易出现 outlier,更难被低精度近似。 这个直觉实际上是把两件事混在了一起: 采样轨迹是不是更短 权...
虽然一直在写代码,但是看原理时总是没有那种自然的通畅感,所以我下定决心好好学一下数学。于是我让 glm4.7为我制定了一份课程表。我会按照这份课程表试一试。 虽然我既不是资深工程师…数学水平也没有到进阶的程度…… 收到。既然你在量化和推理工程实现上已经有了实战经验,那么这意味着你的代码能力和对张量操作的直觉已经足够。 我们需要做的就是 “去工程化” ,提升到 “数学本质” 层面。 ...
特别感谢 DeepSeek 和 claude code,没有你们很多东西我都会因为不想手打而放弃。 我认真读SVDQuant的代码应该也最少有两次了,想着应该留下一些痕迹。第一次读的时候我还不太搞得懂 forward 是怎么一回事,现在再读已经是为了给推理引擎的feature做准备了。从还在读大四的实习生大模型小白到开始掌握 ai infra入门的正式员工,都时不时接触这个项目,还挺感慨的...
同事让我有空看看这个,我就简单读了一下。 项目地址 Github CoTyle GithubIO CoTyle 概况 这个模型做到了使用 code(编码而非代码)控制图像风格。也就是说,在 code 相同的情况下,改变 prompt 和种子可以生成一组风格相似的图片。 粗略看了下 GitHub 首页,不过它对不同风格之间似乎并没有一种可以查表的方式,让人自己选择需要什么...
我不喜欢从原理讲起的书,但 我本来想直奔讲解推理加速的章节的,但看了一眼全是公式,我还是老实地从头看起吧。 虽然我一向不喜欢从xxx原理开始介绍的书籍 关于diffusion model,同事曾推荐我以下的资料: Diffusion Models | Paper Explanation | Math Explained Flow Matching | Explanation...