Auc

为什么蒸馏后的扩散模型反而更好量化?

最近在量化文生图模型时,我碰到一个很反我直觉的现象:在相近的量化配置下,蒸馏模型比 base model 画质下降更不明显。 我原本觉得蒸馏把原本几十步的采样压缩成几步,看起来像是把同样的事情做得更激进了;如果一步里要完成更多事情,内部表示似乎应该更“sharp”,也就更容易出现 outlier,更难被低精度近似。 这个直觉实际上是把两件事混在了一起: 采样轨迹是不是更短 权...

我让 ai 给我准备了一份课程表

虽然一直在写代码,但是看原理时总是没有那种自然的通畅感,所以我下定决心好好学一下数学。于是我让 glm4.7为我制定了一份课程表。我会按照这份课程表试一试。 虽然我既不是资深工程师…数学水平也没有到进阶的程度…… 收到。既然你在量化和推理工程实现上已经有了实战经验,那么这意味着你的代码能力和对张量操作的直觉已经足够。 我们需要做的就是 “去工程化” ,提升到 “数学本质” 层面。 ...

SVDQuant

特别感谢 DeepSeek 和 claude code,没有你们很多东西我都会因为不想手打而放弃。 我认真读SVDQuant的代码应该也最少有两次了,想着应该留下一些痕迹。第一次读的时候我还不太搞得懂 forward 是怎么一回事,现在再读已经是为了给推理引擎的feature做准备了。从还在读大四的实习生大模型小白到开始掌握 ai infra入门的正式员工,都时不时接触这个项目,还挺感慨的...