非全备考时间线(2026)
说明 这是一份面向全职在职考生的备考时间线。默认前提是工作日精力有限,周末相对完整,因此整体安排不追求短期爆发,而强调长期连续性和可执行性。 这版时间线不是只靠个人感觉排出来的,而是同时参考了三类信息: 最新官方招生目录与招生章程 在职备考经验里更容易长期维持的时间分配方式 学习科学里对间隔学习、主动检索和交错练习的研究结论 时间分配上,前期优先处理最容易成为短板的科...
说明 这是一份面向全职在职考生的备考时间线。默认前提是工作日精力有限,周末相对完整,因此整体安排不追求短期爆发,而强调长期连续性和可执行性。 这版时间线不是只靠个人感觉排出来的,而是同时参考了三类信息: 最新官方招生目录与招生章程 在职备考经验里更容易长期维持的时间分配方式 学习科学里对间隔学习、主动检索和交错练习的研究结论 时间分配上,前期优先处理最容易成为短板的科...
最近被反馈了一个问题:同一个 prompt,随机 seed,出来的图长得都差不多。Base model 就没有这个问题。 我起初以为是量化产生的问题,排查后发现是因为用了蒸馏 lora。于是顺着这个线索查到了这篇论文。 TL; DR 蒸馏模型把 timestep 压缩了,同一个 prompt 换 seed 出来的图都差不多。但奇怪的是 FID 反而比 base 好——至少说明整体分布指...
最近在量化文生图模型时,我碰到一个很反我直觉的现象:在相近的量化配置下,蒸馏模型比 base model 画质下降更不明显。 我原本觉得蒸馏把原本几十步的采样压缩成几步,看起来像是把同样的事情做得更激进了;如果一步里要完成更多事情,内部表示似乎应该更“sharp”,也就更容易出现 outlier,更难被低精度近似。 这个直觉实际上是把两件事混在了一起: 采样轨迹是不是更短 权...
特别感谢 DeepSeek 和 claude code,没有你们很多东西我都会因为不想手打而放弃。 我认真读SVDQuant的代码应该也最少有两次了,想着应该留下一些痕迹。第一次读的时候我还不太搞得懂 forward 是怎么一回事,现在再读已经是为了给推理引擎的feature做准备了。从还在读大四的实习生大模型小白到开始掌握 ai infra入门的正式员工,都时不时接触这个项目,还挺感慨的...
同事让我有空看看这个,我就简单读了一下。 项目地址 Github CoTyle GithubIO CoTyle 概况 这个模型做到了使用 code(编码而非代码)控制图像风格。也就是说,在 code 相同的情况下,改变 prompt 和种子可以生成一组风格相似的图片。 粗略看了下 GitHub 首页,不过它对不同风格之间似乎并没有一种可以查表的方式,让人自己选择需要什么...
我不喜欢从原理讲起的书,但 我本来想直奔讲解推理加速的章节的,但看了一眼全是公式,我还是老实地从头看起吧。 虽然我一向不喜欢从xxx原理开始介绍的书籍 关于diffusion model,同事曾推荐我以下的资料: Diffusion Models | Paper Explanation | Math Explained Flow Matching | Explanation...