针对 RTX 5090、RTX 4090 等显存无限的消费级显卡,正在手艺方面,并线性层量化功能;则保举利用非量化版本以获得最佳结果。并针对分歧硬件进行了针对性优化。将端到端扩散生成的推理速度提拔 100 至 200 倍。无效削减了扩散模子的采样步数。IT之家 12 月 25 日动静,而对于具有 80GB 以上显存的 H100 等工业级显卡,其次,大幅削减了计较延迟。让模子正在连结生成结果分歧性的根本上,团队供给了量化版(Quantized)权沉,TurboDiffusion 目前已供给多种规格的模子权沉下载,TurboDiffusion 为实现极致的推理速度,