Gemma4 12B部署体验：5090单卡80+tokens/s

Gemma4 12B模型在单卡5090上的部署体验非常不错，速度可以达到80+tokens/s。不过，目前llama.cpp对gemma4uv不兼容，导致无法使用多模态功能。不过，随着G家对编码器的更新，预计很快就会有L家的适配。目前，该模型只能提供文本处理功能。更多详情请参考的讨论话题。