Gemma4 12B模型在单卡5090上的部署体验非常不错,速度可以达到80+tokens/s。不过,目前llama.cpp对gemma4uv不兼容,导致无法使用多模态功能。不过,随着G家对编码器的更新,预计很快就会有L家的适配。目前,该模型只能提供文本处理功能。更多详情请参考的讨论话题。

标签: none

评论已关闭