国产模型接入Codex的体验评价

在最近的实验中，我尝试将国产模型接入Codex系统，并测试了多种模型的表现。我特别关注了模型在处理编码任务和智能代理能力方面的表现。以下是我对几种国产模型接入Codex的体验总结。

在所有测试的模型中，glm5.1表现最佳。它的表现类似于早期的GPT-5.2，虽然速度较慢，但在处理任务时非常出色。glm5.1能够很好地适应Codex提供的各种工具，即使在有chat转responses的转换过程中也能保持高效。

deepseek的表现次之。它的速度尚可，但在处理编码任务时可能会出现一些小bug。如果bug较小，它可以较快地修复。但如果问题复杂，超过三轮的交互可能就无法解决了。我认为这是因为deepseek在解决问题时不够灵活，倾向于选择直接但可能不是最优的解决方案。

mimo的表现最不理想，甚至比deepseek更加固执。minimax的表现也不尽如人意，例如在处理上下文信息时出现了错误。

在测试中，我不仅关注了编码能力，还测试了智能代理能力。mimo在编码方面表现不错，但与deepseek相比仍有差距。glm5.1在智能和逻辑处理方面表现优异，但编码能力稍逊。minimax在速度上略优于mimo，但在其他方面没有显著优势。

综合来看，我建议使用glm5.1。deepseek-v4-pro也是不错的选择。这两个模型各有特点，deepseek如同六边形战士，而glm5.1则是一个在某个方面有所欠缺的多面手。

我的评价基于个人体验，可能存在主观性。我测试了多个中转站上的模型，结果基本一致。希望这些信息能帮助到正在寻找合适模型的用户。