GPT-5.5 模型推理努力设置引发的输出问题分析

在互联网技术的快速发展中，人工智能（AI）的应用变得越来越广泛，尤其是在自然语言处理领域。最近，有在使用 GPT-5.5 模型时遇到了一些问题，特别是在设置推理努力为 'xhigh' 的情况下。用户发现，尽管 HTTP 响应状态为 200，但流返回的数据中只包含了 5 个输出 token，而且这种情况大约占所有调用的 6%。更令人困惑的是，这种现象只出现在 GPT-5.5 和 'xhigh' 设置的组合中，而使用 GPT-5.4 或降低推理努力设置时则没有出现类似问题。此外，这种现象不是由于输入大小或账号限制引起的，而是跨多个上游账号都出现，表明问题可能出在模型本身。用户还提到，在某些情况下，请求会长时间挂起，直到第一个 token 出现，但随后仍然只返回 5 个 token。这种情况对依赖流式响应的客户端（如 agent loop 客户端）影响较大，可能导致任务执行不完整。目前，用户正在寻求其他用户是否遇到过类似情况，以及是否有任何官方说明或规避方法。这个问题不仅影响用户体验，也可能影响 AI 应用的稳定性和可靠性。因此，进一步调查和分析这个问题对于改进 AI 技术和服务至关重要。

GPT-5.5 模型推理努力设置引发的输出问题分析

评论已关闭