在互联网技术的快速发展中,人工智能(AI)的应用变得越来越广泛,尤其是在自然语言处理领域。最近,有在使用 GPT-5.5 模型时遇到了一些问题,特别是在设置推理努力为 'xhigh' 的情况下。用户发现,尽管 HTTP 响应状态为 200,但流返回的数据中只包含了 5 个输出 token,而且这种情况大约占所有调用的 6%。更令人困惑的是,这种现象只出现在 GPT-5.5 和 'xhigh' 设置的组合中,而使用 GPT-5.4 或降低推理努力设置时则没有出现类似问题。此外,这种现象不是由于输入大小或账号限制引起的,而是跨多个上游账号都出现,表明问题可能出在模型本身。用户还提到,在某些情况下,请求会长时间挂起,直到第一个 token 出现,但随后仍然只返回 5 个 token。这种情况对依赖流式响应的客户端(如 agent loop 客户端)影响较大,可能导致任务执行不完整。目前,用户正在寻求其他用户是否遇到过类似情况,以及是否有任何官方说明或规避方法。这个问题不仅影响用户体验,也可能影响 AI 应用的稳定性和可靠性。因此,进一步调查和分析这个问题对于改进 AI 技术和服务至关重要。

标签: none

评论已关闭