QWEN 3.7 MAX推理测试引发对评测真实性的质疑

关于QWEN 3.7 MAX的推理测试，用户在llm-benchmark.github.io网站使用了一组较为古老的题集进行测试。测试结果显示，GPT 5.5 XHIGH表现优异，仅差两道题即可全部答对，而GEMINI的表现也相当接近。不过，由于题目不够细致，无法明确区分GEMINI3.1和GPT 5.5的性能差异。尽管GPT 5.5表现出更强的能力，但QWEN 3.7 MAX在测试中表现不尽如人意，使用QODER（一个不确定是否真实存在的模型）进行测试时，QWEN 3.7 MAX陷入了无限循环思考，导致测试不得不在1个多小时后终止。而在官网上的测试中，QWEN 3.7 MAX虽然能够给出正确答案，但所需时间过长，超过20分钟，效率较低。这些表现引发了用户对评测博主所声称的GPT 5.5得80分，QWEN达到78分的结论的怀疑，并对nao榜单的真实性提出了质疑。用户在论坛上发表了这一话题，并提供了相关链接供进一步讨论。

QWEN 3.7 MAX推理测试引发对评测真实性的质疑

评论已关闭