QWEN 3.7 MAX推理测试引发对评测真实性的质疑
关于QWEN 3.7 MAX的推理测试,用户在llm-benchmark.github.io网站使用了一组较为古老的题集进行测试。测试结果显示,GPT 5.5 XHIGH表现优异,仅差两道题即可全部答对,而GEMINI的表现也相当接近。不过,由于题目不够细致,无法明确区分GEMINI3.1和GPT 5.5的性能差异。尽管GPT 5.5表现出更强的能力,但QWEN 3.7 MAX在测试中表现不尽如人意,使用QODER(一个不确定是否真实存在的模型)进行测试时,QWEN 3.7 MAX陷入了无限循环思考,导致测试不得不在1个多小时后终止。而在官网上的测试中,QWEN 3.7 MAX虽然能够给出正确答案,但所需时间过长,超过20分钟,效率较低。这些表现引发了用户对评测博主所声称的GPT 5.5得80分,QWEN达到78分的结论的怀疑,并对nao榜单的真实性提出了质疑。用户在论坛上发表了这一话题,并提供了相关链接供进一步讨论。
评论已关闭