Claude发布了Opus4.8版本后,立刻进行了对话测试,主要关注其数理推理能力,并与其他模型进行了对比。测试条件包括:Claude家族(官网web对话)、Gpt家族(只有5.5 xhigh,官网web对话)、D老师(官网api + web对话)、彩蛋模型(官网api + web对话)。第一轮测试中,重点考察了数学直觉。

标签: none

评论已关闭