【SNSE Bench】首轮测试完成!包含成绩表!
【SNSE Bench】首轮测试完成!包含成绩表!
目前进度 / 预告帖 开发调优个人维护的基于算法竞赛题目的微型 LLM Benchmark。前情提要:注意:尽管都是编程相关,算法竞赛题目所需的能力与软件工程 / Coding Agent 并不完全重合。模型在 SNSE Bench 中的表现与其软件工程能力并无必然联系。全称:SNSE’s Not Software Engineering Bench。进展已经结束了第一批题目的挑选,每道题目都设计了子任务…从预告帖发布到现在,经过了一个半月,SNSE 的首轮测试结果终于完工了。

通过这个测试,开发者可以更好地了解模型在算法竞赛题目上的表现,从而进行针对性的优化和提升。对于想要在算法竞赛中取得好成绩的开发者来说,这是一个非常有价值的参考。同时,这也为模型的进一步开发提供了宝贵的反馈数据。
评论已关闭