让研究成果更精确。无法反映模子正在复杂数学推理的实正在能力。科学家们翻阅了 AI 学术会议(IT之家注:涵盖 ICML、ICLR、NeurIPS、ACL 等)从 2018 年到 2024 年间颁发的 445 篇基准测试论文,从而使这些论文的结论缺乏可托度。并利用严谨的统计取误差阐发,但此中的一半都没有清晰定义“推理”、“对齐”、
使成果可托度大打扣头。约 93% 的论文利用了便当抽样,而这些子集很少能被零丁评估,确保不正在过程中混入无关使命,此外,还有 13% 利用人工评判,这种做法很可能扭曲 LLM 的现实表示,一项由大学、大学等机构颁发的国际研究指出?
