881-FrontierScience：评估 AI 的专家级科学推理能力

本文介绍了 OpenAI 开发的新型 AI 基准测试 FrontierScience，旨在评估大语言模型在物理、化学和生物领域的专家级科学推理能力。该基准由奥林匹克 (Olympiad) 和科研 (Research) 两个轨道组成，分别涵盖了国际竞赛水平的问题以及博士级别的开放式科研子任务。为了保证评估的严谨性，所有题目均由顶尖奖牌得主和资深科学家原创编写，有效避免了由于模型训练数据污染导致的评分偏差。研究团队还为复杂的科研任务引入了基于细颗粒度量表 (Rubric) 的评分架构，从多个维度衡量模型的逻辑严密性。初步评估显示，虽然 GPT-5.2 等尖端模型在竞赛题目上表现出色，但在处理复杂的科研实战问题时仍有巨大提升空间。这一工具为衡量 AI 推动科学发现的潜力提供了更具挑战性的标准。
References:
* Wang M, Lin R, Hu K, et al. FrontierS...去小宇宙查看完整单集简介
前往小宇宙评论区与主播互动

Fler avsnitt av 聊聊Sci