第四色电影 北大AI奥数评测,o1-mini比o1-preview分数还高
OpenAI 的 o1 系列一发布第四色电影,传统数学评测基准都显得不够用了。
MATH-500,满血版 o1 模子奏凯拿下94.8分。
更难的奥数邀请赛 AIME 2024,o1 也赢得83.3%的准确率。
跟着现存的数学评测集渐渐被攻克,行家不禁运行趣味:大模子能否胜任更具挑战性的数学竞赛,甚而是奥林匹克数学竞赛?
为此,北京大学与阿里巴巴的接头团队结合打造了一个专门用于数学竞赛的奥林匹克评测基准——Omni-MATH。
Omni-MATH 专门用于评估大型讲话模子在奥林匹克水平的数学推贤惠力。评测集共收录了 4428 谈竞赛级别的问题。这些问题经由用心分类,涵盖了 33 个(及更多)子限度,况且分为 10 个不同的难度级别,使得咱们大致对模子在千般数学学科和复杂进程上的泄露进行精细分析。
最新排名榜,竞争十分热烈:
撤退 o1 满血版暂时还莫得放出 API,手脚小模子的 o1-mini 的泄露最佳,平中分比 o1-preview 还要高 8% 傍边。
开源模子最佳的是Qwen2-MATH-72b,甚而特别了 GPT-4o 的泄露。
总的来说,o1-mini 这种只鄙吝少部分智力、毁掉存储世俗天下常识门道的上风,再次得到考据。
Omni-MATH:难度大、限度广
Omni-MATH 手脚一个数学奥林匹克评测基准,它的本性有三个维度:
东谈主工考据谜底的可靠性:4428 谈评测问题来自不同的数学竞赛和论坛数据,东谈主工参与考据谜底准确性;况且接洽到奥赛难度问题谜底的千般性提供了基于 GPT4o 和评测模子的评价方式,方便一键启动评测。
了了合理的难度分类:评测集全体相比有挑战性,况且难度越过十分大。从奥林匹克权术级别(T4)竞赛 CEMC 到最顶级的奥林匹克数学竞赛(T0)如 IMO、IMC、普特南等等。这些比赛不仅需要选手具备塌实的数学基础,还需要超高的逻辑推贤惠力和创造力。数据披露,唯有少量数才略接近顶尖的东谈主才能在这些比赛中取得优异收货。
题目类型十分广:共有多于 33 个子限度的数学问题。凭证数学限度的本性,团队打造了树状的限度分类,每个题目触及一到多个限度,也便是多条树的旅途,使得咱们大致对模子在千般数学学科和勤恳进程上的泄露进行精细的分析。"
评测集 Omni-MATH 的构造数据构造
接头团队当先对国内海外基本的奥林匹克数学竞赛进行了精细的调研。从中了解到,一个学生从竞赛权术到顶级竞赛,中间要经由层层弃取的。
比如对于英国体系,要经由 JMC → IMC → SMC → BMO 1 → BMO 2 → IMO 通盘一层链路的弃取(这个 IMC ( Intermediate Mathematical Challenge ) 和上述 IMC ( international mathematical competition for university students ) 并不是一个比赛);
关联词在好意思国体系中,要经由 AMC 8 → AMC 10 → AMC 12 → AIME → USA ( J ) MO → IMO 通盘一层体系的弃取。
这启发了团队能否给模子评测雷同也竖立一个这种难度层级的体现。因此接头团队调研了天下边界内不同难度层级的比赛,使得 Omni-MATH 在奥林匹克级别的数学测试中,难度上仍然多元化。
色情小游戏另外皮奥林匹克级别的数学测试中,现实上触及的数学限度詈骂常多的。接头团队接洽到在模子训诲时,不同限度之间的数据是否有会有化学反映,比如限度 A 的数据能否让模子泛化到限度 B 的提高,这种标的的数据工程詈骂常有益旨的。
为了给这个标的的接头打下基础,接头东谈主员参考了关联竞赛教辅书,在这个评测汇聚给数据的限度进行了十分精细的分散,从数学大类上比如数论、代数、几多么等运行,一直到限度底下具体的小限度或者常识点。
评测集数据的起首主要有两个,一个是千般比赛的题目和题解,另外一个是知名数学网站 Art of Problem Solving。对于念念要的比赛,优先从题解中寻找谜底。
要是念念要的比赛并未公开题解,团队从 AoPS 网站的论坛上爬取复兴。接洽到复兴都是确实用户书写,有一定概率是有问题的,需要进行严格的筛选。
接头团队选取了 AoPS 网站上候选的况且谜底规整的数量大于 3 的题目,况且选取了 3 个谜底全部一致的题目手脚最终表率。团队在筛选问题时禁受东谈主工筛选,进一步保证了准确性。
数据措置
数据自身的措置:
在爬取到 PDF 模样的题解后,拓荒者们使用了 Mathpix 将其调度成 Latex 模样手脚题解。在爬取到论坛谜底之后,当先用 GPT-4o 从头 format 陈规整的复兴,之后手动检查是否和本来问题的谜底一致。
对于这两类起首的数据,团队东谈主员终末都是用了东谈主工检查是否和数据源的信息是一致的。
难度分类:
参考了 AoPS 网站中对于题目难度分类的情况。
具体而言,不同级别的比赛题目难度有着本色的不同,比如 CEMC 和 IMO 之间的题目收支十分大,关联词,每个比赛的不同题目也有着不同,比如一次 IMO 比赛中既有简单题也有难题。因此评测集的难度分类严格按照 AoPS 网站上给出的不同比赛的每一皆题的难度总计(从 1 到 10 之间,大多是整数,少数有 .5、.25 这种难度)。
对于网站上未笼罩的内容,团队东谈主员将网页上的内容整理成了 few-shot prompt,并使用了 GPT4o 给题目难度进行了标注。全体难度的散播和不同比赛题方针散播如下:
限度分类:
和传统的数学测试基准的分类不同,在奥数这个难度上的题目触及的限度更多,常识面更广。
为了更好地组织息争起奥数这些题目以及后续的对于数学限度之间数据的议论的探究,团队构建了一个更为全面的树状分类体系。接头团队参考了关联竞赛教辅书,将奥数关联的限度分为了几何、代数、数论、应用数学等等限度,之后从这些限度开拔,继续细分红各个限度的小限度,轻细的常识点。
这种树状分类体系更有助于匡助瓦解不同题目之间的议论,以及模子在不同限度上的泄露。团队将这一树状分类体系手脚模板,并结合竞赛带领书中的实例,构建了 few-shot 的请示(具体的树状结构和请示内容可参考著述末尾的代码仓库)。
随后,团队诳骗 GPT-4o 给每谈题目分类到一到多个类别当中。
开源的谜底考据器
Omni-Judge 是微调 Llama3-Instruct 得到的考据器,用于考据待测的谜底和给定的谜底是否一致。由于数学奥赛级别的题目回答的种类十分丰富,用法律确认注解评测现实上十分勤恳。在赢得模子的估量之后,需要判断模子的输出是否和表率谜底是一致的。在使用 GPT-4o 评测除外,咱们还提供了一种更便捷的评测技术,诳骗了 GPT4o 评测模子时产生的 COT 数据微调 Llama3-Instruct 得到了一个开源的考据器,评测一致率和 GPT-4o 高达 95%。
参考贯穿:
Project Page:https://omni-math.github.io/
Github:https://github.com/KbsdJames/Omni-MATH/
Dataset:https://huggingface.co/datasets/KbsdJames/Omni-MATH/
Omni-Judge:https://huggingface.co/KbsdJames/Omni-Judge/
— 完 —
投稿请发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 样子主页贯穿,以及议论方式哦
咱们会(尽量)实时复兴你
点这里� � 鄙吝我,记起标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿进展日日再会 ~