817样本若何激起模子7倍推感性能,上交大LIMO论文

日期:2025-02-12 08:32 浏览:

OpenAI  o1 系列的推出,正式打响了 LLM 推理才能比赛的第一枪。而在刚从前的 1 月, DeepSeek R1 宣布,机能追平 o1,激发寰球复现怒潮。各至公司、研讨机构纷纭遵守这一范式:用更宏大的数据集,联合更庞杂的强化进修(RL)算法,试图「教会」模子怎样推理。「更年夜即更强」仿佛已成为各人共鸣。但是,近来上海交通年夜学的研讨团队却指出:在数学推理范畴,这种传统认知可能须要从新审阅。他们的研讨 LIMO(Less Is More for Reasoning)标明,仅需 817 条经心计划的练习样本,就能让模子在数学比赛级其余标题上超出以后很多开始进模子 (o1-preivew, QwQ 等),包含应用十万量级高品质数据练习的模子。这一冲破树立在两个要害洞察之上:起首,古代年夜言语模子在预练习阶段曾经积聚了海量数学常识(如 Llama3 仅在数学推理上的练习数据达 3.7T token,而 Llama2 的全体练习数据仅有 1.8T);其次,推理才能的晋升更依附于推理进程的品质而非数据量的堆砌。研讨团队提出,年夜模子的推理才能实质上是「埋伏的」而非「缺掉的」,要害在于怎样无效激活这些才能。试验成果无力支撑了这一实践:在美国数学比赛约请赛(AIME)2024 中,LIMO 的正确率到达 57.1%,明显超出了传统方式;在 10 个差别的多学科多言语基准测试上,它实现了 40.5% 的相对机能晋升。值得一提的是,在刚宣布的 AIME 2025 Part1 中,LIMO 仍然坚持极高的泛化性,获得了 46.7% 的准确率,超越了 o3-mini-low、s1-32B 等模子。研讨还提醒了晋升推理才能的三个要害要素:推理链的品质、成绩的难度档次,以及预练习常识的深度。这一发明不只为 AI 推理才能的冲破供给了新思绪,也将带来更高效的模子练习范式。为了更好的辅助各人懂得 LIMO,呆板之心最新一期线上分享约请到了论文作者叶懿芯以及黄臻,为各人停止深度分析。感兴致的读者,还能够参考呆板之心此前报道《817 样本激起 7 倍推感性能:上交年夜「少等于多」定律挑衅 RL Scaling 范式》懂得更多内容。分享主题:LIMO:八百样本激起强推理才能高朋先容:叶懿芯,上海交通年夜学三年级本科生,创智学院 / 交年夜 GAIR Lab 练习生,导师为刘鹏飞副教学。研讨兴致为年夜言语模子的庞杂推理、基本研讨、预练习及多模态。已在 NeurIPS、ECCV 等顶级国际集会上宣布多篇论文,主导 / 参加了 AIME-Prievew、O1-journey、OlympicArena 等多个开源名目。团体主页:https://bleaves.github.io/黄臻,姑苏年夜学四年级本科生,创智学院 / 交年夜 GAIR Lab 准博士,导师为刘鹏飞副教学。重要研讨偏向为年夜言语模子强推理才能的评价与晋升,包含推理才能评价基准构建、高效数据工程战略以及 inference-time scaling 技巧利用。已在 NeurIPS 等顶级国际集会上以第一作者身份宣布多篇论文,同时主导 / 参加了 OlympicArena、O1-journey 等多个开源名目。团体主页:zhenhuang02.notion.site分享择要:本次分享将具体先容 LIMO 方式怎样经由过程精选的 817 条样本,在数学推理义务上超出主流年夜模子。咱们将深刻探究推理链计划、成绩抉择等要害技巧,以及「少等于多」准则对 AI 开展的深远影响。论文题目:LIMO: Less is More for Reasoning论文地点:https://arxiv.org/pdf/2502.03387代码地点:https://github.com/GAIR-NLP/LIMO数据集地点:https://huggingface.co/datasets/GAIR/LIMO模子地点:https://huggingface.co/GAIR/LIMO直播时光:北京时光 2 月 13 日 19:00-20:00直播预定:本次直播设有 QA 环节,欢送参加本次直播交换群探究交换。

0
首页
电话
短信
联系