检验大模型数学推理能力,司南发布全新评测指标与评测集

检验大模型数学推理能力,司南发布全新评测指标与评测集

撒贝宁 2025-01-03 财经报 594 次浏览 0个评论
近日,大模型开放评测体系司南(OpenCompass)推出评测指标G-Pass@k及数学评测集LiveMathBench,旨在检验大模型的数学推理能力,加速大模型在高难度推理场景中的落地应用。基于最新提出的评测集及指标,OpenCompas

转载请注明来自西安伦宇商贸,本文标题:《检验大模型数学推理能力,司南发布全新评测指标与评测集》

每一天,每一秒,你所做的决定都会改变你的人生!