学而思领跑数学大模型竞赛,九章大模型荣登榜首

2024-03-11 来源:网络 阅读:2018

随着大模型技术在数学应用领域的不断深入,其应用场景已经拓展至数学问题解决、数据分析、学术研究及学习辅导等多个层面。目前,无论是通用型还是垂直领域的大模型,均展现出一定的数学能力,但对其能力的精准评估却仍很缺乏。近期,MathEval以数学能力为核心,对30个国内外大模型进行了全面测评。其中,学而思九章、百度文心一言 4.0、讯飞星火 V3.5 三大模型脱颖而出,荣登前三甲。特别值得一提的是,学而思旗下的九章大模型在整体表现及中文、英文、各学段子榜单中均表现卓越,领先优势明显。

在当前的大模型能力评估中,尽管有针对通用能力、推理能力及自然科学能力的评估,但数学能力评估却存在明显的空白。为填补这一空白,MathEval应运而生,旨在提供一个全面、权威的数学能力评估体系,确保大模型的数学能力得到准确评估,为其在数学领域的更广泛应用奠定坚实基础。

MathEval由智慧教育国家新一代人工智能开放创新平台携手暨南大学、北京师范大学、华东师范大学、西安交通大学、香港城市大学等高校共同打造。该平台专注于大模型数学能力的全面测评,从算术到小初高竞赛,再到部分高等数学分支等领域,均进行了深入评估。截至目前,MathEval已纳入19个广泛应用的数学能力测评数据集,这些数据集来源广泛,涵盖了不同年级、题型、文本形式和难度的数学问题,为提供全面、准确的数学能力测评结果提供了有力支撑。

值得一提的是,在最新一轮的测评中,MathEval向30个大模型发起了挑战。在测评过程中,MathEval团队巧妙地运用了GPT4大模型,有效降低了传统评测方法可能带来的误差。最终结果显示,学而思九章大模型在整体榜单及各个子榜单中均名列第一。

据了解,九章大模型是学而思自主研发的专业大模型,旨在为全球数学爱好者和科研机构提供优质的解题和讲题算法。学而思在相关研发上的投入已累计超过10亿元。作为少数专注于解题和讲题算法的大模型之一,九章大模型所取得的优异成绩可谓实至名归。

这一成果的取得,不仅彰显了学而思在人工智能领域的技术实力,也进一步推动了数学应用领域的发展。随着学而思九章大模型等优秀大模型的不断涌现和应用,相信未来大模型的数学应用领域将迎来更加广阔的前景和更多的创新突破。


延伸 · 阅读