當(dāng)前位置：首頁(yè) > 新聞資訊 > ai智能 > 大模型基準(zhǔn)測(cè)試體系研究報(bào)告（2024年） -方升大模型基準(zhǔn)測(cè)試體系

大模型基準(zhǔn)測(cè)試體系研究報(bào)告（2024年） -方升大模型基準(zhǔn)測(cè)試體系

來(lái)源：中國(guó)信息通信研究院編輯：創(chuàng)澤時(shí)間：2024/10/18 主題：其他 [加盟]

近幾年，大模型推動(dòng)人工智能技術(shù)迅猛發(fā)展，極大地拓展了機(jī)器智能的邊界，展現(xiàn)出通用人工智能的“曙光”。如何準(zhǔn)確、客觀、全面衡量當(dāng)前大模型能力，成為產(chǎn)學(xué)研用各界關(guān)注的重要問(wèn)題。設(shè)計(jì)合理的任務(wù)、數(shù)據(jù)集和指標(biāo)，對(duì)大模型進(jìn)行基準(zhǔn)測(cè)試，是定量評(píng)價(jià)大模型技術(shù)水平的主要方式。大模型基準(zhǔn)測(cè)試不僅可以評(píng)估當(dāng)前技術(shù)水平，指引未來(lái)學(xué)術(shù)研究，牽引產(chǎn)品研發(fā)、支撐行業(yè)應(yīng)用，還可以輔助監(jiān)管治理，也有利于增進(jìn)社會(huì)公眾對(duì)人工智能的正確認(rèn)知，是促進(jìn)人工智能技術(shù)產(chǎn)業(yè)發(fā)展的重要抓手。全球主要學(xué)術(shù)機(jī)構(gòu)和頭部企業(yè)都十分重視大模型基準(zhǔn)測(cè)試，陸續(xù)發(fā)布了一系列評(píng)測(cè)數(shù)據(jù)集、框架和結(jié)果榜單，對(duì)于推動(dòng)大模型技術(shù)發(fā)展產(chǎn)生了積極作用。然而，隨著大模型能力不斷增強(qiáng)和行業(yè)賦能逐漸深入，大模型基準(zhǔn)測(cè)試體系還需要與時(shí)俱進(jìn)，不斷完善。

本研究報(bào)告首先回顧了大模型基準(zhǔn)測(cè)試的發(fā)展現(xiàn)狀，對(duì)已發(fā)布的主要大模型評(píng)測(cè)數(shù)據(jù)集、體系和方法進(jìn)行了梳理，分析了當(dāng)前基準(zhǔn)測(cè)試存在的問(wèn)題和挑戰(zhàn)，提出了一套系統(tǒng)化構(gòu)建大模型基準(zhǔn)測(cè)試的框架 —— “方升”大模型基準(zhǔn)測(cè)試體系，介紹了基于“方升”體系初步開(kāi) 展的大模型評(píng)測(cè)情況，并對(duì)未來(lái)大模型基準(zhǔn)測(cè)試的發(fā)展趨勢(shì)進(jìn)行展望。面向未來(lái)，大模型基準(zhǔn)測(cè)試仍存在諸多開(kāi)放性的問(wèn)題，還需要產(chǎn)學(xué)研各界緊密合作，共同建設(shè)大模型基準(zhǔn)測(cè)試標(biāo)準(zhǔn)，為大模型行業(yè)健康有序發(fā)展提供有力支撐

人工智能技術(shù)發(fā)展迅速，大模型、RAG、AGENT、具身智能、 AGI等新概念和新技術(shù)層出不窮。大模型基準(zhǔn)測(cè)試作為研究較為深入的領(lǐng)域，將帶動(dòng)其他新技術(shù)的研究。當(dāng)前雖然 AGI 仍未有明確的定義，但針對(duì) AGI 的探索性評(píng)測(cè)研究已有初步成果。例如微軟發(fā)布論文《通用人工智能的火花：GPT-4 的早期實(shí)驗(yàn)》,通過(guò)數(shù)學(xué)、編程、視覺(jué)、醫(yī)學(xué)、法律、心理學(xué)等復(fù)雜度較高的任務(wù)證明GPT-4已經(jīng)進(jìn)入 AGI 的早期階段。北京通用人工智能研究院發(fā)布《通智測(cè)試：通用人工智能具身物理與社會(huì)測(cè)試評(píng)級(jí)系統(tǒng)》,提出一種基于能力和價(jià)值維度的 AGI 的評(píng)測(cè)方法。中國(guó)科學(xué)院和美國(guó)俄亥俄州立大學(xué)等先后推出AGIBench 和MMMU 評(píng)測(cè)數(shù)據(jù)集，從多模態(tài)、多學(xué)科、多粒度等維度衡量大模型距離AGI 的差距。雖然當(dāng)前AGI 的發(fā)展仍然處于初期階段，但通過(guò)基準(zhǔn)測(cè)試的研究，可以為未來(lái) AGI 的發(fā)展方向提供思路，并對(duì)AGI 的能力進(jìn)行監(jiān)控以指引其正向發(fā)展。

附件：大模型基準(zhǔn)測(cè)試體系研究報(bào)告（2024年） -方升大模型基準(zhǔn)測(cè)試體系