




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
中文大模型基準(zhǔn)測評2025年上半年報告——2025年中文大模型階段性進(jìn)展半年度評估SuperCLUE團(tuán)隊2025.08.04精準(zhǔn)量化通用人工智能(AGI)進(jìn)展,定義人類邁向AGI的路線圖AccuratelyQuantifyingtheProgressofAGI,DefiningtheRoadmapforHumanity'sJourneytowardsAGI.報告報告目錄一、2025年上半年關(guān)鍵進(jìn)展及趨勢1.2025年上半年大模型關(guān)鍵進(jìn)展2.2025年最值得關(guān)注的中文大模型及智能體全景圖3.2025年國內(nèi)外大模型差距4.近一年SuperCLUE通用基準(zhǔn)測評開閉源模型最好成績對比二、七月通用測評介紹1.SuperCLUE基準(zhǔn)介紹2.SuperCLUE大模型綜合測評體系3.SuperCLUE通用測評基準(zhǔn)數(shù)據(jù)集及評價方式4.各維度測評說明及示例5.測評模型列表三、總體測評結(jié)果與分析2.SuperCLUE通用能力測評榜單3.SuperCLUE性價比區(qū)間分布4.SuperCLUE大模型綜合效能區(qū)間分布5.代表性模型分析6.國內(nèi)大模型成熟度-SC成熟度指數(shù)7.評測與人類一致性驗證四、專項測評基準(zhǔn)介紹1.Agent系列基準(zhǔn)介紹2.多模態(tài)系列基準(zhǔn)介紹3.文本系列基準(zhǔn)介紹4.推理系列基準(zhǔn)介紹5.性能系列基準(zhǔn)介紹SuperCLUE全球大模型中文綜合能力排行榜(2025年7月)幻覺控制、精確指令遵循。題目量為1288道新題,最終得分取各任務(wù)平均分。3?o3以73.78的總分取得總榜第一,領(lǐng)跑全球。海外頭部模型o3、o4-mini(high)和Gemini-2.5-Pro在本次七月通用基準(zhǔn)測評中取得了73.78分、73.32分和68.98分的總成績,分別位于榜單前三。Doubao-Seed-1.6-thinking-?國內(nèi)外頭部模型之間的差異較大,海外模型在推理任務(wù)上的優(yōu)勢尤其明顯。海外模型在推理任務(wù)上的優(yōu)勢尤其顯著,o3和o4-mini(high)在推理任務(wù)上分別取得了75.02和72.68的分?jǐn)?shù),領(lǐng)跑推理任務(wù)榜單。國內(nèi)推理任務(wù)成績最好的模型分別是DeepSeek-R1-0528和Doubao-Seed-1.6-thinking-250715,均有超過65分的表現(xiàn),但與?國內(nèi)開源模型相較于海外開源模型優(yōu)勢顯著。DeepSeek-R1-0528、Qwen3-235B-A22B-Thinking-2507和GLM-4.5分別以66.15分、64.34分和63.25分取得了開源榜單的前三名,海外開源模型最好成績僅有46.37分,與國?國內(nèi)大模型在智能體Agent和幻覺控制任務(wù)上的表現(xiàn)良好。在智能體Agent任務(wù)上,Doubao-Seed-1.6-thinking-250715以90.67分領(lǐng)跑全球,GLM-4.5和SenseNovaV6Reasoner以83.58分并列國內(nèi)第二。在幻覺控制任務(wù)上,Doubao-Seed-1.6-thinking-250715、ERNIE-X1-Turbo-32K-Preview和Hunyuan-T1-20250711分?Qwen3系列的開源小參數(shù)量模型表現(xiàn)亮眼。4Qwen3系列的多款開源小參數(shù)量模型展現(xiàn)出驚人潛力。其中8B、4B和1.7B版本分別在10B級別和端側(cè)5B級別的榜單中遙遙領(lǐng)先。4大模型性價比區(qū)間分布數(shù)據(jù)來源:SuperCLUE,2025年7月31日;開源模型如Qwen3-235B-A22B(Thinking)使用方式為API,價格信息均來自官方信息。部分模型API的價格是分別基于輸入和輸出的tokens數(shù)量確定的。這里我們依照輸入tokens與輸出tokens3:1的比例來估算其整體價格。價格信息取自官方在7月的標(biāo)準(zhǔn)價格(非優(yōu)惠價格)。推理模型推理效能區(qū)間分布數(shù)據(jù)來源:SuperCLUE,2025年7月31日;模型推理速度選取7月測評中具有公開API的模型。平均推理時間為所有測評數(shù)據(jù)推理時間的平均值(秒)。推理任務(wù)得分為推理任務(wù)總分:數(shù)學(xué)推理、科學(xué)推理和代碼生成的平均分。5第一部分2025年上半年關(guān)鍵進(jìn)展及趨勢1.2025年上半年大模型關(guān)鍵進(jìn)展2.2025年最值得關(guān)注的中文大模型及智能體全景圖3.2025年國內(nèi)外大模型差距4.近一年SuperCLUE通用基準(zhǔn)測評開閉源模型最好成績對比72025年上半年大模型關(guān)鍵進(jìn)展突破。具體可分為:技術(shù)引爆與生態(tài)構(gòu)建期、多模態(tài)與深度推理拓展期、智能體崛起與AGI探索期?!penAI發(fā)布ChatGPT及GPT-4,迅速點燃全球?qū)Υ竽P偷年P(guān)注并成為現(xiàn)象級應(yīng)用;·Meta開源Llama2,激活開發(fā)者生態(tài),降低技術(shù)門檻,推動全球長尾創(chuàng)新;·中國首批大模型集中亮相。百度文心一言1.0、阿里通義千問、訊飛星火V1.0、360智腦、ChatGLM系列等快速響應(yīng),標(biāo)志著中國進(jìn)入核心競爭梯隊;·中國開源模型爆發(fā)。百川Baichuan-7B、智譜ChatGLM2、通義千問Qwen等形成“模型矩陣”,加速技術(shù)民主化?!penAI發(fā)布Sora,實現(xiàn)高質(zhì)量時序連貫視頻生成,引發(fā)全球視頻AIGC創(chuàng)業(yè)潮;·OpenAIo1系列引入“慢思考”機(jī)制,AI大模型的發(fā)展重心進(jìn)一步深化,開始攻克更復(fù)雜的推理和邏輯思考難題;·國內(nèi)多模態(tài)領(lǐng)域快速跟進(jìn)與創(chuàng)新,并在部分領(lǐng)域領(lǐng)先海外。可靈AI、Vidu、Pixverse、海螺視頻等視頻生成模型陸續(xù)發(fā)布,并在海外取得較大的應(yīng)用進(jìn)展;·國內(nèi)推理模型集中涌現(xiàn)。k0-math、DeepSeek-R1-Lite、QwQ-32B-Preview、GLM-Zero-Preview等,力求在這些高價值場景取得突破?!ろ敿壌竽P湍芰Τ掷m(xù)突破,性能與效率并進(jìn)。o3、o4系列、Gemini2.5系列、Claude4系列、Grok4等頂級模型發(fā)布,進(jìn)一步提升了推理的深度、準(zhǔn)確性和可靠性,模型的工具調(diào)用能力也提升明顯;·Monica.im發(fā)布全球首款通用型AIAgent:Manus爆火出圈,成為AI領(lǐng)域的重大突破;·國內(nèi)AI智能體潛力被深度挖掘,大量AIAgent產(chǎn)品涌現(xiàn)。比如AutoGLM、OpenManus、扣子空間、納米AI超級搜索智能體、心流AI助手、天工超級智能體、MiniMaxAgent、心響·國內(nèi)模型加速迭代與開源,國內(nèi)外差距動態(tài)變化。DeepSeek-R1以開源、高性價比以及媲美同期頂級閉源模型的特點引爆全球;Kimi-k2、MiniMax-M1、GLM-4.5等廠商繼續(xù)開源新模型,縮小國內(nèi)外差距。2022.12醫(yī)療易車大模型醫(yī)療易車大模型深度研究DeepResearch極氪Kr大模型BA醫(yī)聯(lián)MedGPT通用開源GLM-4.5Hunyuan-LargeERNIE-4.5K2推理DeepSeek-R1K1.5長思考pstepR-mini文心X1TurboGLM-4.5實時交互智譜清言文/圖生視頻訊飛語音合成百度TTSCosyVoiceSpeech-02視覺理解QvQ-MaxSenseChat-Vision文生圖工業(yè)奇智孔明AInno-15B華為盤古工業(yè)大模型羚羊工業(yè)大模型金融螞蟻金融大模型妙想金融大模型教育金融螞蟻金融大模型妙想金融大模型教育法律得理法搜得理法搜通用閉源通用閉源心流通用開源JoyAgent-JDGenie通用開源JoyAgent-JDGenie深入研究深入研究Kimi-Researcher深入研究深入研究Kimi-Researcher2025年國內(nèi)外大模型差距總體趨勢上,國內(nèi)外第一梯隊大模型在中文領(lǐng)域的通用能力差距正在縮小。2023年5月至今,國內(nèi)外大模型能力持續(xù)發(fā)展。其中GPT系列模型為代表的海外周期。本次測評我們可以發(fā)現(xiàn)國內(nèi)外第一梯隊的大模型從2025年5月通用基準(zhǔn)測評10.42%的差距縮小到7.78%。SuperCLUE17次大模型通用基準(zhǔn)測評國內(nèi)外頂尖模型成績匯總2025年7月73.7868.049近一年SuperCLUE通用基準(zhǔn)測評開閉源模型最好成績對比在近一年的七次SuperCLUE通用基準(zhǔn)測評中,閉源模型與開源模型的TOP1性能差距呈現(xiàn)出動態(tài)變化趨勢。2024年下半年,隨著o1系列閉源模型的推出,兩者性能差距呈現(xiàn)擴(kuò)大態(tài)勢。這一趨勢在2025年初迎來轉(zhuǎn)折,DeepSeek-R1開源模型的發(fā)布顯著縮小了開閉源模型之間的性能差距。接著OpenAI相繼推出o3、o4系列閉源模型,將開閉源模型之間的差距再次拉大。DeepSeek-R1-0528的發(fā)布又將開閉源模型之間的差距縮小。第二部分七月通用測評介紹1.SuperCLUE基準(zhǔn)介紹2.SuperCLUE大模型綜合測評體系3.SuperCLUE通用測評基準(zhǔn)數(shù)據(jù)集及評價方式4.各維度測評說明及示例5.測評模型列表SuperCLUE基準(zhǔn)介紹基準(zhǔn)發(fā)布基準(zhǔn)發(fā)布◆》》聯(lián)合西湖大學(xué)發(fā)發(fā)布SimCLUE大規(guī)模中文語義理解數(shù)據(jù)集聯(lián)合西湖大學(xué)發(fā)發(fā)布SimCLUE大規(guī)模中文語義理解數(shù)據(jù)集評基準(zhǔn);生圖、視覺理解等多模態(tài)測評基準(zhǔn)發(fā)布AI編程助手等AI應(yīng)用測評基準(zhǔn);發(fā)布鏈?zhǔn)酵评淼韧评頊y評基準(zhǔn);發(fā)布多輪可執(zhí)行智能體發(fā)布多篇頂會論文,并承辦開放測評任務(wù)FewCLUE、ZeroCLUE等測評基準(zhǔn)發(fā)布發(fā)布首個中文多輪開放式測評基準(zhǔn)發(fā)布行業(yè)測評基準(zhǔn)發(fā)布幻覺測評系列基準(zhǔn);發(fā)布文/圖生視頻、文生圖、實時音視頻、視覺推理等多模態(tài)測評基準(zhǔn);發(fā)布深度研究、精確指令遵循等測評基準(zhǔn) VSSupe“Live”更新,0數(shù)據(jù)污染“Live”更新,0數(shù)據(jù)污染測評題庫每2個月100%替換且全部原創(chuàng),杜絕過擬合風(fēng)險。體系維度根據(jù)大模型進(jìn)展Live更新。測評方法與用戶交互方式保持一致,測評方法與用戶交互方式保持一致,測評任務(wù)貼近真實落地場景,高度還原用戶視角。測評方式與用戶交互一致測評方式與用戶交互一致\\獨立第三方,無自家模型\\獨立第三方,無自家模型諾提供無偏倚的客觀、中立評測結(jié)果。SuperCLUE大模型綜合測評體系重要參考。所有基準(zhǔn)將在本報告的第四部分進(jìn)行詳細(xì)介紹。SuperCLUE大模型綜合測評基準(zhǔn)框架已發(fā)布即將發(fā)布Agent系列基準(zhǔn)Agent系列基準(zhǔn)AgentCLUE-GeneralAgentCLUE-tGeneralAgentCLUEAI應(yīng)用系列基準(zhǔn)AI應(yīng)用系列基準(zhǔn)AIAI產(chǎn)品AI搜索SuperCLUE通用測評基準(zhǔn)數(shù)據(jù)集及評價方式本次2025年上半年度報告聚焦通用能力測評,由六大維度構(gòu)成。題目均為原創(chuàng)新題,總量為1288道簡答題。SuperCLUE-7月通用基準(zhǔn)數(shù)據(jù)集及評價方式介紹:主要考察模型運(yùn)用數(shù)學(xué)概念和邏輯進(jìn)行多步推理和問題解答的能力。包括但不限于幾何學(xué)、代數(shù)學(xué)、概率論與數(shù)理統(tǒng)計等競賽級別數(shù)據(jù)集。評價方式:基于人工校驗參考答案的評估(0-1得分)2.科學(xué)推理介紹:主要考察模型在跨學(xué)科背景下理解和推導(dǎo)因果關(guān)系的能力。包括物理、化學(xué)、生物等在內(nèi)的研究生級別科學(xué)數(shù)據(jù)集。評價方式:基于人工校驗參考答案的評估(0-1得分)3.代碼生成介紹:該任務(wù)分為兩大類型:一是獨立功能函數(shù)生成,生成覆蓋數(shù)據(jù)結(jié)構(gòu)、算法等領(lǐng)域的獨立函數(shù)。二是Web應(yīng)用生成,要求模型構(gòu)建旅游訂票、電商、社交媒體等完整的交互式網(wǎng)站。評價方式:通過單元測試進(jìn)行0/1評分(獨立功能函數(shù)生成);通過模擬用戶交互的功能測試進(jìn)行0/1評分(Web應(yīng)用生成)4.智能體Agent介紹:主要考察在中文場景下基于可執(zhí)行的環(huán)境,LLM作為執(zhí)行代理在對話中調(diào)用工具完成任務(wù)的能力。包括單輪對話和多輪對話。涉及的中文場景包括但不限于汽車控制、股票交易、智能家居、旅行規(guī)劃等10余個場景。評價方式:結(jié)合任務(wù)完成與否、系統(tǒng)狀態(tài)比對的評估(0-1得分)5.精確指令遵循介紹:主要考察模型的指令遵循能力,包括但不限于定義的輸出格式或標(biāo)準(zhǔn)來生成響應(yīng),精確地呈現(xiàn)要求的數(shù)據(jù)和信息。涉及的中文場景包括但不限于結(jié)構(gòu)約束、量化約束、語義約束、復(fù)合約束等不少于4個場景。評價方式:基于規(guī)則腳本的評估(0-1得分)6.幻覺控制介紹:主要考察模型在執(zhí)行中文生成任務(wù)時應(yīng)對忠實性幻覺的能力。包括但不限于文本摘要、閱讀理解、多文本問答和對話補(bǔ)全等基礎(chǔ)語義理解與生成創(chuàng)作數(shù)據(jù)集。評價方式:基于人工校驗參考答案的、對每個句子進(jìn)行二元判定的評估各維度測評說明及示例——數(shù)學(xué)推理測評說明SuperCLUE—數(shù)學(xué)推理評測數(shù)據(jù)集數(shù)學(xué)推理主要考察模型運(yùn)用數(shù)學(xué)概念和邏輯進(jìn)行多步推理和問題解答的能力。包括但不限于幾何學(xué)、代數(shù)學(xué)、概率論與數(shù)理統(tǒng)計等競賽級別數(shù)據(jù)集。測評方法評測流程:我們采用模型評價的方式來評估大模型在【數(shù)學(xué)推理】任務(wù)上的表現(xiàn),使用高級模型(如gpt4o)判斷其回答中的最終答案和參考答案是否相符,以確認(rèn)大模型在一道問題上的正確率(正確或錯以【代數(shù)學(xué)】任務(wù)為例,假設(shè)在一個具體的題目中,模型A的最終答案與參考答案等價,則該題目的具體得分為1分;反之,假設(shè)在另一個具體的題目中,模型A的最終答案與參考示例—數(shù)學(xué)推理問題:模型回答:評價打分:各維度測評說明及示例——科學(xué)推理測評說明SuperCLUE—科學(xué)推理評測數(shù)據(jù)集示例—科學(xué)推理科學(xué)推理等在內(nèi)的研究生級別科學(xué)數(shù)據(jù)集。模型回答:測評方法評測流程:評價打分:我們采用模型評價的方式來評估大模型在【科學(xué)推理】任務(wù)上的表現(xiàn),使用高級模型(如gpt4o)判斷其回答中的最終答案和參考答案是否相符,以確認(rèn)大模型在一道問題上的正確率(正確或錯評價打分:以【物理】任務(wù)為例,假設(shè)在一個具體的題目中,模型A的最終答案與參考答案等價,則該題目各維度測評說明及示例——代碼生成測評說明SuperCLUE—代碼生成評測數(shù)據(jù)集代碼生成該任務(wù)分為兩大類型:一是獨立功能函數(shù)生成,生成覆蓋數(shù)據(jù)結(jié)構(gòu)、算法等領(lǐng)域的獨立函數(shù)。二是Web應(yīng)用生成,要求模型構(gòu)建旅游訂票、電商、社交媒體等完整的交互式網(wǎng)站。測評方法一、代碼生成評測流程:使用特定的prompt要求模型按照特定格式回答,以方便后續(xù)提取。對于一2.提取功能函數(shù):對于一個代碼補(bǔ)全問題,將提取得到的代碼和該問題對應(yīng)的N個測試用例組裝成N個可獨立運(yùn)行4.計算模型得分:對于一個代碼補(bǔ)全問題和1個測試用例,構(gòu)成一個單元測試二、Web應(yīng)用生成評測流程:示例—代碼生成問題:fromtypingimportList,Dicdeftask_func(movies:Dict[str,Tuple[int,str]],rooms:int,genre_conflicts:Dict[str,List[str]],operating_hours:Tuple[int,int])一家電影院需要為一個電影節(jié)排期,目標(biāo)是在有限的運(yùn)營時間內(nèi),放映盡可能多影院有多間放映廳,排期時必須遵守以<篇幅有限省略>operating_hours(Tuple[int,int]):一個元組,表示影院的開始和結(jié)束運(yùn)營時間(24小模型回答:fromtypingimportList,Dicdeftask_func(movies:Dict[str,Tuple[int,str]],rooms:int,genre_conflicts:Dict[str,List[str]],operating_<篇幅有限省略>ifnotconflict:room_schedules[room_idx].append((start_time,breakifscheduled:breakreturnscheduled_coudefcheck(candidate):assertcandidate({"X":(100,"A"),"Y":(100,"B"),"Z":(100,"C"),"W":(100,"D"),},2,{"A":["B"],"B":各維度測評說明及示例——智能體Agent測評說明SuperCLUE—智能體Agent數(shù)據(jù)集智能體Agent主要考察在中文場景下基于可執(zhí)行的環(huán)境,LLM作為執(zhí)行代理在對話中調(diào)用工具完股票交易、智能家居、旅行規(guī)劃等10余個場景。測評方法評測流程:我們將模型回復(fù)的函數(shù)調(diào)用進(jìn)行實際執(zhí)行后判定是如果執(zhí)行結(jié)果集2是執(zhí)行結(jié)果集1的子集,系統(tǒng)狀態(tài)1和系統(tǒng)狀態(tài)2相同則認(rèn)為模模型得分=(答對的記分單元數(shù)量/記分單示例—智能體Agent股票交易系統(tǒng):該工具屬于股票交易系統(tǒng),該系統(tǒng)允許用戶交易股票,管理智能視頻播放系統(tǒng):該工具屬于智能視頻播放系統(tǒng),該系統(tǒng)允許用戶對短視prompt:你是一個組合函數(shù)完成任務(wù)的專家。你將會收到一個問題和一些可以調(diào)用的函數(shù)及其描述對于問題中的計算需求,你必須調(diào)用提供的函數(shù)如果使用你收到的函數(shù)無法完成問題要求,請指出。如果你收到的問題缺乏調(diào)用函數(shù)所必要的參數(shù)<篇幅有限省略>下面提供了一個列表,列表中是一些你可以調(diào)用的函數(shù)以及函數(shù)的功能和參數(shù)描述,使用【問題】:我想登錄我的股票賬戶,用戶名是“investor_完成,你可以停止回復(fù)函數(shù)調(diào)用,根據(jù)執(zhí)行結(jié)果回答用戶的問題。如果沒有完成任第1個函數(shù)調(diào)用:trading_login(username='investor_jane',password='securepas第2個函數(shù)調(diào)用:log_in(username='lihua',password='passwor第3個函數(shù)調(diào)用:get_stock_info(symbol='AAPL'),執(zhí)行返回結(jié)果為:{"price":第4個函數(shù)調(diào)用:find_video_by_注意:一旦你決定進(jìn)行函數(shù)調(diào)用,你的回復(fù)中只能包括函數(shù)調(diào)用,并且你回復(fù)的所有內(nèi)容(functioncalls)必須嚴(yán)格遵循以下格式給各維度測評說明及示例——精確指令遵循測評說明SuperCLUE—精確指令遵循數(shù)據(jù)集精確指令遵循主要考察模型的指令遵循能力,包括但不限于定義的輸出格式或標(biāo)準(zhǔn)來生成響應(yīng),語義約束、復(fù)合約束等不少于4個場景。測評方法評測流程:以【寫一篇關(guān)于可再生能源對減少碳排放的作用的短文。要求文章不得使用“二氧化碳”這個詞,字?jǐn)?shù)不少于10設(shè)定的評價標(biāo)準(zhǔn)包括:遵循關(guān)鍵詞限制、符合字?jǐn)?shù)要求、輸出格式正確。模型只有在命中所有指令的條件下會最后,我們將所有題目的評估結(jié)果進(jìn)行匯總,根據(jù)模型完全命中的題目數(shù)量計算模型的最終命中率,命中率以示例—精確指令遵循多社區(qū)開始嘗試在空置用地和閑置場所中建設(shè)需求。請根據(jù)以上背景信息,撰寫一份城市社區(qū)共享花園的設(shè)計與維護(hù)方案。要求文章以“經(jīng)過深入分析,”開頭。請在回復(fù)中詳細(xì)解釋并列出其中三種主要部分,使用“&功能分區(qū)&”、&”和“&可行性評估&”作為主要部分的占位符。請確保文章恰好由11個句子(句子用中文句號模型回答:經(jīng)過深入分析,社區(qū)共享花園的建設(shè)應(yīng)結(jié)合現(xiàn)有空地、居民需求和管理模式進(jìn)行統(tǒng)&功能分區(qū)&部分包括兒童游樂區(qū)、社區(qū)農(nóng)場區(qū)、休憩漫步區(qū)和公共活動區(qū),并需考慮無障礙通&生態(tài)益處&主要體現(xiàn)在改善小氣候、增加生物多樣性、雨設(shè)計階段應(yīng)關(guān)注土壤改良方案、水源灌溉系統(tǒng)、植被配置本維護(hù)融入定期巡檢、輪值制度、智能監(jiān)測和社植物種植計劃可采用輪作與間作方法,減少項目實施后需定期評估社會效益與環(huán)境影響,并舉辦季節(jié)性主題活動與培訓(xùn)能夠增強(qiáng)居民歸屬感,確評價打分:各維度測評說明及示例——幻覺控制測評說明SuperCLUE—幻覺控制數(shù)據(jù)集幻覺控制摘要、閱讀理解、多文本問答和對話補(bǔ)全等基礎(chǔ)語義理解與生成創(chuàng)作數(shù)據(jù)集。測評方法評測流程:我們采用高級AI模型(例如GPT-4o)三階段自動化評估方法來評估不同任c)分?jǐn)?shù)聚合階段:單題得分(范圍0-1分)=無幻覺句子數(shù)量/總句子比如:模型對于某個題目的回復(fù)存在10個句子0分,其他7個句子不存在幻覺,這7個句子的得分都為1分。那么模型在此題上的得分為:示例—幻覺控制外人眼中的茶飲生意,是窗明幾凈的,是香甜的,美好的,帶著閑情逸致的。而真正的茶飲從業(yè)者,往往忙到?jīng)]有時間坐下來休息,點單、調(diào)飲、報貨、管理、運(yùn)營、盤點,生意的奧秘蘊(yùn)藏在無數(shù)細(xì)節(jié)與琢磨之中。<篇幅有限省略>剛開業(yè)那三天,她生意還不錯,因為做了買一送一的活動,每天的流水有2000多元,當(dāng)時公司派了兩個人支援,加上她和丈夫兩個人,四個人忙得飯都顧不上吃,等到買只賣出了54杯飲品,流水大約300多元。<篇幅有模型回答:【茶飲行業(yè)背后的奮斗者:古茗加盟商群像觀察】茶飲行業(yè)表面光鮮,實則充滿艱辛。從業(yè)者需面對點單、調(diào)飲、運(yùn)營等繁瑣工作,真正的成功源于年<篇幅有限省略>1.**選址智慧**:周勇初期誤選廁所旁店鋪,經(jīng)總部指導(dǎo)后在無錫利港鎮(zhèn)開首家店,經(jīng)歷月流水300評價打分:茶飲行業(yè)表面光鮮,實則充滿艱辛。;評價:AI助手的回答片段準(zhǔn)確地捕捉到了原文對于茶飲行業(yè)外部觀感與實際情況存在落差的描述,內(nèi)容與原文高度AI助手提供的這個回答片段準(zhǔn)確地概括了文本中關(guān)于茶飲從業(yè)者工作內(nèi)容艱辛和成功需要長期努力打磨細(xì)節(jié)的描述。片段內(nèi)容與原文一致,信息準(zhǔn)確。+[[1]<篇幅有限省略>1.**選址智慧**:周勇初期誤選廁所旁店鋪,經(jīng)總部指導(dǎo)后在無錫利港鎮(zhèn)開首家店,經(jīng)歷月流水300元的至暗時刻;海瑞雪通過學(xué)生卡+明星海報精準(zhǔn)獲客。;評價:AI助手的回答片段對周勇和海瑞雪的早期創(chuàng)業(yè)經(jīng)歷進(jìn)行了總結(jié),提到了周勇選址的考慮和海瑞雪的獲客方式。然而,在描述周勇的流水時出現(xiàn)了事實性錯誤。+[[0]]}<篇幅有限省略>綜合以上,AI助手的回答共有14個句子,其中4個句子存在幻覺,10個句子不存在幻覺,因此本題的測評模型列表本次測評數(shù)據(jù)選取了SuperCLUE-7月測評結(jié)果,模型選取了國內(nèi)外有代表性的45個大模型在7月份的版本。模型機(jī)構(gòu)簡介模型機(jī)構(gòu)簡介///第三部分總體測評結(jié)果與分析1.SuperCLUE模型象限(202507)2.SuperCLUE通用能力測評榜單3.SuperCLUE性價比區(qū)間分布4.SuperCLUE大模型綜合效能區(qū)間分布5.代表性模型分析6.國內(nèi)大模型成熟度-SC成熟度指數(shù)7.評測與人類一致性驗證SuperCLUE模型象限(202507)SuperCLUE模型象限(202507)●DeepSeek-R1-0528(深度求索)GLM-4.5(智譜AI)GLM-4.5(智譜AI)Qwen3-235B-A22B-InstructDeepSeek-V3-0324(深度求索)●Step-2-16k(階躍星辰)●●Llama-4-Maverick-17B-128E-Instruct-FP8(Meta)●推理能力SuperCLUE通用能力測評榜單——總榜SuperCLUE通用大模型基準(zhǔn)測評七月總榜國內(nèi)模型海外及其他對比模型SuperCLUE通用能力測評榜單——總榜 測評分析1.1.國內(nèi)外頭部模型競爭激烈,海外模型暫時領(lǐng)先。大模型的強(qiáng)大實力和快速發(fā)展勢頭。此外,Qwen3-235B-A22B-Thinking-2507、2.2.國產(chǎn)開源模型崛起勢頭強(qiáng)勁。如Qwen3-235B-A22B-Thinking-2507和kimi-k2-0711-preview在代碼生成任務(wù)分3.3.國產(chǎn)大模型在智能體Agent和幻覺控制任務(wù)上的表現(xiàn)良好,但在推理任務(wù)上稍有遜色。Doubao-Seed-1.6-thinking-250715、ERNIE-X1-Turbo-32K-Preview和Hunyuan-SuperCLUE通用能力測評榜單——智能體Agent任務(wù)榜單SuperCLUE-智能體Agent任務(wù)榜單測評分析1.國內(nèi)多款大模型在智能體測評中表現(xiàn)亮眼,趕超國外主流模型。Doubao-Seed-1.6-thinkinReasoner、Qwen3-235B-A22B(Thinking)的得分均已超越Gemini-2.5-Pro,且接近grok-4。2.模型得分隨任務(wù)復(fù)雜度上升而降低。在智能體Agent任務(wù)中,隨著交互輪次和交互步數(shù)的增加,模型的工均得分均在50分以上,而輪數(shù)為4輪時,模型在該輪的平均得分僅有分也呈現(xiàn)逐漸下降的趨勢。智能體Agent任務(wù)不同輪數(shù)平均得分智能體Agent任務(wù)不同步數(shù)平均得分SuperCLUE通用能力測評榜單——幻覺控制任務(wù)榜單 SuperCLUE-幻覺控制任務(wù)榜單測評分析1.1.國內(nèi)外頭部模型差距在幻覺控制任務(wù)上差距較小。國外頭部模型Claude-Opus-4-Reasoning以90.24分的高分位ERNIE-X1-Turbo-32K-Preview、HunStep-2-16k均有超過海外頂尖模型Gemini-2.5-Pro的表現(xiàn)。2.2.任務(wù)開放性越高,模型的幻覺越嚴(yán)重。對于幻覺控制任務(wù)中的不同類別,模型的平均得分差異顯著:文加,模型的平均得分相對較低。任務(wù)開放性與幻覺率呈現(xiàn)出一定的相關(guān)性?;糜X控制任務(wù)各類別平均得分SuperCLUE通用能力測評榜單——代碼生成任務(wù)榜單測評分析 SuperCLUE-代碼生成任務(wù)榜單測評分析1.海外頭部模型相較國產(chǎn)模型在代碼生成任務(wù)上有一定的優(yōu)勢。在代碼生成任務(wù)榜單中,前五名有4個海外模型,僅有一個國產(chǎn)Gemini-2.5-Pro和grok-4三個海外模型占據(jù)代碼生成任務(wù)榜單2.開源模型與閉源模型差距顯著。外,在該任務(wù)上的前5名均為閉源模型,說明當(dāng)前閉源模型在代碼生成能力上仍占據(jù)明顯的優(yōu)勢,而開源上還有一定的優(yōu)化空間。代碼生成任務(wù)開閉源模型平均得分SuperCLUE通用能力測評榜單——基礎(chǔ)模型榜單 測評分析1.1.國內(nèi)基礎(chǔ)模型整體表現(xiàn)優(yōu)于國外。國內(nèi)大模型Qwen3-235B-A22B-Instruct2.2.關(guān)鍵領(lǐng)域國內(nèi)模型優(yōu)勢顯著。3.3.國內(nèi)模型部分任務(wù)仍需優(yōu)化。雖然國內(nèi)大模型Qwen3-235B-A22B-Instruct-2507、DeepSeek-V3-0324、智能體Agent和幻覺控制任務(wù)中,均不同程度落后于國外表現(xiàn)最好的ChatGPT-4o-latest。SuperCLUE通用能力測評榜單——推理模型榜單SuperCLUE-推理模型榜單測評分析1.國際頭部模型領(lǐng)跑,國內(nèi)模型緊追不舍。不舍,但仍存在一定差距,清晰呈現(xiàn)出推理模型領(lǐng)域“國際頭部領(lǐng)跑,國內(nèi)奮力追趕”的梯隊格局。2.國產(chǎn)模型亮點紛呈,部分領(lǐng)域接近國際頂尖水平。3.各維度能力發(fā)展不均衡。從各模型在不同維度的得分來看,能力發(fā)展不均衡現(xiàn)象明顯。如代碼生成維度,DeepSeek-V3-0324得分84.81,而部分模型得分較低,差距巨大。在精確指令遵循維度,模型間分?jǐn)?shù)差異也較為顯著。這種不均衡體現(xiàn)了不同模型在能力側(cè)重上的差異,也反映出大模型在追求綜合能力提升時,仍面臨各維度能力協(xié)調(diào)發(fā)展的挑戰(zhàn)。SuperCLUE通用能力測評榜單——開源模型榜單SuperCLUE-開源榜單測評分析1.國內(nèi)開源模型主導(dǎo)地位凸顯。首;阿里旗下多款Qwen3系列模型表現(xiàn)亮眼,其中Qwen3-235B-A22B-Thinking-2507、Qwen3-235B-A22B-Instruct-25072.機(jī)構(gòu)競爭格局呈現(xiàn)多元態(tài)勢。阿里在開源模型領(lǐng)域的布局成果顯著,多款Qwen3系列模型3.模型專項能力各有突出側(cè)重。外開源模型;Qwen3-235B-A22B-Thinking-2507則在代碼生成和精確指令遵循任競爭特征明顯。SuperCLUE通用能力測評榜單——推理任務(wù)榜單 測評分析1.1.榜單前三均為海外頭部模型,優(yōu)勢顯著。2.2.國內(nèi)頭部模型在推理任務(wù)上競爭激烈,推理能力差距較小。在推理任務(wù)榜單中,DeepSeek-R1和Doubao-Seed-1.6-thinking-250715獲得金牌,Instruct-2507和SenseNovaV6Reasoner獲得銅牌,極差不到5分,國內(nèi)頭部模型的推理能力差距較小。3.3.國內(nèi)開源模型的推理能力顯著優(yōu)于海外開源模型。SuperCLUE通用能力測評榜單——10B級別小模型榜單 SuperCLUE-10B級別小模型榜單 測評分析 1.Qwen3-8B(Thinking)領(lǐng)跑國內(nèi)10B級小模型。有認(rèn)知。2.2.任務(wù)表現(xiàn)分化顯著,小模型“長短板”特征直觀顯現(xiàn)。4B(Thinking)在幻覺控制任務(wù)中能取得66.23分的優(yōu)在任務(wù)適配能力上的“長短板”特征。3.3.國內(nèi)頭部小模型大幅領(lǐng)先國外競品。國內(nèi)頭部小模型表現(xiàn)搶眼,包攬榜單前四,Qwen3-8B(Thin超國外表現(xiàn)最佳的Ministral-8B-latest(25.01分領(lǐng)先優(yōu)勢達(dá)SuperCLUE通用能力測評榜單——端側(cè)5B級別小模型榜單2025年端側(cè)小模型快速發(fā)展,已在設(shè)備端側(cè)(非云)上實現(xiàn)本地運(yùn)行,其中PC、手機(jī)、智能眼鏡、機(jī)器人等大量場景已展現(xiàn)出極高的落地可行性。國內(nèi)端側(cè)小模型進(jìn)展迅速,相比國外小模型,國內(nèi)小模型在中文場景下展現(xiàn)出更好的性能表現(xiàn)國產(chǎn)小模型占據(jù)主流地位。國內(nèi)大模型Qwen3-4B(Thinking)在此領(lǐng)域表現(xiàn)搶眼,以39.21分的高分位居榜首,且在各項細(xì)分任務(wù)中均展現(xiàn)出卓越實力,全部位列第一。尤其在幻覺控制方面,該模型取得了超過60分的優(yōu)異成績,充分彰顯了小模型的巨大潛力。圍繞數(shù)學(xué)推理、代碼生成等關(guān)鍵任務(wù),可清晰看到小模型在“有限參數(shù)”約束下的能力邊界。如Qwen3-1.7B(Thinking)在代碼生成任務(wù)中獲得34.46分的不錯成績,但在智能體Agent任務(wù)中得分卻為0,這一差異直觀暴露了端側(cè)小模型在復(fù)雜場景適配中存在的難點。SuperCLUE——端側(cè)5B級別小模型榜單模型名稱12-3-SuperCLUE大模型性價比區(qū)間分布趨勢分析 SuperCLUE-大模型性價比區(qū)間分布趨勢分析1.國內(nèi)頭部模型較海外模型呈現(xiàn)出更高的性價比。A22B-Thinking-2507。海外模型Gemini-2.5-Flash與國內(nèi)模型Qwen3-235B-A22B-Thinkin和價格上不相上下,共同處于高性價比區(qū)間。2.國內(nèi)中性價比模型能力待提升。內(nèi),部分超低價模型甚至低于3元/百萬Tokens,但這類模型的基準(zhǔn)3.海外頭部模型性價比較低。較低。SuperCLUE大模型綜合效能區(qū)間分布趨勢分析 趨勢分析1.國外頭部模型穩(wěn)居高效能區(qū),展現(xiàn)強(qiáng)勁應(yīng)用實力。2.5-Pro、Gemini-2.5-Flash、Claude-Opus-4-Reasoning的平均全符合「高效能區(qū)」標(biāo)準(zhǔn),充分展現(xiàn)出極強(qiáng)的實際應(yīng)用效能。2.國內(nèi)頭部模型僅有SenseNovaV6Reasoner趨近高效能區(qū)。國內(nèi)頭部模型中,SenseNovaV6Reasoner在推理的綜合效能方面表現(xiàn)最為突出,已處于「高效能區(qū)」的邊界位置,A22B(Thinking)同樣表現(xiàn)出色,緊隨其后。3.部分國內(nèi)模型得分反超國外,但耗時差距明顯。235B-A22B-Thinking-2507、GLM-4.5推理任務(wù)得分上已實現(xiàn)對部分國外頭部模型的反超,但在平均推理時間的耗時上卻存在著較大差距。代表性模型分析:Doubao-Seed-1.6-thinking-250715模型介紹與測評分析 模型介紹與測評分析Doubao-Seed-1.6-thinking-250715Doubao-Seed-1.6-thinking-250715是由字節(jié)跳動在2025年7月推出的最新版本的多模態(tài)深度思考模型。該模型在思考能力上進(jìn)行了大幅強(qiáng)化,對比上一代深度理解模型,在編程、數(shù)學(xué)、邏輯推理等基礎(chǔ)能力上進(jìn)一步提升,支持視覺理解。2.擅長幻覺控制和代碼任務(wù):在Supe3.擅長數(shù)學(xué)推理:在SuperCLUE數(shù)學(xué)推理任務(wù)排名國內(nèi)第二。代表性模型分析:DeepSeek-R1-0528模型介紹與測評分析 模型介紹與測評分析DeepSeek-R1-0528DeepSeek-R1-0528是由深度求索在2025年5月28日發(fā)布的DeepSeek-R1小版本升級模型,該模型使用2024年12月所發(fā)布的DeepSeekV3BaseDeepSeek-R1-0528),2.擅長精確指令遵循任務(wù):在SuperCLUE精確指令遵循任務(wù)均代表性模型分析:GLM-4.5模型介紹與測評分析 模型介紹與測評分析GLM-4.5GLM-4.5是由智譜華章在2025年7月28日正式發(fā)布并開源的最新旗艦?zāi)P?,該模型采用MoE架構(gòu),該模型擁有3550億個總參數(shù)和320億個激活參數(shù),將推理、編碼和代理功能統(tǒng)一到一個模型中,以滿足快速發(fā)展的代理應(yīng)用日益復(fù)雜的需求。GLM-4.5),2.擅長復(fù)雜推理任務(wù):在SuperCLUE科學(xué)推理任務(wù)排名國內(nèi)第代表性模型分析:kimi-k2-0711-preview模型介紹與測評分析 模型介紹與測評分析kimi-k2-0711-preview是由月之暗面在2025年7月11日正式發(fā)布并開源的最新旗艦?zāi)P?,該模型采用MoE架構(gòu),總參數(shù)1T,激活參數(shù)32B。kimi-k2-0711-preview是由月之暗面在2025年7月11日正式發(fā)布并開源的最新旗艦?zāi)P停撃P筒捎肕oE架構(gòu),總參數(shù)1T,激活參數(shù)32B。2.擅長推理任務(wù):在SuperCLUESuperCLUE國內(nèi)大模型能力成熟度指數(shù)——SC成熟度指數(shù)SC成熟度指數(shù)計算方法說明:1.計算相對差距:對于每個任務(wù),首先找出所有國產(chǎn)閉源模型中的最高分。然后,計算每個模型的分?jǐn)?shù)與這個最高分之間的相對差距。這個差距是通過(最高分-模型分?jǐn)?shù))/最高分來計算的。這個值反映了每個模型與頂尖水平的距離。2.計算累積差距:將一個任務(wù)中所有國產(chǎn)閉源模型的相對差距加起來,然后除以模型的數(shù)量,得到一個平均的相對差距,稱之為“相對差距累積值”。這個值代表了在這個任務(wù)上,所有國產(chǎn)閉源模型表現(xiàn)的平均離散程度。3.歸一化處理:為了消除不同任務(wù)之間難度和評分標(biāo)準(zhǔn)差異帶來的影響,需要對“相對差距累積值”進(jìn)行歸一化處理。這里采用的是最小-最大歸一化方法。首先,在所有國產(chǎn)閉源模型的相對差距中,找出最小值和最大值。然后,通過(相對差距累積值-最小相對差距)/(最大相對差距-最小相對差距)這個公式,將累積差距縮放到[0,1]的區(qū)間內(nèi)。4.計算最終成熟度:最后,用1減去歸一化后的差距,即1-歸一化差距,就得到了最終的任務(wù)成熟度。這個值越高,代表該任務(wù)的整體發(fā)展水平越高,模型間的平均表現(xiàn)越接近頂尖水平。國內(nèi)大模型成熟度分析1.高成熟度能力型成熟度較高的任務(wù)暫時沒有。2.中成熟度能力之間。【代碼生成】,還有一定優(yōu)化空間。3.低成熟度能力低成熟度指的是少量大模型較為擅長,很多模和【精確指令遵循】。LMArena是當(dāng)前英文領(lǐng)域較為權(quán)威的大模型排行榜,由LMSYSOrg開放組織構(gòu)建,它以公眾匿名投票的方式,對各種大型語言模型進(jìn)行對抗評測。將SuperCLUE得分與LMArena得分進(jìn)行相關(guān)性計算,得到:972,P值:1.5423e-08;皮爾遜(Pearson)相關(guān)系數(shù):0.8656,P值:1.9643e-07。說明SuperCLUE基準(zhǔn)測評的成績,與人LMArena為典型代表具有高度一致第四部分專項測評基準(zhǔn)介紹1.Agent系列基準(zhǔn)介紹2.多模態(tài)系列基準(zhǔn)介紹3.文本系列基準(zhǔn)介紹4.推理系列基準(zhǔn)介紹5.性能系列基準(zhǔn)介紹Agent系列基準(zhǔn)介紹:SuperCLUE-DeepResearchSuperCLUE-DeepResearch:中文深度研究測評基準(zhǔn)測評結(jié)果分析SuperCLUE-DeepSuperCLUE-DeepResearch是一個專為深度研究產(chǎn)品設(shè)計的評測基準(zhǔn),旨在為深度研究領(lǐng)域提供全面且多維的能力評估參考。DeepResearch代表了AI從簡單的信息檢索向更高級的自主研究代理邁進(jìn)的趨勢,越來越多的DeepResearch產(chǎn)品出現(xiàn)在我們的視野中。為了全面客觀地衡量各個深度研究產(chǎn)品的能力,我們推出了SuperCLUE-DeepResearch測評基準(zhǔn)。Researcher以58.65分位于國內(nèi)第一,研究分析任務(wù)表現(xiàn)十分亮眼,與排名末位的產(chǎn)品差距也接近17分。2.國內(nèi)外產(chǎn)品性能差距明顯。3.產(chǎn)品在不同任務(wù)類型表現(xiàn)分化顯著。度研究產(chǎn)品在內(nèi)容創(chuàng)作、報告輸出等生成類主觀任務(wù)上表現(xiàn)優(yōu)異;但在需要深度搜索、大數(shù)據(jù)整合等復(fù)雜客觀任務(wù)方面,仍存在較大提升空間。評分方法:測評詳情可訪問下方鏈接:測評詳情可訪問下方鏈接:Agent系列基準(zhǔn)介紹:AgentCLUE-General系列 AgentCLUE-General:中文通用AI智能體基準(zhǔn)AgentCLUE-General是專注于中文通用AI智能體的測評基準(zhǔn)。該基準(zhǔn)立足中文應(yīng)用場景,聚焦現(xiàn)實世界中可借助工具解決的實際問題,全面評估智能體在聯(lián)網(wǎng)檢索、數(shù)據(jù)分析、多模態(tài)理解和多場景組合四個核心應(yīng)用場景的表現(xiàn),并對任務(wù)根據(jù)難度進(jìn)行了三個等級劃分。評分方法:AgentCLUE-General為每個測試題目給出一個唯一的正確答案,通過人工對比Agent的答案和正確答案是否一致,來否正確,回答正確得1分,錯誤得0分。對于因為智能體產(chǎn)品本身不支持上傳文件而導(dǎo)致無法獲取答案,也計0分??偡钟嬎悖褐貫?;Level2的權(quán)重為2;Level3的權(quán)重為3,模型的總分和每個應(yīng)用場景下的總分都通過加權(quán)計算得到。具體計分規(guī)則如下:測評結(jié)果分析測評詳情可訪問下方鏈接:1.整體能力仍處基礎(chǔ)階段,頭部產(chǎn)品表現(xiàn)相對領(lǐng)先。當(dāng)前參評的通用AI智能體在現(xiàn)實世界任務(wù)上的整體能力普遍偏弱,最高得分產(chǎn)品Manus(Starter)總Agent技術(shù)仍處于比較基礎(chǔ)的發(fā)展階段,與理想狀態(tài)差距較大。2.不同難度任務(wù)能力差異顯著,復(fù)雜多步驟任務(wù)是主要瓶頸。提升至Level2(最高分35分)和Level3(涉及的得分率普遍大幅下降,處理復(fù)雜現(xiàn)實世界任務(wù)的能力是當(dāng)前面臨的主要挑戰(zhàn)。3.能力分布不均,結(jié)構(gòu)化數(shù)據(jù)分析和通用聯(lián)網(wǎng)檢索相對突出,多模態(tài)、非結(jié)構(gòu)化數(shù)據(jù)及多場景組合是顯著短板。智能體擅長處理Excel等結(jié)構(gòu)化數(shù)據(jù)和進(jìn)行日常且在涉及圖片、音頻、視頻等多模態(tài)任務(wù)及能力組合的多場景任務(wù)上表現(xiàn)尤為薄弱(多模態(tài)理解Agent系列基準(zhǔn)介紹:AgentCLUE-General系列AgentCLUE-tGeneral:中文通用AI智能體基準(zhǔn)測評方案要點1.中文原生場景構(gòu)建。本測評采用全中文數(shù)據(jù)集,所有生成創(chuàng)作任務(wù)均基于典型中文使用場景設(shè)計,充分貼合國內(nèi)用戶的實際需求和使用習(xí)慣。2.兼顧通用與垂直場景的多維任務(wù)體系設(shè)計。測評不僅涵蓋聯(lián)網(wǎng)檢索、數(shù)據(jù)分析、深度研究、醫(yī)療、法律四個垂直場景,通過多維度評估全面考察智能體產(chǎn)品的能力。3.純文本輸入,測評產(chǎn)品更全面廣泛1.中文原生場景構(gòu)建。本測評采用全中文數(shù)據(jù)集,所有生成創(chuàng)作任務(wù)均基于典型中文使用場景設(shè)計,充分貼合國內(nèi)用戶的實際需求和使用習(xí)慣。2.兼顧通用與垂直場景的多維任務(wù)體系設(shè)計。測評不僅涵蓋聯(lián)網(wǎng)檢索、數(shù)據(jù)分析、深度研究、醫(yī)療、法律四個垂直場景,通過多維度評估全面考察智能體產(chǎn)品的能力。3.純文本輸入,測評產(chǎn)品更全面廣泛。所有輸入問題僅包含純文本,不涉及文件上傳,只要支持文本輸入即可參與測評,避免部分智能體產(chǎn)品因不支持上傳文件、或文件上傳的格式、大小限制而導(dǎo)致無法測評。AgentCLUE-tGeneral測評基準(zhǔn)定位為純文本輸入(名稱中的t,代表文本輸入),無文件上傳,輸入方式更加純粹,預(yù)期可以測評更廣泛的智能體。測評方法:1.評估流程:腳本等)和標(biāo)準(zhǔn)參考答案-->依據(jù)評分標(biāo)準(zhǔn)評價每一題的分?jǐn)?shù)-->計算模型最終得分我們采用超級大模型進(jìn)行評價。結(jié)合評估流程、評估標(biāo)準(zhǔn)、評分規(guī)則,進(jìn)行細(xì)粒度評估。針對pdf報告,代碼腳本文件等,均直接使用原始文件直接發(fā)送給超級模型做評價。應(yīng)用這種方式,減少人素的干預(yù),確保評分結(jié)果的客觀性和一致性。3.總分計算:測評詳情可訪問下方鏈接:測評詳情可訪問下方鏈接:對每個場景的總分計算:百分制多模態(tài)系列基準(zhǔn)介紹:SuperCLUE-VLMSuperCLUE-VLM:中文多模態(tài)視覺語言測評基準(zhǔn)測評結(jié)果分析中文多模態(tài)視覺語言模型測評基準(zhǔn)(SuperCLUE-VLM)基于中文場景特點,圍繞基礎(chǔ)視覺認(rèn)知、視覺推理和視覺應(yīng)用三大核心維度構(gòu)建評測體系,力求為多模態(tài)視覺語言模型的發(fā)展提供客觀、公正的評估標(biāo)準(zhǔn)。評分方法:參考答案。為了確保評估的科學(xué)性和公正性,我們采用評價模型(Gemini-2.5-Flash將模型的回答與參考答案進(jìn)行對比,從而判斷其正確性。應(yīng)用這種方式,盡量減少人為因素的干預(yù),確保評分結(jié)果的客觀性和一致性。測評詳情可訪問下方鏈接:1.國外頭部模型綜合表現(xiàn)領(lǐng)先,國產(chǎn)模型緊隨其后,競爭力強(qiáng)。Gemini-2.5-Pro以明顯優(yōu)勢領(lǐng)跑榜單,展現(xiàn)了頂尖實力。同時,以豆包、混元為代表的國產(chǎn)模型同樣表現(xiàn)優(yōu)異,整體實力強(qiáng)勁,在全球范圍內(nèi)具備有力競爭力。2.模型在基礎(chǔ)感知上表現(xiàn)較好,但在高級推理和專業(yè)應(yīng)用上仍是短板。各模型普遍擅長物體、文本識別等基礎(chǔ)任務(wù)。但在邏輯、空間等復(fù)雜推理任務(wù)以及醫(yī)療影像分析等專業(yè)領(lǐng)域,表現(xiàn)普遍不佳,得分偏低,說明其高級推理和泛化能力亟待提升。3.Gemini-2.5-Pro表現(xiàn)全能,但部分國產(chǎn)模型在單項上實現(xiàn)超越。Gemini-2.5-Pro在絕大多數(shù)任務(wù)中位居前列。但部分國產(chǎn)模型展現(xiàn)出單項尖子生的特質(zhì),如Doubao-Seed-1.6-thinking在空間推理上以4分領(lǐng)多模態(tài)系列基準(zhǔn)介紹:SuperCLUE-T2VSuperCLUE-T2V:中文文生視頻測評基準(zhǔn)SuperCLUE-T2V新版文生視頻測評方案通過提升題目的難度和精確度增加了本次測評的挑戰(zhàn)性,從通用能力和場景應(yīng)用能力兩個方面對17個國內(nèi)外文生視頻產(chǎn)品進(jìn)行了嚴(yán)格的測試與評估,并通過三次測評求平均值的方式提升測評的穩(wěn)定性和可靠性,現(xiàn)將評估結(jié)果與分析報告公布。測評結(jié)果分析測評詳情可訪問下方鏈接:1.在綜合實力方面,國內(nèi)頭部模型均不輸國外模型,呈追平或趕超趨勢。谷歌的veo-3.0-generate于總榜榜首,國內(nèi)頭部模型與之差距較小,追趕之起之秀Pangu-T2V超越Sora,與排名第四的分差較小。2.國內(nèi)外模型的視頻畫質(zhì)與要素搭建水平有所提升,動態(tài)塑造依舊是有待突破的課題。內(nèi)外模型在視頻畫質(zhì)渲染和要素搭建能力方面的水準(zhǔn)有所提升,動態(tài)塑造能力依舊是表現(xiàn)較差的環(huán)節(jié)。3.國內(nèi)外模型普遍存在基礎(chǔ)能力優(yōu)于應(yīng)用能力的發(fā)展現(xiàn)狀,產(chǎn)品實用性相對不足。在場景應(yīng)用能力方面,除少數(shù)的國內(nèi)外頭部模型可以做到基礎(chǔ)與應(yīng)用的并行發(fā)展外,絕大多數(shù)的模型普遍出現(xiàn)基礎(chǔ)能力優(yōu)于應(yīng)用能力的現(xiàn)象,產(chǎn)品的實用性相對不足。同時,場景應(yīng)用能力中,頭部模型的表現(xiàn)跨越式領(lǐng)先其他模型。多模態(tài)系列基準(zhǔn)介紹:SuperCLUE-I2VSuperCLUE-I2V:中文圖生視頻測評基準(zhǔn)中文原生圖生視頻模型測評基準(zhǔn)(SuperCLUE-I2V)立足于中文語境,圍繞運(yùn)動流暢性、內(nèi)容一致性、物理真實性、動漫風(fēng)格、寫實風(fēng)格和奇幻風(fēng)格六大任務(wù)構(gòu)建評測體系,旨在為圖生視頻模型的發(fā)展提供客觀、公正且具有針對性的評估標(biāo)準(zhǔn)。評價方法:嚴(yán)格按照評分細(xì)則,綜合判斷模型對指令的遵循情況,并結(jié)合多項預(yù)設(shè)評價維度,對生成視頻的整體效果進(jìn)行全面評估。每道題目采用5分制,其中1分為極差,2分為較差,3分為一般,4分為良好,5分為優(yōu)秀。為了更公平地反映模型的實際表現(xiàn),我們引入回答率加權(quán)機(jī)制,將各任務(wù)的原始得分乘以模型在該任務(wù)的回答率,以得到該任務(wù)的最終得分。具體計分方式如下:其中:原始得分是模型對已答題目的平均得分;N_total表示該任務(wù)下的總題目數(shù);N_answered表示模型成功生成視頻的題目數(shù)。測評結(jié)果分析測評詳情可訪問下方鏈接:1.國內(nèi)頭部模型持續(xù)展現(xiàn)領(lǐng)先優(yōu)勢。差,在綜合能力方面展現(xiàn)出領(lǐng)先優(yōu)勢。2.各模型在物理真實性任務(wù)中表現(xiàn)優(yōu)異,但在場景應(yīng)用能力中表現(xiàn)不佳。多個模型突破了75分;在物理真實性方面,相比于上一次測評各模型的進(jìn)步顯著。但是,各模型在場景應(yīng)用能力方面表現(xiàn)平平,尤其是在動漫風(fēng)格與奇幻風(fēng)格方面的表現(xiàn)尤為明顯。3.視頻主體運(yùn)動遲緩,視頻生成失敗以及圖像分辨率低等情況時有發(fā)生且影響得分。模型對于圖片的理解和執(zhí)行能力的不足依舊是模的大多數(shù)主體部分運(yùn)動緩慢,與現(xiàn)實場景嚴(yán)重不務(wù)上未能成功通過圖片加載出視頻結(jié)果,尤其是部分模型生成的視頻存在分辨率較低的情況,也會影響最終得分。多模態(tài)系列基準(zhǔn)介紹:SuperCLUE-ImageSuperCLUE-Image:中文文生圖測評基準(zhǔn)中文原生文生圖模型測評基準(zhǔn)(SuperCLUE-Image)立足于中文場景特點,沿用以圖像質(zhì)量、圖文一致性、漢字生成、現(xiàn)實復(fù)現(xiàn)和創(chuàng)作能力為核心維度的評測體系,使用全新測試集與模型版本,對多個主流圖像生成大模型進(jìn)行了系統(tǒng)性測評與榜單更新。測評結(jié)果分析測評詳情可訪問下方鏈接:1.綜合各項能力評分,國內(nèi)模型整體占優(yōu),但國外模型占領(lǐng)榜首。俗。2.國產(chǎn)模型在漢字生成任務(wù)中遙遙領(lǐng)先。確清晰,中文可讀性強(qiáng)。漢字生成正成為國產(chǎn)文3.現(xiàn)實復(fù)現(xiàn)與創(chuàng)作能力成為拉開差距的核心維度,國外模型優(yōu)勢仍在。GPT-Image-1和Imagen-4.0-Ultra等國際模型表現(xiàn)出色,得分顯著高于多數(shù)國產(chǎn)模型,圖像細(xì)模型雖在中文理解與漢字處理方面具備優(yōu)勢,但在復(fù)雜場景的真實還原、藝術(shù)風(fēng)格融合等方面仍存在提升空間。文本系列基準(zhǔn)介紹:SuperCLUE-Faith測評結(jié)果分析測評結(jié)果分析1.模型間的幻覺表現(xiàn)差異明顯,極差高達(dá)28.69%。1.模型間的幻覺表現(xiàn)差異明顯,極差高達(dá)28.69%。gemini-2.5-flash-pre-0417和ernie-4.5-turbo-2.各推理模型的幻覺比非推理模型更顯著。言更易產(chǎn)生幻覺輸出。不同任務(wù)不同任務(wù)中模型幻覺率差異顯著:文本摘要覺風(fēng)險大幅增加。任務(wù)開放性與幻覺率呈現(xiàn)出一定的相關(guān)性。測評詳情可訪問下方鏈接:本次SuperCLUE-Faith中文忠實性幻覺測評采用大模型三階段自動化評估方法,以下是具體評估流程介紹:分句處理;b)幻覺判定階段:基于任務(wù)特異性評價標(biāo)準(zhǔn),對每個分句進(jìn)行二元判定:無幻覺得1分;存在幻覺得0分;該評估機(jī)制通過標(biāo)準(zhǔn)化計分流程,確保結(jié)果的公平性和客觀性。文本系列基準(zhǔn)介紹:SuperCLUE-FactSuperCLUE-Fact:中文事實性幻覺測評基準(zhǔn)SuperCLUE-Fact是一個專注于評估大語言模型在中文領(lǐng)域事實性幻覺(FactualHallucination)表現(xiàn)的基準(zhǔn)測試。該基準(zhǔn)涵蓋四大核心任務(wù):知識幻覺、常識幻覺、對抗性幻覺和上下文幻覺,事實性幻覺的能力。通過多維度評測,SuperCLUE-Fact旨在為大語言模型的事實性幻覺研究提供全面、客觀的能力評估依據(jù)。評分方法:為了確保評估的科學(xué)性和公正性,我們采用超級大模型進(jìn)行評價。結(jié)合評估流程、評估標(biāo)準(zhǔn)、評分規(guī)則,進(jìn)行細(xì)粒度評估,采用0/1評分標(biāo)準(zhǔn),對于存在事實幻覺(答案錯誤)的題目評分為0,對于不存在事實幻覺(答案正確)的題目評分為1。應(yīng)用這種方式,盡量減少人為因素的干預(yù),確保評分結(jié)果的客觀性和一致性。測評結(jié)果分析測評詳情可訪問下方鏈接:1.DeepSeek-R1當(dāng)前領(lǐng)先,但頭部模型差距微小。Claude3.7Sonnet(Extended)和ChatGPT-4o-latest也表現(xiàn)優(yōu)異,位列前五。整個榜單的分?jǐn)?shù)相對集中,尤其是在頂部梯隊,顯示出領(lǐng)先模型在事實性幻覺能力上的激烈競爭。2.模型在不同類型的任務(wù)上表現(xiàn)差異顯著。本次測評的12個模型在處理知識幻覺和對抗性幻覺方面表現(xiàn)相對穩(wěn)健,平均得分有85分左右。然而,在常識幻覺和上下文幻覺這兩類任務(wù)上,模型表現(xiàn)普遍較弱,平均分不足75分,差距明顯。3.海外與國內(nèi)模型各有優(yōu)劣,海外模型總體稍領(lǐng)先。分)和對抗性幻覺;而海外模型則在知識幻覺和上下文幻覺方面更具優(yōu)勢,特別是在上下文幻覺文本系列基準(zhǔn)介紹:SuperCLUE-CPIFSuperCLUE-CPIF(ChinesePreciseInstructionFollowing)是一個專為評估大型語言模型在中文環(huán)境下精確遵循復(fù)雜、多約束指令能力的評測基準(zhǔn)。該基準(zhǔn)通過構(gòu)建一個包含多樣化場景和多維度約束的高質(zhì)量數(shù)據(jù)集,旨在精確度量模型將自然語言指令轉(zhuǎn)化為符合所有要求的具體輸出的能力。測評方案要點測評任務(wù)介紹:SuperCLUE-CPIF中文精確指令遵循測評基準(zhǔn)共有五大任務(wù),具體介紹如下:1.結(jié)構(gòu)約束:考察模型遵循文本外部形式、框架和字符規(guī)范的能力。包括但不限于格式約束、字符級約束。2.語義約束:考察模型根據(jù)指令要求,對輸出的語義信息、語言類型等進(jìn)行定制和控制的能力。包括但不限于詞匯約束、邊界約束、語言約束、流程約束。3.量化約束:考察模型對輸出文本長度和規(guī)模進(jìn)行量化控制的能力。包括但不限于句數(shù)約束、段落數(shù)約束、字?jǐn)?shù)約束。4.復(fù)合約束:考察模型處理涵蓋格式約束、語義約束以及量化約束三大任務(wù)復(fù)合指令的能力。包括但不限于詞頻約束、定位約束、邊界約束。該任務(wù)不是對上述三大任務(wù)中的指令的拼接,而是具有獨立規(guī)則的指令復(fù)合。5.組合約束:考察模型處理多個不同任務(wù)中復(fù)雜指令組合的能力。該任務(wù)的指令是對上述四大任務(wù)中各個指令的隨機(jī)組合。特點:1.多維度的任務(wù)體系。為確保評估的全面性,本基準(zhǔn)構(gòu)建了一個包含五大任務(wù)維度的體系,即結(jié)構(gòu)約束、語義約束、量化約束、復(fù)合約束與組合約束。該體系系統(tǒng)性地考察了模型在不同指令類型下的表現(xiàn),避免了單一任務(wù)類型帶來的評估偏差。2.階梯式的難度梯度。測評集被精心劃分為五個難度等級(L1-L5)度等級與指令約束的數(shù)量和復(fù)雜度嚴(yán)格對應(yīng):L1為單一基礎(chǔ)指令,L5則包含五個層層遞進(jìn)的復(fù)雜指令。這種階梯式設(shè)計能夠精確地描繪出模型能
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年傳統(tǒng)工業(yè)制造行業(yè)智能工廠建設(shè)成本分析報告
- 康復(fù)醫(yī)療服務(wù)體系與康復(fù)醫(yī)療政策環(huán)境研究報告
- 2025年細(xì)胞治療產(chǎn)品審批流程審批流程與法規(guī)匹配報告
- 2025年產(chǎn)業(yè)園區(qū)開發(fā)建設(shè)中的水資源配置風(fēng)險分析報告
- 老年旅游定制服務(wù)2025年市場潛力與投資建議報告
- 新解讀《GB-T 39118-2020激光指示器產(chǎn)品光輻射安全要求》
- 新解讀《GB-T 38790.1-2020生物活性肽功效評價 第1部分:總則》
- 2025年中小學(xué)體育教師招聘考試專業(yè)基礎(chǔ)知識考試題庫及答案(共310題)
- 2025年質(zhì)量員-土建方向-崗位技能(質(zhì)量員)考試試題題庫
- 2026年高考政治一輪復(fù)習(xí):選擇性必修2《法律與生活》知識考點提綱
- UdieToo使用方法及代碼對照表
- Unit 1 Friendship 講義-2024年滬教牛津版英語七年級上冊
- 《食品安全問題現(xiàn)狀》課件
- 2025年全年考勤表
- 中建分供方資源管理辦法
- JBT 11259-2011 無損檢測儀器 多頻渦流檢測儀
- DLT 5285-2018 輸變電工程架空導(dǎo)線(800mm以下)及地線液壓壓接工藝規(guī)程
- MOOC 研究生學(xué)術(shù)規(guī)范與學(xué)術(shù)誠信-南京大學(xué) 中國大學(xué)慕課答案
- JJG 257-2007浮子流量計行業(yè)標(biāo)準(zhǔn)
- 2024年全國版圖知識競賽(小學(xué)組)考試題庫大全(含答案)
- 抑郁癥護(hù)理案例分享
評論
0/150
提交評論