




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大模型架構(gòu)創(chuàng)新研究報(bào)告架構(gòu)以來,
已過。爭(zhēng)論,體現(xiàn)出日漸迫切的架構(gòu)創(chuàng)新需求。自
年
出世、提出AI行業(yè)對(duì)Transformer的路徑依賴引發(fā)了越來越多的目前行業(yè)內(nèi)針對(duì)這一問題主要存在:對(duì)
進(jìn)行
,特別是針對(duì)其核心組件——Attention
機(jī)制的優(yōu)化與變體探索,例如稀疏
Attention
等技術(shù),旨在提升計(jì)算效率和內(nèi)存利用率,以更好地適應(yīng)大規(guī)模訓(xùn)練場(chǎng)景。對(duì) 進(jìn)行 ,如新型
RNN
架構(gòu)等。這些架構(gòu)試圖從根本上擺脫對(duì)
Attention機(jī)制的依賴,并在長(zhǎng)序列建模、并行計(jì)算和推理效率上展現(xiàn)出獨(dú)特優(yōu)勢(shì)。,不同架構(gòu)之間的界限越來越模糊,值得注意的是,當(dāng)前大模型架構(gòu)的發(fā)展呈現(xiàn)出日益明顯的更多性能領(lǐng)先的創(chuàng)新架構(gòu)具備
的特點(diǎn)。本報(bào)告將圍繞以上兩條探索路徑展開梳理,并拆解這些大模型架構(gòu)創(chuàng)新的底層邏輯,對(duì)大模型架構(gòu)層未來發(fā)展可能的演進(jìn)方向及趨勢(shì)作出分析。01020304Transformer
的地位與挑戰(zhàn)Transformer架構(gòu)占據(jù)行業(yè)絕對(duì)主導(dǎo)地位Transformer架構(gòu)目前仍占領(lǐng)大模型架構(gòu)絕對(duì)主流地位:架構(gòu)的通用性、可擴(kuò)展性以及豐富優(yōu)化生態(tài)使其仍是國(guó)內(nèi)外大規(guī)模語言、視覺、多模態(tài)模型的首選架構(gòu)。非Transformer架構(gòu)2025年實(shí)現(xiàn)工業(yè)級(jí)落地0-1突破:Minimax推出MiniMax-01首次實(shí)現(xiàn)線性架構(gòu)千億參數(shù)(456B)工業(yè)級(jí)別落地驗(yàn)證,訊混元T1正式版基礎(chǔ)模型Turbo-S采用Transformer+Mamba混合架構(gòu),標(biāo)志著非Transformer架構(gòu)技術(shù)路徑在2025年實(shí)現(xiàn)了從科研走向工業(yè)落地的0-1突破。國(guó)內(nèi)主流模型架構(gòu)Transformer架構(gòu)線性架構(gòu)混合架構(gòu)海外主流模型架構(gòu)OpenAIGPT大模型GoogleGemini大模型AnthropicClaude大模型xAIGrok大模型MetaLlama大模型Mistral
AIMistral大模型注:盤點(diǎn)不分排名先后順序百度文心大模型阿里巴巴通義大模型科大訊飛訊飛星火大模型字節(jié)跳動(dòng)豆包大模型華為盤古大模型商湯日日新大模型MiniMaxMiniMax-01訊混元大模型月之暗面
Kimi大模型階躍星辰
Step大模型DeepSeekDeepSeek大模型面壁智能MiniCPM大模型智譜
GLM大模型Hinton
AlexNet用CNN做圖像識(shí)別Ilya
Sutskever
Seq2Seq用LSTM做翻譯Kyunghyun
Ch
GRU提升RNN效率與性能CNN(卷積神經(jīng)網(wǎng)絡(luò))用于圖像處理語言任務(wù)中有一定應(yīng)用RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))達(dá)到研究巔峰發(fā)展出LSTM、GRU前Transformer十年:深度學(xué)習(xí)引入NLP2006-2017Transformer時(shí)代開啟:預(yù)訓(xùn)練與Scaling
Law范式出現(xiàn)與主導(dǎo)2017-20192017
Google、UofTAttention
is
All
You
Need預(yù)訓(xùn)練與Scaling
Law范式興起Transformer成主流架構(gòu)RNN訓(xùn)練困難,容易出現(xiàn)梯度消失/爆炸問題。缺乏并行性。難以處理超長(zhǎng)序列。關(guān)鍵論文關(guān)鍵模型架構(gòu)特點(diǎn)參數(shù)規(guī)模逐步突破百億級(jí)(Google
T5-11B)。預(yù)訓(xùn)練+微調(diào)范式成為行業(yè)主流。生成式模型、理解式模型、多模態(tài)模型路線開始分化。大模型架構(gòu)演進(jìn)歷史:從深度學(xué)習(xí)革命到GPT開啟Transformer時(shí)代RNN基礎(chǔ)架構(gòu)LSTM解決長(zhǎng)程依賴GRU簡(jiǎn)潔輕量版GoogleBERT:
Pre-
training
of
Deep
BidirectionalTransformers
for'Language
Understanding預(yù)訓(xùn)練+微調(diào)(fine-tuning)范式興起B(yǎng)ERT(2018)首個(gè)雙向Transformer預(yù)訓(xùn)練模型,語言表示模型奠基之作ChatGPT(2018)首個(gè)Transformer自回歸語言模型,開啟生成式AI先河GPT-3(2020)突破千億參數(shù),生成式AI里程碑。CLIP
&
DALL·E(2021)融合視覺和文本,多模態(tài)開山作GLM-130B(2021)首個(gè)開源中文百億參數(shù)大模型GPT-4(2023)取得多模態(tài)生成和邏輯推理(Chain-of-Thought)、Tool
Use、System
Prompt等突破Claude(Anthropic)、Gemini(Google)、Mistral等不同技術(shù)流派的探索騰訊混元、通義阿里、字節(jié)豆包、創(chuàng)業(yè)六小強(qiáng)等中國(guó)大模型崛起RWKV、Mamba
等非Transformer架構(gòu)的興起與探索基礎(chǔ)模型參數(shù)爆炸式增長(zhǎng),迅速突破千億及萬億門檻。Scaling
Law
成為主流共識(shí),算力、數(shù)據(jù)、模型參數(shù)規(guī)?;蔀楣餐l(fā)力點(diǎn)預(yù)訓(xùn)練-微調(diào)+Transformer+next
token
prediction范式具備統(tǒng)治力基礎(chǔ)模型概念成共識(shí),多模態(tài)大模型萌芽2020
OpenAI
Jared
Kaplan等提出Scaling
Law迅速成為共識(shí)Transformer時(shí)代巔峰:
基礎(chǔ)模型參數(shù)規(guī)模不斷突破2020-2022后Transformer時(shí)代:預(yù)訓(xùn)練范式見頂,創(chuàng)新架構(gòu)探索興起2023-至今2021Google
Switch
Transformer引入MoE突破萬億參數(shù)規(guī)模大模型架構(gòu)演進(jìn)歷史:主流范式從共識(shí)到見頂,后Transformer時(shí)代開啟關(guān)鍵論文/演講關(guān)鍵模型架構(gòu)特點(diǎn)GPT-3175BScaling
Law2020SwitchTransformer1.6Tsparse2021GPT-4~1.8Tmultimodal,tool
use,reasoning20222023OpenAIIlya發(fā)表“預(yù)訓(xùn)練結(jié)束”觀點(diǎn)2023
OpenAI
GPT-4技術(shù)報(bào)告提出多階段訓(xùn)練、精細(xì)化對(duì)齊(alignment)與穩(wěn)健性能優(yōu)化2025
DeepSeek
R1技術(shù)報(bào)告驗(yàn)證僅強(qiáng)化學(xué)習(xí)(RL)無監(jiān)督微調(diào)(SFT)新范式隨著模型規(guī)模增大,計(jì)算成本和存儲(chǔ)需求激增,預(yù)訓(xùn)練+微調(diào)訓(xùn)練范式與Transformer架構(gòu)范式見頂。強(qiáng)化學(xué)習(xí)(RL)+多階段訓(xùn)練策略和知識(shí)蒸餾,提升大模型深度推理System
2能力成為新共識(shí)。多模態(tài)大模型從多個(gè)模型簡(jiǎn)單拼接開始走向理解生成一體+原生多模態(tài)模型。新興非Transformer架構(gòu)如Mamba、RWKV、RetNet等涌現(xiàn),開始出現(xiàn)工業(yè)級(jí)落地。參考信息:EPOCH
AI《Can
AI
Scaling
Continue
Through
2030?》、foundation
capital《Has
AI
scaling
hit
alimit?》、OpenReview《On
Limitations
of
the
Transformer
Architecture》Transformer架構(gòu)逐漸暴露出3大局限性O(shè)penAIGPT-4
推理階段資源密度遠(yuǎn)超GPT-3,模型在推理階段為了保留能力,使用了混合專家MoE架構(gòu),仍需大量GPU支撐。根據(jù)Epoch
AI
在2024年8月的研究,當(dāng)前AI訓(xùn)練規(guī)模正以每年4倍的速度增長(zhǎng),預(yù)計(jì)到2030
年將需要近2000萬個(gè)H100級(jí)別的GPU。SemiAnalysis、LambdaLabs等報(bào)告顯示,GPT-4每一次多輪對(duì)話的token處理成本數(shù)倍于GPT-3,大幅拉高部署門檻。Transformer架構(gòu)二次計(jì)算復(fù)雜度導(dǎo)致算力消耗增長(zhǎng)過快問題已成制約大模型普及的關(guān)鍵障礙以O(shè)penAI
o1
模型發(fā)布為節(jié)點(diǎn),研究趨勢(shì)從預(yù)訓(xùn)練轉(zhuǎn)向“后訓(xùn)練”(DPO、CoT等),重要模型轉(zhuǎn)向新的基礎(chǔ)結(jié)構(gòu)與能力路徑(MoE、Memory、World
Models等)。Foundation
Capital
在2024年底發(fā)表的研究指出,“Next-token
prediction很聰明,但似乎創(chuàng)造出的系統(tǒng)更多是在反應(yīng)而非真正‘理解’”。Grok3
模型訓(xùn)練資源提升一個(gè)數(shù)量級(jí),訓(xùn)練效果提升不到2%。數(shù)據(jù)墻算力墻架構(gòu)墻Transformer架構(gòu)、Next-TokenPrediction和ScalingLaw范式見頂,預(yù)訓(xùn)練結(jié)束2024年EdgeInfinite
研究指出,"Transformer注意力機(jī)制的二次時(shí)間復(fù)雜度和
KV緩存的增長(zhǎng)內(nèi)存使用給在資源受限的邊緣設(shè)備上處理長(zhǎng)序列帶來了挑戰(zhàn)"。研究人員開始越來越多轉(zhuǎn)向研究"高效模型"、"保留網(wǎng)絡(luò)"和"線性注意力"等
Transformer替代架構(gòu),如Mamba和RWKV,它們?cè)谔幚黹L(zhǎng)序列時(shí)表現(xiàn)出更高的效率。Transformer架構(gòu)端側(cè)部署局限性較大,長(zhǎng)序列任務(wù)效率瓶頸訓(xùn)練范式革新Next
Training
Recipe在實(shí)際訓(xùn)練中3類解決方式往往同時(shí)出現(xiàn)以DeepSeek-R1
為例:跳過SFT直接進(jìn)行RLGRPO價(jià)值模型優(yōu)化DualPipe流水線FP8混合精度多頭潛注意力機(jī)制MLA后Transformer時(shí)代3大革新:訓(xùn)練范式、架構(gòu)創(chuàng)新、工程優(yōu)化工程優(yōu)化工程優(yōu)化Transformer架構(gòu)改進(jìn)Attention機(jī)制創(chuàng)新FFN層改進(jìn)其他高效改進(jìn)非Transformer架構(gòu)探索新型RNN路徑新型CNN路徑其他路徑混合Hybrid架構(gòu)探索兩條路線存在交叉Transformer
架構(gòu)改進(jìn)Transformer里有什么?Attention1+FFN2+其他3=TransformerAttention機(jī)制既是Transformer架構(gòu)的最大優(yōu)勢(shì)也是其最大痛點(diǎn),對(duì)Attention機(jī)制的改進(jìn)成為Transformer架構(gòu)改進(jìn)的必由之路。FFN層繼從Dense到MoE的進(jìn)化后,仍在持續(xù)嘗試探索下一代技術(shù)。除Attention和FFN以外的其他機(jī)制,如Decay機(jī)制改進(jìn)等也產(chǎn)生了許多高質(zhì)量工作。Transformer里有什么?參考信息:A
Survey
ofTransformersAdd&NormFFNAttentionAdd&NormToken
EmbeddingPositional
Encodings*LAttention機(jī)制優(yōu)化是重中之重,后MoE時(shí)代FFN層持續(xù)改進(jìn)FFN改進(jìn)Attention改進(jìn)其他改進(jìn)研究熱度減少計(jì)算復(fù)雜度從而降低計(jì)算成本,如從O(N2)降至O(N
log
N)、
O(N)等繼MoE之后,對(duì)傳統(tǒng)Dense
FFN層做進(jìn)一步稀疏化、動(dòng)態(tài)化改進(jìn)對(duì)Transformer架構(gòu)進(jìn)行高效改進(jìn)核心思路線性注意力稀疏注意力動(dòng)態(tài)注意力多頭注意力動(dòng)態(tài)類腦激活極致稀疏KV
Cache歸一化層殘差連接位置編碼EmbeddingDecay機(jī)制等做改進(jìn)主要內(nèi)容Attention改進(jìn)目前主要分稀疏和線性兩大技術(shù)方向注意力機(jī)制Attention稀疏注意力改進(jìn)Sparse
Attention引入稀疏模式減少計(jì)算復(fù)雜度線性注意力改進(jìn)Linear
Attention將自注意力矩陣的點(diǎn)積計(jì)算線性化,降計(jì)算復(fù)雜度為O(n)其他注意力機(jī)制改進(jìn)Local
Attention多頭注意力Multi-Head
Attention多層注意力Multi-Layer
Attention鍵值緩存改進(jìn)KVCache滑動(dòng)窗口注意力SlidingWindow
Attention膨脹注意力DilatedAttention隨機(jī)注意力Random
Attention塊注意力Block
Attention動(dòng)態(tài)注意力Dynamic
Attention局部注意力Local
Attention潛空間注意力Latent
Space
Attention目前與非Transformer架構(gòu)路線可劃約等號(hào),關(guān)于非Transformer架構(gòu)的討論見3.0模型在某一時(shí)刻的
“關(guān)注點(diǎn)”對(duì)輸入內(nèi)容提問Key(鍵)Query(查詢)Value(值)被檢索的“標(biāo)識(shí)符”用于與Query特征匹配識(shí)別信息相關(guān)性對(duì)應(yīng)“實(shí)際內(nèi)容”或“細(xì)節(jié)信息”響應(yīng)Query需求稀疏注意力機(jī)制:一種減少全局計(jì)算的注意力機(jī)制,核心思想是僅關(guān)注輸入序列中部分最相關(guān)的上下文信息,而非對(duì)整個(gè)序列進(jìn)行全注意力計(jì)算。通過引入稀疏連接或局部窗口等策略有效降低計(jì)算復(fù)雜度和內(nèi)存消耗,尤其在處理長(zhǎng)序列時(shí),能夠顯著提高計(jì)算效率。MoBA(Kimi,2025)通過應(yīng)用MoE(MixtureofExperts)的原則來動(dòng)態(tài)選擇歷史塊進(jìn)行注意力計(jì)算,將整個(gè)上下文劃分為多個(gè)塊(Block),每個(gè)查詢(Query)僅與最相關(guān)的鍵值(KV)塊進(jìn)行注意力計(jì)算,降低計(jì)算復(fù)雜度,并允許在全注意力和稀疏注意力模式之間無縫切換??蓪W(xué)習(xí)的門控模塊(AttnGate)直接從模型中學(xué)習(xí)塊級(jí)注意力稀疏性,利用池化和線性層處理查詢(Q)和鍵(K)張量,生成門控分?jǐn)?shù)以預(yù)測(cè)稀疏塊,并結(jié)合塊稀疏FlashAttention內(nèi)核實(shí)現(xiàn)顯著加速。SeerAttention(MSRA,2024)稀疏改進(jìn)(Sparse
Attention)是目前最主流、最活躍、爭(zhēng)議最少的方向路線代表工作動(dòng)態(tài)+塊注意力動(dòng)態(tài)+塊注意力動(dòng)態(tài)、可學(xué)習(xí)(Dynamic
Trainable
Attention)改進(jìn)是近年明顯趨勢(shì)動(dòng)態(tài)注意力機(jī)制:動(dòng)態(tài)可學(xué)習(xí)注意力路徑或稀疏模式由模型自動(dòng)學(xué)習(xí),非預(yù)定義。針對(duì)不同輸入、在不同位置可采用不同的注意力連接方式,自適應(yīng)選擇相關(guān)上下文,靈活聚焦關(guān)鍵信息,避免全局靜態(tài)計(jì)算帶來的資源浪費(fèi)。代表工作代表工作可學(xué)習(xí)動(dòng)態(tài)注意力機(jī)制可以NSA為代表,通過結(jié)合粗粒度Token壓縮和細(xì)粒度
Token選擇機(jī)制,動(dòng)態(tài)篩選關(guān)鍵信息,減少冗余計(jì)算,降低計(jì)算復(fù)雜度并提升處理效率。NSA(DeepSeek,2025)LongFormer(Beltagy,2020)以LongFormer首次提出的Sliding
Window
Attention為代表,預(yù)定義結(jié)構(gòu)指注意力連接模式,即每個(gè)Query關(guān)注哪些Key在模型訓(xùn)練或推理過程中人工預(yù)先設(shè)定、固定不變。新技術(shù)趨勢(shì)可學(xué)習(xí)動(dòng)態(tài)結(jié)構(gòu)dynamic
trainable
attention上一代范式預(yù)定義結(jié)構(gòu)predefined
structural
attention鍵值緩存機(jī)制是Attention機(jī)制關(guān)鍵,繼MHA后GQA、MQA成重要工作技術(shù)實(shí)現(xiàn)鍵值緩存機(jī)制:在自回歸生成中緩存注意力機(jī)制中的Key和Value的技術(shù),用于避免重復(fù)計(jì)算加速推理過程;與Attention機(jī)制緊密相關(guān),是在其推理階段對(duì)其中K、V部分進(jìn)行高效復(fù)用的加速優(yōu)化技術(shù)。主要路線通過讓多個(gè)Attention
Head
或Layer
共享相同的Key/Value表示,減少內(nèi)存占用并提升緩存復(fù)用效率。共享KV只保留最近一段上下文的Key/Value,用滑動(dòng)窗口方式限制緩存長(zhǎng)度,控制計(jì)算量同時(shí)保持局部信息敏感。窗口KV通過工程手段對(duì)緩存中的Key/Value進(jìn)行低比特量化或結(jié)構(gòu)壓縮,顯著降低顯存開銷,適用于大規(guī)模長(zhǎng)上下文生成,以Flash
Attention
為代表。量化壓縮代表工作參考信息:知乎Trancy
WangGQA(Google,2023)將查詢頭分組并在每組內(nèi)共享鍵(K)和值(V)頭,在保持接近MHA性能的同時(shí),大幅降低內(nèi)存帶寬開銷。YOCO(Google,2024)采用解碼器-解碼器架構(gòu),通過自解碼器生成全局鍵值對(duì)(KV)緩存,供交叉解碼器跨層共享復(fù)用,僅需緩存一次KV即可支持長(zhǎng)序列推理,大幅降低內(nèi)存消耗并提升預(yù)填充效率。后MoE時(shí)代FFN層持續(xù)改進(jìn),稀疏度不斷取得突破FFN層改進(jìn):上代技術(shù)混合專家(MoE)核心思想是將傳統(tǒng)的密集前饋網(wǎng)絡(luò)(DenseFFN)替換為稀疏的專家層,通過門控網(wǎng)絡(luò)(Router)動(dòng)態(tài)選擇最適合當(dāng)前輸入的專家進(jìn)行計(jì)算。后MoE時(shí)代,出于參數(shù)規(guī)模Scaling的需要,F(xiàn)FN層稀疏度持續(xù)取得突破。技術(shù)路徑代表工作UltraMem(ByteDance,2025)引入U(xiǎn)ltra-Sparse
Memory
Layer將FFN層參數(shù)分解為大規(guī)模鍵值存儲(chǔ),利用塔克分解查詢鍵檢索、隱式值擴(kuò)展等技術(shù),保持計(jì)算量的同時(shí)顯著減少內(nèi)存訪問。Dense稠密極致切細(xì)多層簡(jiǎn)化類腦稀疏MoE混合專家Top
K機(jī)制CFM(Tsinghua
U、ModelBest,2024)借鑒人類大腦的稀疏激活機(jī)制,將Transformer的FFN層拆解為可動(dòng)態(tài)激活的神經(jīng)元組磚塊,通過稀疏連接和功能分區(qū)實(shí)現(xiàn)計(jì)算效率提升。通過多頭機(jī)制將單個(gè)Token拆分為多個(gè)子Token,使每個(gè)子Token獨(dú)立路由至不同專家并行處理,無需增加計(jì)算復(fù)雜度即可顯著提升專家激活率至90%以上,同時(shí)通過輕量級(jí)合并層實(shí)現(xiàn)多專家語義融合,簡(jiǎn)化傳統(tǒng)MoE結(jié)構(gòu)。MH-MoE(MSRA,2024)對(duì)每個(gè)輸入Token,根據(jù)門控網(wǎng)絡(luò)打分,選擇得分最高的K個(gè)專家參與計(jì)算,降低總體計(jì)算量并實(shí)現(xiàn)稀疏激活。歸一化層改進(jìn):趨向采用更輕量、穩(wěn)定或結(jié)構(gòu)更靈活的歸一化方式,甚至探索去歸一化層以提升訓(xùn)練效率與大規(guī)模模型穩(wěn)定性。輸入層改進(jìn):趨向于采用可學(xué)習(xí)的Token表示與更結(jié)構(gòu)化或可擴(kuò)展的Position
Encoding以及動(dòng)態(tài)或混合位置編碼。Transformer架構(gòu)其他部分改進(jìn)以Decay機(jī)制、歸一化層改進(jìn)為主輸入層改進(jìn)歸一化層改進(jìn)去歸一化技術(shù)路徑代表工作DyT(Meta、NYU、MIT,2025)何愷明等提出Dynamic
Tanh,通過可學(xué)習(xí)縮放參數(shù)α
與tanh激活函數(shù)的結(jié)合,替代Transformer歸一化層,保留非線性壓縮極值能力的同時(shí)簡(jiǎn)化計(jì)算,挑戰(zhàn)歸一化層在深度學(xué)習(xí)中的必要性。替換歸一化
RMSNorm
(University
of
Edinburgh,2019)通過非均勻位置插值搜索算法與漸進(jìn)式擴(kuò)展策略,在輸入層的RoPE位置編碼中引入針對(duì)維度和起始位置的差異化縮放因子,首次將LLM上下文窗口擴(kuò)展至
2048k
Tokens,同時(shí)通過動(dòng)態(tài)調(diào)整短序列位置編碼恢復(fù)原始性能,實(shí)現(xiàn)長(zhǎng)上下文與短序列任務(wù)的平衡。LongRoPE
(MSRA,2024)非Transformer
架構(gòu)突圍主流非Transformer架構(gòu):致力于在提供Transformer同等性能的同時(shí)實(shí)現(xiàn)算力開銷控制和并行訓(xùn)練,計(jì)算復(fù)雜度基本都控制在線性。技術(shù)路徑新型RNN1特點(diǎn)引入并優(yōu)化廣義Delta
Rule作為隱藏狀態(tài)的演化機(jī)制,通過向量化門控、向量化學(xué)習(xí)率和分離的刪除與添加機(jī)制,使得模型能高效地進(jìn)行動(dòng)態(tài)的狀態(tài)演化架構(gòu)名作者時(shí)間RWKV-7Bo
Peng
RWKV2025.03TitansGoogle
Research2025.01核心在于神經(jīng)記憶模塊,該模塊通過動(dòng)量和遺忘機(jī)制即權(quán)重衰減,能更好地管理內(nèi)存容量,使模型在處理長(zhǎng)序列以及語言建模、常識(shí)推理、時(shí)間序列預(yù)測(cè)等任務(wù)時(shí)表現(xiàn)出色xLSTMlELLIS
Unit,
LIT
AI
Lab,
,NXAILab,2024.12經(jīng)典架構(gòu)LSTM現(xiàn)代版本,通常通過引入額外的門控機(jī)制或?qū)﹄[藏狀態(tài)進(jìn)行擴(kuò)展等方式,進(jìn)一步增強(qiáng)LSTM對(duì)長(zhǎng)序列的建模能力以及處理復(fù)雜序列任務(wù)的能力Mamba-2PrincetonUniversity,CarnegieMellon
University2024.05國(guó)外最知名,通過將選擇性狀態(tài)空間模型的對(duì)角矩陣進(jìn)一步限制為標(biāo)量乘以單位矩陣的結(jié)構(gòu),實(shí)現(xiàn)了2-8倍的訓(xùn)練效率提升TimeMixerAnt
Group,Tsinghua
University2024.05完全拋棄注意力機(jī)制,僅使用前饋網(wǎng)絡(luò)來建模序列數(shù)據(jù),通過設(shè)計(jì)特定的結(jié)構(gòu)讓前饋網(wǎng)絡(luò)能夠捕捉序列中的時(shí)間依賴關(guān)系RetNetMSRA2023.07在狀態(tài)空間模型架構(gòu)中增加額外門路由,使用更簡(jiǎn)單的SSM以及多頭注意力機(jī)制變體代替卷積,形成一種可并行化的計(jì)算路徑,從而實(shí)現(xiàn)高效的序列建模新型CNNHyena
HierarchyStanford
University.
Mila
andUniversite?de
Montre?al.2023.02用MLP參數(shù)化的全局卷積替換S4層,通過這種層次化的全局卷積結(jié)構(gòu)來建模序列,捕獲長(zhǎng)程依賴關(guān)系其他LFMLiquidAI2024.09受線蟲神經(jīng)系統(tǒng)啟發(fā),將高維的權(quán)重矩陣分解為多個(gè)低秩矩陣的乘積,減少模型參數(shù)量和計(jì)算量主流非Transformer創(chuàng)新架構(gòu)圖譜1.新型RNN已經(jīng)日益成為非Transformer
絕對(duì)主流技術(shù)路線,其他路線近年逐漸式微。引入廣義Delta
Rule更新機(jī)制,在傳統(tǒng)DeltaNet基礎(chǔ)上引入向量化學(xué)習(xí)率(vector-valued
in-context
learning
rate)與向量化衰減因子(vector-valueddecay),支持按通道(channel-wise)獨(dú)立更新狀態(tài),允許使用不同的替換鍵(replacementkey)和移除鍵(removalkey),突破只能使用相同鍵更新狀態(tài)的限制。RWKV-7引入動(dòng)態(tài)狀態(tài)演化機(jī)制,谷歌Titans重新定義長(zhǎng)程記憶核心思想狀態(tài)表示更新機(jī)制模仿人類記憶系統(tǒng),引入神經(jīng)長(zhǎng)期記憶模塊NeuralLong-TermMemory,動(dòng)態(tài)調(diào)整衰減率,實(shí)現(xiàn)自適應(yīng)記憶管理,提高模型的泛化能力和推理性能。加權(quán)鍵值狀態(tài)WKV可學(xué)習(xí)門控衰減因子Titans采用自適應(yīng)遺忘機(jī)制和梯度下降方法更新狀態(tài)不直接存儲(chǔ)傳統(tǒng)的注意力機(jī)制中的KV,引入內(nèi)部模型,通過動(dòng)態(tài)計(jì)算更新內(nèi)部模型,實(shí)現(xiàn)類人的持續(xù)學(xué)習(xí)。衰減機(jī)制基于數(shù)據(jù)“驚訝度”的自適應(yīng)衰減機(jī)制引入神經(jīng)長(zhǎng)期記憶模塊(LMM)能夠在測(cè)試階段動(dòng)態(tài)地學(xué)習(xí)和記憶歷史信息,通過梯度下降和動(dòng)量更新來調(diào)整參數(shù),實(shí)現(xiàn)對(duì)歷史數(shù)據(jù)的壓縮和存儲(chǔ)。引入持久記憶機(jī)制存儲(chǔ)任務(wù)相關(guān)知識(shí)。RWKV-7xLSTM擴(kuò)展門控強(qiáng)化長(zhǎng)期依賴,Mamba-2突破效率與表達(dá)力瓶頸核心思想狀態(tài)表示更新機(jī)制Mamba-2其他創(chuàng)新衰減機(jī)制xLSTM引入殘差塊架構(gòu)與模塊化集成,將上述記憶結(jié)構(gòu)集成到殘差塊中,創(chuàng)建了兩種互補(bǔ)的塊結(jié)構(gòu):后上投影塊(類Transformer),前上投影塊(類狀態(tài)空間模型)前Transformer時(shí)代經(jīng)典LSTM架構(gòu)的現(xiàn)代化革新,引入指數(shù)門控、矩陣記憶和殘差連接塊,解決
LSTM無法修改存儲(chǔ)決策、有限存儲(chǔ)容量和并行化能力缺乏的限制引入新型記憶單元sLSTM
保留標(biāo)量存儲(chǔ)特點(diǎn)并引入多層混合機(jī)制,mLSTM使用矩陣形式記憶單元通過協(xié)方差更新規(guī)則更新采用指數(shù)門控機(jī)制(ExponentialGating),提供更動(dòng)態(tài)的信息過濾能力,引入了新的記憶更新機(jī)制允許模型更靈活地融合新舊信息通過歸一化狀態(tài)和額外狀態(tài)變量穩(wěn)定訓(xùn)練過程,防止指數(shù)激活函數(shù)導(dǎo)致的數(shù)值溢出論證Transformer和SSM實(shí)際上可以通過“結(jié)構(gòu)化半可分離矩陣”
(Semiseparable
Matrices)在理論上相互連接(
State
Space
Duality),使
Mamba-2結(jié)合Transformer的硬件效率和SSM的線性復(fù)雜度狀態(tài)矩陣由輸入動(dòng)態(tài)生成,實(shí)現(xiàn)選擇性狀態(tài)更新采用選擇性狀態(tài)空間模型,允許狀態(tài)參數(shù)根據(jù)輸入動(dòng)態(tài)調(diào)整利用狀態(tài)空間模型的指數(shù)衰減特性,通過低秩分解和塊分解矩陣乘法,實(shí)現(xiàn)高效的信息傳遞和長(zhǎng)期依賴建模結(jié)構(gòu)化掩碼注意力(SMA)構(gòu)造了一個(gè)掩碼注意力矩陣M=QK^T?L,定義矩陣序列變換Y=MV,統(tǒng)一了多種現(xiàn)有的新型RNN架構(gòu)變體Time-Mixer探索高效混合機(jī)制,RetNet重構(gòu)狀態(tài)更新路徑核心思想狀態(tài)表示更新機(jī)制RetNet衰減機(jī)制Time-Mixer利用多尺度混合(MultiscaleMixing)建模復(fù)雜時(shí)序變化,分別在歷史信息提取與未來預(yù)測(cè)階段引入不同策略(PDM與FMM),通過尺度分解+信息混合提升預(yù)測(cè)能力與效率采用多尺度表示,即通過下采樣獲取不同時(shí)間粒度的輸入序列,每個(gè)尺度分別提取趨勢(shì)項(xiàng)與季節(jié)項(xiàng),構(gòu)成層次化的狀態(tài)張量組Past-Decomposable-Mixing(PDM):分解每個(gè)尺度的序列為趨勢(shì)(Trend)與季節(jié)(Seasonal),采用季節(jié)項(xiàng)自底向上、趨勢(shì)項(xiàng)自頂向下的雙向混合方式。Future-Multipredictor-Mixing(FMM):每個(gè)尺度對(duì)應(yīng)一個(gè)預(yù)測(cè)器,預(yù)測(cè)結(jié)果加權(quán)求和。非顯式指數(shù)衰減,但通過尺度抽樣(平均池化降采樣)隱式實(shí)現(xiàn)對(duì)細(xì)粒度短期信息的削弱、對(duì)粗尺度趨勢(shì)的增強(qiáng)提出Retention機(jī)制替代注意力機(jī)制,保持并行訓(xùn)練的同時(shí)引入可遞歸執(zhí)行的狀態(tài)更新結(jié)構(gòu),兼顧訓(xùn)練并行性與高效推理每個(gè)時(shí)間步的狀態(tài)通過Retention狀態(tài)向量表示,隱式包含歷史Token的影響;支持多尺度RetentionHead,每個(gè)Head有獨(dú)立的衰減率,形成多尺度記憶機(jī)制(Memory
with
multi-scale
decay)在訓(xùn)練過程中,RetNet使用并行表示和塊狀遞歸表示來高效地利用GPU資源,其中塊狀遞歸表示通過將輸入序列分成塊,每個(gè)塊內(nèi)并行計(jì)算,塊之間遞歸傳遞信息。在推理過程中,RetNet使用遞歸表示,每個(gè)時(shí)間步的輸出通過遞歸地更新狀態(tài)向量來獲得。通過不同尺度的衰減率(γ)實(shí)現(xiàn)。每個(gè)保留頭被分配不同的γ值,這使得模型能夠捕捉不同尺度的序列信息。非Transformer架構(gòu)行業(yè)熱度圖架構(gòu)RWKVTitansxLSTMMambaTimeMixerRetNetHyena
HierarchyLFM實(shí)現(xiàn)規(guī)模實(shí)現(xiàn)數(shù)量實(shí)現(xiàn)熱度討論熱度相關(guān)研究數(shù)量相關(guān)研究質(zhì)量工業(yè)熱度學(xué)術(shù)熱度工業(yè)熱度實(shí)現(xiàn)熱度主要關(guān)注創(chuàng)新架構(gòu)的技術(shù)
社區(qū)建設(shè)情況、是否開源、是否幫助提供實(shí)現(xiàn)工具、商業(yè)化進(jìn)展等情況。實(shí)現(xiàn)規(guī)模主要關(guān)注創(chuàng)新架構(gòu)在公開平臺(tái)上實(shí)現(xiàn)項(xiàng)目的最大參數(shù)規(guī)模水平。實(shí)現(xiàn)數(shù)量主要關(guān)注創(chuàng)新架構(gòu)在公開平臺(tái)上實(shí)現(xiàn)項(xiàng)目的數(shù)量。學(xué)術(shù)熱度討論熱度主要關(guān)注創(chuàng)新架構(gòu)在技術(shù)社群、媒體平臺(tái)的關(guān)注和討論熱度。相關(guān)研究數(shù)量主要關(guān)注創(chuàng)新架構(gòu)的相關(guān)衍生研究論文數(shù)量。相關(guān)研究質(zhì)量主要關(guān)注創(chuàng)新架構(gòu)的相關(guān)衍生研究論文被引量。架構(gòu)創(chuàng)新核心Insight怎么看待近年架構(gòu)創(chuàng)新涌現(xiàn)?Transformer的高效改進(jìn)向線性架構(gòu)路線靠攏高效Transformer/混合Hybrid架構(gòu)線性架構(gòu)為提高性能,誕生越來越多與Transformer混合的Hybrid架構(gòu)計(jì)算復(fù)雜度O(n2)計(jì)算復(fù)雜度O(n)哪條路是通往AGI之路?隨著發(fā)展程度深入,兩條路線產(chǎn)生越來越多交集,混合架構(gòu)逐漸成為大趨勢(shì)選擇非Transformer/線性Transformer非Transformer/線性Transformer由于其先天的高效性、更適合在端側(cè)及小模型場(chǎng)景應(yīng)用,成為探索智能密度壓縮極限路線的最佳選擇選擇Transformer目前行業(yè)內(nèi)普遍認(rèn)為在追求智能天花板的路線上,Transformer架構(gòu)仍然是無法逾越的高山,但代價(jià)是顯著增加的計(jì)算成本和能耗突破智能天花板派不惜代價(jià),持續(xù)突破性能極限壓縮智能密度派精打細(xì)算,提升單位智能密度架構(gòu)創(chuàng)新路線之爭(zhēng):突破智能天花板or壓縮智能密度由于不同機(jī)構(gòu)和主體具備資源條件的不同以及對(duì)通往AGI路線看法的不同,行業(yè)內(nèi)出現(xiàn)兩條主流的技術(shù)路線,它們的發(fā)展并非完全對(duì)立,而是存在交叉怎么看待近年架構(gòu)創(chuàng)新涌現(xiàn)?優(yōu)化效率階段,精細(xì)雕花或另尋出路為解決Transformer效率問題,高效Transformer、非
Transformer架構(gòu)研究開始涌現(xiàn)新技術(shù)突破出現(xiàn)下一代主流架構(gòu)誕生技術(shù)突破出現(xiàn)2017年后,Transformer架構(gòu)被提出、驗(yàn)證暴力飛輪階段,持續(xù)突破天花板2019至2023年,Transformer架構(gòu)持續(xù)帶領(lǐng)大模型突破性能天花板舊范式潛力見頂、增速放緩2023年后,依托Transformer架構(gòu)的傳統(tǒng)范式潛力見頂發(fā)展階段晚智能水平高低早目前所在階段是新技術(shù)突破出現(xiàn)前夜架構(gòu)創(chuàng)新遵循技術(shù)迭代周期律:突破、優(yōu)化、再突破這一演化周期律在深度學(xué)習(xí)歷史上曾多次重演,從CNN到RNN再到Transformer,每次架構(gòu)變革似乎都遵循類似模式。下一代主流架構(gòu)誕生的關(guān)鍵:實(shí)現(xiàn)三個(gè)Scaling臺(tái)階的驚險(xiǎn)跳躍一個(gè)新架構(gòu)要想從實(shí)驗(yàn)室走向工業(yè)落地,通常需要跨過三個(gè)模型Scaling的關(guān)鍵臺(tái)階,本報(bào)告中提到的新興架構(gòu)探索創(chuàng)新絕大部分仍然停留在前兩個(gè)階段,甚至剛剛躍過第一個(gè)臺(tái)階。在這一參數(shù)規(guī)模上,大多數(shù)研究機(jī)構(gòu)和技術(shù)公司可以進(jìn)行有效的ScalingLaw實(shí)驗(yàn),實(shí)驗(yàn)成本相對(duì)可控。在這一參數(shù)規(guī)模上,技術(shù)門檻顯著提高,需要解決分布式訓(xùn)練、優(yōu)化算法穩(wěn)定性、本地部署等問題,只有具備一定技術(shù)積累和算力預(yù)算的組織能夠有效躍過這一臺(tái)階。這一參數(shù)規(guī)模落地要求解決數(shù)據(jù)質(zhì)量、模型穩(wěn)定性、訓(xùn)練效率等復(fù)雜問題,需強(qiáng)大基礎(chǔ)設(shè)施支持,基本只有大廠巨頭玩家能夠承擔(dān)。≤10B≥20B≥100B模型參數(shù)規(guī)模發(fā)展階段ScalingLaw實(shí)驗(yàn)行業(yè)小模型落地工業(yè)級(jí)驗(yàn)證下一代主流架構(gòu)從何處誕生:企業(yè)、高校、研究機(jī)構(gòu)架構(gòu)創(chuàng)新活躍玩家字節(jié)跳動(dòng)訊阿里巴巴DeepSeek月之暗面面壁智能元始智能RockAI階躍星辰北京大學(xué)上海交通大學(xué)微軟亞洲研究院中科院香港中文大學(xué)浙江大學(xué)智譜Seed
FoundationHuajian
XinZihaoHuangQiyang
MinHongzhi
HuangTao
ZhangQiying
YuZhengZhangRuofei
ZhuYufeng
YuanXiaochen
ZuoYu
Yue注:不完全統(tǒng)計(jì),盤點(diǎn)不分排名先后順序Enzhe
LuXinyu
ZhouJingyuanLiu
Jianlin
SuHaiming
WangZhengying
LiuMiniMaxYiran
ZhongAonian
LiBangwei
GongBo
YangBoji
ShanChang
LiuCheng
Zhu自然語言處理課題組Zewen
ChiLingjie
JiangXun
WuShuming
MaTianzhu
YeLi
DongYuqing
XiaYutao
SunHongyuWangS
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版供電設(shè)備檢修維護(hù)合同范本
- 2025版互聯(lián)網(wǎng)企業(yè)數(shù)據(jù)安全責(zé)任勞動(dòng)合同
- 二零二五年電工電氣設(shè)備維護(hù)保養(yǎng)服務(wù)合同
- 2025版電子產(chǎn)品線下零售代理銷售合同范本
- 2025版金融機(jī)構(gòu)信貸資產(chǎn)證券化合同模板
- 二零二五年度火鍋店裝修與裝修材料質(zhì)量保證合同
- 二零二五版人工智能芯片研發(fā)股權(quán)投資合同
- 2025版網(wǎng)絡(luò)設(shè)備銷售與集成合同
- 2025版汽車抵押貸款中介服務(wù)合同模板
- 二零二五年度中小學(xué)教室使用租賃合同范本
- 導(dǎo)航時(shí)頻技術(shù)原理單選題100道及答案
- 《養(yǎng)雞和雞病的防治》課件
- 樓頂彩鋼瓦雨棚合同范例
- 制衣廠管理規(guī)章制度
- 2025年高考生物一輪復(fù)習(xí):人教版必修1、2+選擇性必修1、2、3共5冊(cè)知識(shí)點(diǎn)考點(diǎn)提綱匯編
- 臨床護(hù)理實(shí)踐指南2024版
- 河南省濮陽市2024-2025學(xué)年八年級(jí)上學(xué)期11月期中語文試題(含答案)
- 重大科技攻關(guān)計(jì)劃項(xiàng)目投標(biāo)書
- 南方全站儀NTS-332R說明書
- 浪潮社會(huì)招聘在線測(cè)評(píng)題
- 電纜價(jià)格自動(dòng)核算表
評(píng)論
0/150
提交評(píng)論