




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
LLM大模型的數(shù)理認(rèn)知框架分享涉及內(nèi)容通用人工智能已經(jīng)到來ChatGPT是第一個(gè)真正意義的人工通用智能OpenAI首席科學(xué)家透露GPT4技術(shù)原理學(xué)習(xí)語言需要相變相變與涌現(xiàn)Bubeck的AI物理學(xué)Transformer的物理原理貝葉斯重整化重整化群與生成式AI重整化群流作為最優(yōu)輸運(yùn)大模型的幻覺,解鈴還須系鈴人范疇的相變與知識(shí)的形成新IT范式與全棧機(jī)遇谷歌斯坦福院士:通用人工智能已經(jīng)到來當(dāng)今最先進(jìn)的人工智能模型存在許多缺陷,但幾十年后,它們將被公認(rèn)為通用人工智能的第一個(gè)真實(shí)例子--Google斯坦福大學(xué)Fellow.“AGI最重要的部分已經(jīng)由當(dāng)前一代先進(jìn)的人工智能大語言模型實(shí)現(xiàn)了?!敝黝}、任務(wù)、模態(tài)、語言、可指導(dǎo)性那么:為什么不愿意承認(rèn)通用人工智能呢?對(duì)AGI指標(biāo)的合理懷疑對(duì)替代人工智能理論或技術(shù)的意識(shí)形態(tài)承諾對(duì)人類(或生物)例外論的熱愛對(duì)AGI經(jīng)濟(jì)影響的擔(dān)憂ChatGPT是第一個(gè)真正意義的人工通用智能大腦如何工作:KarlFristonfree-energyprinciple將“先驗(yàn)”與新的感官輸入(“似然”)相結(jié)合,產(chǎn)生感知(“后驗(yàn)”),是大腦對(duì)內(nèi)外部?jī)蓚€(gè)信息源的整合,并按其相對(duì)精度(逆不確定性)進(jìn)行了加權(quán)。這是知覺的基本原理。Friston的感知概念數(shù)學(xué)形式,反映了大腦的感知其實(shí)是在做變分推斷。Embedding,形成自己的語言系統(tǒng)的高維概率空間Transformer,提取海量人類知識(shí)與相應(yīng)的知識(shí)結(jié)構(gòu),后續(xù)專門講Transformer等價(jià)于重整化群Pre-train,海量學(xué)習(xí)最小化各領(lǐng)域信息熵代碼訓(xùn)練,獲取長(zhǎng)程關(guān)聯(lián)與推理能力EmergentAbility,涌現(xiàn)能力,(語言概率空間的)相變完成量變到質(zhì)變LLM的“大腦”會(huì)產(chǎn)生自主意識(shí)嗎?機(jī)制上允許。OpenAI首席科學(xué)家透露GPT4技術(shù)原理Ilya:每個(gè)神經(jīng)網(wǎng)絡(luò)通過“Embedding”表示法,即高維向量,來代表單詞、句子和概念。Ilya:我們可以看一下這些高維向量,看看什么與什么相似,以及網(wǎng)絡(luò)是如何看待這個(gè)概念或那個(gè)概念的?因此,只需要查看顏色的Embedding向量,機(jī)器就會(huì)知道紫色比紅色更接近藍(lán)色,以及紅色比紫色更接近橙色。它只是通過文本就能知道所有這些東西。Ilya:其中一個(gè)主要挑戰(zhàn)是預(yù)測(cè)具有不確定性的高維向量。那就是目前的自回歸Transformer已經(jīng)具備了這種特性。[decoder-only]Ilya:一個(gè)是對(duì)于給定一本書中任意的一頁(yè),預(yù)測(cè)其下一頁(yè)的內(nèi)容。下一頁(yè)有非常多的可能性。這是一個(gè)非常復(fù)雜的高維空間,而它們可以很好地處理它。同樣的情況也適用于圖像。這些自回歸Tranformer在圖像上也運(yùn)作得非常完美。學(xué)習(xí)語言需要相變語言學(xué)中一個(gè)長(zhǎng)期存在的難題是,兒童如何學(xué)習(xí)他們的語言的基本語法結(jié)構(gòu),從而能夠創(chuàng)造出他們以前從未聽過的句子。一項(xiàng)新的研究表明,這個(gè)過程涉及一種相變,即當(dāng)語法規(guī)則被學(xué)習(xí)者直覺地理解時(shí),一種語言的“深層結(jié)構(gòu)”會(huì)突然結(jié)晶出來。在這個(gè)相變點(diǎn),一種語言從看起來像是隨機(jī)的單詞混合體轉(zhuǎn)變?yōu)橐粋€(gè)高度結(jié)構(gòu)化的、富含信息的通信系統(tǒng)。相變與涌現(xiàn)沒有預(yù)訓(xùn)練的Transformer是一張各向?qū)ΨQ的白紙,也就是其語言空間的密度函數(shù)ρ是均勻的。這個(gè)語言空間的密度函數(shù)決定了系統(tǒng)的信息熵,如果我們把ρ表示成向量η,則信息熵可以表示為F(η).隨著語料不斷被emdedding同時(shí)基于注意力機(jī)制transform到這個(gè)語言空間,空間的密度ρ/η發(fā)生改變,信息熵F(η)隨著改變,引發(fā)語言空間對(duì)稱性破缺與重建。這個(gè)過程可能會(huì)在局部區(qū)域不同尺度下持續(xù)的進(jìn)行。一旦觸及臨界點(diǎn),對(duì)稱性破缺引發(fā)相變,大模型就會(huì)在某些領(lǐng)域、不同長(zhǎng)度上下文表現(xiàn)出各種神奇的涌現(xiàn)能力。也就是語言空間中,出現(xiàn)了局部的“學(xué)習(xí)語言需要相變”中提到的“語言結(jié)晶”。Bubeck的AI物理學(xué)微軟總部研究院機(jī)器學(xué)習(xí)理論組負(fù)責(zé)人萬引大神SébastienBubeck聯(lián)手2023新視野數(shù)學(xué)獎(jiǎng)得主RonenEldan、2023新晉斯隆研究獎(jiǎng)得主李遠(yuǎn)志、2020斯隆研究獎(jiǎng)得主YinTatLee等人,在其論文《通用人工智能的火花:GPT-4早期實(shí)驗(yàn)》中申明:“GPT-4可被視作AGI的早期版本”。Bubeck宣稱傳統(tǒng)機(jī)器學(xué)習(xí)已經(jīng)不存在了,他和他的團(tuán)隊(duì)全面轉(zhuǎn)向AI物理學(xué)。在機(jī)器學(xué)習(xí)中引入的所有工具在GPT-4的光芒下幾乎無用且不相關(guān),因?yàn)檫@是一個(gè)新領(lǐng)域。當(dāng)然,我們不知道它會(huì)是什么樣子,但我們嘗試研究的方法是嘗試?yán)斫狻坝楷F(xiàn)現(xiàn)象”。“讓我們研究人工智能的物理學(xué)或者通用人工智能的物理學(xué),因?yàn)閺哪撤N意義上講,我們現(xiàn)在真正看到的是這種通用智能。那么,研究通用人工智能的物理學(xué)意味著什么?它的意思是,讓我們?cè)囍梃b物理學(xué)家過去幾個(gè)世紀(jì)用來理解現(xiàn)實(shí)的方法論”。Transformer的物理原理Transformer模塊的正向傳遞映射到響應(yīng)數(shù)據(jù)的矢量自旋模型中的計(jì)算磁化。我們建議對(duì)一個(gè)一般矢量自旋系統(tǒng)的自由能求導(dǎo),以得到一個(gè)完整transformer模塊的架構(gòu)藍(lán)圖。通過從不相干的、統(tǒng)計(jì)力學(xué)的角度縮小和接近transformer,我們獲得了transformer的物理直覺,當(dāng)我們把自己局限在在紛繁變化的顯式神經(jīng)網(wǎng)絡(luò)架構(gòu)時(shí),這種直覺似乎很難獲得。將transformer模塊視為偽裝的自旋模型不僅可以作為近似計(jì)算磁化的不同方法,統(tǒng)一架構(gòu)變體,而且還可以闡釋transformer在深度學(xué)習(xí)中的經(jīng)驗(yàn)性質(zhì)的成功。Transformer等價(jià)于RG。RG就是在IsingModel的研究中提煉出來的。重整化“可以說是過去50年理論物理學(xué)中最重要的進(jìn)展”
重整化群包括一個(gè)由大量自由度描述的系統(tǒng),RG逐級(jí)尺度執(zhí)行粗粒度化操作,自由度子集被組合在一起平均,以形成新的集體變量/隱變量。物理尺度如何引申到信息理論的“尺度”概念呢?貝葉斯重整化一種受貝葉斯統(tǒng)計(jì)推斷啟發(fā)的完全信息理論的重整化方法,我們稱之為貝葉斯重整化。貝葉斯重整化的主要觀點(diǎn)是,F(xiàn)isher度量定義了一個(gè)相關(guān)長(zhǎng)度,它起到了一個(gè)重整化群尺度的作用,量化了概率分布空間中鄰近點(diǎn)之間的可區(qū)分性。貝葉斯重整化具有足夠的通用性,即使在沒有直接物理尺度的情況下也能應(yīng)用,從而為數(shù)據(jù)科學(xué)環(huán)境中的重整化提供了一種理想的方法。我們將這個(gè)方程以及更廣泛地使用貝葉斯推理動(dòng)態(tài)更新信念的想法,稱為動(dòng)態(tài)貝葉斯推理(DynamicBayesianInference,或DynamicalBayes,DB)。DB的一個(gè)核心觀察是,隨著新數(shù)據(jù)的收集,“當(dāng)前”最可能的模型流經(jīng)“可能模型”的空間,流向真正負(fù)責(zé)生成觀測(cè)數(shù)據(jù)的概率分布。這一觀察激發(fā)了這樣一種想法,即重整化群流可以被視為與動(dòng)態(tài)貝葉斯過程“逆”過程,前者將數(shù)據(jù)生成模型降低到近似模型,后者將近似模型帶回?cái)?shù)據(jù)生成模型。重整化群與生成式AI如果用Z代表一張臉,借助我們剛才學(xué)會(huì)的群的數(shù)學(xué)形式可以表達(dá)為:G(Z)=G1G2G3G…Gn(Z)。這里的G1到Gn對(duì)應(yīng)不同層次上Operation或者說Transformation,也就是在各個(gè)層次的潛變量(“眼角、眉梢、到額頭、五官,臉型,神態(tài)”)構(gòu)成的新坐標(biāo)系里面的矩陣代表的變換。[俄羅斯套娃]大家知道,這些潛變量都是對(duì)應(yīng)著簡(jiǎn)單的高斯分布的,其實(shí)都是個(gè)隨機(jī)函數(shù),Gx(Z)也就是Z這張臉在這些潛變量函數(shù)基張成的空間中的樣子。概率分布是歸一的,也就是normalize,反復(fù)的normalize就是renormalize.對(duì)一張圖像,重整化從細(xì)顆粒度到粗顆粒度,逐層提取潛變量Zn,提取圖像中蘊(yùn)含的各層次的結(jié)構(gòu);而生成圖像的過程就是從粗粒度,對(duì)潛變量的高斯概率分布進(jìn)行采樣,重建下一個(gè)層次的結(jié)構(gòu)(類似你跟別人描述這個(gè)人濃眉大眼)。重整化的群變換Gn在生成過程中用到Gn的逆。GPT和其他大語言模型的使用的Transformer其實(shí)就可以類比這些重整化的群變換G,但是目前沒有看到學(xué)術(shù)研究Transformer是否嚴(yán)格有逆,也就是是否構(gòu)成嚴(yán)格意義上的群。[OpenAI應(yīng)該是找到了這個(gè)逆]重整化群流作為最優(yōu)輸運(yùn)哈佛大學(xué)兩位學(xué)者的RGF-OT這篇文章,他們不僅確定了精確重整化群流的方程等效于場(chǎng)的相對(duì)熵的最優(yōu)輸運(yùn)梯度流,還巧妙的使用最優(yōu)傳輸?shù)乃枷雽⒅卣恨D(zhuǎn)化為變分問題,這種RG的變分形式除了具有理論意義外,還可用于設(shè)計(jì)計(jì)算傳統(tǒng)場(chǎng)的重整化群流的神經(jīng)網(wǎng)絡(luò)。尺度變換的每一步,RGFlow的流向,都將會(huì)沿著最優(yōu)輸運(yùn)的方向進(jìn)行,也就是物理量的RGFlow尺度變換前的概率分布與尺度變換后的概率分布的距離最近的方向,而這就是Wasserstein距離決定的方向。大模型的幻覺,解鈴還須系鈴人海量的文本或者多模態(tài)語料組成了大模型需要認(rèn)知的外部世界的基本信息;嵌入構(gòu)建高維概率化的語言空間,用來建模語言文字圖像以及音視頻,并對(duì)連續(xù)變量做離散化[timeseries,
人腦可能并不需要離散化];預(yù)訓(xùn)練以重整化群流的方式進(jìn)行,在不同尺度上提煉語料數(shù)據(jù)中的信息概率分布;重整化群流的每一步流動(dòng)(自回歸預(yù)測(cè)逼近訓(xùn)練語料概率分布),都沿著最優(yōu)輸運(yùn)的成本最低方向進(jìn)行;重整化群在不動(dòng)點(diǎn)附近因新語料帶來微擾而發(fā)生對(duì)稱性破缺,滑入不同的相空間;不同的相空間,對(duì)應(yīng)某種意義上的范疇,可形象化為信息的結(jié)晶;這是大模型從語料中學(xué)到的內(nèi)部世界模型;在外部感官輸入下(被提示置于某種上下文),大模型內(nèi)部將限定在相應(yīng)的高維語言概率空間的子空間內(nèi)推理;推理是在子空間中采樣,類比推理時(shí)跨范疇采樣;采樣不斷進(jìn)行,基于內(nèi)部概率化了的世界模型(預(yù)訓(xùn)練獲得的先驗(yàn)),針對(duì)感官輸入(提示),做變分推斷,最小化自由能,獲取最佳采樣分布q*,作為對(duì)導(dǎo)致感官輸入的外部后驗(yàn)的預(yù)測(cè)。范疇的相變與知識(shí)的形成《萬字長(zhǎng)文介紹為大語言模型建立的“語言、統(tǒng)計(jì)和范疇”數(shù)學(xué)框架》文中總結(jié)過:語言范疇中的對(duì)象是語言中的表達(dá)式,表達(dá)式之間用多頭注意力捕捉的概率表征關(guān)系,構(gòu)成概率豐富范疇。仔細(xì)觀察這個(gè)用概率豐富化了的范疇,由節(jié)點(diǎn)和節(jié)點(diǎn)之間的邊構(gòu)成,節(jié)點(diǎn)與邊的概率由重整化群流的學(xué)習(xí)過程,通過例如Transformer的注意力機(jī)制提取。不斷訓(xùn)練,不斷提取。當(dāng)邊的數(shù)量少時(shí),范疇中僅有小部件;更多訓(xùn)練,更多的關(guān)系被注意力捕捉,生成更多的邊,大部件開始出現(xiàn);持續(xù)學(xué)習(xí),最終可以將幾乎所有節(jié)點(diǎn)連結(jié)在一起。重整化群流一層層提取語料中的潛變量和潛變量之間的關(guān)系,潛變量形成概率豐富范疇中的節(jié)點(diǎn),而潛變量之間的關(guān)系形成該范疇中概率表征的邊。這是一個(gè)隨機(jī)的生成過程。重整化群流生成概率豐富范疇的過程,從上文描述看,特點(diǎn)符合類似Erd?s-Rényi生成隨機(jī)圖(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 新員工入職培訓(xùn)全套指導(dǎo)手冊(cè)
- 小學(xué)四年級(jí)數(shù)學(xué)乘除法專題訓(xùn)練題
- 裝配式建筑質(zhì)量控制措施匯編
- 大型綠化工程春季施工方案
- 高考語文散文題型分析報(bào)告
- 英語句型微課課件設(shè)計(jì)與制作
- 工業(yè)除鹽水箱施工方案與規(guī)范
- 互聯(lián)網(wǎng)共享單車運(yùn)營(yíng)狀況分析報(bào)告
- 電大專科基礎(chǔ)寫作期末考試真題集
- 環(huán)保項(xiàng)目實(shí)施進(jìn)度管理方案
- 橋梁亮化工程施工方案
- 2024年中級(jí)注冊(cè)安全工程師《安全生產(chǎn)法律法規(guī)》真題及答案
- 2025新外研社版英語七年級(jí)下單詞表
- 社會(huì)網(wǎng)絡(luò)分析課件
- 外科學(xué)-第三十六章-闌尾疾病
- 教科版科學(xué)四年級(jí)上冊(cè)第一單元《聲音》測(cè)試卷含答案(典型題)
- 肉桂課件講解
- 高中化學(xué)教師培訓(xùn)課件
- 鍥而不舍成功從不言敗主題班會(huì)課件
- 公司商業(yè)模式的人工智能技術(shù)
- 初中科學(xué) 浙教版初中科學(xué)教材分析
評(píng)論
0/150
提交評(píng)論