AI處理器的真正本質(zhì)_第1頁
AI處理器的真正本質(zhì)_第2頁
AI處理器的真正本質(zhì)_第3頁
AI處理器的真正本質(zhì)_第4頁
AI處理器的真正本質(zhì)_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

AI處理器的真正本質(zhì)VPofProductManagement產(chǎn)品管理副總裁

2025年4月白皮書ByDennisLaudick圍繞AI存在許多困惑和炒作。如今,科技行業(yè)的幾乎每

一項服務(wù)、產(chǎn)品或領(lǐng)域都被貼上了AI的標(biāo)簽。其中許多確實是合理的,毫無疑問,AI正在為各行各業(yè)帶來新的

能力和更高的生產(chǎn)力。然而,在太多情況下,與AI的關(guān)聯(lián)可能是牽強的,甚至

在最糟糕的情況下完全具有誤導(dǎo)性。本文對AI及其相關(guān)

硬件選項進行了分類,特別聚焦于設(shè)備端(即邊緣)AI,為讀者提供了實用的背景知識,幫助大家更好地理

解聚焦AI的新一波熱潮(有時是炒作)。AI處理器的真正本質(zhì)?產(chǎn)品管理副總裁2你所說的AI是什么意思?雖然在半導(dǎo)體行業(yè)中,AI這個詞還處于相對初期的階段,但這項技術(shù)已經(jīng)足夠先進,

對其進行細(xì)分是有幫助的。理解一些基本的AI概念包括:云端AI:當(dāng)計算發(fā)生在設(shè)備之外的數(shù)據(jù)中心或遠(yuǎn)程桌面時。前沿的AI算法(有時稱為基礎(chǔ)模型)通常首先在云端誕生,且云端依然托管著最復(fù)雜的AI應(yīng)用,即最準(zhǔn)確和高性能的生成式AI工具。這些應(yīng)用通常涉及高度復(fù)雜性,并且對計算資源的需求超出了單一設(shè)備或個人電腦所能提供的范圍。邊緣AI:當(dāng)AI算法在云端環(huán)境中被證明是可行的,它們通常會進入一個優(yōu)化階段,這個階段旨在減少算法的計算需求,同時保持可接受的準(zhǔn)確性水平。這一階段的結(jié)果就是邊緣AI:一種可以在資源受限(無論是功耗、內(nèi)存還是成本方面)的設(shè)備上實際運行的算法,比如手機、汽車、無人機或相機。邊緣AI的應(yīng)用范圍非常廣泛,從高度優(yōu)化的生成式AI或大型語言模型到用于計算機視覺的卷積神經(jīng)網(wǎng)

絡(luò)(CNN),甚至是可以用來學(xué)習(xí)像手表電池消耗模式這樣簡單事物的小型網(wǎng)絡(luò)。每百次查詢對應(yīng)的設(shè)備功耗AI訓(xùn)練:是創(chuàng)建AI模型以滿足特定用例的初始過程。幾乎所有方法都涉及到構(gòu)建大量“節(jié)點”形成復(fù)雜

的矩陣關(guān)系(或網(wǎng)絡(luò)),然后通過它傳遞大量的樣本數(shù)據(jù)進行“訓(xùn)練”,例如,讓模型處理100萬張貓

的圖片,以便讓它“學(xué)習(xí)”在這個模型中貓的樣子。訓(xùn)練通常由數(shù)據(jù)科學(xué)家在云端環(huán)境中完成,而且往

往涉及極其龐大的數(shù)據(jù)量和數(shù)據(jù)處理工作(例如,據(jù)報道ChatGPT-4的訓(xùn)練成本超過了1億美元)。近年來,輕量級訓(xùn)練也可以在邊緣進行,以支持私人設(shè)備上的AI。AI處理器的真正本質(zhì)?產(chǎn)品管理副總裁3小語言模型大語言模型不斷演化的AI模型和技術(shù)生命周期僅僅十年前,卷積神經(jīng)網(wǎng)絡(luò)(CNN)在AI領(lǐng)域風(fēng)靡一時,并完成了在計算機科學(xué)領(lǐng)域此前認(rèn)為極其困難的事情,比如,在圖片中識別貓!然而,通過使用CNN和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),語音識別和圖像識別現(xiàn)在已經(jīng)實現(xiàn)了超過99%的準(zhǔn)確率,之后技術(shù)人員和學(xué)者們將他們的注意力轉(zhuǎn)向了資源優(yōu)化。幾乎每周都會有大量文章介紹人們?nèi)绾我栽?/10、1/100甚至1/1000的功耗和處理能力實現(xiàn)

相同的功能和準(zhǔn)確性。這一過程貫穿了整個技術(shù)歷史。重大突破通常最初是昂貴的,但一旦證明可行,它們就可以隨著時間的推移被優(yōu)化,以更少的資源實現(xiàn)相同的結(jié)果。這種能力飛躍和資源優(yōu)化的循環(huán)將會永遠(yuǎn)重復(fù)下去。在CNN之后不久,Transformer模型出現(xiàn)并革新了生成式AI;此后,擴散模型也作為一種對生成任務(wù)

極具潛力的解決方案出現(xiàn)。這些較新的模型現(xiàn)在正在被優(yōu)化以更高效地運行,既為了節(jié)省云AI用例的運營成本,也為了使它們能夠在邊緣的各種設(shè)備上運行。AI模型領(lǐng)域仍處于早期階段,并持續(xù)定期帶

來驚人的突破。AI推理:

比訓(xùn)練要簡單得多,且計算成本低得多。它是將新的激勵輸入預(yù)訓(xùn)練模型并要求其執(zhí)行任務(wù)的過程。在貓識別的例子中,你將一張新圖片傳入模型,它只是給出圖片中有貓的概率。大多數(shù)

邊緣AI(以及一般意義上的AI)都是推理。AI處理器的真正本質(zhì)Hiddenlayer1Hiddenlayer2Hiddenlayer3Output

layerInput

layer?產(chǎn)品管理副總裁4通用AI硬件現(xiàn)在我們對AI的一些理論概念有了大致了解,讓我們開始討論運行它所需的硬件。首先我們需要回顧“前AI”時代的計算方式以及不同類型通用處理器的演變。順序處理傳統(tǒng)上,計算是在所謂的標(biāo)量或順序處理器上完成的——最常見的是中央處理器(CPU)。簡單來說,這些處理器執(zhí)行一個動作,完成后繼續(xù)下一個動作。它們非常易于理解,幾乎可以用于任何類型的計算。歷史上,隨著軟件變得越來越復(fù)雜,CPU只是變得越來越快。然而,CPU的順序計算方法有一個局限性:它一次只能做一件事,有些任務(wù)并不適合這種方式。并行處理的誕生并行處理的概念被發(fā)明出來以加速那些CPU不擅長的任務(wù)。并行處理將非常大的工作負(fù)載分解成許多小的獨立工作負(fù)載,這些負(fù)載可以同時運行。其中一個最早需要并行加速的任務(wù)是像素處理。圖形用戶界面或電腦游戲需要每秒至少計算屏幕上數(shù)百萬個像素30次。這是CPU根本無法足夠快速完成的。然而,很明顯,如果每個像素的數(shù)據(jù)能夠獨立并行計算,那么所需的性能就能達(dá)到。這就是首個圖形處理器單元(GPU)誕生的原因。如今,從桌面到智能手表,幾乎所有帶有屏幕的設(shè)備都配備了GPU。最初,GPU的功能非常有限。然而,隨著時間的推移,隨著用戶界面變得更加豐富,游戲場景變得更加詳細(xì),每個像素都需要更復(fù)雜的處理才能達(dá)到正確的結(jié)果。為應(yīng)對這種情況,GPU成為了高度靈活、高度可編程、通用且并行的計算加速器。它們的靈活性意味著不僅可以運行圖形相關(guān)的軟件,還可以以高度并行化且高效的方式運行其他軟件。AI處理器的真正本質(zhì)?產(chǎn)品管理副總裁

5順序處理的局限性現(xiàn)代計算機科學(xué)的一個挑戰(zhàn)是,近年來,CPU設(shè)計者和半導(dǎo)體技術(shù)專家不斷專注突破提升CPU性能瓶頸,然而軟件卻變得越來越復(fù)雜!就在CPU性能飛躍開始放緩的時候,AI出現(xiàn)了。正如前文所述,AI本質(zhì)上涉及復(fù)雜的矩陣或網(wǎng)絡(luò),其中包含大量的“節(jié)點”(截至撰寫時可能達(dá)到數(shù)百億個,并且增長迅速)。對所有這些“節(jié)點”進行順序

計算,僅適用于最簡單的AI網(wǎng)絡(luò)。為了解決這個問題,許多CPU采用了諸如矢量引擎之類的特殊適配功能,這可以在一定程度上幫助處理AI工作負(fù)載。但它們?nèi)匀皇艿教幚砥鞅旧淼南拗疲篊PU本質(zhì)上是順序執(zhí)行的,根本無法應(yīng)對AI所需的高帶寬數(shù)據(jù)和龐大的計算量。在CPU上運行大多數(shù)AI軟件意味著需要長時間等待響應(yīng),同時伴隨著極高的功耗。CPU能夠支持的AI能力存在實際限制。并行處理來拯救!然而事實證明,在大多數(shù)情況下,AI網(wǎng)絡(luò)中的一個“節(jié)點”與屏幕上的一個像素有許多相似之處:它們可以被獨立并行運行,由一組定義明確的計算組成,并依賴于巧妙的數(shù)據(jù)管理。這種像素與節(jié)點之間的相似性,加上現(xiàn)代GPU的高度可編程性和靈活性,意味著只需進行一些有針對性的修改,GPU

就成為運行AI網(wǎng)絡(luò)的理想工具。并非所有GPU都相同認(rèn)識到這一點后,云端AI已經(jīng)主要基于GPU。用于云端AI訓(xùn)練的GPU能夠處理極其復(fù)雜的網(wǎng)絡(luò),無論其形狀、大小或描述如何,均由程序員自行決定。它們還處理幾乎難以想象的海量訓(xùn)練數(shù)據(jù)。因此,這些GPU的設(shè)計主要以最大靈活性和最高原始性能為目標(biāo)。為了實現(xiàn)這一目標(biāo),它們可能非常龐大,并且通常位于數(shù)據(jù)中心中,擁有充足的電力、冷卻能力和數(shù)據(jù)帶寬。即使在最強勁的情況下,完成一次訓(xùn)練課程仍可能需要大量數(shù)據(jù)中心GPU花費數(shù)天、數(shù)周甚至數(shù)月的時間,并消耗兆瓦級的電力。另一方面,邊緣AI推理提出了完全不同的挑戰(zhàn)。設(shè)備端AI推理所需的GPU無法依賴蠻力性能,因為這些處理器更小,且在可用功率和內(nèi)存方面受到更多限制。它們需要比云端GPU更智能、更高效,才能發(fā)揮現(xiàn)代AI的性能優(yōu)勢,而不會耗盡手機電池或顯著影響電動車的續(xù)航里程。幸運的是,嵌入在手機和汽車等設(shè)備中的現(xiàn)代GPU已經(jīng)經(jīng)過了數(shù)十年的優(yōu)化,能夠在低功耗下高效執(zhí)行數(shù)據(jù)密集型工作負(fù)載——考慮到所涉及的處理水平,這是一個巨大的成就。它們完全有能力滿足邊緣AI推理的需求。AI處理器的真正本質(zhì)?產(chǎn)品管理副總裁6那么NPU或AI處理器呢?僅僅關(guān)注CPU和GPU并不能完整描繪AI硬件的全貌。還有神經(jīng)處理單元(NPU),有時也被稱為

AIPU或其他類似的“大腦”或“智能”術(shù)語。NPU完全沒有標(biāo)準(zhǔn)化,形式五花八門。有些非常奇特(如神經(jīng)形態(tài)計算或內(nèi)存類計算),有些針對

特定AI網(wǎng)絡(luò)進行了高度優(yōu)化,還有一些具備一定程度的靈活性。然而,幾乎所有NPU都會遇到以下一個或多個可編程性挑戰(zhàn):

它們本質(zhì)上是專有的。沒有統(tǒng)一的NPU設(shè)計方法,這使得第三方軟件開發(fā)者難以使用。

缺乏標(biāo)準(zhǔn)軟件接口和工具,這使得它們難以編程。 通常針對特定類型的AI網(wǎng)絡(luò)或一類網(wǎng)絡(luò)進行了優(yōu)化。這意味著雖然它們在這些特定網(wǎng)絡(luò)上效率很高,但在新AI網(wǎng)絡(luò)出現(xiàn)時難以適應(yīng)。在快速發(fā)展的AI世界中,它們的生命周期可能很短。

缺點,這意味著在一個NPU上運行良好的軟件在另一個NPU上可能表現(xiàn)不佳。即使存在這些可編程性問題,

NPU仍有其用武之地。它們最好被視為專用硬件加速器。如果你有一個已知的工作負(fù)載,并希望盡可能快或高效地運行它,專用硬件加速總是能帶來最佳結(jié)果。圖1-GPU為AI提供靈活性和高效性然而,在當(dāng)前AI工作負(fù)載逐年變化的情況下,AI硬件系統(tǒng)仍需要一定程度的靈活性和通用加速能力,以確保設(shè)備的未來適用性。EfficiencyAI處理器的真正本質(zhì)?產(chǎn)品管理副總裁7Flexibility別忘了軟件AI硬件和軟件密不可分。在創(chuàng)建AI解決方案時,可能會傾向于將這兩個領(lǐng)域分開,讓它們各自解決自己的問題空間。但如果這兩個組件不能結(jié)合在一起,你將一無所獲。在創(chuàng)建AI硬件平臺時,至關(guān)重要的是要考慮它需要運行什么軟件以及誰將開發(fā)這些應(yīng)用程序。這是專用硬件加速器的一個主要弱點:它們過于專注于特定任務(wù),通常缺乏使它們對更廣泛的軟件社區(qū)有用的配套軟件和工具。軟件是通用處理器的超級力量。它們都配備了基礎(chǔ)層、標(biāo)準(zhǔn)接口和高級工具,使硬件和軟件世界能夠結(jié)合在一起,讓魔法實現(xiàn)。這也是CPU的優(yōu)勢所在——它們擁有近半個世紀(jì)的軟件生態(tài)系統(tǒng)開發(fā)歷史。盡管GPU的軟件生態(tài)系統(tǒng)較年輕,但也足夠成熟,使AI開發(fā)者能夠輕松利用其并行性。有大量定義明確且被廣泛接受的軟件標(biāo)準(zhǔn),例如oneAPI、OpenCL、SYCL和TVM,使開發(fā)者能夠?qū)PU用于AI。此外,分析、跟蹤和調(diào)試工具也正在迅速適應(yīng),以覆蓋AI工作負(fù)載,而不局限于傳統(tǒng)的圖形處理。并行處理的時代隨著AI滲透到所有設(shè)備中,越來越多的并行處理器被集成到硬件系統(tǒng)中。未來的發(fā)展軌跡似乎十分清晰:未來的邊緣AI硬件將包括一個用于控制任務(wù)的通用順序處理器(CPU)、一個用于靈活圖形處理和AI編程的通用并行處理器(GPU),以及在需要時,一個用于預(yù)定AI功能的專用硬件加速器

(NPU)。這種將多種不同類型的處理器整合到一個系統(tǒng)中的方法被稱為“異構(gòu)計算”,并且已經(jīng)在邊緣設(shè)備中使

用了多年。不過,停滯不前的CPU性能與不斷增長的AI工作負(fù)載正推動GPU被廣泛應(yīng)用于異構(gòu)邊緣系統(tǒng)中。GPU的并行性為軟件社區(qū)所需的邊緣AI硬件提供了高性能、可編程性和能效。AI處理器的真正本質(zhì)?產(chǎn)品管理副總裁8?產(chǎn)品管理副總裁9作者簡介文章由Imagination

Technologies

的產(chǎn)品管理副總裁DennisLaudick撰寫,他致力于為人工智能領(lǐng)域帶來清晰的認(rèn)識。文章基于他在移動、汽車和消費電子行業(yè)數(shù)十年的經(jīng)驗總結(jié)而成。在加入Imagination

Technolo

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論