




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
一、背景 4二、車載智能計算趨勢與挑戰(zhàn) 51.傳感器及控制單元復雜繁多 52.環(huán)境感知融合帶來實時數(shù)據(jù)處理挑戰(zhàn) 63.算法模型尚不能很好應對長尾場景 74.Al算法演進周期快于智能芯片設計周期 85.大算力低功耗的車載智能計算芯片方案缺乏 86.功能安全是底線 9三、軟件定義汽車 101.軟件定義汽車的驅(qū)動力 112.系統(tǒng)架構(gòu)革新 123.云原生技術極大提升研發(fā)效率 154.邊緣算力預埋與車云協(xié)同計算提升汽車長期價值 17四、異構(gòu)計算芯片 191.車載智能計算SoC架構(gòu) 212.能耗與性能 223.功能安全 244.信息安全 27五、車載智能計算軟硬協(xié)同優(yōu)化 291.自動駕駛算法向端到端大模型演進 292.軟硬協(xié)同優(yōu)化的難點 303.NPU軟硬協(xié)同設計創(chuàng)新 354.異構(gòu)感知計算流水線優(yōu)化 365.輔助駕駛、自動駕駛案例 376.智能座艙案例 43六、總結(jié)與展望 47一、背景智能化、面向服務的基礎架構(gòu)、軟件定義汽車等已經(jīng)成為各大汽車廠商競相追逐的熱點和差異化的焦點。高算力域控制器、智能座艙、輔助駕駛、自動駕駛等人工智能算法應用越來越受到各大汽車制造商、汽車零部件供應商、算法和系統(tǒng)集成商的重視和關注,并迅速成為投資和競爭的重點。軟件和算法在智能駕駛汽車中越來越重要而且成為了差異化競爭的關鍵。軟件價值的提升意味著未來汽車更多的創(chuàng)新將集中在電子和軟件部分。領先的底層架構(gòu)、出色的軟件迭代、持續(xù)優(yōu)化和不斷進化的硬件技術,將加速整個汽車行業(yè)的轉(zhuǎn)型與變革。隨著芯片技術、硬件技術、軟件技術、人工智能、深度學習算法等迅猛發(fā)展,智能計算已是大勢所趨,車載智能計算軟硬件平臺和服務的競爭在汽車行業(yè)中據(jù)IHS調(diào)研的數(shù)據(jù)顯示,中國購車消費者對于智能座艙科技的關注度要高于美國、日本、英國等多個國家,對于座艙智能科技水平的關注僅次于安全配置,甚至超過動力、價格、能耗等指標。據(jù)HIS調(diào)研預測,到2030年,汽車智能座艙的全球市場規(guī)模將達到681億美元,而中國市場規(guī)模將超過1600億元;全球占比將超過37%,成為全球主要的智能座艙消費市場。另據(jù)Tractica預測,2025年汽車人工智能硬件、軟件和服務市場將達到265億美元。麥肯錫的一份調(diào)研也顯示,2030年全自動駕駛汽車可能占全球乘用車銷量的15%,2040年時,將上升到80%。自動駕駛目前是一個相對新生的市場,相信隨著人工智能技術、法律監(jiān)管的完善以及消費者接受度的提升,自動駕駛市場會進一步擴大。當然,人工智能技術是實現(xiàn)汽車智能化的最核心要素之一,它包括機器學習、深度學習、自然語言處理、計算機視覺等軟件工程、算法的演化。其中算法模型的演化需求,以及紛繁復雜極大驅(qū)動了車載智能計算芯片創(chuàng)新。今年以來,ChatGPT的驚人效果標志著人工智能領域的又一次重大里程碑,同時還掀起了一場深刻的軟件開發(fā)變革,這就是大數(shù)據(jù)和大模型驅(qū)動的軟件開發(fā)2.0新范式,將在未來的數(shù)年內(nèi)深刻影響45《車載智能計算芯片白皮書(2023)》感知雷達攝像頭高精度地圖及定位器定位執(zhí)行來同時處理多個具有挑戰(zhàn)性的任務(例如,對象提取、檢測、分割、跟蹤等)。根據(jù)LucidMotors的研究人員測算,智能汽車每小時各種傳感器累計產(chǎn)生的數(shù)據(jù)量大約為1.4TB-19TB。來源:StephanHeinrich,LucidMotors,FlashMemorySummit2017圖二:車載傳感器數(shù)量及帶寬L2級別及以下的駕駛輔助系統(tǒng)所需處理的數(shù)據(jù)量小且算法模型簡單,因此小算力芯片與算法的強耦合即可滿足系統(tǒng)需求。隨著激光雷達等高性能傳感器的量產(chǎn)上車以及智能駕駛系統(tǒng)算法的泛化性提升,面向量產(chǎn)乘用車的全場景自動駕駛點到點通行鏈路正逐步打通。對于L3級別及以上的智能駕駛系統(tǒng)而言,傳感器數(shù)量的增加及多路高分辨率攝像頭帶來海量實時環(huán)境感知數(shù)據(jù),外加算法模型的復雜程度不斷增加,計算平臺的處理能力面臨巨大挑戰(zhàn)。3.算法模型尚不能很好應對長尾場景超過95%的車禍是由于各種人為錯誤造成的,但是對于完全自動駕駛技術量產(chǎn)而言,在倫理、法律要求下,Al技術不成熟導致車禍是不能容忍的。使用更先進的Al模型算法,采用更為完備的訓練標注數(shù)據(jù),雖然可以提高自動駕駛的安全性和準確性,然而,極端情況仍然是需要人類駕駛者來干預,至少目前為止還沒有算法可以解決所有的極端場景。即便隨著自動駕駛汽車不斷的里程突破,很多時候在人類看來是非常低級錯誤的自動駕駛事故案例也時有發(fā)生。從自動駕駛算法角度來看,每一個低級失誤導致的事故案例,都反映了Al算法或者模型的不完備性,我們是無法接受自動駕駛算法犯低級錯誤,哪怕錯誤概率低至0.01%。模型的泛化性不佳是其中的重要原因之一,突破點在于通用人工智能(AGI,ArtificialGeneral4.Al算法演進周期快于智能芯片設計周期去10年時間里,差不多每年都有會新的深度學習算法模型出現(xiàn)。據(jù)統(tǒng)計,大概每14個月,新的模型就能將計算效率提升一倍,但典型的車載芯片開發(fā)周期需要三年。算法優(yōu)化會對計算平臺架構(gòu)帶來巨大的挑戰(zhàn),計算平臺架構(gòu)必須根據(jù)算法的特點進行特定優(yōu)化,才能保持足夠的計算效率和性能。這種進化速度上的不匹配,對芯片公司的算法能力提出更高要求,需要對算法的發(fā)展趨勢進行預判,前瞻性地將其計算特點融入到芯片架構(gòu)設計當中,使得芯片經(jīng)過三年的研發(fā),在推出市場的時候,硬件利用率,達到真正意義上向后兼容軟件算法創(chuàng)新,這是非常難的。5.大算力低功耗的車載智能計算芯片方案缺乏駛技術都在基于GPU(圖形處理芯片)進行Al(深度神經(jīng)網(wǎng)絡)計算。但GPU不像定制芯片(ASIC)那樣高能效比或具有成本效益。最大的問題之一是功耗,要使L3以上的工作完美無缺,我們需要L2L3L4L56.功能安全是底線傳感器數(shù)量20+25+表一:自動駕駛等級與算力需求20+300+4000+功能安全指電子電器及其相關軟件本身,通過其內(nèi)置的安全機制,將傷害人類或損壞物品的潛在風險降低到可容忍的范圍。在航空、工業(yè)、公共交通等路上行駛的汽車在功能安全上面臨更多的挑戰(zhàn):汽車作為非常重要的交通工具,早已走入千家萬戶,汽車作為日常消費品,市場競爭非常充分,用戶對于價格非常敏感。航空、工業(yè)以及公共交通等領域可靠性要求更高,涉及功能安全可以通過更多的冗余設計達到,而各大汽車制造商在成本控制上則要苛刻得多,在成本可控的前提下,達到功能汽車使用場景和范圍非常寬泛,作為全天候高頻使用,且不同駕駛?cè)藛T使用習慣不同,外加一般車輛的使用周期8-10年,在此期間關鍵零部件需要能始終保持正常運轉(zhuǎn),可靠性測試驗證的周期長、10《車載智能計算芯片白皮書(2023)》期待軟件定義的新功能,例如駕駛輔助系統(tǒng)、自動駕駛、車載娛樂和智能網(wǎng)聯(lián)等。這些需求的演變催生了新的商業(yè)模式和新的工程研發(fā)協(xié)作方式。據(jù)東吳證券數(shù)據(jù)顯示,2021Q1,全球智能手機的滲透率高達90%,智能手機與移動互聯(lián)網(wǎng)在過去15年左右時間的興起與繁榮,硬件的性能持續(xù)提升,新技術層出不窮,軟件生態(tài)、軟件應用的價值都獲得了巨大的市場回報。雖然手機生產(chǎn)廠商通常每半年到一年推出新款手機設備,但是消費者無需購買最新款手機硬件,僅通過系統(tǒng)升級和軟件更新,也可以體驗性能提升和更多功能。消費者在智能手機和移動互聯(lián)的使用習慣和意愿上,成功延伸至汽車領域,比如車載信息娛樂、智能網(wǎng)聯(lián)、人機交車輛信息娛樂、遠程信息處理或車輛診斷系統(tǒng)的軟件升級不再需要能夠接收無線(OTA)更新,其中包括安全補丁、信息娛樂改進、自動駕駛、輔助駕駛等車輛核心功用戶行為等都會產(chǎn)生大量數(shù)據(jù),這些數(shù)據(jù)有機會完成本地實時分析或者發(fā)送到云端處理,使主機廠能夠深入了解汽車狀態(tài)和用戶使用習慣,并改進汽車軟件生命周期管理、開發(fā)個性化功能,與消費者建汽車產(chǎn)業(yè)朝著電動化、智能化、網(wǎng)聯(lián)化以及共享化發(fā)展,汽車作為一個包含機械動力的數(shù)字化信息終端,許多重要的功能特性需要借助軟件和算法來完成,比如智能語音控制車內(nèi)空調(diào)溫度,檢測駕激光雷達、超聲波雷達等各種傳感器,這些傳感器數(shù)據(jù)都會實時匯總,輔助駕駛員安全駕駛,其中大據(jù)統(tǒng)計,相比波音787飛機代碼行約為650萬行,目前中高端汽車的軟件代碼超過1.5億行,軟件占汽車生產(chǎn)總成本約10%,相信隨著更多軟件、算法、應用的部署,軟件占總成本將逐步提高,甚至超過總車成本50%。1.4價值鏈遷移,軟件將成為新的業(yè)務增長點伴隨汽車電子的興起,汽車行業(yè)迎來了技術革新潮流,汽車零部件競爭激烈,價值和利潤率越來越低,傳統(tǒng)汽車銷售模式在汽車交付給終端消費者的時候,銷售即完成。相較于特斯拉汽車的銷售模式,在汽車交付之后,通過FOTA(FirmwareOver-The-Air)或者SOTA(SoftwareOver-The-Air)等方式完成汽車軟件更新升級,持續(xù)收取用戶服務費用,例如預裝特斯拉FSD硬件的汽車消費者,可以以每月199美元的費用訂閱Autopilot自動駕駛服務,軟件訂閱模式意味著已售車輛在將來還會持續(xù)為特斯拉公司貢獻收入,也為軟件定義汽車帶來新的營收價值。2.系統(tǒng)架構(gòu)革新電子電氣架構(gòu)(簡稱EEA),指汽車上所有的電子和電氣部件,以及這些部件之間的拓撲結(jié)構(gòu)和連接線束。當下汽車以分布式EEA為主,一個ECU對應一個或者少數(shù)幾個功能,每個ECU包含嵌入式軟件,并通過CAN、FlexRay等總線技術連接。通常主機廠只是根據(jù)市場需求不斷增加ECU和調(diào)整線束拓撲,車載線束已經(jīng)變得非常冗余且拓撲結(jié)構(gòu)復雜,智能車引入三電系統(tǒng)(動力電池、驅(qū)動電機和電控系統(tǒng))則進一步加劇了EEA的復雜程度,特別是智能座艙、自動駕駛需要更多的ECU和傳感器,但傳統(tǒng)分布式EEA已經(jīng)碰到傳輸瓶頸,算力和總線信號傳輸速度遠遠落后于電動化和智能化需求,繼續(xù)沿用現(xiàn)有分布式EEA來完成不斷演變的智能汽車功能需求,成為了不太可能完成的任務。當下,大多數(shù)量產(chǎn)汽車都是采用分布式電子電氣架構(gòu),一輛汽車有多個小型固定功能電子控制單元(ECU),它們由許多不同的供應商設計,軟硬件高度耦合,如果需要新增功能,相應的ECU和軟件需要改動,車內(nèi)線束等可能也需要改變,帶來更多系統(tǒng)集成、驗證等工作,成本極高,因此在功能升級方面,不具備靈活性。域集中式電子電氣架構(gòu)則將同一功能域下的多個ECU整合到域控制器中,降低鏈接的復雜性,也同時縮短線束長度,降低成本和重量,典型域控制器是車載信息娛樂系統(tǒng)出現(xiàn),中央集成式電子電氣架構(gòu)(車輪上的數(shù)據(jù)中心)將進一步整合域控制器,高性能服務器芯片將然后將數(shù)據(jù)轉(zhuǎn)發(fā)到高性能中央計算單元進行高速處理。隨著電子電氣架構(gòu)的不斷演進變革,計算硬件單元更加集中,ECU件不再基于特定的ECU來開發(fā),而是具備可移植性、可擴展性,也更容易迭代更新,當然對計算芯片的性能要求也會越來越高,由于計算趨于集中,支持不同工作負載的高性能異構(gòu)計算芯片(SystemonChip)和標準化的編程接口,將會是軟件定義汽車功能的硬件基礎。分布式EE案構(gòu)(-2015)云教據(jù)心云教據(jù)心城集中式架構(gòu)(20214)中失集成式EE聚構(gòu)(20254)2.2面向服務架構(gòu)是軟件基礎2.2.1面向信號架構(gòu)(SignalOrientedArchitecture)面向信號架構(gòu)是分布式電子電氣架構(gòu)中汽車軟件的常用開發(fā)架構(gòu),由于ECU的功能是固定的,彼此通過LIN/CAN等總線進行點對點通信,軟件提前編寫并固化在ECU內(nèi)運行,隨著汽車功能越來越多越來越復雜,ECU的數(shù)量也急劇增多,微小的功能改動都可能會引起整車通信甚至其它ECU軟件的更新,這種架構(gòu)不具備靈活性和擴展性,開發(fā)和驗證的成本非常高。2.2.2面向服務架構(gòu)(ServiceOrientedArchitecture)面向服務架構(gòu)(ServiceOrientedArchitecture,簡稱SOA)在軟件、信息通信領域是非常成熟、常見的軟件架構(gòu)設計理念,它鼓勵提供抽象訪問接口和模塊化軟件組件的方式,讓軟件模塊很容易在不同場景下復用,通常以SoftwareDevelopmentKits(SDK)、軟件庫、以及遠程調(diào)用的方式提供,上層系統(tǒng)通過復用和自由組合既有軟件模塊,可以實現(xiàn)快速開發(fā)特定的功能,并能降低測試驗證成本和開發(fā)周期。高內(nèi)聚、松耦合、可擴展性強是SOA架構(gòu)的核心特點。直用軟丹直用軟丹規(guī)劃決策虛應化管進及礦要動等硬件平自功能安全基本服務環(huán)裝感知執(zhí)行控制核CPU圖四:智能汽車SOA架構(gòu)示意圖硬件定義了SOA的能力邊界,底層硬件通常包括核心的Al計算單元,通用計算單元以及控制單元(包括各種傳感器、執(zhí)行器ECU等)。系統(tǒng)軟件則提供了豐富的硬件訪問抽象接口、虛擬化、應用操作系統(tǒng)、實時操作系統(tǒng)以及各種通信協(xié)議封裝等功能。異構(gòu)計算硬件與系統(tǒng)軟件的接口標準化以及它們的軟件開發(fā)者生態(tài),決定了應用開發(fā)者的準入門檻。采用ArmCPU計算核心的車載SoC平臺,很容易實現(xiàn)虛擬化并與Linux、Android、RTOS、GCC編譯器、Java虛擬機等系統(tǒng)軟件完美集成,為上層應用開發(fā)者提供與手機、桌面、數(shù)據(jù)中心等應用幾乎相同的開發(fā)、調(diào)試體驗,讓移動互聯(lián)網(wǎng)的開發(fā)者近乎無縫將大量功能代碼模塊遷移到車載應用軟件中。3.云原生技術極大提升研發(fā)效率隨著汽車系統(tǒng)軟件的復雜性越來越高,特別是自動駕駛、輔助駕駛等新型應用的誕生,應用程序代碼變得日益復雜,為了快速滿足各種不斷變化的消費者需求,由此產(chǎn)生的軟件開發(fā)、部署和管理方式也有別于傳統(tǒng)車載嵌入式系統(tǒng)開發(fā)。云原生開發(fā)模式降低了整個云基雜性,非常適用于汽車應用開發(fā),其中基于微服務容器架構(gòu),可以大量復用工作負載的基礎技術代碼,以及模塊化部署方式,這些都在傳統(tǒng)的智能手機和企業(yè)應用中已經(jīng)得到了大量的驗證。云原生技術有利于企業(yè)在公有云、私有云和混合云等新型動態(tài)環(huán)境中,構(gòu)建和運行可彈性擴展的師很容易對系統(tǒng)進行頻繁的代碼變更。云原生技術對于汽車應用開發(fā)而言,意味著轉(zhuǎn)向基于云的開發(fā)模式,實現(xiàn)在云端開發(fā)軟件并直接部署于邊緣端的汽車上。開發(fā)者隨時極大縮短車載系統(tǒng)應用的開發(fā)和部署周期。Compte車C集群Conguteysosbperesol圖五:云原生的虛擬仿真與真實部署3.1.1云原生技術與車載研發(fā)融合關鍵應用與常規(guī)應用混合編排簡化部署復雜度:車載軟件在本質(zhì)上可以是同時部署運行關鍵應用和常規(guī)應用微服務的。關鍵應用對安全性和實時性的要求更高,相應的微服務從硬件資源調(diào)度和依賴的軟件庫必須得到相應的優(yōu)先級部署。比如某些微服務可能需要滿足ISO26262規(guī)范定義的ASIL-B/ASIL-D的完整性級別,引入經(jīng)過安全認證的編譯器、運行框架或者SDK,這些編譯器和工具將作為基于微服務容器的一部分進行集成。另外,現(xiàn)有的云原生基礎設施及容器編排技術,可以感知軟硬件特征,特別是嵌入式車載硬件系統(tǒng)的功能特性,按照需求把相應的微服務部署到最合適的節(jié)點上,并以最佳方式運行??焖僭贫朔抡骝炞C測試:車載系統(tǒng)開發(fā)人員可以在云端運行模擬運行軟件系統(tǒng)。彈性可擴展是云計算非常重要的特性,作為DevOps基礎架構(gòu)的一部分,云可以提供大量的硬件資源,方便開發(fā)者提供大量的數(shù)據(jù)輸入,模擬成百上千的真實使用場景,甚至可以同時在數(shù)千個云端服務器節(jié)點上啟動執(zhí)行。這種大規(guī)模的仿真測試,如果在實際的車載嵌入式系統(tǒng)中來完成,需要的時間會極其漫長。根據(jù)Arm對客戶的初步調(diào)查,大約70%的車載軟件系統(tǒng)模擬測試,是完全可以基于彈性云環(huán)境執(zhí)行的。車載硬件計算平臺與軟件系統(tǒng)同步開發(fā):從軟件開發(fā)人員的角度看,基于云的執(zhí)行環(huán)境和汽車邊緣計算環(huán)境之間,實現(xiàn)指令集架構(gòu)(ISA)和CPU架構(gòu)對等,意味著可以進一步降低開發(fā)成本和周期。以基于Arm的車載計算平臺為例,開發(fā)者可以在AWS的Graviton(ArmCPU)實例上編寫、測試和運行應用,實現(xiàn)完整的端到端基于ArmCPU技術的云到汽車邊緣計算,開發(fā)人員甚至可以不用交叉編譯代碼,在車載硬件計算平臺沒有量產(chǎn)前,就可以在非常貼近實際場景中完成驗證。編譯器和模擬器也可以最大效率利用硬件計算資源,避免因最終部署環(huán)境的不一致,導致大量程序代碼異常在與車載SOAFEE是車廠、一級供應商、半導體、軟件和云技術頭部企業(yè)等攜手合作,為軟件定義汽車開發(fā)了基于開放標準的新架構(gòu),它用經(jīng)過驗證的云原生增強技術,與汽車應用中必需的實時和安全功能一起運作,快速無縫地滿足軟件定義汽車的應用需求開發(fā)。此外,由這些企業(yè)組成的特別興趣小組(SIG,SpecialInterestGroup)還為SOAFEE定義了參考實現(xiàn),通過開源軟件的形式免費發(fā)布,以度地提高兼容性,也為功能安全設計提供更快的途徑。4.邊緣算力預埋與車云協(xié)同計算提升汽車長期價值隨著SOA的域集中式EEA的逐步應用普及,以及車端算力的快速增長,智能汽車將成為一個移動的超級計算機,車端軟件復雜度也將不斷提升,并逐漸形成多個分層:OS/Middleware層,Al與大數(shù)據(jù)層,數(shù)據(jù)智能的應用層。憑借算力、軟件和通信的能力、智能汽車具備可持續(xù)迭代的能力,也將有越來越多的數(shù)據(jù)驅(qū)動智能應用在智能汽車上出現(xiàn),包括智能座艙、輔助駕駛、智能診斷、用戶行為模型、智能熱管理、智能底盤等。而在車端數(shù)據(jù)的采集和智能應用的運行均依托車載智能計算,大數(shù)據(jù)開發(fā)則集中在云端,為了提高數(shù)據(jù)采集、算法部署的效率,需要通過中間件軟件來封裝車云異構(gòu)。團環(huán)團環(huán)為為主ca刑ca刑生數(shù)數(shù)重分析ios車云通訊車云通訊牌度數(shù)據(jù)采康(15%)牌度數(shù)據(jù)采康(15%)(20%70%),完不顯算法開發(fā)工具算法開發(fā)工具云端管理平臺靈活靈活數(shù)據(jù)部署vADS智駕數(shù)據(jù)引攀邊像計算引攀邊緣數(shù)據(jù)庫執(zhí)心功:時樂、食穩(wěn)錄,執(zhí)心功:時樂、食穩(wěn)錄,囊稅教力元素:自時海稅(0%)40%),元護重不足主施芯片:S32GsimGones算力元象:同關本身以能(70%)安數(shù)驗來集(20%)這緣計(10%-50%),元涂嚴型不足,不同于手機、桌面、數(shù)據(jù)中心或者一般邊緣計算場景對于智能計算芯片的需求,從軟件定義汽車圖像處理、通用計算等異構(gòu)計算等。安謀科技的IP產(chǎn)品基本覆蓋各種計算場景,如圖六所示,SoC芯片開發(fā)商可以根據(jù)計算類型和密集程度,選擇相應的IP計算核心組合,加速車載芯片研發(fā)周期。傳感器數(shù)據(jù)等。安謀科技的計算IP核心產(chǎn)品主要分類如下:CPU(中央處理單元)是一種通用任務處理器,非常適合運行復雜的邏輯串行任務,安謀科技CPU產(chǎn)品根據(jù)系統(tǒng)復雜度和場景,劃分3個大系列:Cortex-A:高性能、高吞吐流水線作業(yè),支持多核并行運行、軟件管理中斷、現(xiàn)代操作系統(tǒng)支持(如Linux),并提供高級編程模型接口,常見于高性能應用程序運行場景,比如海量信號數(shù)據(jù)格式轉(zhuǎn)換;oCortex-R:實時數(shù)據(jù)處理,軟件管理中斷,快速中斷響應以及多核支持,常見于需要實時性要求非常苛刻的場景,比如汽車制動和轉(zhuǎn)向控制器;0Cortex-M:為面積、功耗以及實時操作系統(tǒng)(RTOS)特別優(yōu)化的處理器,提供簡單編程模型接口,由硬件管理中斷,適用于功耗要求非常高的場景,比如藍牙鑰匙、胎壓監(jiān)測等;GPU(圖形處理單元)是用于高速圖形渲染的處理器,因其有多個高度并行內(nèi)核(可以多達數(shù)百甚至上千個微內(nèi)核)處理數(shù)學矩陣運算,通常用于圖形渲染操作,也可以完成部分AlNPU(神經(jīng)網(wǎng)絡處理單元)是為深度神經(jīng)網(wǎng)絡推理而定制的邏輯電路實現(xiàn),具有低功耗、速ISP(圖像信號處理器)是將圖像傳感器(比如一個或者多個攝像頭信號數(shù)據(jù))實時轉(zhuǎn)化成多種格式的數(shù)據(jù)輸出,方便人類觀看或者其它機器視覺應用進一步處理。Security(信息安全)是一個包含硬件、軟件、工具包,支持應用程序不可知的安全子系統(tǒng),車輛控制、智能座艙、輔助駕駛、自動駕駛等場景和通常的邊緣計算場景相比,需要更高的性能,更低的功耗,更及時的響應,更可靠穩(wěn)定,更保密安全,且成本可控,以滿足安全駕駛的苛刻需求。車載應用開發(fā)往往需要同時使用上述多種異構(gòu)計算單元提供算力保障,不同計算單元協(xié)同工作,平衡1.車載智能計算SoC架構(gòu)輔助駕駛和自動駕駛運行時軟件與芯片硬件是緊密耦合的,從汽車行業(yè)發(fā)展趨勢看,域集中式電子電氣架構(gòu)和更為激進的中央集中式電子電氣架構(gòu)是產(chǎn)業(yè)發(fā)展方向,無論是哪一類電子電氣架構(gòu),車載SoC都會更加復雜,需同時具有多路傳感器接口(包括攝像頭、雷達、超聲波雷達、激光雷達等)、能安全的特殊需求,這些都需要完整無縫銜接運行,并且可以支撐上層各種特定虛擬化軟件應用。如圖七所示,安謀科技提供了車載智能計算SoC所需要的幾乎全部核心IP,以及底層硬件計算單元配套的驅(qū)動、編譯器、工具鏈等系統(tǒng)軟件集等,以滿足虛擬化和上層應用開發(fā)所需的仿真、調(diào)試等快速開發(fā)、測試和部署運行需求。圖七:安謀科技車載智能SoC概念設計方案21《車載智能計算芯片白皮書(2023)》2.能耗與性能2020年6月,權威雜志《科學》發(fā)表MIT、英偉達和微軟研究人員的聯(lián)合論文,論文指出:隨著,隨著摩爾定律放緩,Al計算性能提升在于軟件工程,算法,硬件架構(gòu)聯(lián)合優(yōu)化,行業(yè)正在迎來頂層設圖八:后摩爾時代的計算效能提升該論文從側(cè)面揭示了一個重要趨勢:隨著Al計算的興起,計算規(guī)模擴大了2~3個數(shù)量級,算法、軟件和架構(gòu)開始引領芯片創(chuàng)新,行業(yè)進入了軟件定義智能計算芯片時代。車載智能計算芯片上,Al計算加速器(深度神經(jīng)網(wǎng)絡加速器)的能耗通常較大,靈活可配置的系統(tǒng)架構(gòu),可以極大降低功耗,提高性能,降低晶體管數(shù)量,讓PPA(Performance、Power、Area)達到最優(yōu),但達到這個目的,通常有如下技術難點:2.1突破馮·諾伊曼“瓶頸”傳統(tǒng)馮·諾伊曼計算架構(gòu),程序和數(shù)據(jù)保存在內(nèi)存中,處理器和內(nèi)存是分開的,數(shù)據(jù)在兩者之間移動。這種計算架構(gòu)導致數(shù)據(jù)在內(nèi)存和處理器間的傳輸延遲不可避免。例如DDR最高帶寬理論值約為30-80GB/s,且隨機數(shù)據(jù)訪問時的帶寬要遠低于理論值。而一次深度神經(jīng)網(wǎng)絡的推理過程涉及的計算中間數(shù)據(jù)量遠高于此,比如:VGG16網(wǎng)絡有138.36M個權重參數(shù),一次推理過程需要154.7G次乘累加運算。深度神經(jīng)網(wǎng)絡加速器(NPU)最重要的優(yōu)化手段之一是降低對內(nèi)存訪問的頻率,有利于降低系統(tǒng)功耗,并縮短推理計算的延遲。比如根據(jù)不同類型場景需求中的神經(jīng)網(wǎng)絡模型特性,設定NPU內(nèi)SRAM大小,降低DDR內(nèi)存訪問的概率。甚至當模型無法全部一次性加載到NPU中時,也可以通過靈活的數(shù)據(jù)替換策略和對稀疏矩陣數(shù)據(jù)優(yōu)化壓縮等手段,大大降低內(nèi)存訪問頻率和帶寬延遲。2.2靈活性與性能的平衡基于深度神經(jīng)網(wǎng)絡推理的NPU,包含大量乘加操作以及標量數(shù)學運算單元,由于神經(jīng)網(wǎng)絡算法不同,其網(wǎng)絡結(jié)構(gòu)也會有較大差異,因此在定制相應的Al加速器單元時,往往操作粒度越細靈活度越高,NPU內(nèi)部實現(xiàn)也更加復雜,反之靈活度低,甚至只支持特定網(wǎng)絡模型,但是NPU內(nèi)部實現(xiàn)則相對簡單。安謀科技"周易"NPU內(nèi)部包含標量處理單元(ScalarUnit)、張量處理單元(TensorProcessingCluster)以特定Al操作(FixFunction)硬件加速單元實現(xiàn),并定義了一套完備的Al推理計算的指令集,并通過上層系統(tǒng)軟件驅(qū)動以上模塊協(xié)同交互,完成基于各種深度神經(jīng)網(wǎng)絡類型的推理計算任務,實現(xiàn)運行效率和通用性的兼顧。2.3通用性和專用性兼顧通用型Al推理處理器,由于內(nèi)部復雜且有部分冗余設計,與特定神經(jīng)網(wǎng)絡模型加速的處理器相比,性能很難做到絕對優(yōu)勢,一些NPU廠商會通過固化部分常用運算算子,確保針對特定模型算法也有顯著加速效果。安謀科技"周易"NPU本身配合專有工具鏈和編譯器,能支持數(shù)百個各類音視頻及其它數(shù)據(jù)類型的神經(jīng)網(wǎng)絡應用,并在架構(gòu)設計上已經(jīng)特別優(yōu)化支持VisionTransformer、3D神經(jīng)網(wǎng)絡等,對處理像素級別處理應用等均有很好的性能優(yōu)化。在推理準確率允許范圍內(nèi),降低推理時的量化比特精度,既可以大大降低運算單元的計算量,又置的權重精度,支持INT4、INT8、INT12、INT16、FP16等。多種推理數(shù)據(jù)類型支持,兼顧了推理精度和效率,比如在推理精度滿足需求的前提下,用戶可以選用INT4的權重值;創(chuàng)新性的INT12支持,雖然NPU單核內(nèi)部運算已經(jīng)是并行計算,但是同一時間只會有一個推理計算任務進行。先進的多核方案,能夠使單塊SoC硅片充分發(fā)揮硬件的算力,每個計算核心可以完成不同的推理計算或者多個計算核心共同完成同一個推理計算任務,理論上算力可以做到并行疊加,甚至可滿足數(shù)千TOPS算力需求。不過多核設計中,系統(tǒng)軟件對于多核任務的調(diào)度優(yōu)化十分重要,需要合理將任務分配到不同計算核心并監(jiān)控其運行狀態(tài),隨著并行任務的增多,任務調(diào)度器本身也會成為性能瓶頸。安謀科技"周易"NPU多核架構(gòu)則采用先進的硬件任務調(diào)度管理器,相比使用控制處理器(如CPU、DSP等)來調(diào)度多核任務的架構(gòu)設計,能夠克服隨著算力增加而產(chǎn)生調(diào)度瓶頸的問題,并且可以使HostCPU軟件設計和維護更加簡化和高效。3.功能安全涉及到安全應用的汽車芯片必須滿足系統(tǒng)的ISO26262要求,其中包括半導體嵌入式存儲器等。功能安全強調(diào)應對兩類失效:系統(tǒng)性失效和隨機硬件失效。對于前者除了公司層級需要具備合規(guī)的功能安全流程外,更需在產(chǎn)品研發(fā)的生命周期下嚴格遵循功能安全流程,從而將系統(tǒng)性失效的風險控制在對應汽車安全完整性等級(ASIL)要求的范圍內(nèi)。對于后者可用失效模式影響和診斷分析進行定量證明,芯片內(nèi)的功能安全機制是可以保證診斷覆蓋率,達到或者超過ISO26262相圖九:功能安全兩類失效類型針對隨機硬件失效的各種失效模式,需要有相應的功能安全機制進行應對。包括用于保護內(nèi)部故障的Parity、針對復雜邏輯的硬件冗余和鎖步、以及探測門級隨機硬件失效所需運行的軟件自測庫等等。由此可見,為了應對隨機硬件失效,額外的硬件及軟件安全機制的設計均是不可或缺的。在具體的產(chǎn)品開發(fā)實踐中,以安謀科技開發(fā)的STAR-MC2為例,該處理器使用了以下機制來實現(xiàn)錯誤的檢測和處理:·處理器設計了內(nèi)存保護單元,安全態(tài)標記單元等進行軟件訪問權限管理,保護軟件系統(tǒng)的正確運行;常等錯誤行為進行相應的處理和糾正;·處理器的存儲器和總線接口上,引入ECC(錯誤數(shù)據(jù)糾正)或者Flopparity(校驗)設計,對存儲數(shù)據(jù)讀寫錯誤進行檢測和糾正;·處理器設計了一個可編程的內(nèi)建存儲自測試模塊,可以對存儲單元進行測試;25《車載智能計算芯片白皮書(2023)》26《車載智能計算芯片白皮書(2023)》ASILB的診斷能力,但是,往往有ASILD的系統(tǒng)能力要求。這主要是為了方便用戶在集成過程中減少免干擾分析方面的工作量。3.5系統(tǒng)集成STL一般獨立于HAL并專屬于特定硬件,STL根據(jù)會應用或RTOS的指令有選擇的執(zhí)行硬件測試過特定API來改變STL行為模擬硬件故障的進行系統(tǒng)集成測試。不過STL調(diào)用期間一般需要屏蔽外部4.信息安全智能汽車的信息安全,是確保自動駕駛邊緣計算系統(tǒng)免受外部非法入侵或者攻擊的核心基礎。操作系統(tǒng)安全、控制系統(tǒng)安全和通信安全。汽車安全要求HSM(HardwareSecurityModule-硬件安全模塊)已經(jīng)成為智能汽車的安全基礎,也是行業(yè)的默認標準?!吧胶!盨PU是安謀科技自主研發(fā)的專門應用于汽車行業(yè)的HSM解決方案,能夠廣泛應用于自動駕駛芯片,智能座艙、域控制器、中央網(wǎng)關等不同的應用場景,"山海"SPU還支持功能安全為智能汽車BootROMBootROMSRAM28A/Applitations/AlorithmUnifiedEnd-To-EndToolsNNCompilerOpencl/CCompilerProfierarmComputetbraySimuator基于BEV+Transformer的端到端自動駕駛大模型實現(xiàn)感知未策一體化DF/G面對自動駕駛海量長尾場景的挑戰(zhàn),大模型已經(jīng)表現(xiàn)出巨大的潛力,目前這一"BEV+Transformer"的模型需要上億級別的參數(shù)量。在未來十年,端到端的模型需要更大參數(shù)規(guī)模,甚至到同時,隨著算法的日益復雜,原先簡單的大規(guī)模并行計算架構(gòu)也難以為繼,智能計算與邏輯計算開始深度耦合,例如,為了實現(xiàn)更高效率的稀疏化等優(yōu)化手段,通過CPU對數(shù)據(jù)進行調(diào)度,可以實現(xiàn)更好的NPU計算利用率,因此,NPU算力的增長會同步帶動對于CPU算力的需求。2.軟硬協(xié)同優(yōu)化的難點芯片設計、生產(chǎn)與場景落地往往是不同的廠商參與,芯片設計和生產(chǎn)由于其一次性投入非常大,特別是針對汽車的智能計算芯片而言,只有足夠的場景覆蓋才會有較大出貨量,所以車載芯片在其設計之初就會保留一定通用性。對于特定場景的軟件開發(fā)團隊而言,一方面需要與芯片及基礎軟件開發(fā)團隊通力合作,通過軟件優(yōu)化的方式充分發(fā)揮芯片及硬件的計算效能;另外一方面,通用芯片很難針對所有場景都實現(xiàn)特別優(yōu)化。因此,實際場景中的計算性能發(fā)揮往往與芯片最佳性能差距較大,其中的難點主要體現(xiàn)在如下幾個方面:2.1Al算法迭代創(chuàng)新周期很快人工智能領域軟件迭代的速度非常快,據(jù)斯坦福大學以人為本人工智能研究所發(fā)布的《2022年人工智能指數(shù)報告》指出,2021年全球人工智能相關的公開專利數(shù)量超過14萬件,是2015年的30倍,年復合增長率高達76.9%。因此,固化的硬件設計難以滿足日益增長的算力需求和日新月異的算法演化需求,特別是在車載計算硬件平臺,一旦發(fā)布,則存在于汽車的完整周期,要滿足未來8-10年的軟件和算法迭代,選定合適的硬件計算平臺,甚至預埋部分額外算力,可以與未來的軟件、算法升2.2Al模型計算模式差異性大31《車載智能計算芯片白皮書(2023)》車載Al應用目前以推理為主,算法模型是在云端提前訓練好,下載部署到車端,但是目前不存在一個統(tǒng)一的深度神經(jīng)網(wǎng)絡模型,適用于所有的Al場景,往往不同具體場景有多種類型的算法模型適用,這些不同類型的模型共同驅(qū)動Al推理芯片的架構(gòu)演進。比如早期CNN模型采用若干個卷積層作用于輸入圖像以生成低維特征,然后再將幾個全連接層用作分類器產(chǎn)生識別結(jié)果的輸出;ResNet則主要基于稠密矩陣,使用了多分支和并行層,以實現(xiàn)多尺度采樣和避免梯度消失;而對于推薦系統(tǒng)而言,可能需要非常大的甚至跨越節(jié)點才可以存放下的稀疏2.3端到端異構(gòu)計算流水線設計與參數(shù)調(diào)優(yōu)復雜異構(gòu)計算是車載高性能Al應用的典型流水線作業(yè)計算方式,既復用了傳統(tǒng)CPU的成熟軟件生態(tài),也可以結(jié)合場景,用特定硬件加速器完成Al推理、前處理和后處理,真正成本等。從軟件與算法角度,需要對Al任務進行分割,確認相應的硬件加速器使用,建立合理的計算流水線以及設定相應的處理參數(shù)和調(diào)度策略,確保環(huán)境感知數(shù)據(jù)通過不同步驟(硬件加速單元)不會32《車載智能計算芯片白皮書(2023)》2.4指令集定義兼顧靈活性和性能和軟件的接口,并明確了處理器單元能夠做什么以及如何完成,也是用戶能夠與硬件交互的唯一方式。硬件加速算子粒度是確保架構(gòu)可編程性、實現(xiàn)軟件優(yōu)化、適應未來算法演進需求的關鍵,在此基礎上,定義完備且穩(wěn)定的指令集,在軟件和硬件迭代不同步的情況下,仍然可以通過微架構(gòu)和芯片制"周易"NPU指令集是專門為Al處理器設計的一套異構(gòu)指令集,以傳統(tǒng)VLIW為基礎,包含可編程標量,矢量處理器指令集和Al專用計算處理指令集,兼顧了靈活性和Al處理的高效性,并以此拓展成可支持靜態(tài)形(StaticShape)和動態(tài)形(DynamicShape)模型輸入數(shù)據(jù)。"周易"指令集的設計思想是面向通用Al數(shù)據(jù)處理,盡可能把Al相關的計算轉(zhuǎn)移到NPU上面執(zhí)行,并且提供編程友好的接口來支持開發(fā)者進行自定義開發(fā)。指令集對開發(fā)者開放,開發(fā)者除了使用內(nèi)建優(yōu)化算子庫之外,更可實現(xiàn)整個NPU的靈活編程,以滿足用戶日益增長的定制化、差異化的神經(jīng)網(wǎng)絡算法部署需求。Al推理計算是非常復雜的過程,對于延遲要求非常高,采用多核并行架構(gòu)可以有效提高性能是高性能SoC上的常見做法,并行架構(gòu)在數(shù)據(jù)訪問延遲、計算核心作業(yè)調(diào)度、計算核心控制、多層次緩存結(jié)構(gòu)、虛擬化以及進程間切換等方面,涉及到編譯器、多核編程,數(shù)據(jù)壓縮、量化等眾多細節(jié),這些對Al應用開發(fā)者而言并非完全透明,甚至需要開發(fā)者對性能數(shù)據(jù)進行調(diào)試、跟蹤、分碼編寫、調(diào)試涉及的SDK/API調(diào)用規(guī)范,可以簡單理解為編程模型。深入理解編程模型,需要對硬件33《車載智能計算芯片白皮書(2023)》架構(gòu)有一定理解,也是充分發(fā)揮應用程序計算性能的前置條件,但是對于很多Al應用開發(fā)者而言,理解硬件架構(gòu)并非易事,因此統(tǒng)一的編程模型至少帶來如下好處:編程學習曲線:對于應用開發(fā)者而言,熟練使用同一套編程API和編程方式,有助于降低開發(fā)人員學習成本和團隊溝通成本,提高日常開發(fā)工作效率,也有助于保持軟硬件平臺演化的一致性。比如深度學習主流框架之一的Keras,代碼簡單很容易擴展,非常直觀的定義神經(jīng)網(wǎng)絡,初學者非常容易入門,最初Keras為了訓練自定義的神經(jīng)網(wǎng)絡,采用了Theano作為默認的后端實現(xiàn)來完成Al訓練,隨著TensorFlow訓練框架的興起,Keras也支持TensorFlow以及其它多個Al訓練框架為其后端執(zhí)簡化調(diào)試部署:同一個系列不同版本的芯片,功能或者性能可能有所不同,芯片廠商提供統(tǒng)一的SDK,可以屏蔽芯片實現(xiàn)細節(jié)和硬件差異,可以避免用戶代碼的改動甚至可以避免用戶代碼重新編譯。對于Al應用開發(fā)者而言,可以做到開發(fā)環(huán)境調(diào)試和目標設備運行基本保持一致,特別是目標設備不完全一致時,也會極大簡化開發(fā)、調(diào)試和部署的工作量,降低成本。比如ApacheTVM項目兩個主要功能為:將深度學習模型編譯成最小可部署的與硬件無關模塊;根據(jù)后端執(zhí)行加速器硬件特性,自動生成和優(yōu)化模型,提高性能;ApacheTVM目前可以支持的后端比如生成CPU、GPU、VM以及部分自定義的NPU代碼和模型,極大簡化開發(fā)者的調(diào)試部署時間。2.6編譯器技術硬件執(zhí)行體設計者,會根據(jù)計算特征,將計算瓶頸相關運算固化成硬件指令,采用硬件加速單元會針對不同場景,使用不同的算法模型,完成相應的計算任務,即便是同一類型的算法模型,也會根據(jù)能效和性能需要,進行必要的參數(shù)調(diào)整。編譯器技術雖然可以幫助軟件開發(fā)者將高級語言翻譯成機器可執(zhí)行機器語言,但是編譯器通常都是基于規(guī)則來完成機器語言的翻譯和優(yōu)化,在實際運行中,由3PartyRuntimeNPUDriversArmMallGPU于輸入條件和場景不同,編譯器無法針對運行時的場景進行優(yōu)化,此時則需要軟件工程師對芯片硬件架構(gòu)體系有一定了解,針對場景編寫出硬件優(yōu)化的代碼,并指導編譯器優(yōu)化編譯。3.NPU軟硬協(xié)同設計創(chuàng)新對于Al芯片而言,能夠通過軟件在運行時重新配置、實時動態(tài)改變功能,以運行不同計算任務,滿足不同場景需求至關重要。Al芯片的運行時實時動態(tài)重新配置稱為可重構(gòu)計算技術,可重構(gòu)計算技術允許硬件架構(gòu)不變,通過軟件來完成計算任務設定,同時具備CPU的靈活性和ASIC的高性能和低功耗,被認為是突破性的下一代集成電路技術,為Al芯片帶來了極高的靈活度和適用范圍??芍貥?gòu)技術與系統(tǒng)軟件緊密耦合,普通Al應用軟件開發(fā)并不能直接針對Al芯片進行編程。"周易"NPU是典型的可重構(gòu)Al芯片技術,通過CompassSDK可以完成典型Al模型的轉(zhuǎn)化和代碼編譯,使得Al模型可以運行在包含"周易"NPUIP的芯片之上。最新發(fā)布的X2系列NPU產(chǎn)品針對自動駕駛領域計算芯片,單核MAC陣列,在配置成INT8*INT8或者INT8*INT12時,可以提供10TOPS的算力,INT16*INT16時可以提供2.5TOPS的算力,并支持混合精度神經(jīng)網(wǎng)絡推理部署。除了精度的動態(tài)配置外,"周易"NPU還可以在運行時配置,以支持各種Al模型的動態(tài)切換。UnifiedUnifiedEnd-To-EndToolsProfilerDebuggerIDE/GUI圖十二:"周易"NPU軟件技術棧如圖十二藍色部分所示,“周易"NPU工具鏈可以把典型的Al訓練框架生成的模型,轉(zhuǎn)化成"周易"NPU可執(zhí)行文件,并在轉(zhuǎn)化編譯過程中,針對目標平臺芯片進行諸如低精度量化等優(yōu)化執(zhí)行碼操作,極大方便Al算法和軟件工程師部署模型推理和性能調(diào)優(yōu)。目前已支持160多個常用的Al模型算子,其開放的軟件技術架構(gòu),也方便Al開發(fā)者自定義算子。隨著"周易"NPU技術的不斷演化,更多新的Al芯片將不斷量產(chǎn),軟件與算法開發(fā)者均可以借助"周易"NPU工具鏈,完成代碼模型對Al芯片產(chǎn)品的適配、調(diào)試或者仿真測試,實現(xiàn)軟件算法開發(fā)對芯片的解耦,提高車載自動駕駛軟件的研發(fā)效率。Al編譯器可以將機器學習模型轉(zhuǎn)換為對應Al芯片上的運行代碼(通常作為某種形式的深度神經(jīng)網(wǎng)絡執(zhí)行),甚至針對特定模型和目標芯片特性進行優(yōu)化。一方面軟件屏蔽了Al芯片的底層技術細節(jié),降低自動駕駛算法落地的工程開發(fā)難度,另外一方面,隨著算法和模型的不斷演進,對于未來出現(xiàn)的新算法和模型支持也能做到一定程度上的支持,確保硬件平臺向后兼容性。4.異構(gòu)感知計算流水線優(yōu)化車載智能計算平臺在輔助駕駛或者自動駕駛場景中,對于環(huán)境數(shù)據(jù)感知有著非??量痰难舆t要求,其中數(shù)據(jù)傳輸及處理涉及到多個功能模塊。在SoC設計時,不同功能IP模塊往往由不同廠商提供,針對特定場景優(yōu)化,需要這些模塊間形成可以直接通信的系統(tǒng)方案。比如:多路攝像頭及其它傳感器輸入的環(huán)境感知數(shù)據(jù),會實時輸入給NPU模塊。高性能的車載智能計算SoC內(nèi)部,讓NPU模塊與GPU、ISP、VPU等模塊協(xié)同工作以達到最佳的效率是非常重要的。安謀科技推出的DFC(DirectFrameConnection)技術,避免ISP(ImageSignalProcessor)輸出數(shù)據(jù)寫入DRAM(延遲通常在50-100ns)內(nèi)存,然后NPU再從DRAM內(nèi)存讀取數(shù)據(jù)并處理的過程,在芯片設計時,工程師可以根據(jù)場景需求,靈活配置DFC內(nèi)部SRAM(延遲通常在1-2ns)大小,橋接諸如標準的"玲瓏"ISP和"周易"NPU模塊,極大降低數(shù)據(jù)延遲和功耗,提高數(shù)據(jù)處理吞吐率,NPU數(shù)據(jù)總線圖十三:DFC技術示意圖5.輔助駕駛、自動駕駛案例用場景的拓展和深入新問題、新挑戰(zhàn)需要新的算法,再加上編譯器以及整個硬件系統(tǒng)架構(gòu)持續(xù)往前演進,通過實X9SP蓋開w/Ows視《車載智能計算芯片白皮書(2023)》工征程5在設計理念上,不僅注重Al計算效率的優(yōu)化,更重要的是考慮了數(shù)據(jù)全流程的優(yōu)化,從數(shù)據(jù)的預處理到中間的Al計算,以及數(shù)據(jù)后處理,都有對應的硬件加速單元,并且充分保證了處理環(huán)節(jié)的銜接性,最終獲得了60ms的業(yè)界最低延遲記錄。BPUBPU●貝葉斯是先進處理器技術的集大成者u在征程5的貝葉斯架構(gòu)BPU的諸多亮點中,高度的并行化是其核心,包括硬件和軟件的并行化:在硬件層面有三層并行化:39《車載智能計算芯片白皮書(2023)》1.數(shù)據(jù)并行:跨多個單元計算多個數(shù)據(jù);2.Kernel并行:在MAC脈動卷積單元中,在多個Kemel上計算相同的輸入數(shù)據(jù),并行生成多個特征圖;3.單元并行:單元獨立或同時工作,并以最佳方式消耗內(nèi)部數(shù)據(jù)。在軟件層面也有三層并行化:1.算子并行:編譯器可以在同
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年新能源汽車維修模擬100題及答案
- 2025年長沙銀行筆試題庫及答案
- 2025年長安銀行筆試題及答案
- 2025年郵政銀行面試題及答案
- 2025年郵儲銀行筆試試題及答案
- 2025年銀行職員競聘試題及答案
- 2025年??凭C評筆試題目及答案
- 2025年??漆t(yī)學試題及答案
- 2025年銀行賬戶 試題及答案
- 2025年銀行應聘柜臺筆試題目及答案
- 2025租房合同范本下載官方版
- 紙廠技術崗考試題及答案
- 提高工程質(zhì)量、保證工期、降低造價的合理化建議
- 電子贈與協(xié)議范本
- 2025年湖南高速鐵路職業(yè)技術學院單招職業(yè)適應性測試題庫1套
- 高校研究生教育中導學關系研究
- 查驗預防接種證
- 醫(yī)療機構(gòu)從業(yè)人員規(guī)范
- 化膿性扁桃體炎的護理
- 2024-2025學年安徽省馬鞍山市三年級數(shù)學第一學期期末達標檢測試題含解析
- 2024年茶藝師(高級)考試題及答案
評論
0/150
提交評論