數(shù)據(jù)庫發(fā)展研究報(bào)告(2025年)_第1頁
數(shù)據(jù)庫發(fā)展研究報(bào)告(2025年)_第2頁
數(shù)據(jù)庫發(fā)展研究報(bào)告(2025年)_第3頁
數(shù)據(jù)庫發(fā)展研究報(bào)告(2025年)_第4頁
數(shù)據(jù)庫發(fā)展研究報(bào)告(2025年)_第5頁
已閱讀5頁,還剩108頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)庫發(fā)展研究報(bào)告編寫委員會(huì)):):向“賺錢”轉(zhuǎn)型,產(chǎn)業(yè)側(cè)從“數(shù)量型”向“質(zhì)技術(shù)方面,隨著人工智能加速發(fā)展,數(shù)據(jù)庫技術(shù)架構(gòu)持續(xù)革新,邁入AI原生時(shí)代,呈現(xiàn)出十個(gè)細(xì)分發(fā)展方向。分別是交易分析一體高效資源管理、機(jī)器學(xué)習(xí)優(yōu)化數(shù)據(jù)庫應(yīng)用效能、TexttoSQL/TexttoAI原生數(shù)據(jù)庫解鎖場景新可能以及數(shù)據(jù)庫智能體提供數(shù)據(jù)交互新模應(yīng)用方面,國產(chǎn)數(shù)據(jù)庫應(yīng)用規(guī)模不斷擴(kuò)大,用戶體驗(yàn)不斷提升。本報(bào)告是中國通信標(biāo)準(zhǔn)化協(xié)會(huì)大數(shù)據(jù)技術(shù)標(biāo)準(zhǔn)推進(jìn)委員會(huì)《數(shù)據(jù)庫發(fā)展研究報(bào)告(2024年)》發(fā)布后的第五本數(shù)據(jù)庫年度綜qidanyang@。 1 3 3 4 6 7 9 16 3.標(biāo)準(zhǔn)方面,我國數(shù)據(jù)庫標(biāo)準(zhǔn)體系日益完善,引 24 30 2 3 4 4 5 6 6 7 9 25 33 34 表2基于預(yù)訓(xùn)練模型和大語言模型的NL2S 35 一、數(shù)據(jù)庫產(chǎn)業(yè)發(fā)展情況綜述(一)數(shù)據(jù)庫產(chǎn)業(yè)及市場1.全球及中國數(shù)據(jù)庫市場來源:CCSATC601,2025年6月圖12024-2027年中國數(shù)據(jù)庫市場規(guī)模及增速據(jù)CCSATC601測算1,2024年全球數(shù)據(jù)庫市場規(guī)模約為1154人民幣占全球7.3%2。預(yù)計(jì)到2027年,中國數(shù)據(jù)庫市場總規(guī)模來源:CCSATC601,2025年6月圖22023-2025中國公有云和本地部署數(shù)據(jù)庫市場規(guī)模據(jù)CCSATC601測算,按數(shù)據(jù)庫部署方式劃分市場規(guī)模,20242《中華人民共和國2024年國民經(jīng)濟(jì)和社會(huì)發(fā)展統(tǒng)計(jì)公報(bào)》,國家統(tǒng)計(jì)局,2024年全年人民幣平均匯率為(二)數(shù)據(jù)庫產(chǎn)品及服務(wù)1.全球數(shù)據(jù)庫市場形成多強(qiáng)格局2024年,全球企業(yè)數(shù)量有所收斂,市場形成多強(qiáng)格局,我國頭部云廠商依舊維持在領(lǐng)導(dǎo)者象限的領(lǐng)跑地位,分析型數(shù)據(jù)庫廠商Databricks和Snowflake也位于該象限;從國內(nèi)看,阿里云和華為云來源:CCSATC601,2025年6月圖3全球及我國數(shù)據(jù)庫企業(yè)數(shù)量變化趨勢來源:CCSATC601,2025年6月圖4全球數(shù)據(jù)庫企業(yè)分布2014年以來,我國數(shù)據(jù)庫產(chǎn)業(yè)不斷壯大,數(shù)據(jù)庫產(chǎn)品提供商逐2.全球數(shù)據(jù)庫進(jìn)入高質(zhì)量發(fā)展期來源:CCSATC601,2025年6月圖5全球數(shù)據(jù)庫企業(yè)開展業(yè)務(wù)時(shí)間4全球數(shù)據(jù)庫發(fā)展經(jīng)歷兩次熱潮,21世紀(jì)后進(jìn)入蓬勃發(fā)展期,并于近兩年趨于理性5。從企業(yè)開展數(shù)據(jù)庫業(yè)務(wù)時(shí)間看,全球數(shù)據(jù)庫企 來源:CCSATC601,2025年6月圖6我國數(shù)據(jù)庫企業(yè)開展業(yè)務(wù)時(shí)間5在《數(shù)據(jù)庫發(fā)展研究報(bào)告(2024年)》的基礎(chǔ)上3.全球數(shù)據(jù)庫從業(yè)人員保持穩(wěn)定來源:CCSATC601,2025年6月圖7全球數(shù)據(jù)庫企業(yè)人員數(shù)量分布技術(shù)人員位于21-50人數(shù)量區(qū)間。據(jù)CCSATC601統(tǒng)計(jì),截至2025足30人。最高為7000人左右規(guī)模,最低不足5人左右規(guī)模。其中21-50人規(guī)模企業(yè)占比最高,數(shù)量96個(gè),比例達(dá)到24.0%,人數(shù)在來源:CCSATC601,2025年6月圖8我國數(shù)據(jù)庫企業(yè)人員數(shù)量分布4.國內(nèi)外產(chǎn)品類型數(shù)量分布各有側(cè)重來源:CCSATC601,2025年6月圖9全球數(shù)據(jù)庫產(chǎn)品類型分布全球數(shù)據(jù)庫產(chǎn)品數(shù)量整體分布呈現(xiàn)以非關(guān)系型及混合型數(shù)據(jù)庫的533個(gè)數(shù)據(jù)庫產(chǎn)品中,關(guān)系型數(shù)據(jù)庫228個(gè),非關(guān)系型數(shù)據(jù)庫有據(jù)庫73個(gè)、文檔數(shù)據(jù)庫52個(gè)、圖數(shù)據(jù)庫46個(gè),在非關(guān)系數(shù)據(jù)庫中來源:CCSATC601,2025年6月圖10我國數(shù)據(jù)庫產(chǎn)品類型分布目前我國數(shù)據(jù)庫產(chǎn)品共有164款。其中,關(guān)系型數(shù)據(jù)庫96個(gè),非關(guān)5.非關(guān)系型數(shù)據(jù)庫呈現(xiàn)百花齊放態(tài)勢,向量數(shù)據(jù)庫熱度持續(xù)攀升上升到2025年的57.4%,產(chǎn)品熱度持續(xù)走高。來源:CCSATC601,2025年6月圖11過去四年全球非關(guān)系型數(shù)據(jù)庫數(shù)量占比排名來源:CCSATC601,2025年6月圖12過去四年我國非關(guān)系型數(shù)據(jù)庫數(shù)量占比排名6.國外商用數(shù)據(jù)庫占比略有上升,我國以商用為主來源:CCSATC601,2025年6月圖13全球數(shù)據(jù)庫產(chǎn)品商用開源對(duì)比來源:CCSATC601,2025年6月圖14全球活躍開源數(shù)據(jù)庫開源時(shí)間不斷推出,于2006年后迅速發(fā)展,產(chǎn)品數(shù)量每隔5年呈2-3倍增長。來源:CCSATC601,2025年6月圖15我國活躍開源數(shù)據(jù)庫的開源時(shí)間我國開源數(shù)據(jù)庫產(chǎn)品始于2010年后,2017和2021年開源產(chǎn)品7.我國數(shù)據(jù)庫市場規(guī)模持續(xù)擴(kuò)大,市場格局逐步顯現(xiàn)2024年,中國數(shù)據(jù)庫市場頭部效應(yīng)明顯,產(chǎn)業(yè)規(guī)模持續(xù)擴(kuò)大,來源:CCSATC601,2025年6月圖16我國數(shù)據(jù)庫產(chǎn)品數(shù)量規(guī)模逐步擴(kuò)大,產(chǎn)品數(shù)量呈現(xiàn)迅速增長的趨勢,8.重點(diǎn)行業(yè)頭部用戶運(yùn)維投入逐年增長,研發(fā)投入有所來源:CCSATC601,2025年6月圖172022-2024年重點(diǎn)行業(yè)頭部用戶研發(fā)/運(yùn)維人員數(shù)量和投入資金變化綜合來看,過去三年入選企業(yè)人員規(guī)模均呈逐年增長趨勢,數(shù)據(jù)來源:CCSATC601,2025年6月圖182024年研發(fā)人員數(shù)量及投入資金區(qū)間分布間;從研發(fā)人員數(shù)量看,近四成企業(yè)研發(fā)人員數(shù)量少于5人,僅有來源:CCSATC601,2025年6月圖192024年運(yùn)維的人員數(shù)量/投入資金區(qū)間分布業(yè)運(yùn)維人員數(shù)量少于15人,規(guī)模為5-10人區(qū)間占比最多為27%。1.創(chuàng)新方面,多模融合成為研究重點(diǎn),我國科研實(shí)力穩(wěn)步增強(qiáng)來源:CCSATC601,2025年6月圖202024年VLDB、ICDE和SIGMOD論文分布情況究方向看,與近兩年統(tǒng)計(jì)情況基本保持一致7,當(dāng)前非關(guān)系型數(shù)據(jù)庫研究內(nèi)容數(shù)量占比完全超過關(guān)系型數(shù)據(jù)庫。以VLDB為例,各類數(shù)據(jù)庫論文的發(fā)表數(shù)量分別為:非關(guān)系型數(shù)據(jù)庫論文52篇,關(guān)系型數(shù)非關(guān)系型數(shù)據(jù)庫論文所占比例為12.32%,關(guān)系型數(shù)據(jù)庫論文所占比例為3.79%。在SIGMOD會(huì)議中,各類數(shù)據(jù)庫論文的發(fā)表數(shù)量分別類型論文267篇。非關(guān)系型數(shù)據(jù)庫論文占總論文數(shù)量的13.54%,關(guān)7近兩年統(tǒng)計(jì)情況可分別參考《數(shù)據(jù)庫發(fā)展研究報(bào)告(2023)》、庫論文的發(fā)表數(shù)量分別為:非關(guān)系型數(shù)據(jù)庫論文48篇,關(guān)系型數(shù)據(jù)SIGMOD三大會(huì)議研究方向的數(shù)據(jù)都顯示出當(dāng)前的研究重點(diǎn)為非關(guān)來源:CCSATC601,2025年6月圖212024年VLDB、ICDE和SIGMOD論文關(guān)鍵詞云圖綜合分析數(shù)據(jù)庫三大頂會(huì)論文研究主題,2024年“優(yōu)化”成為來源:CCSATC601,2025年6月圖222022-2024年中國高校及企業(yè)學(xué)術(shù)會(huì)議論文貢獻(xiàn)情況數(shù)量呈逐年上升趨勢,2022-2023年中國高校企業(yè)在學(xué)術(shù)論文會(huì)議的來源:CCSATC601,2025年6月圖232024年中國高校三大會(huì)議論文數(shù)量前20名此外,超過10篇文章的高校包括清華大學(xué)、浙江大學(xué)、來源:CCSATC601,2025年6月圖242024年中國企業(yè)三大會(huì)議論文數(shù)量前10名美團(tuán)、奧星貝斯、天謀科技、中興通訊、百度、KaiwuDB等企業(yè)均2.投融資方面,PG生態(tài)獲得青睞,多云管理和AI成為融資亮點(diǎn)帶來的強(qiáng)大吸引力,也預(yù)示著多云管理和AI賦能將成為未來數(shù)據(jù)庫資,此次融資將用于進(jìn)一步擴(kuò)大其市場覆蓋,并計(jì)劃推出基于AI驅(qū)使得開發(fā)者能夠在本地完全運(yùn)行由AI驅(qū)動(dòng)的完整開發(fā)環(huán)境,其推出托管服務(wù)商N(yùn)eon,加強(qiáng)其在多云環(huán)境中數(shù)據(jù)處理能力的戰(zhàn)略布局。的商業(yè)發(fā)行版公司CrunchyData,以擴(kuò)大其AIDat圖。這些收購行為不僅鞏固了PostgreSQL生態(tài)在全球數(shù)據(jù)庫市場中的地位,也顯示了資本市場對(duì)于PostgreSQL技術(shù)發(fā)展方向和社區(qū)生3.標(biāo)準(zhǔn)方面,我國數(shù)據(jù)庫標(biāo)準(zhǔn)體系日益完善,引領(lǐng)數(shù)據(jù)庫產(chǎn)業(yè)高質(zhì)量發(fā)展確了到2026年底基本建成國家數(shù)據(jù)標(biāo)準(zhǔn)體系的目標(biāo),圍繞數(shù)據(jù)流通來源:CCSATC601,2025年6月圖25CCSATC601數(shù)據(jù)庫領(lǐng)域標(biāo)準(zhǔn)化工作體系中國通信標(biāo)準(zhǔn)化協(xié)會(huì)大數(shù)據(jù)技術(shù)標(biāo)準(zhǔn)推進(jìn)委員會(huì)(CCSATC601)組(WG4)。自2015年起共推出40余項(xiàng)標(biāo)準(zhǔn),逐步構(gòu)建以數(shù)據(jù)庫二、數(shù)據(jù)庫關(guān)鍵技術(shù)發(fā)展趨勢(一)技術(shù)架構(gòu)持續(xù)革新以PostgreSQL和MySQL等解決了數(shù)據(jù)存儲(chǔ)、管理和查詢問題的單馬遜Aurora、華為云GaussDB及騰訊云數(shù)據(jù)庫等解決大數(shù)據(jù)時(shí)代彈1.從分而治之到交易分析一體化8李國良,周煊赫.軒轅:AI原生數(shù)據(jù)庫系統(tǒng)[J].軟件學(xué)報(bào),2020,31(3):831?844.andAnalyticalProcessing)架構(gòu)應(yīng)運(yùn)而生,通過將事務(wù)處理與分析處本、單機(jī)磁盤型行存與分布式列存以及列存巴及上海人工智能實(shí)驗(yàn)室的專家們提出了能夠進(jìn)行圖分析處理的事務(wù)分析混合處理的原生分布式圖數(shù)據(jù)庫Gal來源:上海交通大學(xué)等圖26GART系統(tǒng)的總體架構(gòu)(虛線框內(nèi)的組件是HTGAP擴(kuò)展的新功能)9張超,李國良,馮建華,等.HTAP數(shù)據(jù)庫關(guān)鍵技術(shù)綜述[J].軟件學(xué)報(bào),2023,34(010BingTong,YanZhou,ChenZhang,JianhengTBao,JiaLi,andLeiChen.Galaxybase:AHighPerformanceNativeDi2.從本地部署到云上運(yùn)行云計(jì)算自2006年開始迅速發(fā)展,各組織上云進(jìn)程不斷加速,傳BridgingtheGapbetweenRelationalOLTPandGraph-basedOLAP.In2023USENIXAConference(USENIXATC13XiPangandJianguoWang.2024.UnderstandingthePerformanceImplicationsoftheDesignStorage-DisaggregatedDatabases.Proc.ACMManag.Data諸多企業(yè)采用的存算分離架構(gòu)以及應(yīng)用其他相關(guān)技術(shù)也使得產(chǎn)品在云環(huán)境中能力得到提升:IBMDb2Warehouse14、TiDB等采用LSM-Tree、列式存儲(chǔ)等新型結(jié)構(gòu)使得產(chǎn)品在存儲(chǔ)引擎專業(yè)化方面得到突破,MicrosoftAzureSQL、TDSQL-C等采用資源動(dòng)態(tài)調(diào)整和主工作負(fù)載隔離實(shí)現(xiàn)混和負(fù)載智能調(diào)度,CockroachDB采用存算分離支持跨云數(shù)據(jù)訪問實(shí)現(xiàn)數(shù)據(jù)服務(wù)生態(tài)重構(gòu),華為云GaussDB采用軟14DavidKalmuk,ChristianGarcia-ImplementingaFastandCost-EfficientStor來源:InternationalBusinessMachinesCorporation,IBM圖27Db2LSM架構(gòu)圖來源:MicrosoftCorporation圖28AzureSQL數(shù)據(jù)庫架構(gòu)概覽15DavidKalmuketal.2024.NaCost-EfficientStorageArchitecture.InCompanionofthe2024InternationalConferenceonManagementofDataAzureSQL數(shù)據(jù)庫是微軟公司提供的關(guān)系型數(shù)據(jù)庫即服務(wù)),出了ProactiveResumean分配(FlexibleResourceAllocation)的架構(gòu)17。來源:MicrosoftCorporation圖29ProRP架構(gòu)示意圖ProRP是一種針對(duì)Serverless數(shù)據(jù)庫的主動(dòng)資源分配基礎(chǔ)設(shè)施,平衡(Utilization-BasedCPURebalancing)、租戶放置優(yōu)化(Tenant16OlgaPoppe,PankajArora,SakshiSMicrosoftAzureSQLDatabaseServerless.InCompanionofthe2024InternationalConfeofData17PankajArora,SurajitChaudhuri,SudiptoDas,JunfengDDatabase-as-a-Service.PVLDB,1中國信通院聯(lián)合騰訊云、移動(dòng)云、天翼云等多家企業(yè)研制了《云原生數(shù)據(jù)庫能力成熟度模型》標(biāo)準(zhǔn)。當(dāng)前云原生數(shù)據(jù)庫能力成熟度分為四個(gè)等級(jí):一是初始級(jí),即數(shù)據(jù)庫主要依賴傳統(tǒng)數(shù)據(jù)庫技術(shù)和運(yùn)維模式,架構(gòu)較為單一,缺乏靈活性和可擴(kuò)展性;二是發(fā)展級(jí),已經(jīng)引入云原生數(shù)據(jù)庫技術(shù),但尚未形成完整的云原生數(shù)據(jù)庫生態(tài)。運(yùn)維和管理方式仍較為傳統(tǒng),缺乏自動(dòng)化和智能化;三是成熟級(jí),已經(jīng)實(shí)現(xiàn)了云原生數(shù)據(jù)庫的大部分自動(dòng)化和智能化管理,采用了先進(jìn)的云原生技術(shù)和架構(gòu),提升了數(shù)據(jù)庫的靈活性和可擴(kuò)展性,建立了完善的監(jiān)控在云原生數(shù)據(jù)庫領(lǐng)域處于行業(yè)領(lǐng)先地位,能夠自主研發(fā)并發(fā)布創(chuàng)新的云原生數(shù)據(jù)庫解決方案,滿足復(fù)雜業(yè)務(wù)場景的需求,建立了完善的云原生數(shù)據(jù)庫生態(tài)體系,包括數(shù)據(jù)庫服務(wù)、開發(fā)工1.人工智能與數(shù)據(jù)庫雙向賦能表1ML4DB研究中查詢計(jì)劃表示方法總結(jié)來源:南洋理工大學(xué)18GaoCong,JingyiYang,andYueZhao.2024.MachineLearningOpenproblems.InCompanionofthe2024InternationalConferenceonManagementofData.強(qiáng)范式(ML-enhanced)。早期研究多采用替代范式,即直接用機(jī)器模型索引(RSMI),通過機(jī)器學(xué)習(xí)模型替代現(xiàn)有組件以提升性能。它在保留傳統(tǒng)組件的基礎(chǔ)上,利用機(jī)器學(xué)習(xí)優(yōu)化性能,如Bandit優(yōu)化器、DBG-PT19等,展現(xiàn)出更好的魯棒色,但其有效性依賴于任務(wù)和數(shù)據(jù)集特定模式,嚴(yán)重限制了MLfor19VictorGiannakourisandImmanuelTrummer.DBG-PT:PerformanceRegressionDebugger.PV技術(shù)的進(jìn)步,Text-to-SQL技術(shù)應(yīng)用而生,研究者開始利用深度學(xué)習(xí)圖30Text-to-SQL發(fā)展歷程基于大型語言模型(LLMs)的Text-to-SQL四個(gè)階段。傳統(tǒng)的Text-to-SQL方法主要依賴于預(yù)定義規(guī)則、查詢枚舉或序列到序列模型。然而,這些方法在處理復(fù)雜的自然語言問題和SQL查詢時(shí),面著提升了Text-to-SQL解析的性能。這些模型通常需要大量的標(biāo)注數(shù)如GPT-4和GLM-130B,憑借其強(qiáng)大的語言理解和生成能力在Text-to-SQL任務(wù)中展現(xiàn)出了巨大的潛力。這些模型通過預(yù)訓(xùn)練學(xué)習(xí)大量語言知識(shí)和結(jié)構(gòu)信息,能夠在少量樣本甚至零樣本(z來源:香港科技大學(xué)等圖31NL2SQL方法概覽輪文本到SQL解析兩大類。單輪文本解析聚焦于獨(dú)立的自然語言問題,將其轉(zhuǎn)換為SQL查詢,不涉及歷史對(duì)話信息,代表性方法有要是通過提示工程(PromptEngineering)來引導(dǎo)LLMs生成正確的表2基于預(yù)訓(xùn)練模型(PLM)和大語言模型(LLM)的NL2SQL方法分類來源:香港科技大學(xué)等20Qin,B.,Hui,B.,Wang,L.,Parsing:Concepts,Methods,andFutureDirect21Gao,D.,Wang,H.,Li,Y.,Sun,X.,Qian,Y.,Ding,LanguageModels:ABenchmarkEvalua22Zhou,F.,Xue,S.,Qi,D.,Shi,W.,OpenBenchmarkingText-to-SQLEmpoweredbyLargeLanguageM模型時(shí)需要考慮具體的使用場景和需求23。此外,隨發(fā)展,Text-to-SQL技術(shù)延伸出了Text查詢直接翻譯為圖查詢語句,以提高圖數(shù)據(jù)的查詢索強(qiáng)生成(Retrieval-AugmentedGeneration,RARAG作為一種新興技術(shù),通過整合外部數(shù)據(jù)庫的知識(shí),有效解決了大型語言模型(LLMs)在特定領(lǐng)域或知識(shí)密集型任務(wù)中面臨的來源:同濟(jì)大學(xué)等25圖32RAG三種范式對(duì)比23Li,Boyan,etal."TheDawnofNaturalLanguagetoSQ24https://www.gqlstandards.25Gao,Yunfan,YunXiong,XinyuGao,KangxiangJia,JinliuPan,YuandHaofenWang.2024."Retrieval-AugmentedGenerationfoRAG的研究范式不斷發(fā)展演進(jìn),按照其特點(diǎn)分為三個(gè)階段:基礎(chǔ)RAG(NaiveRAG)、先進(jìn)RAG(AdvancedRAG)以及模塊化偏見,以及信息整合的挑戰(zhàn)。AdvancedRAG來源:北京大學(xué)等圖33GraphRAG框架在問答任務(wù)中的概覽盡管RAG可以通過引入外部知識(shí)庫來解決大模型幻覺等問題,本冗余,提供更全面的信息以解決復(fù)雜任務(wù)。與傳統(tǒng)RAG不同,GraphRAG從預(yù)構(gòu)建的圖數(shù)據(jù)庫中檢索包含關(guān)系知識(shí)的圖元素如節(jié)能下降。未來RAG技術(shù)將更加注重動(dòng)態(tài)和自適應(yīng)圖的26BociPeng,YunZhu,YongchaoLiu,XiaoheBo,HaizhouShi,ChuntaoH2024.GraphRetrieval-AugmentedGeneration:ASurvey表3支持向量數(shù)據(jù)的主流各數(shù)據(jù)庫對(duì)比來源:卡內(nèi)基梅隆大學(xué)等27(版本與年份)√√√√√√√√√√√√√√√√√√√√AmazonOpenSearch(v2.9,202√√√√ElasticSearch(v8.0,2√√√√AnalyticDB-V(2020)√√√PostgreSQL-pgvector(202√√√√MongoDBAtlas(v6.0,2NoSQL+Ftx.√√等,主要能夠針對(duì)高性能向量搜索應(yīng)用?;贜oSQL或關(guān)系型系統(tǒng)引能夠提供向量搜索功能的如ApacheLucene、Elasticsearch和Meta27Jing,Zhi,YongyeSu,YikunHan,etal.2024."When來源:卡內(nèi)基梅隆大學(xué)等圖34RAG在向量數(shù)據(jù)庫中的框架流程從而解決了大語言模型在集成和處理外部數(shù)據(jù)庫中大量動(dòng)態(tài)數(shù)據(jù)時(shí)來源:卡內(nèi)基梅隆大學(xué)等圖35使用向量數(shù)據(jù)庫的GPT的語義緩存概覽非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)在人工智能應(yīng)用中扮演著越來越重要度最高的50款數(shù)據(jù)庫管理系統(tǒng)中,超過三分之二屬于多模數(shù)據(jù)庫類來源:查理大學(xué)等圖36統(tǒng)一抽象層表達(dá)異構(gòu)數(shù)據(jù)結(jié)構(gòu)示意圖境建構(gòu)演化以滿足高并發(fā)與彈性擴(kuò)展需求持續(xù)發(fā)2.AI原生數(shù)據(jù)庫解鎖場景新可能AI時(shí)代,數(shù)據(jù)庫系統(tǒng)面臨三重挑戰(zhàn),一是傳統(tǒng)的成本估算、連AI芯片等新型硬件。AI原生數(shù)據(jù)庫將AI技術(shù)深度融入數(shù)據(jù)庫設(shè)計(jì)28JáchymBártík.AI-PoweredOrchestrationofMulti-ModelData.VLDB2024Workshop:VLDBPh.D.來源:清華大學(xué)圖37AI原生數(shù)據(jù)庫的架構(gòu)29李國良,周煊赫.軒轅:AI原生數(shù)據(jù)庫系統(tǒng)[J].軟件學(xué)報(bào),2020,31(3):831?844.第一階段,AI建議型數(shù)據(jù)庫包括一個(gè)人工智能引擎,通過自動(dòng)表4AI原生數(shù)據(jù)庫的五個(gè)階段來源:清華大學(xué)特點(diǎn)簡介舉例1AI建議型數(shù)據(jù)庫提供插件形式○負(fù)載管理(例如,負(fù)載調(diào)度)○SQL優(yōu)化(例如,SQL重寫器、索引推薦)○數(shù)據(jù)庫監(jiān)視器(例如線下參數(shù)調(diào)優(yōu)、系統(tǒng)統(tǒng)計(jì))○數(shù)據(jù)庫安全性(例如,自動(dòng)審計(jì)/屏蔽)2AI輔助型數(shù)據(jù)庫提供基于數(shù)據(jù)庫的AI引擎○自配置(例如,在線參數(shù)調(diào)優(yōu))○自優(yōu)化(例如,SQL優(yōu)化、數(shù)據(jù)存儲(chǔ))○自監(jiān)控(例如,監(jiān)控系統(tǒng)狀態(tài))○自診斷(例如,發(fā)現(xiàn)硬件/軟件問題)○自愈(例如,故障恢復(fù),在線遷移)○自安全(例如,可回溯性、防信息泄露)3AI強(qiáng)化型數(shù)據(jù)庫提供統(tǒng)一○基于學(xué)習(xí)的數(shù)據(jù)庫組件●學(xué)習(xí)型查詢重寫器●學(xué)習(xí)型代價(jià)估算器●學(xué)習(xí)型優(yōu)化器●學(xué)習(xí)型執(zhí)行器●學(xué)習(xí)型存儲(chǔ)引擎○聲明型人工智能(UDF;視圖;模型無關(guān);問題無關(guān);全自動(dòng))4AI自組裝型數(shù)據(jù)庫提供異構(gòu)處理架構(gòu)○充分利用異構(gòu)硬件(如ARM、GPU、NPU)5AI自設(shè)計(jì)型數(shù)據(jù)庫基于AI的數(shù)據(jù)庫生命周期設(shè)計(jì),編碼,評(píng)估,監(jiān)控和運(yùn)維提供運(yùn)行時(shí)優(yōu)化。AI工具如調(diào)優(yōu)模型、工作負(fù)載調(diào)度、視圖推薦等來源:清華大學(xué)圖38AI組織型數(shù)據(jù)庫流程圖第三階段是AI增強(qiáng)型數(shù)據(jù)庫,不僅用人工智能技術(shù)優(yōu)設(shè)計(jì),而且提供基于數(shù)據(jù)庫內(nèi)置的AI原生服務(wù),一是通過人工智能二是數(shù)據(jù)庫內(nèi)置AI服務(wù),通過使用數(shù)據(jù)庫技術(shù)降低人工智能門檻,技術(shù)加速AI算法,例如索引、增量計(jì)算和共享計(jì)算;三是使用AI定查詢計(jì)劃應(yīng)發(fā)送給相應(yīng)的數(shù)據(jù)庫執(zhí)行器或AI原生數(shù)據(jù)庫是一種深度融合人工智能技術(shù)與數(shù)據(jù)庫系統(tǒng)的下一代數(shù)據(jù)管理平臺(tái),AI原生數(shù)據(jù)庫技術(shù)包括AI4DB和DB4AI兩部過直接在數(shù)據(jù)庫中運(yùn)行向量搜索、RAG、AI算法、機(jī)器學(xué)習(xí)等AI模型,無需數(shù)據(jù)遷移及服務(wù)集成,同時(shí)為AI應(yīng)用提供優(yōu)化支持,從而為AI應(yīng)用搭建強(qiáng)大的基礎(chǔ)設(shè)施保障?;诋a(chǎn)業(yè)需求,中國信通院能力、AI算法底座、智能化自治管理能力、兼容能力、安全能力、擴(kuò)展能力、高可用能力等9大能力域。3.數(shù)據(jù)庫智能體提供數(shù)據(jù)交互新模式表5DB-GPT與其他工具的比較來源:螞蟻集團(tuán)等來源:螞蟻集團(tuán)等圖39大語言模型(LLMs)與圖相互增強(qiáng)的總體框架:(a)-(c)為大語言模型增強(qiáng)圖學(xué)習(xí)的三種途徑。(d)-(e)為圖結(jié)構(gòu)增強(qiáng)大語言模型推理的技術(shù)。技術(shù)名稱后的括號(hào)表示圖的類型。D、U、M和E分別代表有向圖、無向圖、同構(gòu)圖和異構(gòu)圖。智能體也在持續(xù)涌現(xiàn),以協(xié)助用戶完成復(fù)雜任務(wù)。ChatDB框架包含輸入處理、Chain-of-memory和回復(fù)總結(jié)三個(gè)部分,將數(shù)據(jù)庫作為訓(xùn)練。Chat2Graph主要是面向圖數(shù)據(jù)庫的多智能體系統(tǒng),通過已有大模型或智能體能力幫助用戶降低圖數(shù)據(jù)庫的使來源:螞蟻集團(tuán)等圖40DB-GPT系統(tǒng)設(shè)計(jì)30Hu,C.,Fu,J.,Du

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論