




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
解鎖Oracle數(shù)據(jù)庫的AI潛力演講人:尹海文尹海文公眾號:胖頭魚的魚缸;CSDN:胖頭魚的魚);CONTENTS?向量數(shù)據(jù)庫基本概念 向量數(shù)據(jù)庫與生成式AIOracleAI向量搜索如何讓機器學習區(qū)分不同的事物?根據(jù)不同事物的特征例如:區(qū)分不同種類的狗,就可以通過體型大小、毛發(fā)長度、鼻子長短等特征來區(qū)分。如下面這張照片按照體型排序,可以看到體型越大的狗越靠近坐標軸右邊,這樣就能得到一個體型特征的一維坐標和對應的數(shù)值,從0到1的數(shù)字中得到每只狗在坐標系中的位置。然而單靠一個體型大小的特征并不夠,像圖中哈士奇、金毛和拉布拉多的體型就非常接近,我們無法區(qū)分。根據(jù)不同事物的特征繼續(xù)觀察其它的特征,例如毛發(fā)的長短。這樣每只狗對應一個二維坐標點,我們就能輕易的將哈士奇、金毛和拉布拉多區(qū)分開來根據(jù)不同事物的特征機器學習根據(jù)不同事物的一系列特征來區(qū)分不同的事務,每個特征可以被記錄為一維坐標和對應數(shù)值,世間萬物都可以用一個多維坐標系來表示,它們都在一個高維的特征空間中對應著一個坐標點,從而分辨一個事物。向量嵌入(VectorEmbedding)例如:我們將這句話“例如:我們將這句話“Thisismyfavoriteseason”用text-embedding-ada-002模型進行文本Embedding,它會生成一個1536維的向量,得到的結(jié)果是這樣:“-0.006829283475992422,-0.005386422007500928,…...-0.004547132269452536,-0.026047505116502243”,它是一個長度為1536的數(shù)組。這個向量就包含了這句話的所有特征,這些特征包括詞匯、語法、語義、情感、情緒、主題等。圖片、文本、視頻和語音等非結(jié)構(gòu)化數(shù)據(jù),通過人工智能技術(shù)提取出特征向量,然后通過對這些特征向量的計算和檢索來實現(xiàn)對非結(jié)構(gòu)化數(shù)據(jù)的分析和檢索。向量檢索通常是近似查找,要權(quán)衡搜索精度和速度。常用的向量檢索方法:?圖搜索:HierarchicalNavigableSmallWorlds(HNSW)SensitiveHashing)LSH?量化:ProductQuantization(PQ):有損壓縮2-DimensionalData-Set#1#21.使用K均值聚類算法將向量分組為分區(qū)(K=2.計算從查詢向量到每個分區(qū)質(zhì)心的距離2-DimensionalData-Set#1#21.使用K均值聚類算法將向量分組為分區(qū)(K=2.計算從查詢向量到每個分區(qū)質(zhì)心的距離3.找到2個最近的分區(qū)4.計算從查詢向量到聚類#1和#3中所有點的距離,以查找前5個最接近的匹配項(以紅色顯示)#5llQueryVectorQueryVector#3X-axis基于圖的檢索HierarchicalNavigableSmallWorld(HNSW)EntryPointHNSW是向量相似性搜索中表現(xiàn)最好的算法之一,具有超快的搜索速度和出色的準確性索引構(gòu)建:?圖的最低層包含所有向量?按一定規(guī)則把圖分成多層,越高層的向量越稀疏?基于相似性連接向量,連接相鄰節(jié)點,每個點有n個友鄰點向量檢索在下面的層中繼續(xù)進行搜索?當搜索到對底層時,找到最接近的前K個向量向量數(shù)據(jù)庫是一種專門用于存儲、索引和查詢向量數(shù)據(jù)的數(shù)據(jù)庫系統(tǒng)。向量數(shù)據(jù)庫能夠?qū)⑾蛄看鎯楦呔S點并進行檢索。可以高效、快速地查找N維空間中的最近鄰。這些功能通常由近似最近鄰(ANN)索引提供支持,構(gòu)建索引的算法有:分層可導航小世界(HNSW)和倒排文件索引(IVF)算法等。向量數(shù)據(jù)庫提供了其他功能,例如數(shù)據(jù)管理、容錯、身份驗證、訪問控制以及查詢引擎等。與傳統(tǒng)關(guān)系型數(shù)據(jù)庫相比:?數(shù)據(jù)類型:向量數(shù)據(jù)庫專門用于存儲和管理向量數(shù)據(jù),而傳統(tǒng)數(shù)據(jù)庫則可以存儲各種標量類型的數(shù)據(jù),例如文本、數(shù)字、日期等。?數(shù)據(jù)規(guī)模:通常向量數(shù)據(jù)庫數(shù)據(jù)量比較大,一般要考慮可線性擴展的系統(tǒng)。?查詢方式:傳統(tǒng)的數(shù)據(jù)庫查詢通常是一種精確查找,即查詢得到的結(jié)果要么符合條件要么不符合條件;而向量數(shù)據(jù)庫的向量查詢通常是近似查找,即查詢得到的結(jié)果是與輸入條件最相似的,而近似比較對計算能力要求非常高。向量查詢通常是計算密集型的。向量數(shù)據(jù)庫的應用場景物體檢測向量數(shù)據(jù)庫的應用場景常見的向量數(shù)據(jù)庫全球向量數(shù)據(jù)庫產(chǎn)業(yè)圖譜向量數(shù)據(jù)庫排名與趨勢APIAPIAPIAPIAPIAPIYQL:SQL-likequerylanguaAPIAPIAPIAsubsetofANSISQLVectorVectorNYNYNYYY?Y?Y?NYCONTENTS?向量數(shù)據(jù)庫基本概念 向量數(shù)據(jù)庫與生成式AIOracleAI向量搜索LLM是一種人工智能模型,旨在理解和生成人類語言。它們在大量的文本數(shù)據(jù)上進行訓練,單一模型可以執(zhí)行廣泛的任務,包括詞法分析、文本分類、命名實體識別、關(guān)鍵詞提取、翻譯、情感分析、摘要、對話、寫作文、寫代碼等。大語言模型訓練與推理流程預訓練階段推理階段微調(diào)階段推理階段型型LLM面臨的挑戰(zhàn)—幻覺(hallucinations)和過時信息?結(jié)果是通用信息:難以與企業(yè)或某領域特定專業(yè)數(shù)據(jù)相關(guān)檢索式增強生成方法(Retrieval-AugmentedGeneration)RAG從企業(yè)知識庫中檢索與請求最相關(guān)的信息,并與用戶請求捆綁一起作為提示,發(fā)送給LLM以獲得響應401kpolicy?”VectorDatabaseRelationalDatabase?專業(yè)領域:通過將權(quán)威、可信的信息轉(zhuǎn)?數(shù)據(jù)安全:避免使用敏感的私域客戶數(shù)據(jù)進行LLM訓練和微調(diào)?知識更新:向量數(shù)據(jù)庫作為LLM的實時更新的知識庫?緩存:緩存以前的LLM提示/回答以提高性能并CONTENTS?向量數(shù)據(jù)庫基本概念 向量數(shù)據(jù)庫與生成式AIOracleAI向量搜索OracleAIVectorSearchOracleDatabase23c中即將推出的一組新功能設計簡單易用且易于理解新的SQLEmbedding函數(shù)用于生成向量數(shù)據(jù)新的VECTOR數(shù)據(jù)類型用于存儲向量數(shù)據(jù)新的SQL語法和函數(shù)輕松表達相似性搜索在同一數(shù)據(jù)庫中處理向量和其他工作負載Vector數(shù)據(jù)類型新的VECTOR數(shù)據(jù)類型(底層采用BLOB存儲以實現(xiàn)長期可擴展性)createcreatetablemy_images(idnumber,imageBLOB,img_vecVECTOR(768,FLOAT32))維度數(shù)量最大可支持64K支持靈活的維度數(shù)量和格式類型:createcreatetablemy_images(idnumber,imageBLOB,img_vecVECTOR);好處:嵌入模型隨著技術(shù)的發(fā)展而變化,但您的架構(gòu)可以保持不變Vector運算VECTOR_DISTANCE(VECTOR1,VECTOR2,<distancemetric>)使用歐幾里得、余弦相似度、點積等指標(metric)來比較向量的相似度向量平均值。例如,計算一個句子中所有單詞的平均向量,作為該句子的向量VECTOR_DIMENSIONS_COUNT(VECTOR)計算向量的維數(shù)計算向量的歐幾里得范數(shù)/長度?支持更多向量運算……createcreatetablevec_tabFLOAT32’)),‘SelectSelectdataVecfromtab->SelectFROM_VECTOR(dataVec)fromtab->‘[1.1,2.2,3.3]’原生支持生成向量數(shù)據(jù)-SQLEMBEDDINGS函數(shù)selectselectid,imagefromcat_imagesorderbyVECTOR_DISTANCE(img_vec,EMBEDDING(resnet_50USING:input_img))fetchfirst2rowsonly;輸入查詢圖片圖片庫向量化存放在數(shù)據(jù)庫中相似圖形向量搜索GenerationEmbeddingGenerationEmbeddingEmbeddingEmbeddingGeneration圖片和向量均存放在數(shù)據(jù)庫中EMBEDDING(resnet_50USINGimage圖片和向量均存放在數(shù)據(jù)庫中輸出匹配結(jié)果DECLAREDECLAREmodel_sourceBLOB:=NULL;BEGINmodel_source:=DBMS_CLOUD.get_object(credential_name=>'OBJ_STORE_CRED',object_uri=>'https://objectstorage…bucketname/o/resnet50bundle.onnx’);DBMS_DATA_MINING.import_onnx_model(model_name=>"resnet50",model_data=>model_source,metadata=>JSON('{function:"embedding"}'));END;Vector索引createcreatevectorindexvector_idxonvector_table(data_vector)organization[inmemoryneighborgraph|neighborpartition]createvectorindexvector_idxonvector_table(data_vector)organizationneighborpartitionparameters(num_centroids1024);77040411636328--92OracleVector其他特性支持相似性搜索JOIN關(guān)系型數(shù)據(jù)。支持所有類型的工作負載和數(shù)據(jù)模型:支持所有SQL,包括復雜的運算和功能:?Windowanalyticfunctions,storedprocedures,aggregationShowmetheShowmethetop3photos,groupedbyyear,overthepast5years,basedonsimilaritytoaprovidedqueryimage.Thephotosshouldhavebeentakenwithin20milesofSanFrancisco,andhavebeenviewedbyatleast100differentpeople.專用的向量數(shù)據(jù)庫不可能做到以上功能 SelectSelectpageIDfromAuthors,Books,PageswhereAuthors.authorID=Books.authorIDandBooks.bookID=Pages.bookIDandAuthor.authorCountry='Guatemala'orderbyvector_distance(pageVec,:queryVec)Vector事務處理40405613782956137829Vector在RAC的橫向擴展RACnode1RACnode2RACnode3SmartExadataStorageVector分區(qū)和分片橫向擴展分區(qū)|每個分區(qū)創(chuàng)建單獨的向量索引Vector使用Exadata進行橫向擴展RACnode1RACnode2RACno
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年氣象生活知識競賽題庫
- 2025年輿論回應面試題及答案
- 2025年研究生金融學試題及答案
- 2025年軍事人工智能競賽題庫
- 2025年民俗知識競賽題庫及答案
- 2025年財務合并崗筆試題及答案
- 2025年客戶滿意試題及答案英文
- 2025年皮膚手冊測試題及答案解析
- 2025年手術(shù)室試試題及答案
- 2026版高考化學一輪總復習考點突破第六章化學反應與能量第28講反應熱的測定及計算考點2蓋斯定律及應用
- 護理學導論(第二版)高職PPT完整全套教學課件
- 2021年06月江蘇泰州市興化市農(nóng)村訂單定向醫(yī)學生免費培養(yǎng)宣傳材料筆試參考題庫含答案解析
- 金屬非金屬礦山重大生產(chǎn)安全事故隱患判定標準課件
- 電力公司220千伏及以上電網(wǎng)建設項目檔案管理實施
- 無菌術(shù)(asepsis)專題知識
- 洛神賦(原文·題解·注釋·譯文)
- GB 12696-2016食品安全國家標準發(fā)酵酒及其配制酒生產(chǎn)衛(wèi)生規(guī)范
- FZ/T 25001-1992工業(yè)用毛氈
- 辦公室工作手冊(國企、事業(yè)單位版本)
- 三用拖輪平臺靠泊方法
- 棉紡技術(shù)概論課件
評論
0/150
提交評論