




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
RAG基本范式的選擇與系RAGSemanticSearchKGRAG我們?yōu)槭裁葱枰澜缭诟淖?,現(xiàn)實世界的數(shù)據(jù)分布在改變(DistributionshiftConceptDrift主流LLM是以transformer架構(gòu)驅(qū)動的?回歸模型(事情正在起變化,后?細說Pθ(x)=∏pθ(xi|prompt,理論上說,通過調(diào)整prompt,我們可以讓LLM輸出任何tokenLLM的兩個問題都可以通過調(diào)整promptRAGPrompt通過檢索的?式選擇PromptEngineeringSQL,搜索引擎,VectorDatabase,ElasticSearch新知識—對抗Distribution相關(guān)?件—SemanticSearch Semantic起源?Metric將?件投射到?個?維度測度空間(MetricMetricDistanceFunction:與??距離為0,兩個不同的點距離?于0Semantic?測度距離亦可使?(CosineDistance投射函數(shù)(EmbeddingModel)SemanticSemanticSearch到底是在做什么傳統(tǒng)數(shù)據(jù)庫?持通過Index但傳統(tǒng)數(shù)據(jù)庫不?持通過Index判斷該數(shù)據(jù)與Query我們能否??件本身來做SemanticDocumentasSemanticSearch的本質(zhì)是直接以?件本身為直接?對?件與Query(的可以最?限度的確定?件與Query的適配性(RetrieveandRerankMulti-Vector例?:建??個關(guān)于RustEmbedding模型的訓(xùn)練數(shù)據(jù)中,?然語?的數(shù)量遠遠?于也就是說,Embedding模型對?然語?的理解遠勝于Query??然語?做Rust的index(Documentas向量:?然語?(代碼注釋,readme,docstring ??然語?做代碼的Index,再?Embedding向量做?然語?的QueryEmbeddingLLM可?LLM幫助總結(jié)(HypotheticalquestioningSemanticSemanticSearch到底是在做什么SemanticSemanticSearch到底是在做什么SemanticSemanticSearch為什么看上去?將就??各種樹,圖,Hashtable,Entity-relationship不同類型的數(shù)據(jù)適合不同類型的數(shù)據(jù)結(jié)構(gòu)(InductiveNaiveRAG本身沒有任何系統(tǒng)結(jié)構(gòu)!(ANN的結(jié)構(gòu)不是系統(tǒng)的結(jié)構(gòu)基于SemanticSearchEngineeringistheArtofTrade-如何選擇如何選擇LossContrastiveContrastivesample(Y-1項不相似的情況下,?于mGreedy只在不相似的時候考慮Margin(Y項),且在這時不管其他相似“推“??密,相隔約m的(Intra-ClasVariance)回?室型社交媒體,CC互聯(lián)?如何選擇如何選擇LossTriplet
L=max(d(a,p)?d(a,n)+m,Anchor,Positiveand讓positive-anchor的距離和negative-anchor的距離相隔?少如何選擇如何選擇LossTriplet
L=max(d(a,p)?d(a,n)+m,只在乎positive和negative與anchor只在相對距離?于m時產(chǎn)?不會強迫相似的Sample可以接受更?的同類?差(Intra-ClasTriplet
L=max(d(a,p)?d(a,n)+m,只在乎positive和negative與anchor只在相對距離?于m不會強迫相似的Sample可以接受更?的同類?差(Intra-Clas其余的諸多LossFunction如何選擇Distant如何選擇DistantMetricEg.EuclideanNon-MetricEg.Cosine為什么Cosine不是Metric
dEuclidean(X,Y)∑(xi?Cosine∑(xi?
A?∥A∥?與??距離為0,0(Positivity),距離對稱,三?不等式(Triangle從圓?出發(fā)的B不滿?x=[1,0];y=[0,1];z=[1,1],那么d(xy)=1,d(xz)=d(yz)≈0.292<
d(xy)Cosine計算簡易只考慮?向,?所謂特別適合那些只需考慮?向的場景,如Netflix,Spotify只在0到1之間,不會Euclidean計算相對復(fù)雜需考慮兩個點在空間中的距離(有點像word2vec,KingManQueen可能會Overflow,?維空間內(nèi)也可能會如何選擇如何選擇DistantMetricDistance?深度學(xué)習(xí)模仿正統(tǒng)MetricContrastive越南語(低資源中?(?資源如果d(vi,cn)<mandd(cn,img)<m那么必然:d(vi,img)<兩邊之和?于第三邊(三?不等式EmbeddingEmbeddingLLMVSLLM的InductiveBias不是太適合可以?Repetition“Largescaletrainingtrumpsinductivebias”—Encoder的InductiveBias更合適做EncoderEmbeddingEmbeddingEmbeddingEmbeddingPerformance/Costtrade-off>Datadomain>Lossfunction>Distance如果有?夠多的數(shù)據(jù)進?繼續(xù)訓(xùn)練,Loss和DistanceMetic如何選擇Vector如何選擇Vector如何選擇Vector如何選擇Vector如何選擇Vector如何選擇Vector如何選擇Vector如何選擇VectorHash-basedLocalitysensitivehashing,SpectralHashing多次Hashing將相似的Sample放進同?個BucketCollision,碰撞與傳統(tǒng)Hashing完全不同,傳統(tǒng)HashingMilvus,FAISSRetrieval速度極快,可以Scale如何選擇Vector如何選擇VectorTree-basedVectorForest,DT-ST將數(shù)據(jù)庫以樹的結(jié)構(gòu)儲存(多為BinarySearch相似的數(shù)據(jù)點?概率在同?個Node或Annoy(Spotify)Graph-basedNode為數(shù)據(jù)點本身,Edge更相似的數(shù)據(jù)更容易被EdgeTraverse找最相似的Milvus,Zilliz,Qdant,Chroma對?維度數(shù)據(jù)極其友好(所以如此流?),(相對)省內(nèi)存不知道該?什么,就?如何選擇Vector如何選擇VectorInvertedFileIndexing將VectorSpaceVoronoi每個區(qū)域都有?個找到離Query最近的k個Centroid然后就在那kLanceDB,PGVector迅速縮?范圍,然后KNN.構(gòu)建過程可能會很?,可能需要ProductQuantization給Semantic給SemanticSearch?個結(jié)構(gòu)HierarchicalIndexChain給Semantic給SemanticSearch?個結(jié)構(gòu)Context給Semantic給SemanticSearch?個結(jié)構(gòu)Context給Semantic給SemanticSearch?個結(jié)構(gòu)SemanticSearch可以與其他Retrieval?法共?HybridVectorIndex(Hierarchical,contextenrichment?類的Query可?LLMEmbeddingModel的新也可以?成很多QueryStep-backNofreelunchAgentRetrieval系需要QueryKnowyourusecase,Knowyourdata,Soyoucanknowyourtrade-充分了解你的數(shù)據(jù)還有?種數(shù)據(jù)結(jié)構(gòu)極其普遍,實體及他們的關(guān)系(Entitiesandtheir我們完全可以?SemanticSearchKG如何選擇SemanticSearch和 BuiltforGlobalQuery-Focused完美適配于實體+過程中?量使?LLM?約是NaiveVectorRAG的1000KG和SemanticSearchLazyGraphLazyGraphSemanticSearchisa“Bestfirst”GraphRAGisa“Breadth-first”如何?SemanticSearch的優(yōu)勢補?GraphLazyGraph?需提前總結(jié),IndexingCost成本與NaiveVectorRAG類似,是KGRAG的QueryCost也與NaiveVectorRAG可以輕松Scale何時?KG數(shù)據(jù)可?實體
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 氨泄漏應(yīng)急演練方案與現(xiàn)場處置
- (2025年標準)地下轉(zhuǎn)讓協(xié)議書
- 2025江西吉安永新縣薪火人力資源服務(wù)有限公司招聘項目制人員4人考試模擬試題及答案解析
- 2025年安康市石泉縣社區(qū)工作者招聘(16人)筆試備考試題及答案解析
- 2025安徽宿州市自然資源勘測規(guī)劃設(shè)計院引進緊缺專業(yè)人才3人筆試模擬試題及答案解析
- 2025年金溪縣公開選調(diào)事業(yè)單位工作人員補充崗位考試備考試題及答案解析
- 2025廣東深圳市光明區(qū)審計局招聘專干1人考試備考題庫及答案解析
- 2025廣東省深圳市“筑夢講臺·成就未來”-致理中學(xué)教師招聘筆試模擬試題及答案解析
- 2025福建漳州市青少年宮儲備兼職教師筆試模擬試題及答案解析
- 數(shù)據(jù)壓縮在高速數(shù)據(jù)恢復(fù)中的應(yīng)用
- 保安證考試題庫及答案2025年
- 一例胃癌患者的疑難病例討論
- 《運動處方》課件-第一章 運動處方基礎(chǔ)理論
- 四川省事業(yè)單位公開招聘工作人員公共科目〈綜合知識〉筆試考試大綱筆試歷年典型考題及考點剖析附帶答案詳解
- 2025年人教版山東省濟南市九年級中考英語模擬試卷(含答案無聽力音頻及原文)
- 2025+CSCO非小細胞肺癌診療指南解讀 課件
- 消毒供應(yīng)中心培訓(xùn)課件
- 反應(yīng)釜操作知識培訓(xùn)課件
- 2025年一級建造師《建筑工程管理與實務(wù)》試卷真題(附解析)
- 物業(yè)薪酬管理辦法
- 2025年生豬屠宰獸醫(yī)衛(wèi)生檢疫人員考試題(附答案)
評論
0/150
提交評論