2025AICon全球人工智能開發(fā)與應(yīng)用大會(huì)-上海站:大模型+數(shù)據(jù)資產(chǎn)變現(xiàn)RAG 驅(qū)動(dòng)企業(yè)智能化實(shí)踐案例_第1頁
2025AICon全球人工智能開發(fā)與應(yīng)用大會(huì)-上海站:大模型+數(shù)據(jù)資產(chǎn)變現(xiàn)RAG 驅(qū)動(dòng)企業(yè)智能化實(shí)踐案例_第2頁
2025AICon全球人工智能開發(fā)與應(yīng)用大會(huì)-上海站:大模型+數(shù)據(jù)資產(chǎn)變現(xiàn)RAG 驅(qū)動(dòng)企業(yè)智能化實(shí)踐案例_第3頁
2025AICon全球人工智能開發(fā)與應(yīng)用大會(huì)-上海站:大模型+數(shù)據(jù)資產(chǎn)變現(xiàn)RAG 驅(qū)動(dòng)企業(yè)智能化實(shí)踐案例_第4頁
2025AICon全球人工智能開發(fā)與應(yīng)用大會(huì)-上海站:大模型+數(shù)據(jù)資產(chǎn)變現(xiàn)RAG 驅(qū)動(dòng)企業(yè)智能化實(shí)踐案例_第5頁
已閱讀5頁,還剩39頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

演講人:

黃佳01為什么我們?nèi)匀辉谡務(wù)揜AG02

RAG落地痛點(diǎn)及優(yōu)化思路03

企業(yè)文檔合規(guī)性問答系統(tǒng)落地實(shí)踐04

醫(yī)療術(shù)語標(biāo)準(zhǔn)化系統(tǒng)的落地實(shí)踐05知識(shí)圖譜在醫(yī)療術(shù)語標(biāo)準(zhǔn)化系統(tǒng)中的應(yīng)用06

MCP和A2A時(shí)代的RAGRAG的落地,往往是面向業(yè)務(wù)做RAG

,而不是反過來面向RAG做業(yè)務(wù)——

1.人類與大模型直接對(duì)話2.大模型進(jìn)行知識(shí)檢索3.大模型進(jìn)行自主推理大模型時(shí)代的知識(shí)檢索智能體的推理能力落地難點(diǎn)文檔的導(dǎo)入和解析(圖、表)如何將相關(guān)聯(lián)的內(nèi)容整體切片或建立起相關(guān)聯(lián)的索引如何處理大規(guī)模、分布式向量數(shù)據(jù)Text2SQL的精細(xì)化設(shè)計(jì)如何構(gòu)建程序代碼的檢索系統(tǒng)圖數(shù)據(jù)庫和知識(shí)圖譜和RAG系統(tǒng)的結(jié)合如何設(shè)計(jì)有權(quán)限的RAG系統(tǒng)GraphRAG(圖

RAG)contextuaRetrieva(基于上下文的檢索)Modu

ar

RAG(模塊化

RAG)Agentic

RAG(自主

RAG)Mu

ti-Moda

RAG

(多模態(tài)

RAG)父子文檔索引[0.2I...]文檔簇[1.3I...]文檔簇檢索評(píng)估精確率(Precision)F1分?jǐn)?shù)召回率(Reca

)MAPMRR

P@K響應(yīng)評(píng)估BLEU

ROUGEMETEOR扎實(shí)性安全性輸出解析Pydantic解析器JSON模式工具調(diào)用(Function/Tooca

s)壓縮查詢(問題)RRF、crossEncoder、co

BERTRankGPT、RankLLM排序或過濾、RAG-Fusion校正cRAG如果檢索結(jié)果不相關(guān)再次檢索或從新數(shù)據(jù)源(如網(wǎng)絡(luò))檢索語義路由

提示詞#1

(嵌入/索引)

提示詞#2讓大模型根據(jù)查詢問題來自動(dòng)選擇提示詞或嵌入/索引方式向量數(shù)據(jù)庫查詢(問題)Text-to-cypher自然語言轉(zhuǎn)cypherGraphDB的查詢語言查詢構(gòu)建

檢索后處理

系統(tǒng)評(píng)估向量存儲(chǔ)優(yōu)化思路尋找瓶頸點(diǎn)查詢重寫

,

查詢分解

,

查詢澄清子問題、退—步的問題多查詢、退—步查詢、RAG-Fusion分解或重新表述輸入問題生成子問題、退—步的問題或更清晰的問題PDF加載器Directory加載器Unstructured加載器JSON/XML加載器PyPDF、

Unstructured、

PyMuPDFFLAT

、

IVFSQ、PQ、OPQHNSW、DiskANNMi

vus、Weaviate、Pinecone、Qdrant

Faiss、chroma、E

asticsearchSe

f-RAGIRRR基于回答的質(zhì)量判斷是否需要進(jìn)行查詢重寫或者重新查詢Fine-TuningIcOLBERT基于特定領(lǐng)域的

專用嵌入模型RAGTF-IDFBM25

One-hot編碼信息嵌入主動(dòng)生成

co

heratext-embedding-3-sma文本分塊文本塊的優(yōu)化語義分塊優(yōu)化分塊可以提升檢索和生成的質(zhì)量查詢路由邏輯路由按字符按段落按語義智能分塊讓大模型根據(jù)查詢問題來自動(dòng)選擇數(shù)據(jù)源HyDE生成假設(shè)性文檔節(jié)點(diǎn)-句子窗口遞歸檢索器基于相關(guān)性和冗余度進(jìn)行文檔壓縮自查詢檢索器從查詢中自動(dòng)生成復(fù)雜RAG范式Langchain

Documents

L

amaIndex

Documents檢索前處理層次節(jié)點(diǎn)解析器RAPTOR集成檢索器多向量檢索器 bge-m3選擇合適的大模型數(shù)據(jù)導(dǎo)入查詢(問題)Langchainchunks

LamaIndex

Nodesembed-

mu

ti

ingua

-v3.0查詢翻譯索引優(yōu)化響應(yīng)生成自然語言轉(zhuǎn)SQL

SQL結(jié)合PGVector稀疏嵌入和密集嵌入多表示索引 [0.

1I...]回答提示工程分塊時(shí)形成父子文檔導(dǎo)入的文檔忠實(shí)度jina-embeddings-v3分層索引向量數(shù)據(jù)庫——嵌入模型Text-to-SQL習(xí)得的稀疏嵌入關(guān)系數(shù)據(jù)庫

cSV

fi

e-01.

csv關(guān)系數(shù)據(jù)庫分塊時(shí)形成層級(jí)專用嵌入文本塊元數(shù)據(jù)過濾器查詢擴(kuò)展圖數(shù)據(jù)庫主動(dòng)檢索圖數(shù)據(jù)庫查詢(問題)查詢(問題)查詢(問題)查詢(問題)文本塊密集嵌入索引重排分塊回答fi

e-01.

exce

fi

e-01.jsonfi

e-01.

pdffi

e-01.xm

fi

e-01.txt相關(guān)性Foder...?3.

治理

(G)1.反腐敗政策、商業(yè)道德2.董事會(huì)治理、股東權(quán)利3.供應(yīng)鏈合規(guī)

內(nèi)部審計(jì):企業(yè)發(fā)布的Sustainability

Report究竟是否符合GRI標(biāo)準(zhǔn)1.

環(huán)境

(

E)1.碳排放

(Scope

1,Scope

2,Scope

3)2.能源消耗、用水情況、廢棄物管理3.綠色產(chǎn)品和供應(yīng)鏈管理2.

社會(huì)

(S)1.員工薪酬、

健康和安全2.多樣性和包容性(D&I)3.社區(qū)發(fā)展、客戶隱私、數(shù)據(jù)保護(hù)可持續(xù)發(fā)展報(bào)告(Sustainability

Report)是企業(yè)或組織自愿發(fā)布的一種非財(cái)務(wù)報(bào)告,主要披露企業(yè)在環(huán)境、社會(huì)責(zé)任和治理(ESG)

方面的績(jī)效,并展現(xiàn)企業(yè)如何管理可持續(xù)發(fā)展風(fēng)險(xiǎn)和機(jī)遇。Q?

如何構(gòu)建含層次關(guān)系的索引(2024年的數(shù)據(jù)要與其標(biāo)題有

隸屬關(guān)系)?

如何在構(gòu)建索引時(shí)保持圖表的原始結(jié)構(gòu)化信息?

如何在索引過程中管理文檔的元數(shù)據(jù)信息,進(jìn)行檢索結(jié)果的精準(zhǔn)過濾與排序?

缺乏統(tǒng)—、有效的評(píng)估指標(biāo)體系?缺少高質(zhì)量的評(píng)估數(shù)據(jù)集,導(dǎo)致

評(píng)估結(jié)果不真實(shí)?難以追蹤評(píng)估與改進(jìn)的閉環(huán),系統(tǒng)難以持續(xù)優(yōu)化?

PDF格式不統(tǒng)一

(文字、圖片、

公式、表格)?

文檔結(jié)構(gòu)復(fù)雜

(章節(jié)、標(biāo)題、子

標(biāo)題、

段落之間存在多層嵌套關(guān)?

表格數(shù)據(jù)和正文密切相關(guān),強(qiáng)行切分會(huì)破壞語義關(guān)聯(lián)信息?

分散在多種來源

(網(wǎng)頁、內(nèi)部文

檔庫、

第三方數(shù)據(jù)庫等索引設(shè)計(jì)如何評(píng)估文檔導(dǎo)入+文檔切塊向量數(shù)據(jù)庫嵌入索引提取元數(shù)據(jù)信息

文檔入庫技術(shù)白皮書(公式/圖形)財(cái)務(wù)報(bào)表年報(bào)文檔技術(shù)文檔API文檔政策法規(guī)合規(guī)文檔預(yù)處理Agent預(yù)處理模塊文檔文檔加載器說明Package/API特點(diǎn)PyPDF使用pypdf加載和解析PDF文件Package高效輕量,適合處理簡(jiǎn)單PDF文檔Unstructured使用Unstructured的開源庫加載PDF文件Package/API兼容多種文檔格式,支持內(nèi)容提取和分析AmazonTextract使用

AWSAPI加載PDF文件API云服務(wù)支持,適合大批量文檔的OCR處理MathPix使用MathPix加載和解析PDF文件API專為數(shù)學(xué)公式設(shè)計(jì),精準(zhǔn)解析復(fù)雜內(nèi)容PDFPlumber使用PDFPlumber

加載PDF文件Package豐富的PDF內(nèi)容控制和處理功能PyPDFDirectry加載目錄中的PDF文件Package批量加載,便于處理多個(gè)PDF文檔PyPDFium2使用PyPDFium2加載PDF文件Package高效解析,支持PDF頁面的渲染和轉(zhuǎn)換PyMuPDF使用PyMuPDF加載PDF文件Package速度優(yōu)化,支持復(fù)雜PDF的精細(xì)化處理PDFMiner使用PDFMiner加載PDF文件Package適合文本抽取,處理PDF中的嵌入文字內(nèi)容fromlangchain_unstructuredimportUnstructuredLoader

fromtyping

import

Listfromlangchain_core.documentsimport

Documentpage_url

="https://zh.wikipedia.org/wiki/黑神話:悟空"def

_get_setup_docs_from_url

(url:str)->List[Document]:loader

=UnstructuredLoader

(web_url=url)setup_docs

=

[]#parent_id=None

#初始化

parent_id#current_parent=None

#

用于存儲(chǔ)當(dāng)前父元素

for

doc

in

loader.load

():#檢查是否是

Title

或Tableif

doc.metadata

["category"]==

"Title"

ordoc.metadata

["category"]==

"Table":parent_id

=doc.metadata

["element_id"]current_parent

=doc

#更新當(dāng)前父元素setup_docs.append

(doc)elif

doc.metadata.get

("parent_id")==

parent_id:setup_docs.append

((current_parent,doc))#將父元素和子元素一起存儲(chǔ)return

setup_docs除Markdown之外,我還需要構(gòu)建一套索引系統(tǒng)這個(gè)PDF是一個(gè)

帶表格的結(jié)構(gòu)化數(shù)據(jù)

,所以直接用SimpleDirectoryReader加載并用SentenceSplitter進(jìn)行分塊后

,

信息可能被破壞

,

從而導(dǎo)致問答效果不佳

嵌入模型密集嵌入embed-mu

ti

ingua

-v3.0[0.

1I...]TF-IDFFine-TuningIcOLBERTOne-hot編碼基于特定領(lǐng)域的

專用嵌入模型習(xí)得的稀疏嵌入文本分塊

數(shù)據(jù)導(dǎo)入LangchainchunksLamaIndex

NodesDirectory加載器導(dǎo)入的文檔文本塊Unstructured加載器按語義JSON/XML加載器智能分塊Langchain

DocumentsL

amaIndex

DocumentsPyPDF、

Unstructured、

PyMuPDFGraphRAG(圖

RAG)contextuaRetrieva(基于上下文的檢索)Modu

ar

RAG(模塊化

RAG)Agentic

RAG(自主

RAG)Mu

ti-Moda

RAG

(多模態(tài)

RAG)父子文檔索引[0.2I...]文檔簇[1.3I...]文檔簇檢索評(píng)估精確率(Precision)F1分?jǐn)?shù)召回率(Reca

)MAPMRR

P@K響應(yīng)評(píng)估BLEU

ROUGEMETEOR扎實(shí)性安全性輸出解析Pydantic解析器JSON模式工具調(diào)用(Function/Tooca

s)壓縮查詢(問題)RRF、crossEncoder、co

BERTRankGPT、RankLLM排序或過濾、RAG-Fusion校正cRAG如果檢索結(jié)果不相關(guān)再次檢索或從新數(shù)據(jù)源(如網(wǎng)絡(luò))檢索語義路由

提示詞#1

(嵌入/索引)

提示詞#2讓大模型根據(jù)查詢問題來自動(dòng)選擇提示詞或嵌入/索引方式向量數(shù)據(jù)庫查詢(問題)Text-to-cypher自然語言轉(zhuǎn)cypherGraphDB的查詢語言查詢構(gòu)建

檢索后處理

系統(tǒng)評(píng)估向量存儲(chǔ)尋找瓶頸點(diǎn)查詢重寫

,

查詢分解

,

查詢澄清子問題、退—步的問題多查詢、退—步查詢、RAG-Fusion分解或重新表述輸入問題生成子問題、退—步的問題或更清晰的問題FLAT

、

IVFSQ、PQ、OPQHNSW、DiskANNMi

vus、Weaviate、Pinecone、Qdrant

Faiss、chroma、E

asticsearchSe

f-RAGIRRR基于回答的質(zhì)量判斷是否需要進(jìn)行查詢重寫或者重新查詢信息嵌入主動(dòng)生成語義分塊優(yōu)化分塊可以提升檢索和生成的質(zhì)量查詢路由邏輯路由co

hera

siva

jina-embeddings-v3bge-m3讓大模型根據(jù)查詢問題來自動(dòng)選擇數(shù)據(jù)源HyDE生成假設(shè)性文檔節(jié)點(diǎn)-句子窗口遞歸檢索器基于相關(guān)性和冗余度進(jìn)行文檔壓縮自查詢檢索器從查詢中自動(dòng)生成復(fù)雜RAG范式檢索前處理層次節(jié)點(diǎn)解析器RAPTOR集成檢索器多向量檢索器選擇合適的大模型BM25

查詢(問題)索引優(yōu)化查詢翻譯響應(yīng)生成自然語言轉(zhuǎn)SQL

SQL結(jié)合PGVector按字符按段落稀疏嵌入和密集嵌入多表示索引文本塊的優(yōu)化回答提示工程分塊時(shí)形成父子文檔忠實(shí)度分層索引text-embedding-3-sma向量數(shù)據(jù)庫Text-to-SQL關(guān)系數(shù)據(jù)庫關(guān)系數(shù)據(jù)庫分塊時(shí)形成層級(jí)專用嵌入元數(shù)據(jù)過濾器查詢擴(kuò)展圖數(shù)據(jù)庫主動(dòng)檢索圖數(shù)據(jù)庫查詢(問題)查詢(問題)cSVfi

e-01.

csv查詢(問題)查詢(問題)文本塊PDF加載器索引重排分塊回答fi

e-01.

exce

fi

e-01.jsonfi

e-01.

pdffi

e-01.xm

fi

e-01.txt相關(guān)性Foder...1.

構(gòu)建兩個(gè)向量數(shù)據(jù)庫(Summary和

Details),通過Metadata進(jìn)行鏈接2.

通過LlamaIndex的IndexNode和PandasQueryEngine3.

也可以通過查詢先檢索相關(guān)表名,然后做Text2SQL4.

對(duì)于這個(gè)例子,也可以提取年份,用元數(shù)據(jù)進(jìn)行Filter思路2:直接檢索Summary節(jié)點(diǎn)2023年的碳排量2024年的碳排量2025年的碳排量思路1:元數(shù)據(jù)提取Year

=

2023向量存儲(chǔ)語義路由

提示詞#1

(嵌入/索引)

提示詞#2讓大模型根據(jù)查詢問題來自動(dòng)選擇提示詞或嵌入/索引方式讓大模型根據(jù)查詢問題來自動(dòng)選擇數(shù)據(jù)源索引優(yōu)化多表示索引[0.2I...]...[1.3I...]文檔簇集成檢索器

多向量檢索器信息嵌入檢索評(píng)估精確率(Precision)F1分?jǐn)?shù)召回率(Reca

)MAPMRR

P@K響應(yīng)評(píng)估BLEU

ROUGEMETEOR扎實(shí)性安全性cSVfi

e-01.

csv提示工程Pydantic解析器JSON模式工具調(diào)用(Function/Tooca

s)主動(dòng)生成回答Se

f-RAGIRRR基于回答的質(zhì)量判斷是否需要進(jìn)行查詢重寫或者重新查詢稀疏嵌入和密集嵌入密集嵌入embed-

mu

ti

ingua

-v3.0[0.

1I...]TF-IDFFine-TuningIcOLBERTOne-hot編碼基于特定領(lǐng)域的

專用嵌入模型習(xí)得的稀疏嵌入Langchainchunks

LamaIndex

Nodes按字符按段落分塊按語義智能分塊語義分塊優(yōu)化分塊可以提升檢索和生成的質(zhì)量壓縮查詢(問題)RRF、crossEncoder、co

BERTRankGPT、RankLLM排序或過濾、RAG-Fusion校正cRAG如果檢索結(jié)果不相關(guān)再次檢索或從新數(shù)據(jù)源(如網(wǎng)絡(luò))檢索向量數(shù)據(jù)庫查詢(問題)Text-to-cypher自然語言轉(zhuǎn)cypherGraphDB的查詢語言Foder導(dǎo)入的文檔fi

e-01.txtPDF加載器PyPDF、

Unstructured、

PyMuPDF查詢構(gòu)建

檢索后處理

系統(tǒng)評(píng)估響應(yīng)生成選擇合適的大模型輸出解析尋找瓶頸點(diǎn)查詢重寫

,

查詢分解

,

查詢澄清子問題、退—步的問題多查詢、退—步查詢、RAG-Fusion分解或重新表述輸入問題生成子問題、退—步的問題或更清晰的問題Modu

ar

RAG(模塊化

RAG)Agentic

RAG(自主

RAG)分塊時(shí)形成父子文檔節(jié)點(diǎn)-句子窗口遞歸檢索器FLAT

、

IVFSQ、PQ、OPQHNSW、DiskANNMi

vus、Weaviate、Pinecone、Qdrant

Faiss、chroma、E

asticsearchDirectory加載器查詢路由邏輯路由Mu

ti-Moda

RAG

(多模態(tài)

RAG)contextuaRetrieva(基于上下文的檢索)

co

heraHyDE生成假設(shè)性文檔GraphRAG

(圖

RAG)基于相關(guān)性和冗余度進(jìn)行文檔壓縮自查詢檢索器從查詢中自動(dòng)生成復(fù)雜RAG范式Langchain

Documents

L

amaIndex

Documents檢索前處理層次節(jié)點(diǎn)解析器RAPTOR bge-m3數(shù)據(jù)導(dǎo)入文本分塊分塊時(shí)形成層級(jí)文檔簇BM25

查詢(問題)查詢翻譯自然語言轉(zhuǎn)SQL

SQL結(jié)合PGVector父子文檔索引文本塊的優(yōu)化回答忠實(shí)度jina-embeddings-v3分層索引text-embedding-3-sma向量數(shù)據(jù)庫嵌入模型Text-to-SQL關(guān)系數(shù)據(jù)庫關(guān)系數(shù)據(jù)庫專用嵌入U(xiǎn)nstructured加載器文本塊元數(shù)據(jù)過濾器查詢擴(kuò)展圖數(shù)據(jù)庫主動(dòng)檢索

文本塊圖數(shù)據(jù)庫JSON/XML加載器查詢(問題)查詢(問題)查詢(問題)查詢(問題)索引重排fi

e-01.

exce

fi

e-01.jsonfi

e-01.

pdffi

e-01.xm

相關(guān)性檢索評(píng)估精確率PrecisionF1分?jǐn)?shù)召回率Reca...

...MAPMRR

P@K生成評(píng)估ROUGEMETEOR扎實(shí)性安全性...

...?

評(píng)估數(shù)據(jù)集應(yīng)該如何構(gòu)建?

如何設(shè)計(jì)有針對(duì)性的評(píng)估機(jī)制D我們?cè)诖?忠實(shí)度評(píng)估BLEU真實(shí)性

(幻覺)忠實(shí)度

(上下文)扎實(shí)性

(相關(guān)性)安全性

(對(duì)齊)整體來說,這些工具用處不大檢索評(píng)估?

精確率?

召回率?

F1分?jǐn)?shù)?

平均倒數(shù)排名?

平均精確率?

P@K生成評(píng)估?

BLEU?

ROUGE?

METEOR檢索評(píng)估精確率(Precision)F1分?jǐn)?shù)召回率(Reca

)MAPMRR

P@K響應(yīng)評(píng)估BLEU

ROUGEMETEOR扎實(shí)性安全性忠實(shí)度系統(tǒng)評(píng)估GraphRAG(圖

RAG)contextuaRetrieva(基于上下文的檢索)Modu

ar

RAG(模塊化

RAG)Agentic

RAG(自主

RAG)Mu

ti-Moda

RAG

(多模態(tài)

RAG)父子文檔索引[0.2I...]文檔簇[1.3I...]文檔簇輸出解析Pydantic解析器JSON模式工具調(diào)用(Function/Tooca

s)壓縮查詢(問題)RRF、crossEncoder、co

BERTRankGPT、RankLLM排序或過濾、RAG-Fusion校正cRAG如果檢索結(jié)果不相關(guān)再次檢索或從新數(shù)據(jù)源(如網(wǎng)絡(luò))檢索語義路由

提示詞#1

(嵌入/索引)

提示詞#2讓大模型根據(jù)查詢問題來自動(dòng)選擇提示詞或嵌入/索引方式向量數(shù)據(jù)庫查詢(問題)Text-to-cypher自然語言轉(zhuǎn)cypherGraphDB的查詢語言向量存儲(chǔ)尋找瓶頸點(diǎn)查詢重寫

,

查詢分解

,

查詢澄清子問題、退—步的問題多查詢、退—步查詢、RAG-Fusion分解或重新表述輸入問題生成子問題、退—步的問題或更清晰的問題PDF加載器Directory加載器Unstructured加載器JSON/XML加載器PyPDF、

Unstructured、

PyMuPDFFLAT

、

IVFSQ、PQ、OPQHNSW、DiskANNMi

vus、Weaviate、Pinecone、Qdrant

Faiss、chroma、E

asticsearchSe

f-RAGIRRR基于回答的質(zhì)量判斷是否需要進(jìn)行查詢重寫或者重新查詢Fine-TuningIcOLBERT基于特定領(lǐng)域的

專用嵌入模型TF-IDFBM25

One-hot編碼信息嵌入主動(dòng)生成

co

heratext-embedding-3-sma文本分塊文本塊的優(yōu)化語義分塊優(yōu)化分塊可以提升檢索和生成的質(zhì)量查詢路由邏輯路由按字符按段落按語義智能分塊讓大模型根據(jù)查詢問題來自動(dòng)選擇數(shù)據(jù)源HyDE生成假設(shè)性文檔節(jié)點(diǎn)-句子窗口遞歸檢索器基于相關(guān)性和冗余度進(jìn)行文檔壓縮自查詢檢索器從查詢中自動(dòng)生成復(fù)雜RAG范式Langchain

Documents

L

amaIndex

Documents檢索前處理檢索后處理層次節(jié)點(diǎn)解析器RAPTOR集成檢索器多向量檢索器 bge-m3選擇合適的大模型數(shù)據(jù)導(dǎo)入查詢(問題)Langchainchunks

LamaIndex

Nodesembed-

mu

ti

ingua

-v3.0查詢翻譯索引優(yōu)化查詢構(gòu)建響應(yīng)生成自然語言轉(zhuǎn)SQL

SQL結(jié)合PGVector稀疏嵌入和密集嵌入多表示索引 [0.

1I...]回答提示工程分塊時(shí)形成父子文檔導(dǎo)入的文檔jina-embeddings-v3分層索引向量數(shù)據(jù)庫嵌入模型Text-to-SQL習(xí)得的稀疏嵌入關(guān)系數(shù)據(jù)庫

cSV

fi

e-01.

csv關(guān)系數(shù)據(jù)庫分塊時(shí)形成層級(jí)專用嵌入文本塊元數(shù)據(jù)過濾器查詢擴(kuò)展圖數(shù)據(jù)庫主動(dòng)檢索圖數(shù)據(jù)庫查詢(問題)查詢(問題)查詢(問題)查詢(問題)文本塊密集嵌入索引重排分塊回答fi

e-01.

exce

fi

e-01.jsonfi

e-01.

pdffi

e-01.xm

fi

e-01.txt相關(guān)性Foder...醫(yī)院內(nèi)存在多種電子病歷系統(tǒng)與數(shù)據(jù)標(biāo)準(zhǔn)臨床醫(yī)生使用非標(biāo)準(zhǔn)化術(shù)語記錄病情醫(yī)療數(shù)據(jù)分析需要統(tǒng)一術(shù)語標(biāo)準(zhǔn)以提高準(zhǔn)確性核心挑戰(zhàn)?專業(yè)術(shù)語多樣性:同義詞、縮寫、俚語并存?領(lǐng)域知識(shí)壁壘:需要專業(yè)醫(yī)學(xué)背景解讀上下文?系統(tǒng)適應(yīng)性:需應(yīng)對(duì)不同科室、不同記錄習(xí)慣?

實(shí)時(shí)性要求:診療過程中需快速響應(yīng)SNOMED

CT

標(biāo)準(zhǔn)術(shù)語系統(tǒng)搜索術(shù)語...

Q慢性心臟衰竭42343007

慢性心力衰竭醫(yī)療記錄患者癥狀:-慢性心臟衰竭-血糖升高

-活動(dòng)時(shí)胸痛-

呼吸困難-關(guān)節(jié)炎癥治療:血液稀釋劑兩周后復(fù)診標(biāo)準(zhǔn)化后的醫(yī)療記錄患者癥狀:-42343007

慢性心力衰竭-27941000血糖水平

升高-活動(dòng)時(shí)29857009

胸痛-267036007

呼吸困難-3723001關(guān)節(jié)炎血液稀釋劑

372924007抗凝血?jiǎng)┭?/p>

27941000血糖水平胸痛29857009胸痛呼吸困難267036007呼吸困難關(guān)節(jié)炎癥

3723001

關(guān)節(jié)炎非標(biāo)術(shù)語

SNOMED

CT

標(biāo)準(zhǔn)標(biāo)準(zhǔn)化轉(zhuǎn)換完全限定名稱(FSN)同義詞可能還有任意數(shù)量的同義詞被標(biāo)記為"可接受的"概念73211009SNOMEDCT標(biāo)識(shí)符每個(gè)組件都有—個(gè)唯—標(biāo)識(shí)符關(guān)系,SA

關(guān)系糖尿病

IS

A

代謝性疾病每種概念可以根據(jù)需要擁有任意數(shù)量的屬性關(guān)系每種語言中有—個(gè)FSN被標(biāo)記為"首選"每種語言有—個(gè)同義詞被標(biāo)記為“首選”糖尿病(疾病)每種概念至少要有—個(gè)IS_A關(guān)系糖尿病屬性關(guān)系組件描述5獲取—個(gè)醫(yī)學(xué)概念所有的上下文(語義網(wǎng)絡(luò))獲取—個(gè)醫(yī)學(xué)概念的相關(guān)屬性。查找某醫(yī)學(xué)概念的所有屬性關(guān)系(如“部位”

、“過程”

、“因果”

)因果關(guān)系概念和屬性語義網(wǎng)絡(luò)檢索評(píng)估精確率(Precision)F1分?jǐn)?shù)召回率(Reca

)MAPMRR

P@K響應(yīng)評(píng)估BLEU

ROUGEMETEOR扎實(shí)性安全性輸出解析Pydantic解析器JSON模式工具調(diào)用(Function/Tooca

s)復(fù)雜RAG范式GraphRAG(圖

RAG)contextuaRetrieva(基于上下文的檢索)壓縮查詢(問題)RRF、crossEncoder、co

BERTRankGPT、RankLLM排序或過濾、RAG-Fusion校正cRAG如果檢索結(jié)果不相關(guān)再次檢索或從新數(shù)據(jù)源(如網(wǎng)絡(luò))檢索語義路由

提示詞#1

(嵌入/索引)

提示詞#2讓大模型根據(jù)查詢問題來自動(dòng)選擇提示詞或嵌入/索引方式向量數(shù)據(jù)庫查詢(問題)Text-to-cypher自然語言轉(zhuǎn)cypherGraphDB的查詢語言查詢構(gòu)建

檢索后處理

系統(tǒng)評(píng)估向量存儲(chǔ)尋找突破口查詢重寫

,

查詢分解

,

查詢澄清子問題、退—步的問題多查詢、退—步查詢、RAG-Fusion分解或重新表述輸入問題生成子問題、退—步的問題或更清晰的問題Modu

ar

RAG(模塊化

RAG)Agentic

RAG(自主

RAG)PDF加載器Directory加載器Unstructured加載器JSON/XML加載器PyPDF、

Unstructured、

PyMuPDFFLAT

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論