




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
演講人:
黃佳01為什么我們?nèi)匀辉谡務(wù)揜AG02
RAG落地痛點(diǎn)及優(yōu)化思路03
企業(yè)文檔合規(guī)性問答系統(tǒng)落地實(shí)踐04
醫(yī)療術(shù)語標(biāo)準(zhǔn)化系統(tǒng)的落地實(shí)踐05知識(shí)圖譜在醫(yī)療術(shù)語標(biāo)準(zhǔn)化系統(tǒng)中的應(yīng)用06
MCP和A2A時(shí)代的RAGRAG的落地,往往是面向業(yè)務(wù)做RAG
,而不是反過來面向RAG做業(yè)務(wù)——
1.人類與大模型直接對(duì)話2.大模型進(jìn)行知識(shí)檢索3.大模型進(jìn)行自主推理大模型時(shí)代的知識(shí)檢索智能體的推理能力落地難點(diǎn)文檔的導(dǎo)入和解析(圖、表)如何將相關(guān)聯(lián)的內(nèi)容整體切片或建立起相關(guān)聯(lián)的索引如何處理大規(guī)模、分布式向量數(shù)據(jù)Text2SQL的精細(xì)化設(shè)計(jì)如何構(gòu)建程序代碼的檢索系統(tǒng)圖數(shù)據(jù)庫和知識(shí)圖譜和RAG系統(tǒng)的結(jié)合如何設(shè)計(jì)有權(quán)限的RAG系統(tǒng)GraphRAG(圖
RAG)contextuaRetrieva(基于上下文的檢索)Modu
ar
RAG(模塊化
RAG)Agentic
RAG(自主
RAG)Mu
ti-Moda
RAG
(多模態(tài)
RAG)父子文檔索引[0.2I...]文檔簇[1.3I...]文檔簇檢索評(píng)估精確率(Precision)F1分?jǐn)?shù)召回率(Reca
)MAPMRR
P@K響應(yīng)評(píng)估BLEU
ROUGEMETEOR扎實(shí)性安全性輸出解析Pydantic解析器JSON模式工具調(diào)用(Function/Tooca
s)壓縮查詢(問題)RRF、crossEncoder、co
BERTRankGPT、RankLLM排序或過濾、RAG-Fusion校正cRAG如果檢索結(jié)果不相關(guān)再次檢索或從新數(shù)據(jù)源(如網(wǎng)絡(luò))檢索語義路由
提示詞#1
(嵌入/索引)
提示詞#2讓大模型根據(jù)查詢問題來自動(dòng)選擇提示詞或嵌入/索引方式向量數(shù)據(jù)庫查詢(問題)Text-to-cypher自然語言轉(zhuǎn)cypherGraphDB的查詢語言查詢構(gòu)建
檢索后處理
系統(tǒng)評(píng)估向量存儲(chǔ)優(yōu)化思路尋找瓶頸點(diǎn)查詢重寫
,
查詢分解
,
查詢澄清子問題、退—步的問題多查詢、退—步查詢、RAG-Fusion分解或重新表述輸入問題生成子問題、退—步的問題或更清晰的問題PDF加載器Directory加載器Unstructured加載器JSON/XML加載器PyPDF、
Unstructured、
PyMuPDFFLAT
、
IVFSQ、PQ、OPQHNSW、DiskANNMi
vus、Weaviate、Pinecone、Qdrant
Faiss、chroma、E
asticsearchSe
f-RAGIRRR基于回答的質(zhì)量判斷是否需要進(jìn)行查詢重寫或者重新查詢Fine-TuningIcOLBERT基于特定領(lǐng)域的
專用嵌入模型RAGTF-IDFBM25
One-hot編碼信息嵌入主動(dòng)生成
co
heratext-embedding-3-sma文本分塊文本塊的優(yōu)化語義分塊優(yōu)化分塊可以提升檢索和生成的質(zhì)量查詢路由邏輯路由按字符按段落按語義智能分塊讓大模型根據(jù)查詢問題來自動(dòng)選擇數(shù)據(jù)源HyDE生成假設(shè)性文檔節(jié)點(diǎn)-句子窗口遞歸檢索器基于相關(guān)性和冗余度進(jìn)行文檔壓縮自查詢檢索器從查詢中自動(dòng)生成復(fù)雜RAG范式Langchain
Documents
L
amaIndex
Documents檢索前處理層次節(jié)點(diǎn)解析器RAPTOR集成檢索器多向量檢索器 bge-m3選擇合適的大模型數(shù)據(jù)導(dǎo)入查詢(問題)Langchainchunks
LamaIndex
Nodesembed-
mu
ti
ingua
-v3.0查詢翻譯索引優(yōu)化響應(yīng)生成自然語言轉(zhuǎn)SQL
SQL結(jié)合PGVector稀疏嵌入和密集嵌入多表示索引 [0.
1I...]回答提示工程分塊時(shí)形成父子文檔導(dǎo)入的文檔忠實(shí)度jina-embeddings-v3分層索引向量數(shù)據(jù)庫——嵌入模型Text-to-SQL習(xí)得的稀疏嵌入關(guān)系數(shù)據(jù)庫
cSV
fi
e-01.
csv關(guān)系數(shù)據(jù)庫分塊時(shí)形成層級(jí)專用嵌入文本塊元數(shù)據(jù)過濾器查詢擴(kuò)展圖數(shù)據(jù)庫主動(dòng)檢索圖數(shù)據(jù)庫查詢(問題)查詢(問題)查詢(問題)查詢(問題)文本塊密集嵌入索引重排分塊回答fi
e-01.
exce
fi
e-01.jsonfi
e-01.
pdffi
e-01.xm
fi
e-01.txt相關(guān)性Foder...?3.
治理
(G)1.反腐敗政策、商業(yè)道德2.董事會(huì)治理、股東權(quán)利3.供應(yīng)鏈合規(guī)
內(nèi)部審計(jì):企業(yè)發(fā)布的Sustainability
Report究竟是否符合GRI標(biāo)準(zhǔn)1.
環(huán)境
(
E)1.碳排放
(Scope
1,Scope
2,Scope
3)2.能源消耗、用水情況、廢棄物管理3.綠色產(chǎn)品和供應(yīng)鏈管理2.
社會(huì)
(S)1.員工薪酬、
健康和安全2.多樣性和包容性(D&I)3.社區(qū)發(fā)展、客戶隱私、數(shù)據(jù)保護(hù)可持續(xù)發(fā)展報(bào)告(Sustainability
Report)是企業(yè)或組織自愿發(fā)布的一種非財(cái)務(wù)報(bào)告,主要披露企業(yè)在環(huán)境、社會(huì)責(zé)任和治理(ESG)
方面的績(jī)效,并展現(xiàn)企業(yè)如何管理可持續(xù)發(fā)展風(fēng)險(xiǎn)和機(jī)遇。Q?
如何構(gòu)建含層次關(guān)系的索引(2024年的數(shù)據(jù)要與其標(biāo)題有
隸屬關(guān)系)?
如何在構(gòu)建索引時(shí)保持圖表的原始結(jié)構(gòu)化信息?
如何在索引過程中管理文檔的元數(shù)據(jù)信息,進(jìn)行檢索結(jié)果的精準(zhǔn)過濾與排序?
缺乏統(tǒng)—、有效的評(píng)估指標(biāo)體系?缺少高質(zhì)量的評(píng)估數(shù)據(jù)集,導(dǎo)致
評(píng)估結(jié)果不真實(shí)?難以追蹤評(píng)估與改進(jìn)的閉環(huán),系統(tǒng)難以持續(xù)優(yōu)化?
PDF格式不統(tǒng)一
(文字、圖片、
公式、表格)?
文檔結(jié)構(gòu)復(fù)雜
(章節(jié)、標(biāo)題、子
標(biāo)題、
段落之間存在多層嵌套關(guān)?
表格數(shù)據(jù)和正文密切相關(guān),強(qiáng)行切分會(huì)破壞語義關(guān)聯(lián)信息?
分散在多種來源
(網(wǎng)頁、內(nèi)部文
檔庫、
第三方數(shù)據(jù)庫等索引設(shè)計(jì)如何評(píng)估文檔導(dǎo)入+文檔切塊向量數(shù)據(jù)庫嵌入索引提取元數(shù)據(jù)信息
文檔入庫技術(shù)白皮書(公式/圖形)財(cái)務(wù)報(bào)表年報(bào)文檔技術(shù)文檔API文檔政策法規(guī)合規(guī)文檔預(yù)處理Agent預(yù)處理模塊文檔文檔加載器說明Package/API特點(diǎn)PyPDF使用pypdf加載和解析PDF文件Package高效輕量,適合處理簡(jiǎn)單PDF文檔Unstructured使用Unstructured的開源庫加載PDF文件Package/API兼容多種文檔格式,支持內(nèi)容提取和分析AmazonTextract使用
AWSAPI加載PDF文件API云服務(wù)支持,適合大批量文檔的OCR處理MathPix使用MathPix加載和解析PDF文件API專為數(shù)學(xué)公式設(shè)計(jì),精準(zhǔn)解析復(fù)雜內(nèi)容PDFPlumber使用PDFPlumber
加載PDF文件Package豐富的PDF內(nèi)容控制和處理功能PyPDFDirectry加載目錄中的PDF文件Package批量加載,便于處理多個(gè)PDF文檔PyPDFium2使用PyPDFium2加載PDF文件Package高效解析,支持PDF頁面的渲染和轉(zhuǎn)換PyMuPDF使用PyMuPDF加載PDF文件Package速度優(yōu)化,支持復(fù)雜PDF的精細(xì)化處理PDFMiner使用PDFMiner加載PDF文件Package適合文本抽取,處理PDF中的嵌入文字內(nèi)容fromlangchain_unstructuredimportUnstructuredLoader
fromtyping
import
Listfromlangchain_core.documentsimport
Documentpage_url
="https://zh.wikipedia.org/wiki/黑神話:悟空"def
_get_setup_docs_from_url
(url:str)->List[Document]:loader
=UnstructuredLoader
(web_url=url)setup_docs
=
[]#parent_id=None
#初始化
parent_id#current_parent=None
#
用于存儲(chǔ)當(dāng)前父元素
for
doc
in
loader.load
():#檢查是否是
Title
或Tableif
doc.metadata
["category"]==
"Title"
ordoc.metadata
["category"]==
"Table":parent_id
=doc.metadata
["element_id"]current_parent
=doc
#更新當(dāng)前父元素setup_docs.append
(doc)elif
doc.metadata.get
("parent_id")==
parent_id:setup_docs.append
((current_parent,doc))#將父元素和子元素一起存儲(chǔ)return
setup_docs除Markdown之外,我還需要構(gòu)建一套索引系統(tǒng)這個(gè)PDF是一個(gè)
帶表格的結(jié)構(gòu)化數(shù)據(jù)
,所以直接用SimpleDirectoryReader加載并用SentenceSplitter進(jìn)行分塊后
,
信息可能被破壞
,
從而導(dǎo)致問答效果不佳
嵌入模型密集嵌入embed-mu
ti
ingua
-v3.0[0.
1I...]TF-IDFFine-TuningIcOLBERTOne-hot編碼基于特定領(lǐng)域的
專用嵌入模型習(xí)得的稀疏嵌入文本分塊
數(shù)據(jù)導(dǎo)入LangchainchunksLamaIndex
NodesDirectory加載器導(dǎo)入的文檔文本塊Unstructured加載器按語義JSON/XML加載器智能分塊Langchain
DocumentsL
amaIndex
DocumentsPyPDF、
Unstructured、
PyMuPDFGraphRAG(圖
RAG)contextuaRetrieva(基于上下文的檢索)Modu
ar
RAG(模塊化
RAG)Agentic
RAG(自主
RAG)Mu
ti-Moda
RAG
(多模態(tài)
RAG)父子文檔索引[0.2I...]文檔簇[1.3I...]文檔簇檢索評(píng)估精確率(Precision)F1分?jǐn)?shù)召回率(Reca
)MAPMRR
P@K響應(yīng)評(píng)估BLEU
ROUGEMETEOR扎實(shí)性安全性輸出解析Pydantic解析器JSON模式工具調(diào)用(Function/Tooca
s)壓縮查詢(問題)RRF、crossEncoder、co
BERTRankGPT、RankLLM排序或過濾、RAG-Fusion校正cRAG如果檢索結(jié)果不相關(guān)再次檢索或從新數(shù)據(jù)源(如網(wǎng)絡(luò))檢索語義路由
提示詞#1
(嵌入/索引)
提示詞#2讓大模型根據(jù)查詢問題來自動(dòng)選擇提示詞或嵌入/索引方式向量數(shù)據(jù)庫查詢(問題)Text-to-cypher自然語言轉(zhuǎn)cypherGraphDB的查詢語言查詢構(gòu)建
檢索后處理
系統(tǒng)評(píng)估向量存儲(chǔ)尋找瓶頸點(diǎn)查詢重寫
,
查詢分解
,
查詢澄清子問題、退—步的問題多查詢、退—步查詢、RAG-Fusion分解或重新表述輸入問題生成子問題、退—步的問題或更清晰的問題FLAT
、
IVFSQ、PQ、OPQHNSW、DiskANNMi
vus、Weaviate、Pinecone、Qdrant
Faiss、chroma、E
asticsearchSe
f-RAGIRRR基于回答的質(zhì)量判斷是否需要進(jìn)行查詢重寫或者重新查詢信息嵌入主動(dòng)生成語義分塊優(yōu)化分塊可以提升檢索和生成的質(zhì)量查詢路由邏輯路由co
hera
siva
jina-embeddings-v3bge-m3讓大模型根據(jù)查詢問題來自動(dòng)選擇數(shù)據(jù)源HyDE生成假設(shè)性文檔節(jié)點(diǎn)-句子窗口遞歸檢索器基于相關(guān)性和冗余度進(jìn)行文檔壓縮自查詢檢索器從查詢中自動(dòng)生成復(fù)雜RAG范式檢索前處理層次節(jié)點(diǎn)解析器RAPTOR集成檢索器多向量檢索器選擇合適的大模型BM25
查詢(問題)索引優(yōu)化查詢翻譯響應(yīng)生成自然語言轉(zhuǎn)SQL
SQL結(jié)合PGVector按字符按段落稀疏嵌入和密集嵌入多表示索引文本塊的優(yōu)化回答提示工程分塊時(shí)形成父子文檔忠實(shí)度分層索引text-embedding-3-sma向量數(shù)據(jù)庫Text-to-SQL關(guān)系數(shù)據(jù)庫關(guān)系數(shù)據(jù)庫分塊時(shí)形成層級(jí)專用嵌入元數(shù)據(jù)過濾器查詢擴(kuò)展圖數(shù)據(jù)庫主動(dòng)檢索圖數(shù)據(jù)庫查詢(問題)查詢(問題)cSVfi
e-01.
csv查詢(問題)查詢(問題)文本塊PDF加載器索引重排分塊回答fi
e-01.
exce
fi
e-01.jsonfi
e-01.
pdffi
e-01.xm
fi
e-01.txt相關(guān)性Foder...1.
構(gòu)建兩個(gè)向量數(shù)據(jù)庫(Summary和
Details),通過Metadata進(jìn)行鏈接2.
通過LlamaIndex的IndexNode和PandasQueryEngine3.
也可以通過查詢先檢索相關(guān)表名,然后做Text2SQL4.
對(duì)于這個(gè)例子,也可以提取年份,用元數(shù)據(jù)進(jìn)行Filter思路2:直接檢索Summary節(jié)點(diǎn)2023年的碳排量2024年的碳排量2025年的碳排量思路1:元數(shù)據(jù)提取Year
=
2023向量存儲(chǔ)語義路由
提示詞#1
(嵌入/索引)
提示詞#2讓大模型根據(jù)查詢問題來自動(dòng)選擇提示詞或嵌入/索引方式讓大模型根據(jù)查詢問題來自動(dòng)選擇數(shù)據(jù)源索引優(yōu)化多表示索引[0.2I...]...[1.3I...]文檔簇集成檢索器
多向量檢索器信息嵌入檢索評(píng)估精確率(Precision)F1分?jǐn)?shù)召回率(Reca
)MAPMRR
P@K響應(yīng)評(píng)估BLEU
ROUGEMETEOR扎實(shí)性安全性cSVfi
e-01.
csv提示工程Pydantic解析器JSON模式工具調(diào)用(Function/Tooca
s)主動(dòng)生成回答Se
f-RAGIRRR基于回答的質(zhì)量判斷是否需要進(jìn)行查詢重寫或者重新查詢稀疏嵌入和密集嵌入密集嵌入embed-
mu
ti
ingua
-v3.0[0.
1I...]TF-IDFFine-TuningIcOLBERTOne-hot編碼基于特定領(lǐng)域的
專用嵌入模型習(xí)得的稀疏嵌入Langchainchunks
LamaIndex
Nodes按字符按段落分塊按語義智能分塊語義分塊優(yōu)化分塊可以提升檢索和生成的質(zhì)量壓縮查詢(問題)RRF、crossEncoder、co
BERTRankGPT、RankLLM排序或過濾、RAG-Fusion校正cRAG如果檢索結(jié)果不相關(guān)再次檢索或從新數(shù)據(jù)源(如網(wǎng)絡(luò))檢索向量數(shù)據(jù)庫查詢(問題)Text-to-cypher自然語言轉(zhuǎn)cypherGraphDB的查詢語言Foder導(dǎo)入的文檔fi
e-01.txtPDF加載器PyPDF、
Unstructured、
PyMuPDF查詢構(gòu)建
檢索后處理
系統(tǒng)評(píng)估響應(yīng)生成選擇合適的大模型輸出解析尋找瓶頸點(diǎn)查詢重寫
,
查詢分解
,
查詢澄清子問題、退—步的問題多查詢、退—步查詢、RAG-Fusion分解或重新表述輸入問題生成子問題、退—步的問題或更清晰的問題Modu
ar
RAG(模塊化
RAG)Agentic
RAG(自主
RAG)分塊時(shí)形成父子文檔節(jié)點(diǎn)-句子窗口遞歸檢索器FLAT
、
IVFSQ、PQ、OPQHNSW、DiskANNMi
vus、Weaviate、Pinecone、Qdrant
Faiss、chroma、E
asticsearchDirectory加載器查詢路由邏輯路由Mu
ti-Moda
RAG
(多模態(tài)
RAG)contextuaRetrieva(基于上下文的檢索)
co
heraHyDE生成假設(shè)性文檔GraphRAG
(圖
RAG)基于相關(guān)性和冗余度進(jìn)行文檔壓縮自查詢檢索器從查詢中自動(dòng)生成復(fù)雜RAG范式Langchain
Documents
L
amaIndex
Documents檢索前處理層次節(jié)點(diǎn)解析器RAPTOR bge-m3數(shù)據(jù)導(dǎo)入文本分塊分塊時(shí)形成層級(jí)文檔簇BM25
查詢(問題)查詢翻譯自然語言轉(zhuǎn)SQL
SQL結(jié)合PGVector父子文檔索引文本塊的優(yōu)化回答忠實(shí)度jina-embeddings-v3分層索引text-embedding-3-sma向量數(shù)據(jù)庫嵌入模型Text-to-SQL關(guān)系數(shù)據(jù)庫關(guān)系數(shù)據(jù)庫專用嵌入U(xiǎn)nstructured加載器文本塊元數(shù)據(jù)過濾器查詢擴(kuò)展圖數(shù)據(jù)庫主動(dòng)檢索
文本塊圖數(shù)據(jù)庫JSON/XML加載器查詢(問題)查詢(問題)查詢(問題)查詢(問題)索引重排fi
e-01.
exce
fi
e-01.jsonfi
e-01.
pdffi
e-01.xm
相關(guān)性檢索評(píng)估精確率PrecisionF1分?jǐn)?shù)召回率Reca...
...MAPMRR
P@K生成評(píng)估ROUGEMETEOR扎實(shí)性安全性...
...?
評(píng)估數(shù)據(jù)集應(yīng)該如何構(gòu)建?
如何設(shè)計(jì)有針對(duì)性的評(píng)估機(jī)制D我們?cè)诖?忠實(shí)度評(píng)估BLEU真實(shí)性
(幻覺)忠實(shí)度
(上下文)扎實(shí)性
(相關(guān)性)安全性
(對(duì)齊)整體來說,這些工具用處不大檢索評(píng)估?
精確率?
召回率?
F1分?jǐn)?shù)?
平均倒數(shù)排名?
平均精確率?
P@K生成評(píng)估?
BLEU?
ROUGE?
METEOR檢索評(píng)估精確率(Precision)F1分?jǐn)?shù)召回率(Reca
)MAPMRR
P@K響應(yīng)評(píng)估BLEU
ROUGEMETEOR扎實(shí)性安全性忠實(shí)度系統(tǒng)評(píng)估GraphRAG(圖
RAG)contextuaRetrieva(基于上下文的檢索)Modu
ar
RAG(模塊化
RAG)Agentic
RAG(自主
RAG)Mu
ti-Moda
RAG
(多模態(tài)
RAG)父子文檔索引[0.2I...]文檔簇[1.3I...]文檔簇輸出解析Pydantic解析器JSON模式工具調(diào)用(Function/Tooca
s)壓縮查詢(問題)RRF、crossEncoder、co
BERTRankGPT、RankLLM排序或過濾、RAG-Fusion校正cRAG如果檢索結(jié)果不相關(guān)再次檢索或從新數(shù)據(jù)源(如網(wǎng)絡(luò))檢索語義路由
提示詞#1
(嵌入/索引)
提示詞#2讓大模型根據(jù)查詢問題來自動(dòng)選擇提示詞或嵌入/索引方式向量數(shù)據(jù)庫查詢(問題)Text-to-cypher自然語言轉(zhuǎn)cypherGraphDB的查詢語言向量存儲(chǔ)尋找瓶頸點(diǎn)查詢重寫
,
查詢分解
,
查詢澄清子問題、退—步的問題多查詢、退—步查詢、RAG-Fusion分解或重新表述輸入問題生成子問題、退—步的問題或更清晰的問題PDF加載器Directory加載器Unstructured加載器JSON/XML加載器PyPDF、
Unstructured、
PyMuPDFFLAT
、
IVFSQ、PQ、OPQHNSW、DiskANNMi
vus、Weaviate、Pinecone、Qdrant
Faiss、chroma、E
asticsearchSe
f-RAGIRRR基于回答的質(zhì)量判斷是否需要進(jìn)行查詢重寫或者重新查詢Fine-TuningIcOLBERT基于特定領(lǐng)域的
專用嵌入模型TF-IDFBM25
One-hot編碼信息嵌入主動(dòng)生成
co
heratext-embedding-3-sma文本分塊文本塊的優(yōu)化語義分塊優(yōu)化分塊可以提升檢索和生成的質(zhì)量查詢路由邏輯路由按字符按段落按語義智能分塊讓大模型根據(jù)查詢問題來自動(dòng)選擇數(shù)據(jù)源HyDE生成假設(shè)性文檔節(jié)點(diǎn)-句子窗口遞歸檢索器基于相關(guān)性和冗余度進(jìn)行文檔壓縮自查詢檢索器從查詢中自動(dòng)生成復(fù)雜RAG范式Langchain
Documents
L
amaIndex
Documents檢索前處理檢索后處理層次節(jié)點(diǎn)解析器RAPTOR集成檢索器多向量檢索器 bge-m3選擇合適的大模型數(shù)據(jù)導(dǎo)入查詢(問題)Langchainchunks
LamaIndex
Nodesembed-
mu
ti
ingua
-v3.0查詢翻譯索引優(yōu)化查詢構(gòu)建響應(yīng)生成自然語言轉(zhuǎn)SQL
SQL結(jié)合PGVector稀疏嵌入和密集嵌入多表示索引 [0.
1I...]回答提示工程分塊時(shí)形成父子文檔導(dǎo)入的文檔jina-embeddings-v3分層索引向量數(shù)據(jù)庫嵌入模型Text-to-SQL習(xí)得的稀疏嵌入關(guān)系數(shù)據(jù)庫
cSV
fi
e-01.
csv關(guān)系數(shù)據(jù)庫分塊時(shí)形成層級(jí)專用嵌入文本塊元數(shù)據(jù)過濾器查詢擴(kuò)展圖數(shù)據(jù)庫主動(dòng)檢索圖數(shù)據(jù)庫查詢(問題)查詢(問題)查詢(問題)查詢(問題)文本塊密集嵌入索引重排分塊回答fi
e-01.
exce
fi
e-01.jsonfi
e-01.
pdffi
e-01.xm
fi
e-01.txt相關(guān)性Foder...醫(yī)院內(nèi)存在多種電子病歷系統(tǒng)與數(shù)據(jù)標(biāo)準(zhǔn)臨床醫(yī)生使用非標(biāo)準(zhǔn)化術(shù)語記錄病情醫(yī)療數(shù)據(jù)分析需要統(tǒng)一術(shù)語標(biāo)準(zhǔn)以提高準(zhǔn)確性核心挑戰(zhàn)?專業(yè)術(shù)語多樣性:同義詞、縮寫、俚語并存?領(lǐng)域知識(shí)壁壘:需要專業(yè)醫(yī)學(xué)背景解讀上下文?系統(tǒng)適應(yīng)性:需應(yīng)對(duì)不同科室、不同記錄習(xí)慣?
實(shí)時(shí)性要求:診療過程中需快速響應(yīng)SNOMED
CT
標(biāo)準(zhǔn)術(shù)語系統(tǒng)搜索術(shù)語...
Q慢性心臟衰竭42343007
慢性心力衰竭醫(yī)療記錄患者癥狀:-慢性心臟衰竭-血糖升高
-活動(dòng)時(shí)胸痛-
呼吸困難-關(guān)節(jié)炎癥治療:血液稀釋劑兩周后復(fù)診標(biāo)準(zhǔn)化后的醫(yī)療記錄患者癥狀:-42343007
慢性心力衰竭-27941000血糖水平
升高-活動(dòng)時(shí)29857009
胸痛-267036007
呼吸困難-3723001關(guān)節(jié)炎血液稀釋劑
372924007抗凝血?jiǎng)┭?/p>
27941000血糖水平胸痛29857009胸痛呼吸困難267036007呼吸困難關(guān)節(jié)炎癥
3723001
關(guān)節(jié)炎非標(biāo)術(shù)語
SNOMED
CT
標(biāo)準(zhǔn)標(biāo)準(zhǔn)化轉(zhuǎn)換完全限定名稱(FSN)同義詞可能還有任意數(shù)量的同義詞被標(biāo)記為"可接受的"概念73211009SNOMEDCT標(biāo)識(shí)符每個(gè)組件都有—個(gè)唯—標(biāo)識(shí)符關(guān)系,SA
關(guān)系糖尿病
IS
A
代謝性疾病每種概念可以根據(jù)需要擁有任意數(shù)量的屬性關(guān)系每種語言中有—個(gè)FSN被標(biāo)記為"首選"每種語言有—個(gè)同義詞被標(biāo)記為“首選”糖尿病(疾病)每種概念至少要有—個(gè)IS_A關(guān)系糖尿病屬性關(guān)系組件描述5獲取—個(gè)醫(yī)學(xué)概念所有的上下文(語義網(wǎng)絡(luò))獲取—個(gè)醫(yī)學(xué)概念的相關(guān)屬性。查找某醫(yī)學(xué)概念的所有屬性關(guān)系(如“部位”
、“過程”
、“因果”
)因果關(guān)系概念和屬性語義網(wǎng)絡(luò)檢索評(píng)估精確率(Precision)F1分?jǐn)?shù)召回率(Reca
)MAPMRR
P@K響應(yīng)評(píng)估BLEU
ROUGEMETEOR扎實(shí)性安全性輸出解析Pydantic解析器JSON模式工具調(diào)用(Function/Tooca
s)復(fù)雜RAG范式GraphRAG(圖
RAG)contextuaRetrieva(基于上下文的檢索)壓縮查詢(問題)RRF、crossEncoder、co
BERTRankGPT、RankLLM排序或過濾、RAG-Fusion校正cRAG如果檢索結(jié)果不相關(guān)再次檢索或從新數(shù)據(jù)源(如網(wǎng)絡(luò))檢索語義路由
提示詞#1
(嵌入/索引)
提示詞#2讓大模型根據(jù)查詢問題來自動(dòng)選擇提示詞或嵌入/索引方式向量數(shù)據(jù)庫查詢(問題)Text-to-cypher自然語言轉(zhuǎn)cypherGraphDB的查詢語言查詢構(gòu)建
檢索后處理
系統(tǒng)評(píng)估向量存儲(chǔ)尋找突破口查詢重寫
,
查詢分解
,
查詢澄清子問題、退—步的問題多查詢、退—步查詢、RAG-Fusion分解或重新表述輸入問題生成子問題、退—步的問題或更清晰的問題Modu
ar
RAG(模塊化
RAG)Agentic
RAG(自主
RAG)PDF加載器Directory加載器Unstructured加載器JSON/XML加載器PyPDF、
Unstructured、
PyMuPDFFLAT
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年甘肅省嘉峪關(guān)市第五中學(xué)招聘公益性崗位人員考前自測(cè)高頻考點(diǎn)模擬試題及答案詳解(奪冠系列)
- 重慶市人民醫(yī)院術(shù)前評(píng)估能力考核
- 2025年4月15日廣西梧州市龍投人力資源有限公司招聘2人模擬試卷附答案詳解(突破訓(xùn)練)
- 2025廣西城軌工程建設(shè)有限公司招聘20人模擬試卷及答案詳解(考點(diǎn)梳理)
- 2025湖北襄陽市棗陽市教育系統(tǒng)招聘研究生及以上高層次人才為高中(中職)教師104人模擬試卷及一套完整答案詳解
- 2025年安徽省高校畢業(yè)生三支一扶計(jì)劃招募筆試考試大綱考前自測(cè)高頻考點(diǎn)模擬試題參考答案詳解
- 2025福建省晉江圳源環(huán)境科技有限責(zé)任公司招聘6人模擬試卷附答案詳解(模擬題)
- 北京市人民醫(yī)院醫(yī)療質(zhì)量與安全指標(biāo)監(jiān)測(cè)與分析報(bào)告試題
- 2025福建龍巖市上杭縣文化旅游發(fā)展有限公司(上杭古田建設(shè)發(fā)展有限公司)所屬企業(yè)招聘擬聘用人選(二)考前自測(cè)高頻考點(diǎn)模擬試題及1套參考答案詳解
- 2025春季福建泉州農(nóng)信社招聘考試服務(wù)熱線模擬試卷附答案詳解(完整版)
- 品質(zhì)測(cè)量員試題及答案
- 潔凈燈具行業(yè)跨境出海戰(zhàn)略研究報(bào)告
- 2024-2025學(xué)年山東省濟(jì)南市高一上冊(cè)第一次月考數(shù)學(xué)學(xué)情檢測(cè)試題
- 二零二五年度版學(xué)校合作協(xié)議范本:高校與中小學(xué)合作培養(yǎng)協(xié)議
- 《水的組成說課課案》課件
- 無人駕駛車輛在醫(yī)療物資運(yùn)輸中的應(yīng)用研究-洞察分析
- 暴雨過后工地復(fù)工復(fù)產(chǎn)方案
- 快件處理員(中級(jí))職業(yè)技能鑒定考試題庫(含答案)
- TNBSIA 001-2024 建筑設(shè)備一體化管控平臺(tái)建設(shè)技術(shù)要求
- JT-T-848-2013公路用復(fù)合隔離柵立柱
- 《客艙安全與應(yīng)急處置》-課件:其他輔助設(shè)備
評(píng)論
0/150
提交評(píng)論