




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
書生·萬象多模態(tài)大模型的技術(shù)演進與應(yīng)用探索多模態(tài)大模型研究背景1234目錄大規(guī)模視覺語言模型對齊強多模態(tài)模型構(gòu)建不止于語言輸出:通專融合20112014201920062012深度學(xué)習(xí)理論突破深度置信網(wǎng)絡(luò)ImageNet競賽大規(guī)模語音識別Switchboard錯誤降低9%圍棋比賽AlphaGo
4:1
李世乭德州撲克首次在多人復(fù)雜對局中超越人類2021人臉識別LFW識別率99%,超過人類20161000類,100萬數(shù)據(jù)歷史:“特定任務(wù)+大數(shù)據(jù)”取得巨大成功一個模型解決一個問題AlphaFold未來:“通用性”一個模型多種任務(wù)多種模態(tài)蛋白質(zhì)結(jié)構(gòu)預(yù)測準確率新高研究背景:大語言模型&多模態(tài)大模型以視覺為核心的多模態(tài)大模型有望在眾多領(lǐng)域帶來AI生產(chǎn)力革命InternLMBaichuan?wenChatGLMDeepSeekenc-onlyenc-decdec-only研究背景:大語言模型&多模態(tài)大模型研究背景:大語言模型&多模態(tài)大模型InternVLMiniCPMCogVLM1.
QFormer
[1]2.
MLP
[2]3.
MoE
[3]Li
J,
Li
D,
Savarese
S,
etal.
Blip-2:
Bootstrapping
language-imagepre-training
with
frozenimage
encoders
and
large
language
models[C]//International
conference
on
machine
learning.PMLR,
2023:
19730-19742.Liu
H,
Li
C,Wu
Q,
etal.Visual
instruction
tuning[J].
Advances
in
neuralinformation
processingsystems,
2024,
36.Wang
W,
Lv
Q,
Yu
W,
et
al.
Cogvlm:
Visual
expert
for
pretrained
language
models[J].
arXivpreprint
arXiv:2311.03079,
2023.研究背景:大語言模型&多模態(tài)大模型多模態(tài)大模型研究背景1234目錄大規(guī)模視覺語言模型對齊強多模態(tài)模型構(gòu)建不止于語言輸出:通專融合InternVL:大規(guī)模視覺語言模型對齊傳統(tǒng)視覺/視覺-語言基礎(chǔ)模型范式已落后于大語言模型的發(fā)展,亟需新的范式來推動其發(fā)展2012
2021image判別式預(yù)訓(xùn)練AlexNet、ResNet與LLM參數(shù)量差距過大與LLM表征不一致訓(xùn)練數(shù)據(jù)單一、數(shù)據(jù)量小classesvisionencodercontrastiveimage
text對比式預(yù)訓(xùn)練CLIP、ALIGNvisionencodertextencoderInternVL:大規(guī)模視覺語言模型對齊傳統(tǒng)視覺/視覺-語言基礎(chǔ)模型范式已落后于大語言模型的發(fā)展,亟需新的范式來推動其發(fā)展大模型時代2012
2021
2023與LLM參數(shù)量差距過大與LLM表征不一致訓(xùn)練數(shù)據(jù)單一、數(shù)據(jù)量小image判別式預(yù)訓(xùn)練AlexNet、ResNet60億參數(shù)視覺模型+1000億參數(shù)語言模型漸進式對齊視覺基礎(chǔ)模型和語言模型表征大規(guī)模、多來源圖文多模態(tài)訓(xùn)練數(shù)據(jù)classesvisionencodercontrastiveimage
text對比式預(yù)訓(xùn)練CLIP、ALIGNvisionencodertextencoder漸進式對齊訓(xùn)練書生圖文大模型-InternVLfeature
aligningimagetextscaling
upvisionencoderto
6B
#paramslanguagemodel<10Blargelanguagemodel>100Bgenerativeprompt核心思想:擴大視覺基礎(chǔ)模型并為通用視覺語言任務(wù)進行對齊設(shè)計1:擴大視覺模型至6B參數(shù)步驟1:固定60億參數(shù),網(wǎng)格搜索模型寬度、深度、MLP
Ratio和AttentionHead維度步驟2:使用CLIP作為代理任務(wù),找到在速度、準確性和穩(wěn)定性之間取得平衡的模型InternVL:大規(guī)模視覺語言模型對齊InternVL:大規(guī)模視覺語言模型對齊設(shè)計1:擴大視覺模型至6B參數(shù)基于原始ViT結(jié)構(gòu),通過搜索模型深度{32,48,64,80},注意力頭維度{64,128},以及MLP比率{4,
8},將視覺模型擴大至6B參數(shù),找到速度、精度、穩(wěn)定性平衡的模型核心思想:擴大視覺基礎(chǔ)模型并為通用視覺語言任務(wù)進行對齊InternVL:大規(guī)模視覺語言模型對齊設(shè)計2:漸進式的圖像-文本對齊策略階段1:利用海量帶噪聲的圖文數(shù)據(jù)進行對比學(xué)習(xí)預(yù)訓(xùn)練(~5B圖像)核心思想:擴大視覺基礎(chǔ)模型并為通用視覺語言任務(wù)進行對齊InternVL:大規(guī)模視覺語言模型對齊設(shè)計2:漸進式的圖像-文本對齊策略階段1:利用海量帶噪聲的圖文數(shù)據(jù)進行對比學(xué)習(xí)預(yù)訓(xùn)練(~5B圖像)階段2:利用過濾后的高質(zhì)量圖文數(shù)據(jù)進行對比學(xué)習(xí)和生成式聯(lián)合訓(xùn)練(~1B圖像)InternVL:大規(guī)模視覺語言模型對齊設(shè)計2:漸進式的圖像-文本對齊策略階段1:利用海量帶噪聲的圖文數(shù)據(jù)進行對比學(xué)習(xí)預(yù)訓(xùn)練(~5B圖像)階段2:利用過濾后的高質(zhì)量圖文數(shù)據(jù)進行對比學(xué)習(xí)和生成式聯(lián)合訓(xùn)練(~1B圖像)篩選指標:CLIP相似度,水印概率,unsafe概率,美學(xué)指標,圖片分辨率,caption長度等核心思想:擴大視覺基礎(chǔ)模型并為通用視覺語言任務(wù)進行對齊InternVL:大規(guī)模視覺語言模型對齊設(shè)計2:漸進式的圖像-文本對齊策略階段1:利用海量帶噪聲的圖文數(shù)據(jù)進行對比學(xué)習(xí)預(yù)訓(xùn)練(~5B圖像)階段2:利用過濾后的高質(zhì)量圖文數(shù)據(jù)進行對比學(xué)習(xí)和生成式聯(lián)合訓(xùn)練(~1B圖像)階段3:利用高質(zhì)量Caption/VQA/多輪對話數(shù)據(jù)進行SFT訓(xùn)練(~4M圖像)InternVL:大規(guī)模視覺語言模型對齊多模態(tài)對話數(shù)據(jù)收集包含圖像描述、物體檢測、OCR、科學(xué)、圖表、數(shù)學(xué)、常識、文檔、多輪對話、
文本對話...從適配視覺感知任務(wù),到適配通用視覺語言任務(wù),極大地擴寬了模型的適用范圍Image
ClassificationObject
DetectionInstance
SegmentationSemantic
Segmentation…Visual
Perception
TasksImage
ClassificationSemantic
SegmentationImage-Text
RetrievalText-Image
RetrievalImage
CaptioningVisual
Question
AnsweringMultimodal
Dialogue…Like
ViT-22BLike
GPT-4VLike
CLIPImage
ClassificationObject
DetectionInstance
SegmentationSemantic
Segmentation…Image
ClassificationSemantic
SegmentationImage-Text
RetrievalZero-Shot
Image
CLS.Image
CaptioningVisual
Question
AnsweringMulti-Round
Dialogue…InternVL:大規(guī)模視覺語言模型對齊Generic
Vision-Language
Tasks在多種通用視覺語言任務(wù)上的取得了最好的性能,包括:視覺任務(wù):圖像/視頻分類,語義分割;視覺-語言任務(wù):圖像/視頻-文本檢索,零樣本圖像分類;通用視覺問答:圖像描述,視覺問答,多輪對話InternVL:大規(guī)模視覺語言模型對齊InternVL:大規(guī)模視覺語言模型對齊Image??
∈
????×??×3
??
????
∈
??14×14×??Image-Level
Tasks
Pixel-Level
Tasks僅用不到不到三分之一參數(shù)量,實現(xiàn)了與ViT-22B相當?shù)男阅軐τ谝曈X任務(wù),InternVL的視覺編碼器,即InternViT-6B,可以直接用作視覺主干網(wǎng)絡(luò)InternViT-6B對于視覺語言任務(wù),有兩種變體:InternVL-C
and
InternVL-G多語言的零樣本圖文檢索評測-C-GInternVL:大規(guī)模視覺語言模型對齊等L模IP型檢、索Op性e能nC優(yōu)LI于PInternVL:大規(guī)模視覺語言模型對齊零樣本圖像分類能力評測零樣本視頻分類能力評測強零樣本圖像、視頻分類能力InternVL+Language
Adapter->Zeroshot多語言內(nèi)容生成(UNet,
Transformer)LanguageAdapterInternVLText
EncoderTextEncoder/s(1)
Overall
Architecture/mulanai/MuLanDenoisingModelNoisyLatentOutput即插即用的為現(xiàn)有擴散模型增加多語言能力只需要英文數(shù)據(jù)訓(xùn)練,即可泛化到其他語言支持多種語言的混合輸入,甚至是emoji無需額外訓(xùn)練,即可兼容社區(qū)模型,如ControlNet,LCM,LoRA等Emoji繁體中文簡體中文中英混合英文印尼語日語韓語德語荷蘭語土耳其語阿爾巴尼亞語斯洛伐克語加泰羅尼亞語匈牙利語阿塞拜疆語越南語法語希臘語烏克蘭語俄語阿拉伯語波斯語捷克語只需要英文數(shù)據(jù),即可支持超多語言InternVL+Language
Adapter->Zeroshot多語言內(nèi)容生成/mulanai/MuLan即插即用,無需對Diffusion
Model做額外訓(xùn)練DreamshaperRealistic
VisionCartoonmix3D
AnimationLoRA
(Lego)ControlNetLCMSDXL
TurboSDXL
LightningMVDreamAnimateDiffInternVL+Language
Adapter->Zeroshot多語言內(nèi)容生成多模態(tài)大模型研究背景1234目錄大規(guī)模視覺語言模型對齊強多模態(tài)模型構(gòu)建不止于語言輸出:通專融合增強圖文多模態(tài)對話能力3個關(guān)鍵點主體(強基礎(chǔ)模型):更大的視覺模型可以包含更廣的視覺domain,抽取更強的視覺表征,更強的語言模型有更強的語言能力、世界知識和推理能力動態(tài)分辨率(火箭頭):模型需要根據(jù)任務(wù)調(diào)整不同的分辨率。對于一些圖像細節(jié)的理解任務(wù),如:文檔理解,高分辨率非常重要。但是對于一些常見的問答任務(wù)又不需要大分辨率。燃料(高質(zhì)量數(shù)據(jù)集):多語言、多來源、精細標注InternVL
1.5:接近商用性能的開源多模態(tài)大模型和頭部商用模型對比InternVL
1.5:接近GPT-4V的開源多模態(tài)對話模型BenchmarkInternVL
1.5Grok-1.5VGPT-4VClaude-3
OpusGemini
Pro1.5MMMUMulti-discipline45.2%53.6%56.8%59.4%58.5%MathVistaMath53.5%52.8%49.9%50.5%52.1%AI2DDiagrams80.7%88.3%78.2%88.1%80.3%TextVQAText
reading80.6%78.1%78.0%-73.5%ChartQACharts83.8%76.1%78.5%80.8%81.3%DocVQADocuments90.9%85.6%88.4%89.3%86.5%RealWorldQAReal-world
understanding66.0%68.7%61.4%49.8%67.5%InternVL
1.5:接近GPT-4V的開源多模態(tài)對話模型分辨率對性能的影響漸進式對齊訓(xùn)練,通過模型"從小到大"、數(shù)據(jù)"從粗到精"的漸進式的訓(xùn)練策略,以較低的成本完成了大模型的訓(xùn)練,在有限資源下展現(xiàn)出卓越的性能表現(xiàn)加速Scaling
Law曲線,僅需原有的1/5的算力即可取得同等的效果在MMMU,MMBench等評測上比肩GPT-4o和Gemini
Pro
1.5千億參數(shù)模型海量帶噪數(shù)據(jù)百億參數(shù)模型高質(zhì)量精選數(shù)據(jù)擴大模型篩選數(shù)據(jù)算力損失函數(shù)大模型+小數(shù)據(jù)高效對齊僅需20%算力資源,比肩頂級閉源多模態(tài)大模型小模型+大數(shù)據(jù)高效
預(yù)訓(xùn)練書生·萬象InternVL
2.0:全方面提升和頭部商用模型對比書生·萬象InternVL
2.0:全方面提升更強的OCR能力:毛筆字+豎排+繁體更強的圖表理解能力細節(jié)文字理解+文字深層含義細節(jié)文字理解+文字深層含義結(jié)合專業(yè)知識問答理解人工布置的巧妙之處圖-文-動作結(jié)合回答圖像細節(jié)理解+精確定位開源模型權(quán)重可在3090運行Model
NameVision
PartLanguage
PartHF
LinkMS
LinkDocumentInternVL2-1BInternViT-300M-448
pxQwen2-0.5B-InstructlinklinkdocInternVL2-2BInternViT-300M-448pxinternlm2-chat-1-8blinklinkdocInternVL2-4BInternViT-300M-448
pxPhi-3-mini-128k-inst
ructlinklinkdocInternVL2-8BInternViT-300M-448pxinternlm2_5-7b-chatlinklinkdocInternVL2-26BInternViT-6B-448px-
V1-5internlm2-chat-20blinklinkdocInternVL2-40B
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 高三試卷:2025屆鄂東南期中聯(lián)考高三地理答案
- 納米氧化鋯粉體生產(chǎn)線項目建筑工程方案
- 建筑拆除施工現(xiàn)場管理方案
- 廚余垃圾收處站項目建設(shè)工程方案
- 塑料配件生產(chǎn)線項目建筑工程方案
- 鋼結(jié)構(gòu)溶劑清洗技術(shù)方案
- 現(xiàn)代農(nóng)業(yè)科創(chuàng)示范基地項目建筑工程方案
- 玻纖手機蓋板生產(chǎn)線項目建筑工程方案
- 2025年技能鑒定理論考試護理敏感指標基礎(chǔ)試題及答案
- 2025年公開招聘護士題庫及答案
- 關(guān)于三違管理辦法
- 成人高考專升本政治考試歷年真題(含答案)
- GB/T 15704-2025道路車輛輕合金車輪沖擊試驗方法
- GB/T 10819-2025木制底盤
- 女生青春期性教育核心知識框架
- 船舶消防救生培訓(xùn)課件
- 貴州貴州磷化有限責(zé)任公司招聘筆試真題2024
- 2023中國臨床腫瘤學(xué)會(CSCO)非小細胞肺癌診療指南
- 中興信息安全管理制度
- 駐車空調(diào)鋰電池培訓(xùn)
- 瓦楞紙箱包裝項目可行性分析報告
評論
0/150
提交評論