大模型原理與技術-課件全套 chap1 引言、chap2 計算機系統(tǒng) -chap8 預算效率_第1頁
大模型原理與技術-課件全套 chap1 引言、chap2 計算機系統(tǒng) -chap8 預算效率_第2頁
大模型原理與技術-課件全套 chap1 引言、chap2 計算機系統(tǒng) -chap8 預算效率_第3頁
大模型原理與技術-課件全套 chap1 引言、chap2 計算機系統(tǒng) -chap8 預算效率_第4頁
大模型原理與技術-課件全套 chap1 引言、chap2 計算機系統(tǒng) -chap8 預算效率_第5頁
已閱讀5頁,還剩338頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

論o

大模型基本概念o

大模型發(fā)展歷程o

大模型關鍵技術及訓練流程l

大模型關鍵技術l

大模型訓練流程o

內容安排22

目錄o

大模型基本概念o

大模型發(fā)展歷程o

大模型關鍵技術及訓練流程l

大模型關鍵技術l

大模型訓練流程o

內容安排3

目錄

大模型基本概念4o

大模型是通過“大數據+大算力+強算法”相結合來模擬人類思維和創(chuàng)造力的人工智能算法

大模型基本概念5o

大模型是通過“大數據+大算力+強算法”相結合來模擬人類思維和創(chuàng)造力的人工智能算法l

大數據:規(guī)模巨大、多樣化的數據集合。

具有廣度和深度的數據可以提供豐富的信息來訓練和優(yōu)化大模型,從而使大模型具備更全面的認知

和更準確的預測能力,更好地理解現實世界復雜的現象和問題。l

大算力:指計算機或計算系統(tǒng)具有處理和執(zhí)行復雜計算任務的高度能力。

大模型涉及龐大的參數和復雜的計算任務,強大的算力是支撐大模型訓練和推理的基石。

在訓練階段,大算力可以加速數據預處理、特征提取和模型優(yōu)化,使得模型能夠更快地收斂;

在推理階段,大算力可以實現模型的高效運行和及時響應,滿足用戶對于實時性的需求。l

強算法:指在解決特定問題或執(zhí)行任務方面表現出高效率、高準確率和強魯棒性的算法,是模型解決問題的機制。

強算法能夠更好地挖掘大數據中的潛在模式,并將其轉化為模型的優(yōu)化方向,

在面對不確定性和變化時保持高度的適應性和穩(wěn)定性,有效應對現實世界中的復雜問題。

大模型基本概念6o

大模型是“大數據+大算力+強算法”相互融合的產物

大模型是一種全新的AI基礎范式o

大模型基本概念o

大模型發(fā)展歷程o

大模型關鍵技術及訓練流程l

大模型關鍵技術l

大模型訓練流程o

內容安排7

目錄

大模型發(fā)展歷程8Transformer架構GPTBERT技術架構參數規(guī)模模態(tài)支持大規(guī)模預訓練模型超大規(guī)模預訓練模型預訓練模型多模態(tài)跨模態(tài)單模態(tài)應用領域基礎大模型行業(yè)大模型o

大模型基本概念o

大模型發(fā)展歷程o

大模型關鍵技術及訓練流程l

大模型關鍵技術l

大模型訓練流程o

內容安排9

目錄

大模型關鍵技術:模型擴展10模型擴展擴展計算資源擴展訓練數據擴展模型規(guī)模提升模型處理和學習能力提高模型泛化能力和性能加速模型訓練過程o

最近的一項研究探討了在給定固定預算的情況下,模型大小、數據規(guī)模和計算資源之間的平衡關系。o

該研究突顯了模型規(guī)模的增大在一定程度上能夠提升性能,但同時也指出了遭遇遞減收益的問題。o

因此,制定出精確而高效的模型擴展策略需要綜合考慮多個因素,并在計算資源有限的情況下實現最佳效益。

大模型關鍵技術:模型訓練11o

由于具有巨大的參數,訓練對于大模型來說是一項極具挑戰(zhàn)性的任務。o

大模型通常需要采用各種并行策略,在多個計算設備上同時進行訓練,

因此,分布式訓練在學習大模型網絡參數方面扮演著不可或缺的角色。o

同時,為了支持分布式訓練,一些優(yōu)化框架已經問世,進一步促進并行算法的實施和部署,

包括DeepSpeed和Megatron-LM等。模型訓練分布式訓練優(yōu)化框架的提出支持

大模型關鍵技術:對齊調優(yōu)12o

由于大模型接受預訓練時涵蓋了各種語料庫的數據特征。o

因此,大模型存在生成有毒、偏見甚至有害內容的潛在風險。o

為確保大模型與人類價值觀保持一致,InstructGPT提出了一種有效的微調方法:o

通過基于人類反饋的強化學習技術,使大模型能夠按照期望的指令進行操作。

大模型關鍵技術:能力誘導13o

在大規(guī)模語料庫上進行預訓練后,大模型獲得了作為通用任務求解器的潛在能力。o

然而,這些能力在執(zhí)行某些特定任務時可能并不會明顯展現。o

因此,通過設計適當的任務引導或特定上下文學習策略喚起這些潛能。提示詞的微妙變化對大模型輸出結果的影響

大模型關鍵技術:工具使用14o

大模型通過在海量純文本語料庫上進行文本生成訓練,因此在一些不適合以文本形式表達的任務上可能表現不佳。o

此外,它們的能力也受限于預訓練數據,無法獲取最新信息。o

為了解決這些問題,近期有研究提出利用外部工具來彌補大模型的不足。l

例如,大模型可以通過使用計算器進行準確計算,或者利用搜索引擎檢索未知信息。l

最近,ChatGPT已經實現了一種機制,允許使用外部插件,無論是現有的還是新創(chuàng)建的應用程序。l

通過這種機制,大模型可以更廣泛地利用外部工具,從而顯著擴展其能力范圍。l

這種工具使用的方法不僅僅使大模型能夠在特定任務上表現更為靈活和準確,

而且還使其能夠處理更廣泛和多樣化的信息來源。o

大模型基本概念o

大模型發(fā)展歷程o

大模型關鍵技術及訓練流程l

大模型關鍵技術l

大模型訓練流程o

內容安排15

目錄

大模型訓練流程16預訓練有監(jiān)督微調獎勵建模強化學習未標注或部分標準的數據集上,通過預測下一個詞或完成句子等任務進行無監(jiān)督訓練,進而構建出能學習到豐富的數據表示和通用知識的基礎大模型,為后續(xù)的特定任務訓練提供堅實的基礎。有監(jiān)督微調是在基礎大模型的基礎上利用少量高質量數據集合進行微調,從而生成有監(jiān)督微調模型。高質量數據集合包含用戶輸入的提示詞和對應的理想輸出結果,用戶輸入可以是問題、閑聊對話、任務指令等多種形式和任務。在大模型訓練的上下文中,設計一個獎勵體系,以量化模型行為的好壞,從而引導模型學習如何在給定環(huán)境中作出最優(yōu)決策,達到預期目標。在這一階段,根據數十萬用戶提供的提示詞,利用在前一階段訓練的模型,對有監(jiān)督微調模型生成的用戶提示詞補全結果進行質量評估。這個評估結果與基礎模型的建模目標結合,以獲得更優(yōu)的效果。o

大模型基本概念o

大模型發(fā)展歷程o

大模型關鍵技術及訓練流程l

大模型關鍵技術l

大模型訓練流程o

內容安排17

目錄

內容安排18理論基礎第1章

緒論第2章

深度學習基礎第3章

自然語言處理第4章

大模型網絡結構預訓練及微調第5章

大模型訓練與優(yōu)化第6章

大模型微調第7章

大模型提示工程第8章

高效大模型策略常用大模型第10章

多模態(tài)通用大模型第9章

單模態(tài)通用大模型第11章

大模型測評模型應用第13章

基于大模型的智能軟件研究第12章

大模型主要應用場景第14章

基于大模型的航空航天裝備制造

謝謝!Thanks!第

2章深度學習基礎o

神經網絡基礎l

神經網絡l

卷積神經網絡o

損失函數和優(yōu)化算法l

損失函數l

優(yōu)化算法o

神經網絡訓練l

梯度和鏈式法則l

前向傳播和反向傳播l

訓練神經網絡示例o

深度學習框架l

主流深度學習框架l

框架選擇和優(yōu)缺點比較o

思考

目錄23

目錄o

神經網絡基礎l

神經網絡l

卷積神經網絡o

損失函數和優(yōu)化算法l

損失函數l

優(yōu)化算法o

神經網絡訓練l

梯度和鏈式法則l

前向傳播和反向傳播l

訓練神經網絡示例o

深度學習框架l

主流深度學習框架l

框架選擇和優(yōu)缺點比較o

思考

神經網絡基礎神經網絡o

人工神經元人工神經網絡(ArtificialNeuralNetwork,ANN),簡稱為神經網絡(NeuralNetwork:NN),是指一系列受生物學和神經科學啟發(fā)的數學模型。人工神經元,簡稱為神經元,是構成神經網絡的基本單元。單個神經元計算過程單層神經網絡計算過程要想模擬人腦具有的能力,單一神經元是遠遠不夠的,需要眾多神經元的協作來完成復雜任務,即神經網絡。在得到單層神經網絡的輸出之后,可以通過疊加類似的層來構建每層都包含若干神經元的多層神經網絡。

神經網絡基礎神經網絡o

激活函數激活函數(ActivationFunction)是神經網絡中的一種非線性變換,它賦予神經元更強大的表達能力。如果不使用激活函數,則每層的操作只是對上一層的輸出結果進行線性變換,多層神經網絡會退化成單層神經網絡。l

Sigmoid函數l

Tanh函數l

Softmax函數l

ReLU函數通常用于二分類問題的輸出層。通常用于多分類問題的輸出層。通常用于中間層或輸出層。廣泛應用于隱藏層,其簡單性和非飽和性使其在大多數情況下表現良好。

神經網絡基礎神經網絡o

全連接神經網絡在全連接神經網絡中,每個神經元與前一層的所有神經元相連接,形成一個完全連接的結構。它的基本組成包括輸入層(InputLayer)、若干隱藏層(HiddenLayer)和輸出層(OutputLayer)。輸入層接收原始數據或特征作為網絡的輸入,每個輸入神經元對應于數據或特征的一個維度。隱藏層位于輸入層和輸出層之間,進行特征的非線性變換和抽象。每個隱藏層包含多個神經元,每個神經元與前一層的所有神經元相連接。多個隱藏層的存在使得網絡能夠學習更加復雜和抽象的表示。輸出層產生網絡的最終輸出。全連接神經網絡在一些任務上表現良好,但隨著問題復雜性的增加,更深層次、更復雜結構的神經網絡逐漸取代了全連接神經網絡。這是因為全連接神經網絡在參數數量和計算復雜度上容易受到限制,而深度學習任務通常需要更強大的神經網絡結構。o

神經網絡基礎l

神經網絡l

卷積神經網絡o

損失函數和優(yōu)化算法l

損失函數l

優(yōu)化算法o

神經網絡訓練l

梯度和鏈式法則l

前向傳播和反向傳播l

訓練神經網絡示例o

深度學習框架l

主流深度學習框架l

框架選擇和優(yōu)缺點比較o

思考

目錄2

神經網絡基礎卷積神經網絡o

感受野1962年,生物學家D.H.Hubel和T.N.Wiesel對貓的視覺系統(tǒng)進行了研究,貓的視覺系統(tǒng)實驗示意圖如圖2.5所示。他們首次發(fā)現了在貓的視覺皮層中存在兩種主要類型的神經元,即簡單細胞和復雜細胞。這兩種類型的細胞對邊緣和紋理的敏感性有所不同。神經元對視野中的某一小塊區(qū)域內的特定邊緣或紋理更為敏感,反映了感受野的特性。感受野(ReceptiveField)描述了神經系統(tǒng)中一些神經元對于特定刺激區(qū)域的敏感性,這意味著神經元只對其支配區(qū)域內的信號做出響應。在視覺神經系統(tǒng)中,視覺皮層中的神經細胞的輸出受到視網膜上光感受器的影響,即當視網膜上的光感受器受到刺激并興奮時,會產生神經沖動信號并傳遞到視覺皮層。然而,并非所有視覺皮層中的神經元都會接收這些信號。每個神經元都有其特定的感受野,即只有視網膜上特定區(qū)域內的刺激才能激活該神經元。

神經網絡基礎卷積神經網絡o

卷積神經網絡卷積神經網絡(ConvolutionalNeuralNetwork,CNN)的設計靈感正是源自生物學中感受野的機制。卷積神經網絡模仿了生物學中神經元對于刺激的局部敏感性。它通過學習局部特征,逐漸建立對整體特征的抽象。它在處理空間結構化數據和視覺數據方面的能力使其在自然語言處理、計算機視覺等領域都發(fā)揮著重要作用。下圖展示了第一個誕生的卷積神經網絡LeNet-5的網絡結構,該網絡用于手寫數字識別任務。LeNet-5由卷積層、池化層及全連接層組成,它的設計為后續(xù)卷積神經網絡的發(fā)展奠定了基礎。

神經網絡基礎卷積神經網絡o

卷積卷積運算通過滑動一定間隔的卷積核(也稱為濾波器)窗口,計算對應位置的元素相乘再求和,得到輸出特征圖中每個位置的值,當卷積核窗口移動到所示位置時,計算輸入特征圖與卷積核窗口對應位置的元素乘積,并將其求和,即執(zhí)行計算:(-1)×1+0×0+1×2+(-1)×5+0×4+1×2+(-1)×3+0×4+1×5=0,從而計算得到輸出特征圖中相應位置的值為0。之后,卷積核繼續(xù)向后滑動,重復相同的操作,直到得到完整的輸出特征圖。o

卷積操作的概念l

偏置(bias)l

步長(stride)l

填充(padding)

神經網絡基礎卷積神經網絡o

池化池化操作通常應用在卷積層之后,通過對特征圖的局部區(qū)域進行采樣,從而獲得更小且具有抽象特征的特征圖。常見的池化類型有最大池化和平均池化兩種。在最大池化中,每個池化窗口選擇局部區(qū)域的最大值作為采樣值。而在平均池化中,每個池化窗口計算局部區(qū)域的平均值作為采樣值。o

池化層的特點l

沒有可學習參數l

不改變通道數l

平移不變性

神經網絡基礎卷積神經網絡o

批歸一化批歸一化的作用是加速神經網絡的訓練,提高模型的收斂速度,并且有助于避免梯度消失或梯度爆炸問題。批歸一化的核心思想是對每層的輸入進行歸一化,使其均值接近0,標準差接近1。這樣做有助于緩解梯度消失問題,提高網絡的穩(wěn)定性。對于一個批次的輸入數據,批歸一化首先計算批次的均值和方差,再對輸入進行歸一化,即減去均值并除以標準差,然后使用可學習的縮放和平移參數對歸一化后的數據進行線性變換。o

全連接全連接層(FullyConnectedLayer),也被稱為密集連接層,是卷積神經網絡中的關鍵組成部分。在全連接層中,每個神經元都與上一層的所有神經元相連接,形成了一個全連接的結構。對于自然語言處理任務,輸入通常是一維向量,如文本數據的詞嵌入,以便進行文本分類、情感分析等任務;對于計算機視覺任務,輸入通常是多維特征圖,這些特征圖可能通過卷積層或其他特征提取層從原始圖像中提取而來。為了傳遞給全連接層,這些多維特征圖通常需要被展平成一維向量,作為全連接層的輸入,以便進行后續(xù)處理。

神經網絡基礎卷積神經網絡o

DropoutDropout是一種常用的正則化技術,旨在減少過擬合并提高模型的泛化能力。Dropout的基本思想是在訓練過程中以一定概率隨機地忽略一部分神經元的輸出。具體而言,假設有一個全連接層的輸出向量為h,Dropout的操作如下:(1)在訓練中,以概率(通常為0.5)隨機選擇一部分神經元,將它們的輸出置為0。(2)在測試過程中,保持所有神經元的輸出,但將它們乘以1?p以保持期望輸出值不變。o

殘差連接殘差連接將若干卷積層學習到的特征與原始輸入相加,從而形成了一種“跳躍連接”的結構,從而使得神經網絡更容易進行優(yōu)化,并且能夠構建更深層次的網絡結構。殘差連接能夠在一定程度上緩解深層網絡的退化網絡問題。并且既不增加額外的參數也不增加計算復雜度,使得網絡易于優(yōu)化,提高了泛化性能。o

神經網絡基礎l

神經網絡l

卷積神經網絡o

損失函數和優(yōu)化算法l

損失函數l

優(yōu)化算法o

神經網絡訓練l

梯度和鏈式法則l

前向傳播和反向傳播l

訓練神經網絡示例o

深度學習框架l

主流深度學習框架l

框架選擇和優(yōu)缺點比較o

思考

目錄2o

均方誤差損失函數均方誤差(MeanSquaredError,MSE)損失函數是一種應用于回歸問題的損失函數,用于度量模型預測值與真實值之間的平方差的平均值。

損失函數和優(yōu)化算法4o

平方絕對誤差損失函數平均絕對誤差(MeanAbsoluteError,MAE)損失函數是應用于回歸問題的一種損失函數,用于度量模型預測值與真實值之間的絕對差的平均值。o

交叉熵損失函數交叉熵損失(Cross-EntropyLoss)函數廣泛應用于分類問題。它衡量模型輸出的概率分布與真實標簽的概率分布之間的差異。二分類問題:多分類問題:損失函數o

序列交叉熵損失函數序列交叉嫡損失(SequenceCross-EntropyLoss)函數是用于序列到序列(sequence-to-sequence)任務中的一種損失函數,主要應用于自然語言處理領域的機器翻譯任務。在這種任務中,模型需要將一個輸入序列映射到另一個輸出序列,而且輸入和輸出的序列長度是可變的。

損失函數和優(yōu)化算法4o

焦點損失函數焦點損失(FocalLoss)函數通過調整難易分類樣本的權重,即降低易分類樣本的權重,提高難分類樣本的權重,使得模型更關注難以分類的樣本。損失函數o

神經網絡基礎l

神經網絡l

卷積神經網絡o

損失函數和優(yōu)化算法l

損失函數l

優(yōu)化算法o

神經網絡訓練l

梯度和鏈式法則l

前向傳播和反向傳播l

訓練神經網絡示例o

深度學習框架l

主流深度學習框架l

框架選擇和優(yōu)缺點比較o

思考

目錄2

損失函數和優(yōu)化算法4優(yōu)化算法o

梯度下降法變種l

批量梯度下降法l

隨機梯度下降法l

小批量梯度下降法使用整個訓練集的數據,計算每個樣本上損失函數的梯度并求和,然后更新參數。隨機選擇一個樣本計算梯度并更新參數。每次迭代使用一小批次的樣本來計算梯度。

損失函數和優(yōu)化算法優(yōu)化算法

損失函數和優(yōu)化算法優(yōu)化算法

損失函數和優(yōu)化算法優(yōu)化算法o

Adam算法Adam算法是一種自適應學習率的優(yōu)化算法,結合了動量法和AdaGrad算法思想,在深度學習中得到了廣泛應用,對于不同類型的神經網絡和任務都有較好的適應性。其核心思想是為每個參數維護兩個移動平均量,一個是梯度的一階矩估計(動量項),另一個是梯度的二階矩估計(AdaGrad項),然后使用這兩個估計來調整學習率。

o

神經網絡基礎l

神經網絡l

卷積神經網絡o

損失函數和優(yōu)化算法l

損失函數l

優(yōu)化算法o

神經網絡訓練l

梯度和鏈式法則l

前向傳播和反向傳播l

訓練神經網絡示例o

深度學習框架l

主流深度學習框架l

框架選擇和優(yōu)缺點比較o

思考

目錄2

神經網絡訓練梯度和鏈式法則o

梯度的計算給定一個具有n個輸入和1個標量輸出的函數: 其對輸入計算梯度,得到一個與輸入具有相同維度的向量,向量的每個維度是輸出對于輸入中相應維度的偏導數:給定一個有n個輸入和m個輸出的函數:可以將m個輸出拆分成m個具有n個輸入的單輸出函數。相當于由m個神經元構成了一層神經網絡。m個輸出分別對n個輸入求微分,得到m×n大小的雅可比矩陣(JacobianMatrix)。該矩陣的第i行第j列元素是第i個輸出對于第j個輸入的偏導數。

神經網絡訓練梯度和鏈式法則o

鏈式法則鏈式法則是復合函數求導數的性質,其定義如下:如果某個函數由復合函數表示,則該復合函數的導數可以用構成復合函數的各個函數的導數的乘積表示。以一元函數為例,為了求z對x的導數,使用鏈式法則,先求z對y的導數,再求y對x的導數,再將兩個導數相乘,即為z對x的導數:推廣到多輸入多輸出的函數:要求h對x的偏導,同樣地運用鏈式法則,先求h對z的偏導以及z對x的偏導,兩者都可以表示成雅可比矩陣,再將矩陣相乘,得到最終的結果。o

神經網絡基礎l

神經網絡l

卷積神經網絡o

損失函數和優(yōu)化算法l

損失函數l

優(yōu)化算法o

神經網絡訓練l

梯度和鏈式法則l

前向傳播和反向傳播l

訓練神經網絡示例o

深度學習框架l

主流深度學習框架l

框架選擇和優(yōu)缺點比較o

思考

目錄2

神經網絡訓練前向傳播和反向傳播o

計算圖計算圖能夠將神經網絡的計算過程以圖形化的方式呈現。在這個圖中,源節(jié)點表示網絡的輸入,內部節(jié)點表示各種計算操作,有向邊用于傳遞各節(jié)點計算出的值,同時存儲當前計算操作得到的值。按照有向邊的方向進行順序計算,就能得到神經網絡的輸出值,這個過程稱為前向傳播。反向傳播的過程則是沿著計算圖相反的方向進行計算,計算每個參數的梯度,從而在優(yōu)化過程中更新這些參數。通過反向傳播,神經網絡能夠學習調整權重和偏置,使得模型的預測與實際結果更加接近,從而提高整體性能。單個節(jié)點的反向傳播:下游梯度=上游梯度×本地梯度

神經網絡訓練前向傳播和反向傳播o

計算圖計算過程示例前向傳播反向傳播o

神經網絡基礎l

神經網絡l

卷積神經網絡o

損失函數和優(yōu)化算法l

損失函數l

優(yōu)化算法o

神經網絡訓練l

梯度和鏈式法則l

前向傳播和反向傳播l

訓練神經網絡示例o

深度學習框架l

主流深度學習框架l

框架選擇和優(yōu)缺點比較o

思考

目錄2

神經網絡訓練訓練神經網絡示例o

PyTorch訓練神經網絡示例訓練神經網絡需要先將訓練數據輸入模型中,通過前向傳播計算預測值,然后計算損失函數,并通過反向傳播調整模型參數,以最小化損失。這一過程使用合適的優(yōu)化算法來更新模型的權重和偏置。以卷積神經網絡為例,使用MNIST數據集完成手寫數字識別任務,使用PyTorch框架來演示訓練神經網絡的具體流程。(1)導入必要的庫

神經網絡訓練訓練神經網絡示例o

PyTorch訓練神經網絡示例(2)定義一個簡單的卷積神經網絡模型,包括卷積層、激活函數、池化層和全連接層。

神經網絡訓練訓練神經網絡示例o

PyTorch訓練神經網絡示例(3)加載數據集并進行數據預處理,將圖像轉換為Tensor格式并進行歸一化。(4)定義損失函數和優(yōu)化器,損失函數使用交叉熵損失函數,優(yōu)化器使用Adam優(yōu)化器,學習率設置為0.001。

神經網絡訓練訓練神經網絡示例o

PyTorch訓練神經網絡示例(5)進行模型訓練,迭代數據集,計算損失,反向傳播更新模型參數。o

神經網絡基礎l

神經網絡l

卷積神經網絡o

損失函數和優(yōu)化算法l

損失函數l

優(yōu)化算法o

神經網絡訓練l

梯度和鏈式法則l

前向傳播和反向傳播l

訓練神經網絡示例o

深度學習框架l

主流深度學習框架l

框架選擇和優(yōu)缺點比較o

思考

目錄2https:///jittor/深度學習框架https:///11主流深度學習框架https://keras.io//https:////https:///https://www.tensorflow.org/o

神經網絡基礎l

神經網絡l

卷積神經網絡o

損失函數和優(yōu)化算法l

損失函數l

優(yōu)化算法o

神經網絡訓練l

梯度和鏈式法則l

前向傳播和反向傳播l

訓練神經網絡示例o

深度學習框架l

主流深度學習框架l

框架選擇和優(yōu)缺點比較o

思考

目錄2深度學習框架10框架優(yōu)點缺點適用場景Jittor動態(tài)圖計算;自動微分;異步計算相對較新;文檔和生態(tài)系統(tǒng)可能有限靈活模型需求;動態(tài)圖計算場景Tensorflow廣泛應用;高性能;豐富生態(tài)系統(tǒng)相對復雜;開發(fā)迭代速度相對較慢大規(guī)模部署;復雜模型需求PyTorch動態(tài)圖模型;易用性;研究支持部署相對復雜;穩(wěn)定性較差研究領域;快速試驗與原型開發(fā)Keras簡單易用;輕量級靈活性相對較低初學者;快速搭建簡單模型Caffe高效;簡單明了功能有限;缺乏動態(tài)圖支持嵌入式設備;實時應用MXNet多語言支持;可擴展性文檔相對不足;相對小眾多語言項目;可擴展性需求PaddlePaddle面向產業(yè);動靜結合生態(tài)系統(tǒng)相對較??;學習難度較大工業(yè)應用;動靜結合需求MindSpore全場景支持;動靜結合生態(tài)相對較新;資源相對有限多場景支持;新興項目框架選擇優(yōu)缺點比較o

神經網絡基礎l

神經網絡l

卷積神經網絡o

損失函數和優(yōu)化算法l

損失函數l

優(yōu)化算法o

神經網絡訓練l

梯度和鏈式法則l

前向傳播和反向傳播l

訓練神經網絡示例o

深度學習框架l

主流深度學習框架l

框架選擇和優(yōu)缺點比較o

思考

目錄2o

損失函數的選擇l

多任務問題

聯合損失函數/各損失函數獨立優(yōu)化l

類別不平衡問題

加權損失函數l

特定問題

結合業(yè)務領域知識自定義損失函數o

優(yōu)化算法的選擇

l

自適應學習率算法l

學習率衰減策略l

正則化控制項o

模型架構的選擇

l

利用預訓練模型的優(yōu)勢l

引入注意力機制l

增加網絡的深度思考65

謝謝!Thanks!自然語言處理

目錄2o

自然語言處理概述o

詞嵌入l

獨熱向量l

word2vecl

跳元模型l

連續(xù)詞袋模型o

循環(huán)神經網絡(RNN)o

長短期記憶網絡(LSTM)o

門控循環(huán)單元(GRU)

自然語言處理概述3自然語

言處理翻譯你好你好你好hello00111101汪汪×自然語言處理使計算機能夠解讀、處理和理解人類語言,成為人類和計算機之間溝通的橋梁......新聞文章電子郵件o

自然語言理解

自然語言處理概述——基本任務4明天天氣怎么樣?“明天陰轉多云,氣溫零下六度到三度”NaturalLanguageProcessing自然語言處理o

自然語言生成自然語言理解類任務包括:詞性標注分詞文本分類信息抽取自然語言生成類任務包括:機器翻譯問答系統(tǒng)自動摘要語音識別人與計算機交流的第一步就是讓計算機理解人類輸入給它的信息。這類任務的研究目的是使計算機能夠理解自然語言,從自然語言中提取有用的信息輸出或用于下游任務明天天氣怎么樣?明天?天氣?計算機理解人類的輸入后,我們還希望計算機能夠生成滿足人類目的的、可以理解的自然語言形式的輸出,從而實現真正的交流。

自然語言處理概述——發(fā)展歷程Bengio等人提出第一個神經語言模型。這個模型將某詞語之前出現的n個詞語作為輸入,預測下一個單詞輸出。模型一共三層,第一層是映射層,將n個單詞映射為對應的詞嵌入;第二層是隱藏層;第三層是輸出層,使用softmax輸出單詞的概率分布,是一個多分類器。2013Bahdanau等人的工作使用注意力機制在機器翻譯任務上將翻譯和對齊同時進行,是第一個將注意力機制應用到NLP領域的科研工作。2017BERT、GPT20世紀50年代70年代2018年之后Mikolov等人提出了word2vec,大規(guī)模詞向量的訓練成為可能自然語言處理領域神經網絡時代,也逐漸開始,循環(huán)神經網絡、卷積神經網絡開始被廣泛應用到自然語言處理領域20世紀50年代到70年代主要采用基于規(guī)則的方法。這種方法依賴于語言學家和開發(fā)者預先定義的規(guī)則系統(tǒng),以便解析和理解語言。70年代以后主要采用基于統(tǒng)計的方法。這種方法通常依靠大量的語言數據來學習,得到數據中詞、短語、句子的概率分布,從而實現對語言的處理和分析。BERT、GPT等大規(guī)模預訓練語言模型出現,大模型時代逐漸到來傳統(tǒng)理論深度學習興起大模型時代20002015Transformer提出,它創(chuàng)造性地用非序列模型來處理序列化的數據,并且大獲成功。5

自然語言處理概述——應用領域1.翻譯軟件4.搜索引擎3.語音助手2.聊天機器人6o

自然語言處理概述o

詞嵌入l

獨熱向量l

word2vecl

跳元模型l

連續(xù)詞袋模型o

循環(huán)神經網絡(RNN)o

長短期記憶網絡(LSTM)o

門控循環(huán)單元(GRU)7

目錄計算機是無法直接讀懂非數值的自然語言,只有將其轉化為數值形式才能被計算機處理詞嵌入完成各種下游任務神經網絡模型循環(huán)神經網絡(RNN)長短期記憶網絡(LSTM)門控循環(huán)單元(GRU)??

詞嵌入——獨熱向量(One-hotEncoding)

文本數值?

apple

=

[10000]

bag

=

[01000]

cat

=

[00100]

dog

=

[00010]elephant

=

[00001]×

缺點:獨熱向量不能編碼詞之間的相似性特征矩陣非常稀疏,占用空間很大o

獨熱向量是指使用??位0或1對??個單詞進行編碼,其分量和類別數一樣多,類別對應的分量設置為1(即one-hot),其余分量設置為0。例如,編碼apple、bag、cat、dog、elephant五個單詞,用5位向量進行編碼:

但任意兩詞之間余弦相似度為0!√優(yōu)點:獨熱向量容易構建獨熱向量的維度等于詞匯表大小,在詞匯表較大時會變得非常長8最簡單的方法就是用獨熱向量表示每個單詞

詞嵌入——word2vec

o

攜帶上下文信息,即詞與詞之間的聯系能在詞的向量表示中體現。o

詞的表示是稠密的,能用更少的空間、更低的維數表示更多的信息。和獨熱向量相比,word2vec生成的詞向量具有以下優(yōu)點:o

訓練時利用上下文信息,詞向量包含詞的語義信息和詞與詞之間的聯系。o

維度更少,所以占用空間更少、計算成本更低。o

通用性強,可用于各種下游NLP任務。訓練word2vec的常用方法有兩種:跳元模型(Skip-Gram)和連續(xù)詞袋(ContinuousBagsofWords:CBOW)圖3.4降維后的詞向量表示,可以看到相似概念的詞是聚集在一起的9我們希望詞向量:word2vec!實現o

word2vec是一種詞嵌入技術,也可被看作是一個神經網絡模型,其參數是詞向量,通過預測上下文來學習好的詞向量。我們希望實現這樣的效果:

詞嵌入——跳元模型

o

根據中心詞預測上下文詞

o

目標函數(損失函數)

目標是最大化該似然函數,即最小化損失函數:

如何計算?就是

softmax!

詞向量維數詞匯大小10

詞嵌入——連續(xù)詞袋模型

o

根據上下文詞預測中心詞

如何計算?

求和取平均

o

目標函數(損失函數)

目標是最大化該似然函數,即最小化損失函數:

11

詞嵌入——連續(xù)詞袋模型舉例

12the=[10000]woman=[01000]loves=[00100]her=[00010]daughter=[00001]

其中,N=5表示輸入層單詞的維數,V=3表示希望得到的詞向量維數

現在將

“the”輸入,即與權重矩陣相乘:“the”的詞向量同理,可以得到每個單詞的詞向量為:

使用單詞的獨熱編碼作為輸入:

詞嵌入——連續(xù)詞袋模型舉例

13將得到的4個向量相加求平均作為輸出層的輸入:

最后計算損失函數,反向傳播,更新網絡參數。

目錄14o

自然語言處理概述o

詞嵌入l

獨熱向量l

word2vecl

跳元模型l

連續(xù)詞袋模型o

循環(huán)神經網絡(RNN)o

長短期記憶網絡(LSTM)o

門控循環(huán)單元(GRU)

......

循環(huán)神經網絡(RNN)

有效包含當前輸入和先前序列的信息時序的重要性!×

workinglove

learningweondeep√weloveworkingondeeplearning捕捉序列中的時序信息循環(huán)神經網絡(RNN)o

循環(huán)神經網絡15循環(huán)神經網絡——訓練16o

BPTT(BackPropagationThroughTime)算法

簡化表達

則可以使用交叉熵計算每個時刻的損失,則在

t=3時有損失:

假設當前時刻的隱藏狀態(tài)和輸出為:

循環(huán)神經網絡——梯度問題17o

梯度消失問題o

梯度爆炸問題o

本質上都是因為梯度反向傳播中的連乘效應,小于1的數連乘就會出現梯度下降問題,大于1的數連乘就會出現梯度爆炸的問題

假設當激活函數為Tanh時,連乘部分可以表示為:

而Tanh的導數可以寫為:

,其值域為:(0,1]

循環(huán)神經網絡——梯度問題的緩解18

循環(huán)神經網絡——雙向RNN19我______我______困,我剛起床我______困,我想趕緊睡覺很高興不非常o

短語的“下文”在填空任務中起到十分關鍵的作用,它傳達的信息關乎到選擇什么詞來填空。如果無法利用這一特性,普通的RNN模型將在相關任務上表現不佳。而既可以學習正向特征也可以學習反向特征的雙向循環(huán)神經網絡在解決該類任務時會有更高的擬合度。圖3.10雙向循環(huán)神經網絡架構

20

目錄o

自然語言處理概述o

詞嵌入l

獨熱向量l

word2vecl

跳元模型l

連續(xù)詞袋模型o

循環(huán)神經網絡(RNN)o

長短期記憶網絡(LSTM)o

門控循環(huán)單元(GRU)長短期記憶網絡(LSTM)21普通RNNLSTMo

和普通RNN比較,LSTM主要是改變了隱藏層的結構。o

LSTM引入了記憶元(memorycell)的概念,簡稱單元(cell),其設計目的是用于記錄附加信息。

o

引入了門機制對當前的輸入信息進行篩選,從而決定哪些信息可以傳遞到下一層o

當訓練深層網絡時,RNN面臨梯度在反向傳播過程中消失或爆炸的問題。而由于梯度消失的問題,普通RNN難以學習和記憶過去很長時間里的輸入信息,這個問題在處理長序列和復雜序列模式時變得尤為明顯。長短期記憶網絡的出現緩解了長期信息保存以及梯度問題。長短期記憶網絡(LSTM)221.遺忘門、輸入門和輸出門帶sigmoid激活函數的線性層

當前時刻的輸入上一時刻的隱藏狀態(tài)長短期記憶網絡(LSTM)232.候選單元狀態(tài)帶Tanh激活函數的線性層

3.單元狀態(tài)更新

*按元素乘積長短期記憶網絡(LSTM)244.隱藏狀態(tài)更新

目錄25o

自然語言處理概述o

詞嵌入l

獨熱向量l

word2vecl

跳元模型l

連續(xù)詞袋模型o

循環(huán)神經網絡(RNN)o

長短期記憶網絡(LSTM)o

門控循環(huán)單元(GRU)門控循環(huán)單元(GRU)26o

門控循環(huán)單元的提出同樣是為了解決反向傳播中的梯度問題以及長期記憶問題,但相比于LSTM,GRU能在提供同等效果的同時有更快的計算速度o

GRU結構更簡單,主要包括重置門、更新門兩個門結構,候選隱藏狀態(tài)以及隱藏狀態(tài)更新兩個主要步驟門控循環(huán)單元(GRU)27

1.重置門和更新門兩個門同樣起到選擇性地讓信息通過的作用重置門:決定隱藏狀態(tài)中的什么信息需要保存。更新門:決定新的隱藏狀態(tài)多少來自候選隱藏狀態(tài)多少來自舊隱藏狀態(tài)。門控循環(huán)單元(GRU)282.候選隱藏狀態(tài)

3.隱藏狀態(tài)更新

*按元素乘積

謝謝!Thanks!大模型網絡結構o

Transformerl

注意力機制l

編碼器-解碼器結構

l

大模型中的編碼器-解碼器結構o

編碼器結構----BERT家族l

BERT結構l

預訓練策略l

BERT的變體o

解碼器結構----GPT家族l

GPT結構l

自回歸預訓練l

后續(xù)改進o

思考

目錄2

目錄o

Transformerl

注意力機制l

編碼器-解碼器結構

l

大模型中的編碼器-解碼器結構o

編碼器結構----BERT家族l

BERT結構l

預訓練策略l

BERT的變體o

解碼器結構----GPT家族l

GPT結構l

自回歸預訓練l

后續(xù)改進o

思考16o

面對問題:記錄輸入序列中的長期依賴關系o

Transformer利用注意力機制完成對源語言序列和目標語言序列全局依賴的建模

Transformer4Transformer是自然語言處理領域的顛覆者,為后續(xù)大模型網絡結構(BERT、GPT)的發(fā)展奠定了基礎o

基本結構:編碼器-解碼器結構o

編碼器輸入,解碼器輸出

Transformer4o

嵌入表示層o

注意力層o

位置前饋感知層o

殘差連接o

層歸一化

Transformer43

目錄o

Transformerl

注意力機制l

編碼器-解碼器結構

l

大模型中的編碼器-解碼器結構o

編碼器結構----BERT家族l

BERT結構l

預訓練策略l

BERT的變體o

解碼器結構----GPT家族l

GPT結構l

自回歸預訓練l

后續(xù)改進o

思考注意力機制是對人類行為的一種仿生,起源于對人類視覺注意機制的研究

注意力機制4注意力機制8不同的單詞通過不同權重計算影響1.自注意力模塊注意力機制8注意力機制8相關性通過詞與詞之間的關系來更好地理解當前詞的意思注意力機制8點積雙線性多重感知機注意力機制8注意力圖查詢向量鍵向量注意力機制8縮放&Soft-max注意力機制8注意力機制8并行計算注意力機制8注意力機制8注意力機制8注意力機制8縮放Soft-max注意力機制8注意力機制8需要學習的參數注意力機制82.多頭注意力模塊注意力機制8注意力機制8注意力機制8=0=0=03.掩碼多頭注意力模塊在推理過程中,編碼器在生成當前token時,往往只能獲取之前token的信息注意力機制8縮放Soft-max注意力機制80000001111111011001000構造掩碼矩陣注意力機制8000000000000注意力機制84.位置編碼在自注意力模塊中缺乏句子詞序位置編碼:每個位置有一個獨一無二的位置向量手工設計的也可以是學習得到的注意力機制8/abs/2003.092292

目錄o

Transformerl

注意力機制l

編碼器-解碼器結構

l

大模型中的編碼器-解碼器結構o

編碼器結構----BERT家族l

BERT結構l

預訓練策略l

BERT的變體o

解碼器結構----GPT家族l

GPT結構l

自回歸預訓練l

后續(xù)改進o

思考編碼器-解碼器結構31.編碼器編碼器Transformer中的編碼器編碼器-解碼器結構4Transformer塊Transformer塊Transformer塊…………多頭注意力模塊FCFCFCFC前向傳播編碼器-解碼器結構5多頭注意力模塊normFCFCnorm…norm均值標準差層歸一化/abs/1607.06450殘差連接編碼器-解碼器結構62.解碼器解碼器編碼器<BOS>狗Dogslikeballs球0.1狗0.8歡0.0喜0.0……分布詞匯表大小Vsoftmaxmax喜max編碼器-解碼器結構7解碼器編碼器<BOS>狗歡喜歡球Dogslikeballs狗maxmaxmax輸入的是解碼器的輸出Transformer中的解碼器編碼器-解碼器結構8o

解碼器需要自己決定生成的目標句的長度o

實際上:機器并不能確定正確的輸出長度喜max解碼器編碼器<BOS>狗歡球類喜歡球Dogslikeballs狗maxmaxmaxmax……會一直持續(xù)下去softmax編碼器-解碼器結構9解碼器編碼器<BOS>狗Dogslikeballs球0.1狗0.0歡0.0喜0.0……<EOS>0.8分布softmaxmax解碼器<BOS>softmaxmax<EOS>喜歡球maxmaxmax喜狗歡球編碼器-解碼器結構10在訓練的過程中,不僅降低模型并行程度,使得訓練時間變長,而且訓練更加困難喜max解碼器編碼器<BOS>狗歡球<EOS>喜歡球Dogslikeballs狗maxmaxmaxmaxGroundTruthTeacherForcing:使用GroundTruth作為輸入編碼器-解碼器結構為什么需要掩碼?11編碼器-解碼器結構推理訓練在訓練的過程中,使用掩碼多頭注意力模塊12編碼器-解碼器結構3.編碼器與解碼器之間的信息傳遞Crossattention13編碼器-解碼器結構編碼器掩碼多頭注意力<BOS>FC14Crossattention編碼器-解碼器結構編碼器掩碼多頭注意力<BOS>FC狗15

目錄o

Transformerl

注意力機制l

編碼器-解碼器結構

l

大模型中的編碼器-解碼器結構o

編碼器結構----BERT家族l

BERT結構l

預訓練策略l

BERT的變體o

解碼器結構----GPT家族l

GPT結構l

自回歸預訓練l

后續(xù)改進o

思考16大模型中的編碼器-解碼器結構1.BART17大模型中的編碼器-解碼器結構TokenMaskingA[MASK]C.[MASK]E.

AB

C.DE.

18大模型中的編碼器-解碼器結構TokenMaskingTokenDeletionA

C.

E.

A

C.

E.

19大模型中的編碼器-解碼器結構TokenMaskingTokenDeletionTokenInfillingA[MASK].D[MASK]E.

A

2

.D0E.

20大模型中的編碼器-解碼器結構TokenMaskingTokenDeletionTokenInfillingSentencePermutationDE.ABC.

2121大模型中的編碼器-解碼器結構TokenMaskingTokenDeletionTokenInfillingSentencePermutationDocumentRotationC.DE.AB

Begin22大模型中的編碼器-解碼器結構23大模型中的編碼器-解碼器結構BaseLarge6層12層24大模型中的編碼器-解碼器結構1.T5將所有文本處理問題轉化為“文本到文本”的問題25大模型中的編碼器-解碼器結構ReplaceSpanA_.D_E.ABC.DE.norm殘差連接層歸一化norm262

目錄o

Transformerl

注意力機制l

編碼器-解碼器結構

l

大模型中的編碼器-解碼器結構o

編碼器結構----BERT家族l

BERT結構l

預訓練策略l

BERT的變體o

解碼器結構----GPT家族l

GPT結構l

自回歸預訓練l

后續(xù)改進o

思考編碼器結構-BERT家族3BERTTransformer中的編碼器like編碼器結構-BERT家族42.預訓練策略自監(jiān)督學習策略的提出使得BERT的訓練成為可能BERT“掩碼語言建模”Dogsballs隨機掩蓋其中一些token“[MASK]”softmaxballs0.0Dogs0.1like0.8……分布Linear交叉熵損失like訓練GT編碼器結構-BERT家族5“下句預測”DogslikeballsTheyarefuntoplaywith[CLS][SEP]BERTLinearsigmoidisNextnotNext二值交叉熵損失isNext訓練GT6

目錄o

Transformerl

注意力機制l

編碼器-解碼器結構

l

大模型中的編碼器-解碼器結構o

編碼器結構----BERT家族l

BERT結構l

預訓練策略l

BERT的變體o

解碼器結構----GPT家族l

GPT結構l

自回歸預訓練l

后續(xù)改進o

思考編碼器結構-BERT家族71.BERT結構Transformer編碼器文本嵌入Linear編碼器結構-BERT家族8Transformer編碼器文本嵌入DogslikeballsTheyarefuntoplaywith[CLS][SEP][SEP]Token嵌入分段嵌入LinearLinear位置嵌入編碼器結構-BERT家族91.BERT結構Transformer編碼器文本嵌入輸出層DogslikeballsTheyarefuntoplaywith[CLS][SEP][SEP]LinearTanh輸出層輸出層10

目錄o

Transformerl

注意力機制l

編碼器-解碼器結構

l

大模型中的編碼器-解碼器結構o

編碼器結構----BERT家族l

BERT結構l

預訓練策略l

BERT的變體o

解碼器結構----GPT家族l

GPT結構l

自回歸預訓練l

后續(xù)改進o

思考編碼器結構-BERT家族3.BERT的變體BERT的參數量太大--ALBERT“跨層參數共享”全共享:Transformer塊的參數共享共享前饋網絡層:每個Transformer塊的前向傳播層參數共享共享注意力層:每個Transformer塊的多頭注意力層參數共享11編碼器結構-BERT家族3.BERT的變體BERT的參數量太大--ALBERT“嵌入層參數因子分解”文本嵌入LinearLinearLinear12編碼器結構-BERT家族萬萬13動態(tài)掩碼編碼器結構-BERT家族RoBERTa:改進BERT預訓練移除下句預測任務增加數據和訓練步數增大batchsize使用字節(jié)級字節(jié)對編碼14編碼器結構-BERT家族DogslikeballsTheyarefuntoplaywith[CLS][SEP]生成器(BERT)[eat]cat從詞匯表中隨機選擇一個token[]判別器Linearsigmoid實際替換15

目錄o

Transformerl

注意力機制l

編碼器-解碼器結構

l

大模型中的編碼器-解碼器結構o

編碼器結構----BERT家族l

BERT結構l

預訓練策略l

BERT的變體o

解碼器結構----GPT家族l

GPT結構l

自回歸預訓練l

后續(xù)改進o

思考16解碼器結構-GPT家族GPTTransformer解碼器樣式17解碼器結構-GPT家族Transformer解碼器文本嵌入1.GPT結構輸出層18<BOS>GPT解碼器結構-GPT家族softmaxDogsGTlikeballs<EOS>likeDogsballs2.自回歸預訓練自監(jiān)督學習19解碼器結構-GPT家族<BOS>GPTsoftmaxDogslikeballs<EOS>likeDogsballsballs0.1Dogs0.8like0.0……<EOS>0.0maxmaxmaxmaxballs0.1Dogs0.0like0.8……<EOS>0.0balls0.8Dogs0.1like0.0……<EOS>0.0balls0.1Dogs0.0like0.0……<EOS>0.8balls0.1Dogs0.8like0.0……<EOS>0.020解碼器結構-GPT家族3.后續(xù)改進normnorm1)縮放參數增大輸入序列長度GPT-221解碼器結構-GPT家族2)GPT-2移除了微調模型,完全只做無監(jiān)督預訓練zero-shot零樣本學習3)更大規(guī)模的預訓練數據集22解碼器結構-GPT家族GPT-31)Dogslikeballsbecause.theyarefuntoplaywithk=223解碼器結構-GPT家族2)是否進行微調和使用多少數據進行微調24

謝謝!Thanks!大模型訓練與優(yōu)化o

訓練數據準備l

數據獲取l

數據預處理l

數據增強l

數據配比與課程設置l

開源數據集o

并行化與分布式訓練l

大模型訓練的挑戰(zhàn)l

并行化策略l

節(jié)點間數據通信l

分布式訓練框架

目錄o

模型壓縮l

量化l

剪枝l

知識蒸餾o

華為昇騰芯片o

數據獲取:l

收集類別豐富的樣本l

篩選高質量的樣本o

數據增強:l

擴充數據規(guī)模l

提高數據多樣性o

訓練數據配比和課程設置:l

確定數據的比例l

編排數據使用順序大模型展現出卓越性能的一個關鍵原因:海量的高質量訓練數據

訓練數據準備文本圖像點云o

訓練數據準備l

數據獲取l

數據預處理l

數據增強l

數據配比與課程設置l

開源數據集o

并行化與分布式訓練l

大模型訓練的挑戰(zhàn)l

并行化策略l

節(jié)點間數據通信l

分布式訓練框架

目錄o

模型壓縮l

量化l

剪枝l

知識蒸餾o

華為昇騰芯片o

通用文本:

l

來源:包括在線論壇、社交媒體、新聞、博客、書籍、期刊等l

主題:涵蓋社會、科技、娛樂、健康等l

表達:囊括不同人群、地區(qū)和文化背景的表達方式o

三個主要來源:

訓練數據準備—數據獲取1.文本數據來源網頁數據新聞文章博客百科數據社交媒體對話數據電子郵件對話論壇帖子社交媒體對話書籍數據社會人文類歷史類科技類小說數據量大內容豐富理解對話邏輯表達規(guī)范長文本理解o

專業(yè)文本:

l

數據占比較低l

包含大量專業(yè)術語以及特定的語法句式o

常見的專業(yè)文本數據:

訓練數據準備—數據獲取1.文本數據來源科學文本數據學術論文技術報告教材行業(yè)專業(yè)文本法律法規(guī)合同工程文檔代碼文本開源代碼倉庫編程競賽和挑戰(zhàn)平臺開發(fā)者社區(qū)論壇賦予模型理解科學問題的能力注重實際應用、業(yè)務操作和解決特定問題的需求具有特定的語法規(guī)則及準確的執(zhí)行邏輯o

通用圖像數據:

l

涵蓋了人類日常生活中的各種場景l(fā)

從互聯網收集得到;

各種常規(guī)的便攜設備,如手機、平板電腦、相機等拍攝獲取l

比文本的信息更加密集,包含豐富的視覺特征,如顏色、紋理、形狀等o

確保數據多樣性需要考慮:

l

天氣條件:收集圖像時考慮不同的天氣條件,包括晴天、陰天、雨天、雪天等l

時間變化:收集一天不同時間段下拍攝的圖像,這能夠捕捉到光照、陰影等方面的變化l

人群多樣性:確保圖像中包含不同人群的照片,考慮年齡、性別、種族等因素l

物體類別:涵蓋多個物體類別,包括不同的動植物、建筑物、交通工具等l

場景多樣性:需要包括常見的室內及室外場景,如辦公室、臥室、城市街景l(fā)

文化多樣性:考慮在不同社會環(huán)境中收集圖像,涵蓋不同文化、習慣和社交活動

訓練數據準備—數據獲取2.圖像數據來源o

專業(yè)圖像數據:

l

針對特定領域或專業(yè)需求采集的圖像數據l

使用專業(yè)設備或者在特定場景下采集l

例如,通過X光機、CT掃描獲得醫(yī)學圖像;l

通過衛(wèi)星或航空器獲取的地球表面的遙感圖像;l

工業(yè)生產線上拍攝得到的產品缺陷檢測圖像;

訓練數據準備—數據獲取2.圖像數據來源o

常見的三維數據表示形式有:

點云、三角網格、體素、隱式表達

o

點云定義:l

三維點的數據集合o

屬性:l

三維坐標l

強度l

顏色o

采集設備:l

激光掃描儀、深度相機、雙目相機、光學相機多視角重建、結構光設備

訓練數據準備—數據獲取3.點云數據來源o

訓練數據準備l

數據獲取l

數據預處理l

數據增強l

數據配比與課程設置l

開源數據集o

并行化與分布式訓練l

大模型訓練的挑戰(zhàn)l

并行化策略l

節(jié)點間數據通信l

分布式訓練框架

目錄o

模型壓縮l

量化l

剪枝l

知識蒸餾o

華為昇騰芯片o

低質去除:

l

目標:去除那些質量較差,以及不符合標準的文本數據l

基于分類器的方法:使用一組精選的文本(包括維基百科、書籍等),訓練一個分類器用于判斷文本的質量,將與訓練數據類似的數據給定較高的分數。利用該分類器評估數據的內容質量l

基于啟發(fā)式的方法:自定義規(guī)則,對數據進行篩選例如:去除單詞數量少于50個或者大于100000個的文檔去除符號與單詞的比例大于0.1的文件

訓練數據準備—數據預處理1.文本數據預處理低質去除冗余去除隱私去除詞元劃分o

冗余去除:

l

目標:去除文本數據中的冗余信息,精簡數據集,防止模型在預測時陷入重復循環(huán)l

句子級別:構建過濾方法,識別重復句子例如,提取并過濾文檔間超過一定長度的相同字符串(公共子串匹配)l

段落或者文檔級別:基于文本之間的特征相似度來進行冗余去除例如,計算兩個段落或者文檔之間的13-gram的Jaccard相似度來判斷它們是否重復

訓練數據準備—數據預處理1.文本數據預處理低質去除冗余去除隱私去除詞元劃分補充知識:N-gram是一種文本特征表示方法,它將文本分解為連續(xù)的n個單詞或字符序列。常用的是基于單詞的n-gram,其中n表示連續(xù)的單詞的數量。例如,在句子"Thisisanexample"中,2-gram表示為[“Thisis”,“isan”,“anexample”]。對于文本,可以將其表示為n-gram序列,然后計算n-gram序列之間的Jaccard指數來比較兩個文本的相似性o

隱私去除:

l

目標:刪除或替換文本數據中個人姓名、電話號碼、電子郵件地址等敏感信息l

基于規(guī)則的算法:例如,可使用命名實體識別算法,從文本中檢測姓名、地址、電話號碼等信息

訓練數據準備—數據預處理1.文本數據預處理低質去除冗余去除隱私去除詞元劃分o

詞元劃分:

l

目標:將連續(xù)的文本劃分為有意義的詞元(tokens)

訓練數據準備—數據預處理1.文本數據預處理低質去除冗余去除隱私去除詞元劃分o

詞粒度劃分:將連續(xù)文本以單詞為基本單元進行劃分

o

缺點:l

只能處理預先定義的詞表內的詞l

詞表中可能存在常委分布,使得模型對稀有詞的理解不佳l

對于英語等語言,無法正確處理不同時態(tài)的單詞o

字符劃分:將字符視為詞元來構建詞表

o

缺點:l

字符作為詞元的語義表達不足l

一個單詞需要由多個字符來表示,計算成本增加o

子詞劃分:基于某種規(guī)則對單詞進行拆分,高頻詞保持原狀,將低頻詞拆分成子詞例如,對于單詞token不進行拆分,對于單詞tokenization則拆分為token和ization。o

詞元劃分:

l

常見的方法:Byte-PairEncoding(BPE)、WordPiece、UnigramLanguageModel(ULM)l

基本流程:1.構建詞表2.基于詞表進行分詞

訓練數據準備—數據預處理1.文本數據預處理低質去除冗余去除隱私去除詞元劃分Byte-PairEncoding(BPE)

構建詞表:1.準備足夠大的訓練語料,并確定期望的Subword詞表大?。徽Z料詞表high</t>:3次oldest</t>:6次newest</t>:3次</t>是插入到每個單詞后的終止符,用于區(qū)分單詞邊界o

詞元劃分:

l

常見的方法:Byte-PairEncoding(BPE)、WordPiece、UnigramLanguageModel(ULM)l

基本流程:1.構建詞表2.基于詞表進行分詞

訓練數據準備—數據預處理1.文本數據預處理低質去除冗余去除隱私去除詞元劃分Byte-PairEncoding(BPE)

構建詞表:1.準備足夠大的訓練語料,并確定期望的Subword詞表大小;2.將單詞拆分為成最小單元。比如英文中26個字母加上各種符號,這些作為初始詞表;語料詞表high</t>:3次oldest</t>:6次newest</t>:3次h,i,g,o,l,d,e,s,t,n,w,</t></t>是插入到每個單詞后的終止符,用于區(qū)分單詞邊界o

詞元劃分:

l

常見的方法:Byte-PairEncoding(BPE)、WordPiece、UnigramLanguageModel(ULM)l

基本流程:1.構建詞表2.基于詞表進行分詞

訓練數據準備—數據預處理1.文本數據預處理低質去除冗余去除隱私去除詞元劃分Byte-PairEncoding(BPE)

構建詞表:1.準備足夠大的訓練語料,并確定期望的Subword詞表大小;2.將單詞拆分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論