




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
自然語(yǔ)言處理NaturalLanguageProcessing第四章自然語(yǔ)言處理任務(wù)之一語(yǔ)言模型目錄背景介紹Contents1章節(jié)概述2小節(jié)介紹3本章總結(jié)4背景介紹BACKGROUNDONE背景介紹
在自然語(yǔ)言處理領(lǐng)域,研究者們?yōu)榱藢?duì)存在的大量文本進(jìn)行分析,建立了一系列的模型來(lái)幫助人們理解自然語(yǔ)言。語(yǔ)言模型是自然語(yǔ)言處理領(lǐng)域最基礎(chǔ)的任務(wù),通過(guò)語(yǔ)言模型訓(xùn)練得到的文本特征可以直接地廣泛應(yīng)用于各類(lèi)下游任務(wù)當(dāng)中。本章對(duì)語(yǔ)言模型的歷史發(fā)展進(jìn)行了一個(gè)詳細(xì)的匯總,對(duì)其基本原理進(jìn)行了介紹,并對(duì)未來(lái)的研究趨勢(shì)進(jìn)行了展望。章節(jié)概述CHAPTEROVERVIEWTWO章節(jié)概述圖4-1語(yǔ)言模型導(dǎo)圖小節(jié)介紹SECTIONINTRODUCTIONTHREE4、語(yǔ)言模型4.2從統(tǒng)計(jì)語(yǔ)言模型到神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型語(yǔ)言模型任務(wù)定義4.14.3語(yǔ)言模型評(píng)價(jià)指標(biāo)4.4預(yù)訓(xùn)練語(yǔ)言模型4.5語(yǔ)言模型的前沿技術(shù)與發(fā)展趨勢(shì)4.1語(yǔ)言模型任務(wù)定義
4.2從統(tǒng)計(jì)語(yǔ)言模型到神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型從統(tǒng)計(jì)語(yǔ)言模型到神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型4.2語(yǔ)言模型任務(wù)定義4.14.4預(yù)訓(xùn)練語(yǔ)言模型4.5語(yǔ)言模型的前沿技術(shù)與發(fā)展趨勢(shì)4.3語(yǔ)言模型評(píng)價(jià)指標(biāo)4.2.1統(tǒng)計(jì)語(yǔ)言模型
4.2.1統(tǒng)計(jì)語(yǔ)言模型
4.2.1統(tǒng)計(jì)語(yǔ)言模型
4.2.1統(tǒng)計(jì)語(yǔ)言模型圖4-2表示了N-gram模型的求解過(guò)程。對(duì)于音字轉(zhuǎn)換問(wèn)題,輸入拼音nixianzaiganshenme,可能對(duì)應(yīng)著很多轉(zhuǎn)換結(jié)果,各節(jié)點(diǎn)之間構(gòu)成了復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),從開(kāi)始到結(jié)束的任意一條路徑都是可能的轉(zhuǎn)換結(jié)果,從諸多轉(zhuǎn)換結(jié)果中選擇最合適的結(jié)果的過(guò)程就需要解碼算法。常用的解碼算法是viterbi算法,它采用動(dòng)態(tài)規(guī)劃的原理能夠很快地確定最合適的路徑,這里不予詳細(xì)介紹。圖4-2N-gram模型求解過(guò)程4.2.2神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型
N-gram語(yǔ)言模型存在很多問(wèn)題,其中一個(gè)很重要的問(wèn)題是N-gram只考慮到其相鄰的有限個(gè)單詞,無(wú)法獲得上文的長(zhǎng)時(shí)依賴(lài)。2003年Bengio提出了神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(neuralnetworklanguagemodel,NNLM),并提出了詞向量的概念。詞向量采用連續(xù)變量(具有一定維度的實(shí)數(shù)向量)來(lái)進(jìn)行單詞的分布式表示。圖4-3神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型基本結(jié)構(gòu)4.2.2神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型
如圖4-2所示,它是一個(gè)最簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò),僅由四層構(gòu)成,輸入層、嵌入層、隱藏層、輸出層。神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型先給每個(gè)詞在連續(xù)空間中賦予一個(gè)向量(詞向量),再通過(guò)神經(jīng)網(wǎng)絡(luò)去學(xué)習(xí)這種分布式表征。很顯然只要單詞表征足夠好的話,這種方式相比N-gram具有更好的泛化能力。從而很大程度地降低了數(shù)據(jù)稀疏帶來(lái)的問(wèn)題。通常來(lái)講,我們可以將圖4-2中的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型看作如圖4-3示的四層結(jié)構(gòu):圖4-4
神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型四層結(jié)構(gòu)4.2.2神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型
網(wǎng)絡(luò)的輸入是文本的index序列,例如單詞“我”在字典(大小為∣V∣)中的index是16,單詞“愛(ài)”的index是27,則神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型通過(guò)句子“我愛(ài)”來(lái)預(yù)測(cè)“我愛(ài)學(xué)習(xí)”,窗口大小內(nèi)上文詞的index序列就是16,27。嵌入層(Embedding)是一個(gè)大小為|V|×K的矩陣,其中K的大小是自己設(shè)定的,從中取出第16,27行向量拼成2×K的矩陣作為Embedding層的輸出了。隱藏層接受拼接后的Embedding層輸出作為輸入,通過(guò)Softmax操作進(jìn)行歸一化,得到輸出在每一個(gè)單詞上的概率分布。圖4-5
Softmax計(jì)算方法4.2.2神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型
NNLM的優(yōu)點(diǎn)在于:NNLM相比N-gram語(yǔ)言模型不需要事先計(jì)算保存所有的概率值,而是通過(guò)函數(shù)計(jì)算得到;NNLM增加了單詞詞向量,利用神經(jīng)網(wǎng)絡(luò)求解最優(yōu)參數(shù)及Softmax的使用,相比N-gram可以更加平滑的預(yù)測(cè)序列單詞的聯(lián)合概率。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,目前基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的語(yǔ)言模型成為科研界的主流。循環(huán)神經(jīng)網(wǎng)絡(luò)可以真正充分地利用所有上文信息來(lái)預(yù)測(cè)下一個(gè)詞。從形式上看,這是一個(gè)非常理想的模型,它能夠用到文本的所有信息。如圖4-6所示圖4-6基于RNN的語(yǔ)言模型4.3語(yǔ)言模型評(píng)價(jià)指標(biāo)語(yǔ)言模型評(píng)價(jià)指標(biāo)4.3語(yǔ)言模型任務(wù)定義4.1從統(tǒng)計(jì)語(yǔ)言模型到神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型4.24.4預(yù)訓(xùn)練語(yǔ)言模型4.5語(yǔ)言模型的前沿技術(shù)與發(fā)展趨勢(shì)4.3語(yǔ)言模型的評(píng)價(jià)指標(biāo)
當(dāng)訓(xùn)練得到一個(gè)語(yǔ)言模型的時(shí)候,我們需要一個(gè)標(biāo)準(zhǔn)來(lái)評(píng)價(jià)語(yǔ)言模型的好壞,即計(jì)算模型輸出與真實(shí)分布之間的差異,信息論中常采用相對(duì)熵(relativeentropy)來(lái)衡量?jī)蓚€(gè)分布之間的相近程度。對(duì)于離散隨機(jī)變量X,熵、交叉熵以及相對(duì)熵的定義分別如下假定p是樣本的真實(shí)分布,q是對(duì)其的建模。因?yàn)檎鎸?shí)分布的熵H(p)值是確定的,因此優(yōu)化相對(duì)熵D(p||q)等價(jià)于優(yōu)化交叉熵H(p,q)。4.3語(yǔ)言模型的評(píng)價(jià)指標(biāo)顯然,交叉熵越小,則建模的概率分布越接近真實(shí)分布。交叉熵描述的是樣本的平均編碼長(zhǎng)度,雖然物理意義很明確,但是不夠直觀。因此,在此基礎(chǔ)上,我們定義困惑度(perplexity)如下:
4.3語(yǔ)言模型的評(píng)價(jià)指標(biāo)
則PP(S)的計(jì)算結(jié)果為:
此時(shí)訓(xùn)練好的bigram語(yǔ)言模型的困惑度為3,也就是說(shuō),在平均情況下,該模型預(yù)測(cè)下一個(gè)單詞的時(shí)候,會(huì)有3個(gè)單詞等可能地作為下一個(gè)單詞的合理選擇。4.4預(yù)訓(xùn)練語(yǔ)言模型預(yù)訓(xùn)練語(yǔ)言模型4.4語(yǔ)言模型任務(wù)定義4.1從統(tǒng)計(jì)語(yǔ)言模型到神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型4.24.5語(yǔ)言模型的前沿技術(shù)與發(fā)展趨勢(shì)語(yǔ)言模型評(píng)價(jià)指標(biāo)4.34.4.1什么是預(yù)訓(xùn)練語(yǔ)言模型
預(yù)訓(xùn)練思想的本質(zhì)是模型參數(shù)不再是隨機(jī)初始化,而是通過(guò)一些任務(wù)(如語(yǔ)言模型)進(jìn)行預(yù)訓(xùn)練。大量的研究工作表明,大型語(yǔ)料庫(kù)上的預(yù)訓(xùn)練模型(Pre-trainedModel,PTM)已經(jīng)可以學(xué)習(xí)通用的語(yǔ)言表征,這對(duì)于下游的NLP相關(guān)任務(wù)是非常有幫助的,可以避免大量從零開(kāi)始訓(xùn)練新模型。
第一代預(yù)訓(xùn)練模型旨在學(xué)習(xí)詞向量。由于下游的任務(wù)不再需要這些模型的幫助,因此為了計(jì)算效率,它們通常采用淺層模型,如4.4.3節(jié)講到的Word2Vec語(yǔ)言模型。盡管這些經(jīng)過(guò)預(yù)訓(xùn)練的詞向量也可以捕捉單詞的語(yǔ)義,但它們卻不受上下文限制,只是簡(jiǎn)單地學(xué)習(xí)“共現(xiàn)詞頻”。這樣的方法明顯無(wú)法理解更高層次的文本概念,如句法結(jié)構(gòu)、語(yǔ)義角色、指代等等。而第二代預(yù)訓(xùn)練模型專(zhuān)注于學(xué)習(xí)上下文的詞嵌入,如后續(xù)章節(jié)會(huì)講到的ELMo、OpenAIGPT以及BERT等等。它們會(huì)學(xué)習(xí)更合理的詞表征,這些表征囊括了詞的上下文信息,可以用于問(wèn)答系統(tǒng)、機(jī)器翻譯等后續(xù)任務(wù)。另一層面,這些模型還提出了各種語(yǔ)言任務(wù)來(lái)訓(xùn)練預(yù)訓(xùn)練模型,以便支持更廣泛的應(yīng)用,因此它們也可以稱(chēng)為預(yù)訓(xùn)練語(yǔ)言模型。4.4.1什么是預(yù)訓(xùn)練語(yǔ)言模型
圖4-7
自然語(yǔ)言處理模型訓(xùn)練一般結(jié)構(gòu)4.4.1什么是預(yù)訓(xùn)練語(yǔ)言模型圖4-8
預(yù)訓(xùn)練語(yǔ)言模型發(fā)展趨勢(shì)
預(yù)訓(xùn)練語(yǔ)言模型的發(fā)展如圖4-8所示。從2013年Word2Vec出現(xiàn)以來(lái),預(yù)訓(xùn)練語(yǔ)言模型的不斷飛速發(fā)展。下一節(jié)對(duì)ELMo和BERT兩個(gè)最近受到研究者們關(guān)注的預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行介紹
。4.4.2
ELMo模型
4.4.2
ELMo模型
圖4-9ELMo模型預(yù)訓(xùn)練過(guò)程
4.4.2
ELMo模型
ELMo的本質(zhì)思想是:事先用語(yǔ)言模型學(xué)好一個(gè)單詞的詞向量,此時(shí)多義詞無(wú)法區(qū)分。在實(shí)際使用詞向量的時(shí)候,單詞已經(jīng)具備了特定的上下文了,這個(gè)時(shí)候可以根據(jù)上下文單詞的語(yǔ)義去調(diào)整單詞的詞向量表示,這樣經(jīng)過(guò)調(diào)整后的詞向量更能表達(dá)在這個(gè)上下文中的具體含義,自然也就解決了多義詞的問(wèn)題了。其詳細(xì)結(jié)構(gòu)如圖所示圖4-10ELMo模型詳細(xì)結(jié)構(gòu)4.4.2
ELMo模型每個(gè)編碼器的深度都是兩層LSTM疊加,計(jì)算方式為:對(duì)于每個(gè)單詞通過(guò)一個(gè)L層的雙向LSTM計(jì)算出2L+1個(gè)表示
4.4.2
ELMo模型
圖4-11展示了ELMo模型在下游任務(wù)的使用過(guò)程。假設(shè)下游任務(wù)仍然是QA問(wèn)題,此時(shí)對(duì)于問(wèn)句X,先將句子X(jué)作為預(yù)訓(xùn)練好的ELMo網(wǎng)絡(luò)的輸入,這樣句子X(jué)中每個(gè)單詞在ELMo網(wǎng)絡(luò)中都能獲得對(duì)應(yīng)的三個(gè)詞向量,之后給予這三個(gè)詞向量中的每一個(gè)詞向量一個(gè)權(quán)重,這個(gè)權(quán)重可以學(xué)習(xí)得來(lái),根據(jù)各自權(quán)重累加求和,將三個(gè)詞向量整合成一個(gè),然后將整合后的這個(gè)詞向量作為問(wèn)句X在自己任務(wù)的那個(gè)網(wǎng)絡(luò)結(jié)構(gòu)中對(duì)應(yīng)單詞的輸入,以此作為補(bǔ)充的新特征給下游任務(wù)使用。圖4-11ELMo模型下游任務(wù)使用流程4.4.3
BERT模型谷歌在2018年提出了BERT語(yǔ)言模型(BidirectionalEncoderRepresentationfromTransformers),并在各類(lèi)自然語(yǔ)言處理任務(wù)上取得了極好的成績(jī),逐漸成為目前語(yǔ)言模型的主流。BERT主要采用了Transformer作為特征提取器。Transformer的結(jié)構(gòu)如圖4-12所示。圖4-12Transformer結(jié)構(gòu)4.4.3
BERT模型和大多數(shù)seq2seq模型一樣,Transformer的結(jié)構(gòu)也是由Encoder和Decoder組成。其中Encoder和Decoder都是由六個(gè)相同的Layer構(gòu)成。Encoder每層包括兩個(gè)sub-layers:1、multi-headself-attention。
用來(lái)計(jì)算輸入的self-attention。2、簡(jiǎn)單的全連接網(wǎng)絡(luò)。Decoder每層包括3個(gè)sub-layers:1、Maskedmulti-headself-attention,計(jì)算輸入的self-attention,因?yàn)槭巧蛇^(guò)程,因此在時(shí)刻t的時(shí)候,大于t的時(shí)刻都沒(méi)有結(jié)果,只有小于t的時(shí)刻有結(jié)果,因此需要做Mask。2、全連接網(wǎng)絡(luò),與Encoder相同。3、對(duì)encoder的輸入進(jìn)行attention計(jì)算。4.4.3
BERT模型在Transformer的encode中,數(shù)據(jù)首先會(huì)經(jīng)過(guò)一個(gè)叫做Self-Attention的模塊得到一個(gè)加權(quán)之后的特征向量,在這一段暫時(shí)將其叫做Z
。得到Z之后,它會(huì)被送到encoder的下一個(gè)模塊,即FeedForwardNeuralNetwork。這個(gè)全連接有兩層,第一層的激活函數(shù)是ReLU,第二層是一個(gè)線性激活函數(shù)。圖4-13
Self-Attention計(jì)算示意圖4.4.3
BERT模型
圖4-14
Self-Attention計(jì)算流程14.4.3
BERT模型而對(duì)于Self-Attention的計(jì)算方法,整個(gè)過(guò)程可以分成7步:1、將輸入單詞轉(zhuǎn)化成嵌入向量。2、根據(jù)嵌入向量得到Q、K、V三個(gè)向量圖4-15
Self-Attention計(jì)算流程24.4.3
BERT模型3、為每個(gè)向量計(jì)算一個(gè)Score。4、為了梯度的穩(wěn)定,Transformer使用了Score歸一化。5、對(duì)Score施以Softmax激活函數(shù)。6、Softmax點(diǎn)乘Value值V
,得到加權(quán)的每個(gè)輸入向量的評(píng)分。7、相加之后得到最終的輸出結(jié)果。圖4-16
Self-Attention計(jì)算流程34.4.3
BERT模型
Transformer中采用了Multi-HeadAttention機(jī)制,其相當(dāng)于N個(gè)不同的Self-Attention的集成(ensemble)。多次進(jìn)行Self-Attention操作,然后將得到的結(jié)果進(jìn)行合并,然后將合并的結(jié)果進(jìn)行線性變換得到最后的輸出。圖4-17
Multi-Head
Attention機(jī)制4.4.3
BERT模型這里我們以N=8舉例說(shuō)明。Multi-HeadAttention由八個(gè)Self-Attention集成得到,輸出分成3步:1、將數(shù)據(jù)X分別輸入到8個(gè)Self-Attention中,得到8個(gè)加權(quán)后的特征矩陣2、將8個(gè)按列拼成一個(gè)大的特征矩陣。3、特征矩陣經(jīng)過(guò)一層全連接后得到輸出4.4.3
BERT模型圖4-18
Multi-Head
Attention計(jì)算流程4.4.3
BERT模型Decoder和Encoder的結(jié)構(gòu)差不多,但是在在機(jī)器翻譯中,解碼過(guò)程是一個(gè)順序操作的過(guò)程,也就是當(dāng)解碼第i個(gè)特征向量時(shí),我們只能看到第i個(gè)及其之前的解碼結(jié)果,所以多了一個(gè)Masked
Multi-Head
Attention的sub-layer,而Decoder中的Self-Attention部分與Encoder部分完全一樣。Decoder的輸入輸出和解碼過(guò)程為:輸入:Encoder的輸出和對(duì)應(yīng)i-1位置Decoder的輸出。所以中間的Attention不是self-attention,它的K,V來(lái)自Encoder,Q來(lái)自上一位置Decoder的輸出輸出:對(duì)應(yīng)i位置的輸出詞的概率分布圖4-19
Transformer
Decoder結(jié)構(gòu)4.4.3
BERT模型解碼組件最后會(huì)輸出一個(gè)實(shí)數(shù)向量。我們?nèi)绾伟迅↑c(diǎn)數(shù)變成一個(gè)單詞?這便是線性變換層要做的工作,它之后就是Softmax層。線性變換層把解碼組件產(chǎn)生的向量投射到一個(gè)比它大得多的、被稱(chēng)作對(duì)數(shù)幾率(logits)的向量里。對(duì)數(shù)幾率向量為多個(gè)單元格長(zhǎng)度的向量——每個(gè)單元格對(duì)應(yīng)某一個(gè)單詞的分?jǐn)?shù)。接下來(lái)的Softmax層便會(huì)把那些分?jǐn)?shù)變成概率(都為正數(shù)、上限1.0)。概率最高的單元格被選中,并且它對(duì)應(yīng)的單詞被作為這個(gè)時(shí)間步的輸出。圖4-20
Softmax輸出4.4.3
BERT模型
Transformer是一個(gè)僅由Self-Attention和前饋神經(jīng)網(wǎng)絡(luò)組成的模型,它不是類(lèi)似RNN的順序結(jié)構(gòu)??紤]到RNN的計(jì)算限制為是順序的,也就是說(shuō)RNN相關(guān)算法只能從左向右依次計(jì)算或者從右向左依次計(jì)算。Transformer將序列中的任意兩個(gè)位置之間的距離是縮小為一個(gè)常量,雖然ELMo用雙向LSTM來(lái)做特征提取器,但是這兩個(gè)方向的LSTM其實(shí)是分開(kāi)訓(xùn)練的。而B(niǎo)ERT提出了使用一種新的任務(wù)來(lái)訓(xùn)練監(jiān)督任務(wù)中的真正可以雙向特征提取的模型。OpenAIGPT也是一個(gè)以Transformer為基礎(chǔ)的預(yù)訓(xùn)練語(yǔ)言模型,核心思想是利用Transformer模型對(duì)大量文本進(jìn)行無(wú)監(jiān)督學(xué)習(xí),其目標(biāo)函數(shù)就是語(yǔ)言模型最大化語(yǔ)句序列出現(xiàn)的概率,不過(guò)這里的語(yǔ)言模型僅僅是forward單向的,不同模型之間的區(qū)別如圖4-21所示。圖4-21預(yù)訓(xùn)練語(yǔ)言模型對(duì)比4.4.3
BERT模型如圖4-22所示,整個(gè)BERT模型的輸入由三部分組成,每個(gè)序列的第一個(gè)單詞始終是特殊分類(lèi)嵌入([CLS])。對(duì)應(yīng)于該單詞的最終隱藏狀態(tài)(即Transformer的輸出),被用作分類(lèi)任務(wù)的聚合序列表示。對(duì)于非分類(lèi)任務(wù),將忽略此向量。TokenEmbeddings是詞向量,第一個(gè)單詞是CLS標(biāo)志,可以用于之后的分類(lèi)任務(wù)。句子對(duì)被打包成一個(gè)序列,以?xún)煞N方式區(qū)分句子。首先,用特殊標(biāo)記([SEP])將它們分開(kāi)。其次,添加一個(gè)句子A嵌入到第一個(gè)句子的每個(gè)單詞中,一個(gè)句子B嵌入到第二個(gè)句子的每個(gè)單詞中。對(duì)于單個(gè)句子輸入,只使用句子A嵌入。將學(xué)習(xí)得到的的位置向量加到輸入里面,支持的序列長(zhǎng)度最多為512個(gè)單詞。圖4-22BERT模型輸入4.4.3
BERT模型
BERT隨機(jī)去掉句子中的部分單詞,然后模型來(lái)預(yù)測(cè)被去掉的單詞是什么。這樣實(shí)際上已經(jīng)不是傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型了,而是單純作為分類(lèi)問(wèn)題,根據(jù)這個(gè)時(shí)刻的隱藏層來(lái)預(yù)測(cè)這個(gè)時(shí)刻的輸出應(yīng)該是什么。這里的操作是隨機(jī)mask語(yǔ)料中15%的單詞,然后預(yù)測(cè)被遮擋的單詞。這樣操作存在一個(gè)問(wèn)題,進(jìn)行微調(diào)的時(shí)候沒(méi)有遮擋單詞,為了解決這個(gè)問(wèn)題,采用了下面三種策略:80%的時(shí)間中:將選中的詞用[MASK]來(lái)代替,例如:
我愛(ài)學(xué)習(xí)
我愛(ài)[MASK]10%的時(shí)間中:將選中的詞用任意的詞來(lái)進(jìn)行代替,例如
我愛(ài)學(xué)習(xí)
我愛(ài)桌子10%的時(shí)間中:選中的詞不發(fā)生變化,例如
我愛(ài)學(xué)習(xí)
我愛(ài)學(xué)習(xí)這樣存在另一個(gè)問(wèn)題在于在訓(xùn)練過(guò)程中只有15%的單詞被預(yù)測(cè),正常的語(yǔ)言模型實(shí)際上是預(yù)測(cè)每個(gè)單詞的,因此Masked語(yǔ)言模型會(huì)收斂的慢一些。4.4.3
BERT模型這里微調(diào)之前對(duì)模型的修改非常簡(jiǎn)單,例如針對(duì)情感分析這類(lèi)任務(wù),取第一個(gè)單詞的輸出表示,用一個(gè)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年核工業(yè)事業(yè)單位招聘考試綜合類(lèi)無(wú)領(lǐng)導(dǎo)小組討論面試真題模擬試卷
- 2025湖南張家界市永定區(qū)發(fā)展和改革局招聘公益性崗位工作人員模擬試卷及參考答案詳解
- 水分對(duì)植物生長(zhǎng)調(diào)控的作用-洞察與解讀
- 內(nèi)鏡下憩室影像學(xué)評(píng)估-洞察與解讀
- 多重藥物協(xié)同機(jī)制-洞察與解讀
- 鶴壁護(hù)士考試題庫(kù)及答案
- 河南會(huì)考試卷及答案高一
- 2025年中國(guó)無(wú)煙煤粉行業(yè)市場(chǎng)分析及投資價(jià)值評(píng)估前景預(yù)測(cè)報(bào)告
- 理論專(zhuān)業(yè)知識(shí)培訓(xùn)總結(jié)課件
- 智能材料應(yīng)用-第3篇-洞察與解讀
- 肺結(jié)節(jié)診治中國(guó)專(zhuān)家共識(shí)(2024年版)解讀
- (華中師大版)五年級(jí)信息技術(shù)全冊(cè)教案設(shè)計(jì)
- 第12課后印象派與西方現(xiàn)代派美術(shù)省公開(kāi)課金獎(jiǎng)全國(guó)賽課一等獎(jiǎng)微課獲獎(jiǎng)?wù)n件
- 2024-2030年中國(guó)旅行社運(yùn)作模式及經(jīng)營(yíng)效益預(yù)測(cè)報(bào)告
- 《房地產(chǎn)開(kāi)發(fā)與經(jīng)營(yíng)》全套教學(xué)課件
- 八年級(jí)物理單位換算專(zhuān)項(xiàng)練習(xí)
- 中國(guó)書(shū)法藝術(shù)智慧樹(shù)知到期末考試答案章節(jié)答案2024年中國(guó)美術(shù)學(xué)院
- 國(guó)家為什么會(huì)失敗
- 三年級(jí)數(shù)學(xué)加減簡(jiǎn)便計(jì)算400題及答案
- 審核效率和效益的提升方法
- 《孫子兵法及影響》課件
評(píng)論
0/150
提交評(píng)論