WGAN應(yīng)用于金融時(shí)間序列生成_第1頁(yè)
WGAN應(yīng)用于金融時(shí)間序列生成_第2頁(yè)
WGAN應(yīng)用于金融時(shí)間序列生成_第3頁(yè)
WGAN應(yīng)用于金融時(shí)間序列生成_第4頁(yè)
WGAN應(yīng)用于金融時(shí)間序列生成_第5頁(yè)
已閱讀5頁(yè),還剩26頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

正文目錄

研究導(dǎo)讀...........................................................................5

生成對(duì)抗網(wǎng)絡(luò)GAN的缺點(diǎn)..........................................................6

GAN的矮點(diǎn)回顧...............................................................6

GAN塊點(diǎn)一:G和D訓(xùn)練不同步...............................................6

JS散度的進(jìn)一步探討......................................................6

訓(xùn)練生成器梯度消失.......................................................7

GAN塊點(diǎn)二;訓(xùn)練不收斂......................................................8

GAN塊點(diǎn)三:模式崩潰........................................................8

Non-saturatingGAN中J(G)的等價(jià)表達(dá)....................................9

模式崩潰的原因...........................................................9

WassersteinGAN介紹.............................................................11

Wasserstein距離.............................................................11

W距離的通俗解釋........................................................11

W距離的數(shù)學(xué)定義及性質(zhì).................................................11

WassersteinGAN的原理.....................................................12

WGAN的原理...........................................................12

WGAN-GP的原理.......................................................12

WGAN-GP的訓(xùn)練算法........................................................13

GAN與WGAN的比較........................................................14

方法..............................................................................15

訓(xùn)練數(shù)據(jù)......................................................................15

網(wǎng)絡(luò)構(gòu)建......................................................................15

序列真實(shí)性指標(biāo)...............................................................16

方差比率檢舲............................................................16

長(zhǎng)時(shí)程相關(guān)..............................................................17

評(píng)吩指標(biāo)小結(jié)............................................................18

序列相似性指標(biāo)...............................................................18

WGAN與GAN結(jié)果對(duì)比...........................................................20

上證綜而日頻序列............................................................20

損失函數(shù)及真假序列展示.................................................20

評(píng)介指標(biāo)對(duì)比............................................................2I

樣本多樣性..............................................................24

標(biāo)普500月頻序列............................................................24

損失函數(shù)及奧?假樣本展示.................................................24

評(píng)汾指標(biāo)對(duì)比............................................................25

樣本多樣性..............................................................28

評(píng)價(jià)指標(biāo)匯總.................................................................29

總結(jié)與討論........................................................................30

參考文獻(xiàn).....................................................................31

風(fēng)險(xiǎn)提示.....................................................................31

附錄..............................................................................32

JS散度性質(zhì)的證明............................................................32

方差比里檢臉統(tǒng)計(jì)量計(jì)算公式.................................................33

評(píng)級(jí)說(shuō)明.....................................................................35

法律實(shí)體披露.................................................................36

圖表目錄

圖表1:GAN的缺點(diǎn)..............................................................6

圖表2:不同距離下兩個(gè)分布間的JS散度..........................................7

圖表3:GAN中G和D訓(xùn)練不同步...............................................8

圖表4:生成手寫(xiě)數(shù)據(jù)集的模式崩潰現(xiàn)象...........................................9

圖表5:GAN生成樣本的兩種情形...............................................10

圖表6:EM距離示意圖..........................................................11

圖表7:WGAN-GP訓(xùn)練算法的偽代碼............................................13

圖表8:GAN與WGAN比較.....................................................14

圖表9:WGAN-GP訓(xùn)練數(shù)據(jù)集..................................................15

圖表10:WGAN-GP生成器G網(wǎng)絡(luò)結(jié)構(gòu).........................................15

圖表11:WGAN-GP判別器D網(wǎng)絡(luò)結(jié)構(gòu)..........................................16

圖表12:GAN與WGAN-GP通用參數(shù)比較.......................................16

圖表13:Hurst指數(shù)計(jì)算的R/S分析法...........................................17

圖表14:8項(xiàng)生成虛假序列評(píng)價(jià)指標(biāo).............................................18

圖表15:歐式距離方法與DTW方法..............................................19

圖表16:上證綜指日頻序列:WGAN-GP損失函數(shù)................................20

圖表17:上證綜指日頻序列:其實(shí)價(jià)格序列(2004/12/31-2020/07/31).....................20

圖表18:上證綜指日頻序列:GAN生成價(jià)格序列范例1..................................................20

圖表19:上證綜指日頻序列:GAN生成價(jià)格序列范例2..................................................20

圖表20:上證綜指日頻序列:WGAN-GP生成價(jià)格序列范例1.......................................21

圖表21:上證綜指日頻序列:WGAN-GP生成價(jià)格序列范例2.......................................21

圖表22:上證綜指日頻序列:其實(shí)序列6項(xiàng)評(píng)價(jià)指標(biāo)..............................21

圖表23:上證綜指日頻序列:GAN生成序列6項(xiàng)評(píng)價(jià)指標(biāo).........................21

圖表24:上證綜指日頻序列:WGAN-GP生成序列6項(xiàng)評(píng)價(jià)指標(biāo)..................22

圖表25:上證綜指日頻序列:GAN與WGAN-GP生成序列前6項(xiàng)指標(biāo)對(duì)比........22

圖表26:上證綜指日頻序列:GAN方差比檢臉結(jié)果...............................22

圖表27:上證綜指日頻序列:WGAN-GP方差比檢臉結(jié)果.........................22

圖表28:上證綜指日頻序列:方差比率檢臉統(tǒng)計(jì)值................................23

圖表29:上證綜指日頻序列:GAN與WGANGP生成序列Hurst指數(shù)分布........23

030:J外等指El頻序列:GAN與WGAN-GP生成樣本Hurst值假設(shè)撿臉結(jié)罷...24

圖表31:上證綜指日頻序列:GAN與WGANGP生成序列DTW分布.............24

圖表32:標(biāo)普500月頗序列:WGAN-GP損失函數(shù)...............................25

圖表33:標(biāo)普500月頻序列:奧?實(shí)價(jià)格序列(1927/12/30-2020/07/31)..................25

圖表34:標(biāo)普500月須序列:GAN生成價(jià)格序列范例1............................................25

困表35:標(biāo)普500月頻序列:GAN生成價(jià)格序列范例2............................................25

圖表36:標(biāo)普500月頻序列:WGAN-GP生成價(jià)格序列范例1...................................25

圖表37:標(biāo)普500月頻序列:WGAN-GP生成價(jià)格序列范例2...................................25

圖表38:標(biāo)普500月頻序列:其實(shí)序列6項(xiàng)評(píng)價(jià)指標(biāo).............................26

圖表39:標(biāo)普500月頻序列:GAN生成序列8項(xiàng)評(píng)價(jià)指標(biāo)........................26

圖表40:標(biāo)普500月頻序列:WGAN-GP生成序列6項(xiàng)評(píng)價(jià)指標(biāo)..................26

圖表41:標(biāo)普500月頻序列:GAN與WGAN-GP生成序列前6項(xiàng)指標(biāo)對(duì)比.......27

圖表42:標(biāo)普500月須序列:GAN方差比檢臉結(jié)果..............................27

圖表43:標(biāo)普500月頻序列:WGAN-GP方袤比檢舲結(jié)果........................27

圖表44:標(biāo)普500月頻序列:方差比率檢臉統(tǒng)計(jì)值................................27

圖表45:標(biāo)普500月頻序列:GAN與WGAN-GP生成序列Hurst指數(shù)分布........28

圖表46:標(biāo)普500月頻序列:GAN與WGAN-GP生成樣本Hurst值假設(shè)檢險(xiǎn)結(jié)果....28

圖表47:標(biāo)普500月頻序列:GAN與WGAN-GP生成序列DTW分布.............28

圖表48:上證綜指日頻序列:GAN與WGAN-GP生成序列8項(xiàng)評(píng)價(jià)指標(biāo)對(duì)比......29

圖表49:標(biāo)普500月頻序列:GAN與WGAN-GP生成序列8項(xiàng)評(píng)價(jià)指標(biāo)對(duì)比......29

生成對(duì)抗網(wǎng)絡(luò)GAN的缺點(diǎn)

GAN的跳點(diǎn)回顧

在引入WGAN之前,我們首先討論GAN模型的缺點(diǎn),主要包括以下三方面:

1.生成器G和判別器D訓(xùn)練不同步問(wèn)題。生武器與判別器的訓(xùn)練進(jìn)度需要小心匹配,若

匹配不當(dāng),導(dǎo)致判別器D訓(xùn)練不好,則生成器G難以提升:若判別器D訓(xùn)練得太好,

則生成器G訓(xùn)練容易梯度消失,難以訓(xùn)練。

2.訓(xùn)練不妝效問(wèn)題。生成器G與判別器D相互博弈,此流披長(zhǎng),訓(xùn)練過(guò)程中任何一方的

損失函數(shù)都不會(huì)出現(xiàn)明顯的收斂過(guò)程,我們只能通過(guò)觀察生成樣本的的好壞判斷訓(xùn)練

是否充分,狹少輔助指示訓(xùn)練進(jìn)程的指標(biāo)。

3.模式期涉(ModeCollapse)問(wèn)題。GAN模型的生成樣本容易過(guò)于單一,缺乏多樣性。

注意樣本單一并不一定導(dǎo)致樣本失真:GAN生成的妝拉率序列表現(xiàn)出的經(jīng)臉特征與真

實(shí)序列十分接近,但并不代表生成序列包含市場(chǎng)可能出現(xiàn)的各種情況。

用表1:GAN的缺點(diǎn)

GAN的缺點(diǎn)

^科來(lái)該:GenerativeAdversarialNets.華叁證券研咒所

GAN缺點(diǎn)一:G和D訓(xùn)練不同步

一方面,由于生成器與判別器的“博弈”關(guān)系,如果判別器訓(xùn)練得不好,無(wú)法給聲假樣本

作出公允評(píng)判,那么生成器將無(wú)法得到正確反饋,生成水平無(wú)法得到提升,生成數(shù)據(jù)質(zhì)量

大概率較低。

另一方面,到別器訓(xùn)練得太好也會(huì)阻礙生成器的訓(xùn)練,原因分以下兩步驟討論:

1.JS散度的進(jìn)一步探討;

2.訓(xùn)練生成器梯度消失。

JS散度的進(jìn)一步探討

首先我們對(duì)JS散度進(jìn)行簡(jiǎn)要回顧。JS散度和KL散度均可衡量?jī)蓚€(gè)分布p和q之句的距

離,其中JS散度定義在KL散度的基礎(chǔ)上,解決了KL散度不對(duì)稱(chēng)的問(wèn)題。二者定義為:

p(x)-p(x)

KL(p\\q)=EDog___]=JP(x)log____dx

7(x)而.湎

I)p+qip+q

/S(p|q=-KL[p\\—^-KL{q\\—^

GAN使用JS散度衡量真實(shí)分布p『與生成分布pq間的距離,模型的訓(xùn)練過(guò)程近似等價(jià)于

就小化JS(p,||po),隨著JS散應(yīng)越來(lái)越小,生成分布逼近立實(shí)分布,生成樣本則越來(lái)越擬

真,最終達(dá)到“以假亂真”的效果。

當(dāng)兩個(gè)分布有重合部分時(shí),分布離得越近,JS散度越小:當(dāng)兩個(gè)分布完全重合時(shí),JS散

度取值為零。JS散度的特殊性質(zhì)體現(xiàn)在,當(dāng)兩個(gè)分布無(wú)重合部分時(shí),分布離得越遠(yuǎn),并

不意味著JS散度一定越大。嚴(yán)謹(jǐn)?shù)谋硎鰹椋喝绻鸓r和Pg的支撐集相交部分測(cè)度為零,

則它們之間的JS散度恒為常數(shù)Iog2:

/S(p「||pg)=log2

上述命題的希確解釋及證明過(guò)程請(qǐng)參考附錄部分。該命題的通俗解釋是,如果5和Pg不

相交或者近似不相交(即支撐集相交部分測(cè)度為零),那么JS散度恒為常藪Iog2,這個(gè)結(jié)

論意味著只要p「和pg不重合,那么無(wú)論二者距離多遠(yuǎn),JS散度都為常數(shù),如下圖的Statel

和State2所示。換言之,此時(shí)JS散度失去了判別距離遠(yuǎn)近的能力。GAN訓(xùn)練時(shí)如果判

別器訓(xùn)練太好,往往就會(huì)出現(xiàn)這種情況,阻礙生成器的訓(xùn)練,我們?cè)谙乱恍」?jié)詳細(xì)展開(kāi)。

困表2:不同距離下兩個(gè)分布間的JS激度

f■科來(lái).源:華奉證券研究所

訓(xùn)練生成器弗度消失

為敘述清晰,我們?cè)俅握故驹糋AN模型的目馀函教:

叭G,D)=&”』og(D(x))]+Ez~p』og(l-D(G(z)))]

或者可以直接寫(xiě)成下述目標(biāo)函數(shù)形式,其中p,表示真實(shí)分布,出表示生成分布:

VCG.D)=&-〃』og(DQ))]+Fx-pjlog(l-DM)]

在《人工智能31:生成對(duì)抗網(wǎng)絡(luò)GAN初探》(20200508)中我們證明對(duì)于給定的生成器

G,如果判別器D訓(xùn)練到最優(yōu),則訓(xùn)練生成器的損失函數(shù)將變成:

C(G)=-log4+2/S-)

上式中的JS散度導(dǎo)致生成器難以訓(xùn)練。事實(shí)上,拓?fù)鋵W(xué)理論可以證明,大部分情況下生

成分布與真實(shí)分布二者的支掙集相交部分的測(cè)度是零,即絕大部分情況下兩個(gè)分乖不相交

或者近似不相交。那么根據(jù)JS散度的性質(zhì)可以推出,在判別器達(dá)到最優(yōu)的情況下,優(yōu)化

生成器的損失函數(shù)會(huì)變成常數(shù),而常教的梯度恒為零。換官之,此時(shí)訓(xùn)練生成器會(huì)出現(xiàn)嚴(yán)

重的梯度消失問(wèn)題。

從更直觀的角度而言,判別器最優(yōu)時(shí),JS數(shù)度只能告訴生成器當(dāng)前的生成分布與亮實(shí)分

布距離遠(yuǎn),但是到底距離多遠(yuǎn)?JS散度無(wú)法告訴生成器率案,因此只要生成分布與真實(shí)

分布近似不重合,那么二者差很遠(yuǎn)或較接近對(duì)生成器沒(méi)有任何區(qū)別,損失函數(shù)糅度都是零,

生成器自然難以訓(xùn)練。

在實(shí)際訓(xùn)練過(guò)程中,我們畢竟難以達(dá)到理論上的“最優(yōu)判別器”,但是Arjovsky等(2017)指

出,隨著判別器接近最優(yōu),生成器損失函數(shù)的梯度仍會(huì)接近于零,出現(xiàn)梯度消失現(xiàn)象:

limVeEz.pflogfl-D(Ge(z))]=0

IlfIEz

我們對(duì)GAN的抉點(diǎn)一進(jìn)行總結(jié):GAN在訓(xùn)練過(guò)程中如果判別器訓(xùn)練得不好,則生成器難

以提升;如果判別器訓(xùn)練得太好,再去訓(xùn)練生成器容易產(chǎn)生樣度消失的問(wèn)題,導(dǎo)致生成器

難以訓(xùn)練。

困表3:GAN中G和D訓(xùn)練不同步

判別器不能訓(xùn)練太弱

判別器不能訓(xùn)練太保

許外表算:Towardsprincipledmethodsfortraininggenerativeadversarialnetworks.華泰逐季叼無(wú)所

GAN缺點(diǎn)二:訓(xùn)練不收斂

從邏輯上說(shuō),生成器G和判別器D始終處于相互博弈、相互提升的過(guò)程中,因此無(wú)法看

到任何一方的損失晶數(shù)收斂,損失函數(shù)無(wú)法提供有意義的指導(dǎo)價(jià)值。從損失函數(shù)表達(dá)式出

發(fā),可以更清斷地觀察不收斂的過(guò)程。

在原始的GAN中,我們實(shí)際訓(xùn)練判別器和生成器使用的損失函數(shù)分別為下面兩式。判別

器的損失函數(shù)J(D)在GAN原始目標(biāo)函數(shù)前加負(fù)號(hào),是因?yàn)橛?xùn)練中默認(rèn)使用梯度下降法最

小化損失函教。生成器損失函數(shù)J(G)只有J(D)的第二項(xiàng),是因?yàn)樵谟?xùn)練生成器時(shí),log(D(x))

不包含G且D固定,相當(dāng)于常數(shù),故喀去。

判別器:/(D)=-(&%口八(。=))]+&口[1。虱1一D(G(z)))])

生成器:/(G)=Ez~pz【log(l-"G(z)))]

在訓(xùn)練時(shí)每輪迭代優(yōu)化判別器,使得J(D)減小,印要求Ez~pz[log(1-D(G(z)))]增大:優(yōu)化生

成器,使得J(G)減小,印要求Ez-p』og(1-D(G(z)))]減小。一方增大而一方減小,即判別器

與生成器的損失函數(shù)優(yōu)化過(guò)程相背離,無(wú)法看出任何一方收斂。

GAN跳點(diǎn)三:模式崩潰

GAN在生成時(shí)容易出現(xiàn)生成樣本過(guò)才單一,缺乏多樣性的現(xiàn)象,這種現(xiàn)象稱(chēng)為模式崩潰。

例如在生成手寫(xiě)數(shù)據(jù)集樣本時(shí),某種結(jié)構(gòu)的GAN生成結(jié)果如下圖所示。模型最終只生成

手寫(xiě)數(shù)字“6”,雖然形態(tài)十分逼真,但顯然不是我們想要的生成模型。

在論證模式崩潰的問(wèn)題之前,我們首先引入Non-saturatingGAN的概念。在原始妁GAN

目標(biāo)函數(shù)中包含Ez融og(1-D(G(z)))],由于log(1-D(G(z)))在訓(xùn)練初期梯度太小,因此在

實(shí)踐中我們更常使用-Ez、pz[log(D(G(z)))]代替上面這項(xiàng),此時(shí)判別器與生成器的損失函數(shù)

分別為:

判別器:/(。)=Fz^[logD((7(z))]-Ex-Pr[log(D(r))]

生成器:/(G)=-E/r』ogD(G(z))]

這種形式的GAN稱(chēng)為Non-saturatingGAN,原始的GAN稱(chēng)為MinimaxGAN,二者在網(wǎng)

絡(luò)對(duì)抗的思想上一致,但Non-saturatingGAN更便于解釋模式崩潰的問(wèn)題。以下我們分

兩步論述模式崩潰:

1.Non-saturatingGAN生成器損失函數(shù)的等價(jià)表達(dá);

2.模式崩潰的原因。

圖表4:生成手方敢據(jù)集的模式崩清現(xiàn)象

mm,GA6-G64-

GGj4

m?m646-4A

Zr6-6-4-

q4G」6-

446-46-4G6464-

mi,mG△A-444

6

i,mm4。G4

44-6-4-4-6-4-4-

10ksltps20ksleptSOKMepi100ksups

并未源:UnrolledGenerativeAdversarialNetworks,華泰券研究所

Non-saturatingGAN中J(G)的等價(jià)表達(dá)

前文我們已經(jīng)提到,在MinimaxGAN模型中,如果判別翳達(dá)到最優(yōu)(不妨假設(shè)為D(x)),

那么訓(xùn)練生成器的目標(biāo)函數(shù)將變?yōu)椋?/p>

C(G)=&r』k)g(D?))]+&~p』og(l-??&))]

=一,。。4+2/S(Pr||pg)

對(duì)應(yīng)的最優(yōu)判別器表達(dá)式為:

D.(x)=.⑶

PrG)+PgS)

下面我們考慮生成分布與真實(shí)分布的KL散度:

P.(X)

KL(p||p)=EDog']

r

9pr(x)

..Pg(x)/(即(x)+pg(XQ

=x~P。Igp4)/(pC)+pM))」

1-DO

=Exq口。g^F】

=&~Pg[】og(l-D*(x))]-Ef[logD*(x)]

聯(lián)立C(G)的表達(dá)式,我們可以得到Non-saturatingGAN中生成器損失函數(shù)的等價(jià)表達(dá)為:

J⑹=-&~Pz【log。'(G(z))]=-Fx^[logD*(x)]

=KL(pg\\pr)-2/S(pr||pg)+-g4+Ex~pog(ZT(x))]

由于在訓(xùn)練生成器時(shí)完全依賴(lài)于判別器的損失函數(shù)項(xiàng)為常數(shù)可以忽略,因此簡(jiǎn)化的等價(jià)表

達(dá)為:

/(G)=KL(pg\\pr)-2JS(pr\\pg)

注意,上述表達(dá)式的前提是判別器達(dá)到最優(yōu)。實(shí)際上,當(dāng)GAN訓(xùn)練到后期,判另I器的能

力已經(jīng)很強(qiáng),可近似認(rèn)為判別器接近最優(yōu)。因此,訓(xùn)練生成器近似于最小化上述J:G)的表

達(dá)式。生成器的模式崩潰正是由J(G)的第一項(xiàng)KL散度的不對(duì)稱(chēng)性導(dǎo)致。

模式崩潰的原因

基于上文J(G)的等價(jià)表達(dá)式可以進(jìn)一步推導(dǎo)出模式崩潰的原因。首先將KL散度寫(xiě)成積分

的形式:,、

pQ(X)

KL[p||p)=E[log]

9rX』淑y

,x.P,g(x),

=JrP{X)log____dx

x9兩

我們考慮生成樣本的兩種情膨:

1.生成器生成了不真實(shí)的樣本。對(duì)應(yīng)于那些不奏實(shí)的樣本,Pg(X)>0但Pr(X)%0,此時(shí)

KL散度中間的被積項(xiàng)將會(huì)趨于8;

2,生成器沒(méi)能生成真實(shí)的樣本。對(duì)應(yīng)于沒(méi)能生成的那些真實(shí)樣本,Pr(X)>0但Pg(X)'O,

此時(shí)KL散度中間的被積項(xiàng)將會(huì)趨于0。

Non-saturatingGAN中優(yōu)化生成器的損失函數(shù)要求KL散度盡量小。由于第一種精形損失

接近無(wú)窮,懲罰巨大,生成器就會(huì)避免生成不真實(shí)的樣本:由于第二種情形損失接近零,

懲罰微小,因此生成器完全有可能只生成單一的真實(shí)樣本,而不生成更多不同的真實(shí)樣本。

生成單一的真實(shí)樣本已經(jīng)足夠“安全二生成器沒(méi)有必要冒著失真的風(fēng)險(xiǎn)生成多樣化的樣本,

模式崩潰問(wèn)題由此產(chǎn)生。

生成不真實(shí)的樣本:懲罰巨大未生成真實(shí)的樣本:懲罰微小

簧於來(lái)源:華泰證券橋咒所

WassersteinGAN介紹

Wasserstein距離

從上一章可知,GAN的大部分抉陷與JS散度有關(guān),因此JS散度可能不適用于GANo

Arjovsky等(2017)提出使用Wasserstein距離(簡(jiǎn)稱(chēng)W距離)替代JS散度,這樣構(gòu)建

的生成對(duì)抗網(wǎng)絡(luò)稱(chēng)為WassersteinGAN(簡(jiǎn)稱(chēng)WGAN)。

W距離的通俗解釋

W距離用來(lái)衡量?jī)蓚€(gè)分布之間的遠(yuǎn)近,也稱(chēng)為“推土機(jī)距離”(EarthMoverDistance,后

文簡(jiǎn)稱(chēng)EM距離),這個(gè)名稱(chēng)十分形象。如果將兩個(gè)分布p和q分別比作兩堆土,那么我

們可以有不同的方式將土堆p推到和土堆q相同的位置和杉狀。如下圖所示.我們展示兩

種將土堆p推成土堆q的方案,很顯然這兩種方式的平均推土距離(以推土量為權(quán)重,推

土距離的加權(quán)和)不相等。EM距離表示在所有推土方案中,平均推土距離最小的方案對(duì)

應(yīng)的推土距離。

圖表6:EM距離示意圖

將土堆p推向土堆q

上述兩種推土方案中,右側(cè)即為當(dāng)前兩分布間的EM距離

資阱來(lái)源:華泰證券研究所

從“推土”的角度出發(fā),EM距離的表達(dá)式如下所示:

W(P,q)=min兌y(a,Xq)||xp-Mil

yen

Xp.Xq

其中y(Xp,Xq)表示某種推土方案下對(duì)應(yīng)的Xp到Xq的推土量,||Xp-Xq||則表示二者之間的某種

距離(如歐式距離),n表示所有可能的推土方案。根據(jù)EM距離的直觀定義可知,EM距

離沒(méi)有上界,隨著兩個(gè)分布之間越來(lái)越遠(yuǎn),EM距離會(huì)趨于無(wú)窮。換言之,EM距離和JS

散度不同,不會(huì)出現(xiàn)梯度為零的情況。

W距離的數(shù)學(xué)定義及性質(zhì)

上一小節(jié)我們從“推土”的角度定義了EM距離也即W距離,這里我們從概率分布的角

度定義W距離。根據(jù)Arjovsky等(201/),衡量其實(shí)分布與生成分布的W距崗我學(xué)定義

如下:

皿0,麴)=inf^x.yhrdlx-yll]

y~n(p~p.g)

其中x~pr,y-pg,y表示(x,y)的聯(lián)合分布,n(pr.pg)表示所有可能的y取值空間。上式的本

質(zhì)是將分布p『推向分布的所要經(jīng)過(guò)的最小距離,

在論證原始的GAN模型G與D訓(xùn)練不同步的問(wèn)懣時(shí),我們提到若真實(shí)分布與生成分布的

支撐集相交部分測(cè)度為零,JS散度恒為常數(shù)。真實(shí)分布與生成分布近似不相交或者完全

不相交時(shí),那么無(wú)論其實(shí)分布與生成分布是距離一步之遙,還是距離海憊天涯,JS散度

都是常數(shù)。換言之,JS散度無(wú)法指示不重合的兩個(gè)分布到底距離多遠(yuǎn)。

W距離的優(yōu)越性正體現(xiàn)于此。W距離隨分布間“距離”的變化是連續(xù)的,印使兩個(gè)分布

完全不相交,W距離也不會(huì)收斂到常數(shù),而是應(yīng)分布間“距離”的增加而不斷增大,直至

無(wú)窮。因此,W距離沒(méi)有梯度消失的問(wèn)題,可以用W距離替代GAN中的JS散度。

WassersteinGAN的原理

WGAN的原理

W距離的原始數(shù)學(xué)定義過(guò)于理論,旦在實(shí)際中無(wú)法直接計(jì)舁。為便于使用,可以通過(guò)

Kantorovich-RubinsteinDuality^A.(Arjovsky.2017)將其等價(jià)變換為下式:

W(P,P)=_sup(£[/(叫一O[/W])

rg“?x~pW

;MIW.r

=RSUP(%,[九G)]-樂(lè)PM,(G(Z))])

W:||fj|產(chǎn)

關(guān)于這個(gè)等價(jià)定義,我們進(jìn)行如下三點(diǎn)解釋?zhuān)?/p>

1.V”(x),WeW}表示一族依賴(lài)于參效W的函數(shù)f,參數(shù)W的取值空間為w。函數(shù)/■可以

是能寫(xiě)出表達(dá)式的簡(jiǎn)單初等函數(shù),也可以是一個(gè)復(fù)雜的深度學(xué)習(xí)網(wǎng)絡(luò)。如果/是一個(gè)

深度學(xué)習(xí)網(wǎng)絡(luò),則參數(shù)W就是網(wǎng)絡(luò)中的一系列權(quán)重。

2.w:||fw||MK森示函數(shù)/H?滿(mǎn)足Lipschitz條件:即對(duì)于/?■定義域內(nèi)的任何取值a和b.滿(mǎn)足

IA(a)-A(fe)|<K|a-b|,K稱(chēng)為L(zhǎng)ipschitz常數(shù)。在W距離的等價(jià)定義式中,K可

以是任意正實(shí)數(shù)。

3.sup表示對(duì)所有滿(mǎn)足條件的函數(shù)/'w求括號(hào)中表達(dá)式的上確界,在實(shí)際應(yīng)用中近似等價(jià)

于求括號(hào)中表達(dá)式的最大值。

W距離的等價(jià)定義式實(shí)際上就是WGAN的目標(biāo)函數(shù)。在給定生成器G時(shí),上述定義式中

的函數(shù)外可以用一個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)來(lái)代替,這個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)的目標(biāo)就是要最大化

Ex-M加(x)]-Ez~pz[fw(G(z川,在訓(xùn)練時(shí)K是一個(gè)常數(shù),因此系數(shù)項(xiàng)可以忽略。為保持與GAN

統(tǒng)一,這里我們?nèi)苑Q(chēng)這個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)為“判別器''(原文稱(chēng)為critic),當(dāng)然此時(shí)“罰別器”

已不再執(zhí)行判別其假的功能,而是估計(jì)真假樣本分布的W距離。類(lèi)似于GAN,WGAN在

實(shí)踐中判別器與生成器也是交替訓(xùn)練的,這里我們列出二者的損失函數(shù):

判別器:/(D)=E"Pz(A(G⑵)]-

生成器:/(G)=-EZ~/>ZIA(G(Z))]

在原始的GAN模型里,判別器的作用本質(zhì)上也是在估計(jì)生成分布與真實(shí)分布之間的距離

(用JS散度衡量),然后用生成器去拉近JS故度。在WGAN中這種思想則更為直接:

用判別器去擬合兩個(gè)分布之間的W距離,用生成器去拉近W距離。

WGAN-GP的原理

WGAN的原理邏楫枝清晰,但是在等價(jià)定義式中對(duì)捌別鬻有一個(gè)重費(fèi)限制——判別器需

滿(mǎn)足Lipschi:z條件。通常來(lái)說(shuō)有兩種處理辦法,一種是權(quán)重剪裁(WeightClipping),-

種是梯度懲罰(GradientPenalty),這里分別介紹。

權(quán)重剪裁的思想是對(duì)判別器網(wǎng)絡(luò)的權(quán)重進(jìn)行限制,因?yàn)樯窠?jīng)網(wǎng)絡(luò)僅僅是有限個(gè)權(quán)值與神經(jīng)

元相乘的結(jié)果,所以如果權(quán)重在某個(gè)有限范閨內(nèi)變化,那么判別器的榆出值/w(X)也不會(huì)變

得太大,近似可以滿(mǎn)足K-Lipschitz條件。實(shí)際操作中,會(huì)在訓(xùn)練判別器的每一步反向傳播

更新權(quán)值之后對(duì)權(quán)重進(jìn)行剪裁,例如可以將更新后的權(quán)值限制到卜0.01,0.01]中:

0.01,ifWupdalc0.01

W:;「ate={Wupdate,if-0.01<Wupdate工0.01

-0.01,ifWupdate<-0.01

權(quán)型剪裁實(shí)際上并沒(méi)有真正讓判別器滿(mǎn)足K-Lipschitz條件,且實(shí)證表明權(quán)曳剪裁會(huì)讓大部

分網(wǎng)絡(luò)權(quán)重落在限制邊界上,使得生成樣本的質(zhì)量不佳。

更常用的方法是梯度懲罰。加果能將判別器外相對(duì)于輸入x的描度限制在一定范圍內(nèi),那

么自然的就能滿(mǎn)足K-Lipschitz條件。根據(jù)這個(gè)思想,可以在判別器損失函數(shù)中增加懲罰項(xiàng),

將判別器損失函數(shù)寫(xiě)成:

/(力=&~PztA(G(z))]-取切+得[QM衣QII_15

這個(gè)損失函數(shù)對(duì)■判別器fw相對(duì)于揄入的梯度進(jìn)行懲罰,將梯度的L2-范數(shù)約束在1附近,

從而保證Lipschitz條件的成立。通過(guò)這種改進(jìn)的WGAN模型就稱(chēng)為WGAN-GP模型

(Gulrajani.2017)。這里我們進(jìn)行額外幾點(diǎn)說(shuō)明:

1.在約束KLipschitz條件時(shí),我們弁不關(guān)心K是多少,實(shí)際上根據(jù)W距離的等價(jià)關(guān)系,

K可以是任意的正實(shí)教,所以只要能讓fw滿(mǎn)足某個(gè)尺度的Lipschitz條件即可。

2.帶花梯度懲罰的損失函數(shù)中將櫛度的L2-危數(shù)約束在1附近,這個(gè)常數(shù)1是原文作者

經(jīng)過(guò)多次嘗試選擇出的較合適的常數(shù),并無(wú)理論依據(jù)。

3.理論上梯度懲罰應(yīng)該對(duì)所有可能的輸入x進(jìn)行梯度約束,而上述損失函數(shù)實(shí)際上僅對(duì)

介于真實(shí)樣本與生成樣本之間的那些樣本比行梯度約束,p*表示言勺分布,實(shí)證表明這

樣做的效果已經(jīng)較為理想。在實(shí)際應(yīng)用時(shí),某一次迭代對(duì)腦采樣由下式產(chǎn)生:

gax+(1-a)G(z)

其中a是。1)中的隨機(jī)數(shù),工為隨機(jī)的真實(shí)樣本,z為標(biāo)準(zhǔn)正態(tài)分布的稹機(jī)采樣。

4.WGAN-GP中生成器的損失函數(shù)J(D)和原始WGAN保持一致。

WGAN-GP的訓(xùn)練算法

在WGAN-Gn的實(shí)際訓(xùn)練過(guò)程中,判別器D與生成器G交替進(jìn)行訓(xùn)練,一般判別器D訓(xùn)

練K次,生成器G訓(xùn)練1次?;谇拔牡姆治觯琖GAN-GP訓(xùn)練算法的偽代碼如下所示。

困表7:WGAN-GP調(diào)練算法的偽代碼

榆入:迭代次敦T,每輪迭代判別潞D訓(xùn)練次數(shù)K,小批量(minibatch)樣本數(shù)量m

1成機(jī)初始也D網(wǎng)絡(luò)參數(shù)g和G網(wǎng)絡(luò)參數(shù)為

2fort<-1toTdo

#調(diào)線判別器D

3fork*-1toKdo

#裊集小批量樣本

4從澗練集p(x)中采集m條樣本{乂⑴}}

5從豕準(zhǔn)正態(tài)分布內(nèi)(z)中采集m條樣本{z(M}

6從位J均句分布中采集m個(gè)隨機(jī)改{£(*")},并計(jì)算*)=e(0x(0+(1_e(0)G(z0)),得到四叫

7位通機(jī)悌度下降更新判別若D,鼻度為:

V1m(|)SG)2

%/Z2))-[⑥)+〃1仔。6)11-1)1

1=14

8end

#訓(xùn)凍土成器G

9從標(biāo)底正態(tài)分布內(nèi)(2)中采集m條杼本{2(m)}

10使用通機(jī)悌度下降更新生成卷G,梯度為:

V1m⑴

%江尸2))1

11end

瑜出:生成器G

科?來(lái)源:ImprovedTrainingofWassersteinGAN.華泰認(rèn)秦研究航

GAN與WGAN的比較

本小節(jié)我們分析WGAN是否針對(duì)GAN的三項(xiàng)缺點(diǎn)有所改迸。

1.GAN的劌別器D與生成器G訓(xùn)練進(jìn)程必須小心平衡,否則會(huì)出現(xiàn)訓(xùn)練不同步的問(wèn)題。

一般每輪迭代D訓(xùn)練K次,G訓(xùn)練1次,對(duì)于GAN我們要重點(diǎn)調(diào)整K的值,避免判

別落太好或太差:對(duì)于WGAN則無(wú)需小心網(wǎng)整K,可以讓判別器的訓(xùn)練進(jìn)度迂當(dāng)快于

生成器。即使判別器D訓(xùn)練得很好,再去訓(xùn)練生成器也不會(huì)出現(xiàn)梯度消失的問(wèn)題。例

如,在實(shí)踐中每輪迭代可以令D訓(xùn)練5次,再令G訓(xùn)練1次。

2.GAN模型D和G的損失函數(shù)都不收斂,無(wú)法指示訓(xùn)練進(jìn)程。在WGAN中,因?yàn)榕袆e

器的損失函教是在近似估計(jì)真假樣本分布之間的W距離,隨著訓(xùn)練的推進(jìn),這個(gè)W

距離會(huì)存在收斂的過(guò)程,可以輔助指示訓(xùn)練的進(jìn)程。

3.GAN模型容易產(chǎn)生模式崩潰的問(wèn)題。前文我們提到,模式崩潰主要和KL散度以及JS

散度有關(guān),在WGAN中JS散度被替換成W距離,因此導(dǎo)致GAN發(fā)生模式崩潰的原

因在WGAN中也就消失了。但值得注意的是,這并不意味著WGAN生成的樣本完全

沒(méi)有模式崩潰的可能性。

困表8:GAN與WGAN比校

GAN

WGAN

朱源:iVa$$ers/efnGan.華泰證孤臂無(wú)所

方法

在實(shí)證部分,我們圍繞GAN與WGAN的對(duì)比展開(kāi)實(shí)驗(yàn),展示在生成金融時(shí)間序列上

WGAN相對(duì)于GAN的改進(jìn)。在展示結(jié)果之前,我們同樣對(duì)訓(xùn)練數(shù)據(jù)、網(wǎng)絡(luò)構(gòu)建和評(píng)價(jià)指

標(biāo)進(jìn)行說(shuō)明。此外我們還引入衡量序列相似性的指標(biāo),用來(lái)判別樣本的多樣性。這里特別

說(shuō)明,由于WGAN-GP的梯度懲罰方法在實(shí)際應(yīng)用中生成效果更好,因此本文教據(jù)測(cè)試

均基于WGAN-GP模型,后文提到WGAN也及指代WGAN-GP,不作嚴(yán)格區(qū)別。

訓(xùn)練數(shù)據(jù)

為方便后續(xù)對(duì)比,本文選取《人工智能31:生成對(duì)抗網(wǎng)絡(luò)GAN初探》(20200508)中具

有代表性的指數(shù)日頻及月頻對(duì)數(shù)收益率進(jìn)行訓(xùn)練建模,標(biāo)的和數(shù)據(jù)起止日期如下。

困表9:WGAN-GP調(diào)練數(shù)據(jù)集

標(biāo)的頻率起止日期每條樣本長(zhǎng)度

上證綜指日頻2004/12/31~2020/07/312520個(gè)交。日(韻為104)

標(biāo)普500月頻1927/12/30?2020/0力31252個(gè)交易月份(21年)

資料來(lái)源:Wind.Bloomberg,華琴法養(yǎng)研無(wú)所

與GAN建模時(shí)相同,在處理真實(shí)樣本時(shí),采用滾動(dòng)的方式對(duì)原始的對(duì)數(shù)收益率數(shù)據(jù)進(jìn)行

采樣。例如計(jì)于上證綜指原始近16年的時(shí)序數(shù)據(jù),滾動(dòng)生成長(zhǎng)度為2520個(gè)交易日(約

為10年)的樣本,那么其實(shí)樣本約有1500條。

網(wǎng)絡(luò)構(gòu)建

相比于GAN模型,WGAN在網(wǎng)絡(luò)結(jié)構(gòu)上的主要改動(dòng)在于判別器最后的輸出層沒(méi)有進(jìn)行

sigmoid激活。這是因?yàn)镚AN模型中的判別器需要對(duì)真假樣本進(jìn)行判別,最后的榆出必

須是。?1之間的值,表示揄入樣本是真實(shí)樣本的概率。而WGAN中的判別器作用是擬合

生成分布與實(shí)實(shí)分布間的W距離,所以網(wǎng)絡(luò)不應(yīng)對(duì)輸出值進(jìn)行0?1的限制。

此外在構(gòu)建判別器網(wǎng)絡(luò)時(shí),由于判別器的,員失函數(shù)加入了梯度恁罰項(xiàng),且梯度懲罰項(xiàng)對(duì)每

一個(gè)輸入樣本的梯度進(jìn)行限制,因此在判別器的網(wǎng)絡(luò)結(jié)構(gòu)中不應(yīng)該加入

Batch-Normalization(批歸一化,簡(jiǎn)稱(chēng)BN)層,BN會(huì)將同一批其他樣本的信息融入到對(duì)

單個(gè)樣本的和度計(jì)算中,破壞樣本間的獨(dú)立性,此時(shí)算出來(lái)的梯度并不是真實(shí)的判別器對(duì)

單個(gè)樣本的楞度。一般可以

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論