不同分類算法下的大小盤風格判斷分析報告_第1頁
不同分類算法下的大小盤風格判斷分析報告_第2頁
不同分類算法下的大小盤風格判斷分析報告_第3頁
不同分類算法下的大小盤風格判斷分析報告_第4頁
不同分類算法下的大小盤風格判斷分析報告_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

不同分類算法下的大小盤風格判斷2019.8.

12主要內(nèi)容大小盤輪動是重要市場特征分類算法判斷風格特征XGBoost與邏輯回歸效果較好231.1

大小盤風格輪動是重要市場特征大小盤風格輪動是A股市場的一個重要特征,對大小盤輪動規(guī)律的有效把握,將有助于提升投資收益。我們分別使用滬深300、中證1000指數(shù)表征大盤股、小盤股的走勢,通過計算中證1000對滬深300的相對強弱,可以衡量大小盤風格切換情況。大小盤指數(shù)歷史表現(xiàn)資料來源:申萬宏源研究2009年起,市場出現(xiàn)強烈的大小盤風格輪動效應(yīng);2016年之前,小盤股總體占優(yōu)。2016年后,市場出現(xiàn)長期風格反轉(zhuǎn),大盤股總體占優(yōu)。主要內(nèi)容大小盤輪動是重要市場特征分類算法判斷風格特征XGBoost與邏輯回歸效果較好42.1

大小盤輪動受宏觀及微觀因素驅(qū)動大小盤輪動現(xiàn)象受多種因素驅(qū)動,既包括宏觀經(jīng)濟、政策制度等宏觀變量,也包括證券市場流動性、投資者結(jié)構(gòu)、投資者情緒等微觀結(jié)構(gòu)。我們在模型中選擇以下指標作為特征變量,包括宏觀經(jīng)濟數(shù)據(jù)和證券市場數(shù)據(jù)。由于宏觀數(shù)據(jù)發(fā)布有滯后期,對其統(tǒng)一做滯后一個月處理,即相對于交易數(shù)據(jù)多滯后一期。特征變量資料來源:申萬宏源研究52.2

大小盤輪動是一個分類問題大小盤輪動策略的目標是在大盤與小盤兩類風格中選擇合適的投資標的,我們只關(guān)注兩類風格孰強孰弱,而不關(guān)注風格走勢差異的具體幅度,因此這是一個二分類問題。本篇報告測試不同的分類算法在大小盤輪動中的有效性。具體算法包括:決策樹、隨機森林、XGBoost、支持向量機和邏輯回歸。我們直接使用滬深300、中證1000指數(shù)作為大盤風格

、小盤風格的表征,并使用兩條指數(shù)的價格計算輪動組合收益率??紤]到早期證券市場結(jié)構(gòu)與現(xiàn)在有較大不同,為了保持模型的穩(wěn)定性,將2007年作為回測起點。62.3

選擇回測方式:固定窗口與滾動窗口我們采用月頻調(diào)倉,分別在固定窗口與滾動窗口方式下回測了模型表現(xiàn)。固定窗口:將全部歷史樣本劃分為訓練集與測試集,在訓練集內(nèi)通過交叉驗證與網(wǎng)格調(diào)參確定最優(yōu)超參數(shù),并將之應(yīng)用于樣本外預(yù)測;滾動窗口:在每個月末,向前選取固定數(shù)量月數(shù)的樣本作為訓練集,將訓練得到的模型用于下月的風格判斷。與固定窗口相比,滾動窗口的優(yōu)點在于時效性更強,能夠利用最新數(shù)據(jù)進行模型訓練。無論是固定窗口還是滾動窗口,都涉及到訓練集長度的選取,訓練數(shù)據(jù)的月份數(shù)量實際上成為一個重要參數(shù)。回測結(jié)果顯示,滾動窗口的風格預(yù)測準確率高于固定窗口,結(jié)果也更穩(wěn)定,我們只展示滾動窗口的預(yù)測效果。72.4

滾動窗口測試、避免未來信息我們使用固定長度的時間窗口,每月月末滾動向后建立模型并預(yù)測。各分類算法的超參數(shù)一般采用默認值,將時間窗口長度作為主要參數(shù)進行優(yōu)化,窗口長度范圍在60-130個月之間。在訓練集內(nèi)使用T-1期特征數(shù)據(jù)與T期大小盤強弱分類標簽建模;再使用訓練得到的模型,根據(jù)T期最新特征數(shù)據(jù),對T+1期大小盤強弱做出預(yù)測。單次預(yù)測過程中沒有未來信息的引入,為樣本外預(yù)測。當然在最后評估窗口長度這一參數(shù)時,有歷史回看的成分,為此我們在下文中展示不同窗口長度的預(yù)測效果穩(wěn)定性,以對模型做出綜合評判。82.5

決策樹算法決策樹是通過一系列特征和判斷規(guī)則對數(shù)據(jù)進行分類的過程,它通過測試一系列是與否的問題來得到正確答案。決策樹的構(gòu)建算法主要有ID3、C4.5、CART方法,其中ID3是最基本的構(gòu)建算法,只能處理離散特征屬性;C4.5算法以ID3算法為基礎(chǔ),可以處理連續(xù)特征屬性。CART算法是二分類的,既可用于分類也可用于回歸。決策樹過程資料來源:申萬宏源研究92.5.1

決策樹的CART算法??CART算法特征選擇:對特征屬性做二元分類,滿足條件的樣例分至左子樹,不滿足條件的分至右子樹分類標準:Gini指數(shù),Gini指數(shù)越小,數(shù)據(jù)純度越高????????

?? =

??

? ??????

????已知特征A條件下的基尼系數(shù)為:??

??,

??

=???? ?????? ??????????

???? + ????????

????節(jié)點分類樣本數(shù)目低于閾值或Gini值低于閾值按最小化Gini指數(shù)進行分類是否輸出決策樹CART過程輸入數(shù)據(jù)集資料來源:申萬宏源研究102.6

隨機森林分類算法決策樹1小盤占優(yōu)決策樹2小盤占優(yōu)決策樹3小盤占優(yōu)……決策樹n-1大盤占優(yōu)決策樹n小盤占優(yōu)小盤占優(yōu)最終結(jié)果決策樹的缺點是容易過擬合,而隨機森林是樹的集成方法,可以在一定程度上降低過擬合,同時提高預(yù)測能力。隨機森林是一個包含多個決策樹的分類器,預(yù)測結(jié)果由全部決策樹的預(yù)測均值或投票產(chǎn)生。隨機森林中包含的決策樹越多,魯棒性越強。隨機森林的隨機性體現(xiàn)在:1.用于構(gòu)造單棵決策樹數(shù)據(jù)點的隨機性(自助采樣);2.選擇劃分特征的隨機性。隨機森林過程輸入數(shù)據(jù)資料來源:申萬宏源研究112.7

XGBoost算法?????? ??XGBoost屬于梯度提升樹,也是一種樹的集成方法。與隨機森林算法不同,隨機森林中多個分類器是獨立的,而XGBoost中的分類器是依次構(gòu)造的,每添加一棵樹,都需要學習一個新函數(shù),并擬合前次預(yù)測的殘差,樣本預(yù)測值即該樣本在每棵樹中對應(yīng)葉節(jié)點的值加總。令????

為單棵決策樹的預(yù)測函數(shù),

?是所有決策樹的集合,則樣本????的預(yù)測值??

??為:????

??=

?????? =????????,????∈

???=1令??

??

??,

????

為損失函數(shù),

Ω(????)為正則化項,

則XGBoost對應(yīng)的最優(yōu)化問題為:min????

??

,

???? +

Ω(????)122.8

支持向量機(SVM)分類算法支持向量機(SVM)是一類按監(jiān)督學習方式對數(shù)據(jù)進行二元分類的廣義線性分類器,其決策邊界是對學習樣本求解的最大間隔對應(yīng)的超平面。以非線性SVM為例,其對應(yīng)的優(yōu)化問題為:??,??

????=??????min ??

??

+

?? ??????.??.????

??????

???? +

?? ≥???????,????≥

??其中??

????

為核函數(shù),??,

??為確定超平面的參數(shù)SVM過程資料來源:申萬宏源研究132.9

邏輯回歸分類算法邏輯回歸是一種廣義線性回歸。其因變量可以是二分類也可以是多分類。邏輯回歸模型中,x為正例的概率為:???? ?? =

??

?????? =????+

?????????邏輯回歸對應(yīng)的優(yōu)化問題為:min?????????? ????=??????

?? ?? ?????2+??

????????=??14主要內(nèi)容大小盤輪動是重要市場特征分類算法判斷風格特征XGBoost與邏輯回歸效果較好153.1

策略效果評價—主要關(guān)注勝率與盈虧比評估大小盤輪動效果,有超額收益率、勝率、相對盈虧比。但由于各算法的回歸窗口不同、計算收益率的區(qū)間并不相同,超額收益率無法直接對比。市場風格的均衡或集中特性也會對超額收益率有較大影響。當市場中風格輪動較為均衡時,輪動策略更容易取得超額收益。但市場風格長期偏向大盤或小盤一方時,即使策略的勝率、盈虧比較高,也難以取得超額收益。因此超額收益率并非最恰當?shù)脑u價指標。我們主要關(guān)注勝率和相對盈虧兩個評價指標。勝率,即月度預(yù)測的準確率,勝率=預(yù)測準確的月數(shù)/總月數(shù)相對盈虧比,即預(yù)測正確時的平均獲利與預(yù)測錯誤時的平均虧損之比,相對盈虧比=預(yù)測正確時的相對收益/abs(預(yù)測錯誤時的相對虧損)163.2

市場風格集中時,超額收益率并不客觀例如在極端情況下,如果小盤指數(shù)始終跑贏大盤指數(shù),那么即使策略勝率達到100%,超額收益也僅為0。為此,引入調(diào)整后超額收益率,來說明這一問題:調(diào)整后超額收益率

=

實際超額收益率

×

α??,α

>

1為調(diào)整系數(shù)其中,r

=

ABS(大盤指數(shù)占優(yōu)的月數(shù)比例-小盤指數(shù)占優(yōu)的月數(shù)比例)當實際風格輪動較為均衡時,r接近0,實際超額收益率可以反映輪動效果;但當一種風格始終占優(yōu)時,r接近1,需要將實際超額收益率放大,才能反映模型真實效果。由于以上參數(shù)選取具有主觀性,因此我們并不實際計算,只是用它來說明如下問題:如果回測區(qū)間內(nèi)市場風格過于集中,即使模型的勝率與盈虧比很高,也難以獲得明顯超額收益;但只要模型預(yù)測能力保持穩(wěn)定,可以期望當后期市場風格輪動恢復均衡后,模型將有良好表現(xiàn)。173.3

決策樹算法—策略表現(xiàn)波動較大回歸窗口長度在110-122個月間時,模型表現(xiàn)較好,勝率均在55%以上,但勝率與盈虧比的波動均較大。我們選擇窗口長度為116個月,2016/10-2019/06,模型勝率66.7%,相對盈虧比1.35,同期滬深300實際勝率為63.6%;輪動策略累計凈值為1.15,戰(zhàn)勝中證1000,但小幅跑輸滬深300。模型勝率與盈虧比輪動策略走勢資料來源:申萬宏源研究183.4

隨機森林算法—表現(xiàn)有所提升隨機森林算法下,模型勝率和相對盈虧比都有所提升。我們選擇窗口長度為114個月,2016/08-2019/06,模型勝率65.7%,相對盈虧比1.43,同期滬深300實際勝率為60.0%;輪動策略累計凈值為1.17,戰(zhàn)勝中證1000,小幅跑輸滬深300。模型勝率與盈虧比輪動策略走勢資料來源:申萬宏源研究193.5

XGBoost算法—長周期窗口勝率提升明顯XGBoost算法下,長周期窗口勝率提升明顯,窗口長度大于122個月時,平均勝率超過70%。我們選擇窗口長度為125個月,

2017/07-2019/06,模型勝率79.2%,相對盈虧比1.08,同期滬深300實際勝率為62.5%;輪動策略累計凈值為1.16,同時戰(zhàn)勝中證1000和滬深300。模型勝率與盈虧比 輪動策略走勢資料來源:申萬宏源研究203.6

支持向量機—策略表現(xiàn)一般支持向量機算法勝率不高,平均勝率略低于50%,相對盈虧比較為穩(wěn)定。我們選擇窗口長度為65

個月,

2012/07-2019/06,模型勝率52.4%,相對盈虧比1.61,同期滬深300實際勝率為48.8%;輪動策略累計凈值為2.43,雖然勝率不高,但由于回測期間市場風格均衡,策略仍能戰(zhàn)勝中證1000和滬深300。模型勝率與盈虧比輪動策略走勢資料來源:申萬宏源研究213.7

邏輯回歸算法—勝率穩(wěn)定性高邏輯回歸算法有較高的勝率穩(wěn)定性,全部回測窗口上的平均勝率為62.4%。我們選擇窗口長度為70個月, 2012/12-2019/06,模型勝率65.8%,相對盈虧比1.2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論