【基于時(shí)間數(shù)據(jù)序列分析的高鐵客流分析與預(yù)測實(shí)證研究10000字(論文)】_第1頁
【基于時(shí)間數(shù)據(jù)序列分析的高鐵客流分析與預(yù)測實(shí)證研究10000字(論文)】_第2頁
【基于時(shí)間數(shù)據(jù)序列分析的高鐵客流分析與預(yù)測實(shí)證研究10000字(論文)】_第3頁
【基于時(shí)間數(shù)據(jù)序列分析的高鐵客流分析與預(yù)測實(shí)證研究10000字(論文)】_第4頁
【基于時(shí)間數(shù)據(jù)序列分析的高鐵客流分析與預(yù)測實(shí)證研究10000字(論文)】_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

PAGE3基于時(shí)間數(shù)據(jù)序列分析的高鐵客流分析與預(yù)測實(shí)證研究中文摘要摘要:高速鐵路作為一種交通方式,具備許多其他交通方式所欠缺的優(yōu)點(diǎn),所以自第一條高速鐵路通車以來,我國的高鐵事業(yè)一直蓬勃發(fā)展,為了合理地給高鐵建設(shè)的規(guī)模提供依據(jù),對(duì)高鐵客流量的預(yù)測就成為了一項(xiàng)重要的工作。通過對(duì)2011年1月至2019年12月全國及不同地區(qū)的鐵路客流量數(shù)據(jù)的分析,發(fā)現(xiàn)隨著時(shí)間的推移,客流量整體呈現(xiàn)一種穩(wěn)步上升的趨勢且具有季節(jié)規(guī)律,很明顯,客流量與時(shí)間變量t高度相關(guān),所以本文選擇了時(shí)間序列分析方法,通過建立差分整合移動(dòng)平均自回歸模型(即ARIMA模型)來對(duì)高鐵客流量進(jìn)行預(yù)測。關(guān)鍵詞:客流量預(yù)測;時(shí)間序列;ARIMA模型目錄中文摘要 iABSTRACT ii目錄 iii1引言 12選擇預(yù)測模型 22.1相關(guān)模型預(yù)測法 32.2時(shí)間序列模型預(yù)測法 32.2.1ARIMA模型簡介3使用ARIMA模型預(yù)測的基本步驟 43.1檢驗(yàn)數(shù)據(jù)的平穩(wěn)性 44.1ARIMA模型定階 54預(yù)測結(jié)果及分析 55結(jié)論 6參考文獻(xiàn) 7附錄 8引言研究背景及意義京津城際鐵路是我國第一條高標(biāo)準(zhǔn)、設(shè)計(jì)時(shí)速為350公里的高速鐵路,京津城際鐵路于2005年7月4日開始正式動(dòng)工,于2008年8月1日正式開通運(yùn)營,自此我國的高鐵事業(yè)正式拉開序幕。高速鐵路的興起給鐵路這種傳統(tǒng)的運(yùn)輸方式注入了一股全新的生命力,也給廣大的旅客提供了一種可選擇的安全可靠、舒適快捷的出行方式,相比于航空運(yùn)輸,高速鐵路更加經(jīng)濟(jì)實(shí)惠,雖然在速度方面有所欠缺,但若是中等距離的目的地,高速鐵路無疑是個(gè)性價(jià)比極高的好選擇,相比于公路運(yùn)輸,高速鐵路則能給旅客帶來更好的體驗(yàn),更舒適的環(huán)境,這些優(yōu)點(diǎn)使旅客越來越多地愿意選擇高速鐵路這一出行方式,另外由于我們國家所具有的人口眾多(超過14億人口),人口密度大或者說人口稠密,幅員遼闊尤其是內(nèi)陸面積大,而且內(nèi)陸所在地理位置非常連續(xù)以致極其深廣的特點(diǎn),使得高速鐵路這一出行方式在我國的交通運(yùn)輸行業(yè)具有獨(dú)特的地位與作用,因此如何使高速鐵路的運(yùn)輸能力滿足人民群眾的出行需求、符合我們現(xiàn)在日新月異快速發(fā)展中的社會(huì)的發(fā)展水平和日益提高的國民經(jīng)濟(jì)水平成為了目前我國交通運(yùn)輸行業(yè)所面臨且亟需解決的最主要的問題。對(duì)高速鐵路客流量的準(zhǔn)確預(yù)測在很多方面具有非常重要的意義,一方面,客流量是選定鐵路主要技術(shù)標(biāo)準(zhǔn)的依據(jù),技術(shù)標(biāo)準(zhǔn)又決定著運(yùn)輸裝備的能力,為了滿足社會(huì)對(duì)運(yùn)輸能力的要求,運(yùn)輸設(shè)備的能力不應(yīng)小于預(yù)測的客流量;而另一方面客流量也是評(píng)價(jià)高速鐵路經(jīng)濟(jì)效益的基礎(chǔ),也是影響線路方案取舍和火車班次排序設(shè)定的重要因素,總之,如果預(yù)測的客流量偏大,那么對(duì)鐵路的主要技術(shù)標(biāo)準(zhǔn)要求就會(huì)偏高,從而所需的投資也會(huì)增大,但當(dāng)實(shí)際運(yùn)營后發(fā)現(xiàn)客流量偏小,則會(huì)造成鐵路的運(yùn)輸能力閑置,投資的資源浪費(fèi),最終導(dǎo)致實(shí)際的經(jīng)濟(jì)效應(yīng)下降;反之,如果預(yù)測的客流量偏小,雖然初期的投資有所節(jié)省,但由此導(dǎo)致高速鐵路的運(yùn)輸能力有所降低,從而無法滿足遠(yuǎn)超我們所預(yù)估的實(shí)際上的旅客的出行需求,那當(dāng)我們投入實(shí)際運(yùn)營后就會(huì)發(fā)現(xiàn)鐵路的負(fù)載能力很快飽和,這時(shí)我們只能投入更多的資金來擴(kuò)大高速鐵路的規(guī)模,這樣的做法無疑同樣會(huì)導(dǎo)致經(jīng)濟(jì)效益下降,由此可知準(zhǔn)確預(yù)測客流量的重要性。國內(nèi)外研究現(xiàn)狀在預(yù)測客流量方面,前人已經(jīng)做過很多方面的工作,例如趙盼進(jìn)行了基于灰色關(guān)聯(lián)分析的LS-SVM高鐵客流量預(yù)測,將高鐵客流量的影響因素初步設(shè)定為了17項(xiàng),然后再通過灰色關(guān)聯(lián)分析的方法從這17項(xiàng)影響因素中選擇主要影響因素作為輸入變量,構(gòu)建預(yù)測模型,不僅能簡化模型結(jié)構(gòu),而且提高了預(yù)測精度;馮博提出了基于EEMD分解的RBF神經(jīng)網(wǎng)絡(luò)預(yù)測模型,通過對(duì)高鐵客流量的精準(zhǔn)預(yù)測,對(duì)高鐵站點(diǎn)的交通配套設(shè)施提出了優(yōu)化方案,從而使高鐵站點(diǎn)的服務(wù)更加得高效便民;鮮敏在灰色系統(tǒng)模型和BP神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上構(gòu)建預(yù)測模型,解決了傳統(tǒng)灰色預(yù)測模型不適用與非線性數(shù)據(jù)預(yù)測和BP神經(jīng)網(wǎng)絡(luò)可能出現(xiàn)的訓(xùn)練緩慢或停滯、局部最小值的問題,采用改進(jìn)型BP神經(jīng)網(wǎng)絡(luò)和GA優(yōu)化灰色冪模型來構(gòu)建對(duì)鐵路客流量進(jìn)行預(yù)測的模型,具有良好的數(shù)據(jù)處理和預(yù)測能力。目前客流量預(yù)測技術(shù)還存在以下一些問題:首先,對(duì)鐵路短期客流進(jìn)行預(yù)測的大部分研究對(duì)象是年度或者月度這種較長時(shí)間段的預(yù)測,相反地,針對(duì)例如周鐵路客流量的高精度預(yù)測卻很少。對(duì)這種較長時(shí)間段的數(shù)據(jù)預(yù)測價(jià)值相對(duì)不高,并且實(shí)時(shí)性也較差。而實(shí)時(shí)性更好的,預(yù)測價(jià)值更高的周、日時(shí)間段的鐵路客流預(yù)測在國內(nèi)的研究中都較少有涉及。其次,由于單獨(dú)使用時(shí)間序列預(yù)測方法對(duì)客流量進(jìn)行預(yù)測存在一定的局限性,通常無法將數(shù)據(jù)序列中的特性充分考慮到,很多人嘗試將時(shí)間序列方法與其他方法相融合并且進(jìn)一步結(jié)合客流量的相關(guān)特征來選取更加適當(dāng)?shù)姆椒?,建立混合模型,如此做法確實(shí)能夠取得較好的效果,但如何搭配選擇模型可以達(dá)到更好的預(yù)測結(jié)果,以及如何成功構(gòu)建混合模型都是一個(gè)難點(diǎn)。附錄選擇預(yù)測模型由于高速鐵路在我國交通運(yùn)輸行業(yè)的特殊性,對(duì)高速鐵路客流量的預(yù)測一直是交通運(yùn)輸領(lǐng)域的研究熱點(diǎn)之一,可以說從高速鐵路誕生至今,對(duì)高速鐵路客流量進(jìn)行預(yù)測這一課題就一直保持著旺盛的生命力,各種預(yù)測方法接連出現(xiàn),總的來說,對(duì)高速鐵路客流量的預(yù)測一般可以分為兩大類方法——定量預(yù)測方法和定性預(yù)測方法,定性預(yù)測的方法有很多,例如經(jīng)濟(jì)調(diào)查法、德爾菲法等等,但是定性預(yù)測方法主要以預(yù)測人員的經(jīng)驗(yàn)為判斷依據(jù),與參與人員的實(shí)踐經(jīng)驗(yàn)、專業(yè)水平、對(duì)實(shí)踐情況的把握程度以及對(duì)未來發(fā)展前景的性質(zhì)、方向和程度的判斷高度相關(guān),雖然簡便可行,但是卻有很強(qiáng)的主觀性,存在片面性,準(zhǔn)確性不高的缺點(diǎn),所以在此不多贅述。定量預(yù)測方法主要包括相關(guān)模型預(yù)測法和時(shí)間模型預(yù)測法,定量預(yù)測方法是以歷史統(tǒng)計(jì)資料和相關(guān)信息為依據(jù),運(yùn)用各種數(shù)學(xué)方法來預(yù)測未來客流量,也是因?yàn)檫@樣,定量預(yù)測法最大的優(yōu)點(diǎn)就是他的客觀性,定量預(yù)測的預(yù)測精度和通過定量預(yù)測得到的結(jié)果的可靠性在很大程度上也就取決于我們選取的用來預(yù)測的數(shù)據(jù)的準(zhǔn)確性和預(yù)測方法的科學(xué)性。下面對(duì)相關(guān)模型預(yù)測法和時(shí)間序列預(yù)測法進(jìn)行進(jìn)一步闡述。相關(guān)模型預(yù)測法相關(guān)模型預(yù)測法就是找出能給影響我們想要預(yù)測的數(shù)據(jù)比如高速鐵路客流量的因素,然后建立高速鐵路客流量和客流量的各種影響因素之間的函數(shù)關(guān)系,從而得出我們想要的模型來進(jìn)行預(yù)測,如果想用相關(guān)模型預(yù)測法來進(jìn)行高速鐵路客流量的預(yù)測,那么我們就需要找出與高速鐵路客流量息息相關(guān)的影響因素,但是由于影響客流量的因素有很多,包括但不限于人口密度(人口稠密則客流量大,人口稀疏則客流量?。⒔?jīng)濟(jì)發(fā)展水平(經(jīng)濟(jì)發(fā)展水平高則客流量大,經(jīng)濟(jì)發(fā)展水平第則客流量小)、旅游業(yè)的發(fā)展情況(旅游業(yè)發(fā)展得好則客流量大,旅游業(yè)發(fā)展滯后則客流量?。⒒A(chǔ)設(shè)施建設(shè)情況(基礎(chǔ)設(shè)施建設(shè)好則客流量大,基礎(chǔ)設(shè)施有待提高則客流量?。?、季節(jié)(例如所謂的旺季、淡季)、節(jié)假日(國慶長假、五一小長假明顯客流量大),但各個(gè)影響因素所作用的形式和程度等等都有所不同,根據(jù)我們選定的具體的預(yù)測目標(biāo)的類型、范圍的不同,必須細(xì)致地分析其最重要的影響因素,也就是說他的普適性很差,但這不算什么很致命的缺點(diǎn),重點(diǎn)是我們要設(shè)法將我們分析出來的最重要的影響因素用量化指標(biāo)反映出來,然后再通過對(duì)過去和現(xiàn)在的指標(biāo)數(shù)據(jù)進(jìn)行一系列深入的分析研究,可以找出旅客的出行需求和相關(guān)的各個(gè)經(jīng)濟(jì)量的關(guān)系,用于對(duì)客流量進(jìn)行預(yù)測。相關(guān)模型預(yù)測方法在我們所掌握的數(shù)據(jù)量足夠多的情況下的確可以獲得較好的精度,并且還可以給我們提供影響高速鐵路客運(yùn)量的因素變化方面的信息,但相關(guān)模型預(yù)測方法的缺點(diǎn)同樣很明顯,首先這些高速鐵路客流量的影響因素之間有錯(cuò)綜復(fù)雜的關(guān)系,我們很難梳理清楚并掌握其中的規(guī)律,這無疑給我們選取自變量的工作造成很大的困擾,此外,相關(guān)因素或者說自變量、外在變量指標(biāo)本身的未來值就是不確定的,帶有預(yù)測性的,這同樣會(huì)給我們的預(yù)測帶來誤差,影響預(yù)測的準(zhǔn)確程度和結(jié)果的可靠性。時(shí)間序列預(yù)測法時(shí)間序列預(yù)測分析就是利用過去一段時(shí)間內(nèi)某事件的特征,進(jìn)而來預(yù)測未來一段時(shí)間內(nèi)該事件的特征。時(shí)間序列分析預(yù)測法在預(yù)測高速鐵路客流量中的應(yīng)用,是一種依據(jù)高速鐵路客流量的歷史變化趨勢,找出高速鐵路客流量隨時(shí)間變化的規(guī)律,并把這種規(guī)律通過數(shù)學(xué)模型來表示,然后根據(jù)模型來進(jìn)行預(yù)測的方法。和回歸分析模型的預(yù)測不同,這是一類相對(duì)比較復(fù)雜的預(yù)測建模問題,時(shí)間序列模型是依賴于事件發(fā)生的先后順序的,同樣大小的值改變順序后輸入模型產(chǎn)生的結(jié)果是不同的。時(shí)間序列預(yù)測方法的優(yōu)點(diǎn)是需要的數(shù)據(jù)少,簡便易行,只要我們所研究的高速鐵路客流量時(shí)間序列的趨勢沒有大的波動(dòng)、預(yù)測效果較好,此外,時(shí)間變量t并不是一個(gè)單一的變量,他是一個(gè)綜合的自變量,它包含了隨著時(shí)間的推移而隱含的發(fā)生變化的經(jīng)濟(jì)發(fā)展情況、人口密度、基礎(chǔ)設(shè)施完善程度和旅游業(yè)發(fā)展水平等綜合因素,因而時(shí)間變量t是一個(gè)自知的變量,不存在相關(guān)模型預(yù)測法中出現(xiàn)的對(duì)相關(guān)模型影響因素的未來值做預(yù)測從而導(dǎo)致的誤差。因此,應(yīng)選擇時(shí)間序列模型來對(duì)高速鐵路客流量進(jìn)行預(yù)測。當(dāng)然時(shí)間序列預(yù)測法這種方式也是存在缺點(diǎn)的,這種方式的缺點(diǎn)是無法反映出高速鐵路客流量發(fā)生變化的原因,對(duì)于影響高速鐵路客流量變化的外部因素(如經(jīng)濟(jì)政策的調(diào)整、發(fā)展速度的變化和人口的遷移、基礎(chǔ)設(shè)施的建設(shè)等等)所引起的旅客運(yùn)輸需求的變動(dòng)無法反映。通過對(duì)選定的2011年1月到2018年12月全國高鐵客流量數(shù)據(jù)的分析(數(shù)據(jù)時(shí)序圖見圖2-1),發(fā)現(xiàn)其具有周期性和趨勢性,因此本文擬選擇時(shí)間序列模型來對(duì)客流量進(jìn)行預(yù)測。圖2-12011年1月到2018年12月全國高鐵客流量數(shù)據(jù)自回歸模型ARAR(p):AR是autoregressive的英文縮寫,翻譯過來就是表示自回歸模型,其含義是當(dāng)前所處的時(shí)間點(diǎn)的值等于過去的若干個(gè)時(shí)間點(diǎn)的值的回歸,因?yàn)榇_定當(dāng)前所處時(shí)間點(diǎn)的值不依賴于別的解釋變量,只需要依賴于自己過去的歷史值,描述的是自己本身的當(dāng)前值與歷史值之間的關(guān)系,故稱為自回歸,自回歸模型必須滿足平穩(wěn)性的要求。自回歸模型的建立首先需要確定一個(gè)階數(shù)p,階數(shù)p表示用了幾期的歷史值來預(yù)測當(dāng)前值,如果當(dāng)前值依賴過去最近的p個(gè)歷史值,則我們建立的模型就為AR(p)模型。p階自回歸模型的公式定義為:yt=μ+i=1在上述公式中yt是當(dāng)前值,μ是常數(shù)項(xiàng),p是階數(shù),γi是自相關(guān)系數(shù),ε自回歸模型有三個(gè)限制條件:γi≠0,此條限制是為了保證自回歸模型的最高階數(shù)為p隨機(jī)干擾序列{εt}為零均值的白噪聲序列當(dāng)期的隨機(jī)干擾項(xiàng)與過去的序列值無關(guān),即:Eysεt自回歸模型有一些重要的性質(zhì):若自回歸模型滿足平穩(wěn)條件,那么它的均值為0。自回歸模型的自相關(guān)系數(shù)是呈復(fù)指數(shù)衰減,有拖尾性。自回歸模型的偏自相關(guān)系數(shù)有截尾性。其中第二、第三條很重要,可以用來做模型的識(shí)別。自回歸模型有很多的局限性,一是自回歸模型是用自己的數(shù)據(jù)來進(jìn)行預(yù)測工作,二是自回歸模型要求時(shí)間序列數(shù)據(jù)必須具有平穩(wěn)性,三是自回歸模型只適用于預(yù)測與自身前期相關(guān)的現(xiàn)象。移動(dòng)平均模型MAMA(q):MA是movingaverage的英文縮寫,翻譯過來就是表示移動(dòng)平均模型,其含義是當(dāng)前所處的時(shí)間點(diǎn)的值等于過去若干個(gè)時(shí)間點(diǎn)的預(yù)測誤差(預(yù)測誤差=模型預(yù)測值-真實(shí)值)的回歸,移動(dòng)平均模型關(guān)注的是自回歸模型中的誤差項(xiàng)的累加。移動(dòng)平均模型的建立也需要先確定一個(gè)階數(shù)q,如果序列依賴過去最近的q個(gè)歷史預(yù)測誤差值,稱階數(shù)為q,記為MA(q)模型。移動(dòng)平均模型建模的目的包括判斷是過去幾期的白噪聲影響了當(dāng)前值和找出過去q期沖擊效應(yīng)對(duì)當(dāng)前值的影響。q階自回歸模型的公式定義如下:yt=μ+i=1數(shù)據(jù)序列當(dāng)前時(shí)刻的時(shí)序值是過去q階白噪聲的線性組合,移動(dòng)平均模型討論的是t時(shí)刻的值與t,t?1,?時(shí)刻隨機(jī)干擾值的相關(guān)關(guān)系。當(dāng)μ=0的時(shí)候,我們得到的是中心化的MA(q)模型,對(duì)于非中心化模型,我們可以做變換xt=yt?μ使其成為中心化的MA(q)模型,但是不影響序列值之間的相關(guān)關(guān)系。在不做特殊說明的情況下,我們移動(dòng)平均模型的性質(zhì):對(duì)上述公式求期望可以得到期望恒為μ對(duì)上述公式求方差可以得到方差恒為Var(yt)=(1+θ12+···+自協(xié)方差函數(shù),當(dāng)1≤k≤q時(shí),E(ytyt?k)=Var(yt)=(1+θ1當(dāng)k>q時(shí)E(ytyt?k自回歸移動(dòng)平均模型ARMA將上面所提到的自回歸模型AR(p)和移動(dòng)平均模型MA(q)綜合起來,就得到了自回歸移動(dòng)平均模型ARMA(p,q)。差分自回歸移動(dòng)平均模型ARIMA將上面所提到的自回歸模型AR(p)、移動(dòng)平均模型MA(q)和差分法結(jié)合起來,我們就可以得到差分自回歸移動(dòng)平均模型ARIMA(p,d,q)。ARIMA中的I是英文單詞integrated的縮寫,含義是預(yù)測模型對(duì)時(shí)間序列進(jìn)行了差分運(yùn)算;如果我們使用時(shí)間序列來分析,要求時(shí)間序列具有平穩(wěn)性,不平穩(wěn)的時(shí)間序列就需要通過一定手段使其轉(zhuǎn)化為平穩(wěn)序列,一般我們采用的手段是差分。d表示差分的階數(shù),t時(shí)刻的值減去t-1時(shí)刻的值,得到的新的時(shí)間序列就稱為1階差分序列;對(duì)1階差分序列再進(jìn)行一次1階差分得到的序列稱為2階差分序列,以此類推;另外,還有一種特殊的差分是季節(jié)性差分S,即有一些時(shí)間序列反映出一定的周期T,即季節(jié)性,我們讓t時(shí)刻的值減去t-T時(shí)刻的值得到的新的時(shí)間序列就是季節(jié)性差分序列。使用ARIMA模型預(yù)測的基本步驟檢驗(yàn)數(shù)據(jù)的平穩(wěn)性平穩(wěn)性就是要求經(jīng)由樣本時(shí)間序列所得到的擬合曲線在未來的一段時(shí)間內(nèi),仍能順著現(xiàn)有的形態(tài)慣性地延續(xù)下去,其要求數(shù)據(jù)序列的均值和方差不發(fā)生明顯變化。ARIMA模型是適用于平穩(wěn)數(shù)據(jù)序列的時(shí)間序列模型,所以要先對(duì)數(shù)據(jù)的平穩(wěn)性作出判斷。本次對(duì)高速鐵路客流量進(jìn)行預(yù)測所需要的數(shù)據(jù)如下所示:日期客流量(萬人)日期客流量(萬人)日期客流量(萬人)01-201115195.201-201216467.501-20131875702-201115721.602-20121557302-20131404403-20111411203-20121445703-201316853.504-201115545.204-20121645204-201317501.505-201115308.605-20121487705-201316231.606-201115075.706-20121622606-201318043.407-20111816007-20121798407-201319931.208-20111786208-201218517.108-20132028709-20111613809-20121691409-20131919710-20111625610-201215086.310-20131640711-20111341311-20121418511-201315557.412-20111314612-20121481512-201317374.7日期客流量(萬人)日期客流量(萬人)日期客流量(萬人)01-201419049.601-201518759.701-20162116102-201415975.302-201514995.802-201624111.803-201418054.203-20152155403-20162124204-201419843.204-20152109104-20162390005-20141903705-201521219.405-20162288606-201419456.106-201520613.906-20162320007-201422385.907-201524775.807-20162681808-201423515.208-201525538.608-201628007.509-201420985.909-20152180209-201623918.310-201417918.910-201522685.910-201625001.111-201417056.111-201518816.211-20162040912-20142242712-201518247.612-201620768日期客流量(萬人)日期客流量(萬人)日期客流量(萬人)01-20172475601-201824564.401-201928341.602-20172552502-201826081.202-201929112.303-201722624.303-20182761203-201927859.804-201726503.804-201828899.904-201930536.305-20172639705-201826826.705-201930800.706-201724076.806-201827834.206-201930735.107-201729377.807-201832275.807-201935569.908-201730691.708-201834340.208-20193788409-20172488409-201828252.809-201929873.210-20172760010-201830466.510-201931902.711-20172270011-201825177.211-201927080.312-20172320012-20182516412-201926306.3首先可以先對(duì)原始數(shù)據(jù)數(shù)列的時(shí)序圖進(jìn)行觀察分析,對(duì)數(shù)據(jù)序列的平穩(wěn)性進(jìn)行一個(gè)初步的判斷,所用高鐵客流量數(shù)據(jù)的時(shí)序圖見圖2-1,可以看到該數(shù)據(jù)序列具有明顯的周期性和趨勢性,總體呈一個(gè)增長的態(tài)勢,可以初步判斷這不是一個(gè)平穩(wěn)的數(shù)據(jù)序列,為了進(jìn)一步判斷,作出高鐵客流量的自相關(guān)圖和偏自相關(guān)圖,如圖3-1、圖3-2。圖3-1高鐵客流量原始序列的自相關(guān)圖圖3-2高鐵客流量原始序列的偏自相關(guān)圖通過對(duì)圖3-1和圖3-2的自相關(guān)和偏自相關(guān)圖進(jìn)行觀察分析,可以發(fā)現(xiàn)高鐵客流量的原始序列自相關(guān)函數(shù)和偏自相關(guān)函數(shù)都是拖尾的,由此可見,原始序列是一個(gè)非平穩(wěn)序列。為了能更直觀地看到該數(shù)據(jù)序列的平穩(wěn)性,對(duì)原始序列進(jìn)行ADF檢驗(yàn)即單位根檢驗(yàn),在檢驗(yàn)中存在兩個(gè)假設(shè),原假設(shè):存在單位根,即數(shù)據(jù)序列為非平穩(wěn)序列;備擇假設(shè):不存在單位根,即數(shù)據(jù)序列為平穩(wěn)序列,本文選擇的檢驗(yàn)方法是p-值檢驗(yàn),通過實(shí)驗(yàn),p值結(jié)果為1.0,大于顯著性水平α(0.05),接受原假設(shè)(非平穩(wěn)序列),所以原始數(shù)據(jù)序列為非平穩(wěn)序列。為了得到需要的平穩(wěn)序列,對(duì)原始數(shù)據(jù)進(jìn)行差分,差分可以消除高速鐵路客流量數(shù)據(jù)序列中的趨勢項(xiàng),一階差分的公式為▽xt=x一階差分后的時(shí)序圖如圖3-3。圖3-3一階差分后的高鐵客流量數(shù)據(jù)序列時(shí)序圖從一階差分后的高鐵客流量數(shù)據(jù)序列時(shí)序圖可以初步看出,我們差分后得到的數(shù)據(jù)序列圍繞一個(gè)數(shù)值上下波動(dòng),數(shù)據(jù)序列已經(jīng)基本趨于平穩(wěn),為了進(jìn)一步驗(yàn)證差分后數(shù)據(jù)序列的平穩(wěn)性對(duì)一階差分后的數(shù)據(jù)序列作出一階差分后得到的高鐵客流量數(shù)據(jù)序列的自相關(guān)圖和偏自相關(guān)圖,如圖3-4和圖3-5。圖3-4一階差分后的高鐵客流量數(shù)據(jù)序列自相關(guān)圖圖3-5一階差分后的高鐵客流量數(shù)據(jù)序列偏自相關(guān)圖通過觀察分析一階差分后的數(shù)據(jù)序列自相關(guān)圖和偏自相關(guān)圖,可以看出一階差分后原始數(shù)據(jù)序列已經(jīng)基本轉(zhuǎn)變?yōu)槠椒€(wěn)序列。對(duì)差分后的數(shù)據(jù)序列進(jìn)行ADF檢驗(yàn),p值為3.838737804391854e-24,遠(yuǎn)遠(yuǎn)小于顯著性水平α(0.05),拒絕原假設(shè)(非平穩(wěn)序列),所以一階差分后的數(shù)據(jù)序列為平穩(wěn)序列。一階差分后消除趨勢項(xiàng)還需對(duì)差分后的序列進(jìn)行白噪聲檢驗(yàn),只有通過了白噪聲檢驗(yàn),才能進(jìn)行ARIMA建模的下一步,否則進(jìn)行二次差分,再次對(duì)二階差分后的數(shù)據(jù)序列進(jìn)行平穩(wěn)性檢驗(yàn)和白噪聲檢驗(yàn),或者該數(shù)據(jù)序列并不適用于ARIMA模型,改去尋找另一個(gè)更合適的預(yù)測模型。一階差分后數(shù)據(jù)序列的白噪聲檢驗(yàn)的結(jié)果中p值為0.01014702,雖然小于顯著性水平0.05,可以拒絕原假設(shè)(純隨機(jī)序列),即結(jié)論為一階差分序列為非白噪聲序列,嘗試再進(jìn)行一次差分,即對(duì)原始序列進(jìn)行二階差分,觀察得到的數(shù)據(jù)序列是否更適合用來建立預(yù)測模型。二階差分后高鐵客流量的數(shù)據(jù)序列時(shí)序圖如圖3-6。圖3-6二階差分后的高鐵客流量數(shù)據(jù)序列時(shí)序圖從二階差分后的高鐵客流量數(shù)據(jù)序列時(shí)序圖可以初步看出,我們二階差分后得到的數(shù)據(jù)序列與一階差分后的數(shù)據(jù)序列在平穩(wěn)性上相差不大,為了進(jìn)一步驗(yàn)證二階差分后數(shù)據(jù)序列的平穩(wěn)性,對(duì)二階差分后的高鐵客流量數(shù)據(jù)序列作出自相關(guān)圖和偏自相關(guān)圖,如圖3-7和圖3-8。圖3-7一階差分后的高鐵客流量數(shù)據(jù)序列自相關(guān)圖圖3-8一階差分后的高鐵客流量數(shù)據(jù)序列自相關(guān)圖通過觀察分析二階差分后的數(shù)據(jù)序列自相關(guān)圖和偏自相關(guān)圖,可以看出二階差分后原始數(shù)據(jù)序列已經(jīng)基本轉(zhuǎn)變?yōu)槠椒€(wěn)序列。對(duì)差分后的數(shù)據(jù)序列進(jìn)行ADF檢驗(yàn),p值為1.499999159951863e-18,遠(yuǎn)遠(yuǎn)小于顯著性水平α(0.05),拒絕原假設(shè)(非平穩(wěn)序列),所以二階差分后的數(shù)據(jù)序列為平穩(wěn)序列。對(duì)二階差分后的數(shù)據(jù)再次進(jìn)行白噪聲檢驗(yàn),實(shí)驗(yàn)結(jié)果中p值為4.39078107e-07,遠(yuǎn)小于0.05,所以可以拒絕原假設(shè),即二階差分后的數(shù)據(jù)序列為非白噪聲序列。雖然二階差分后的數(shù)據(jù)符合平穩(wěn)性的要求,但比起一階差分并沒有太大的優(yōu)勢,所以最后還是選擇進(jìn)行一階差分。對(duì)ARIMA模型定階ARIMA模型中的p、q參數(shù)分別由自相關(guān)圖和偏自相關(guān)圖中拖尾和截尾的情況來確定。自相關(guān)函數(shù)ACF(autocorrelationfunction)描述的是現(xiàn)在所處的時(shí)間節(jié)點(diǎn)的時(shí)間序列觀測值與其過去的觀測值之間所具有的線性相關(guān)性。協(xié)方差是一個(gè)可以反映隨機(jī)變量之間的關(guān)系的概念,在時(shí)間序列里,類似于協(xié)方差函數(shù),我們可以給出一個(gè)自協(xié)方差的概念。因?yàn)闀r(shí)間序列是一維的,沒有辦法找到一個(gè)別的數(shù)據(jù)和自己來進(jìn)行比較,于是只能和自己慢幾拍也就是所謂的滯后期的數(shù)據(jù)進(jìn)行比較,所以就有了自協(xié)方差數(shù)據(jù)。相關(guān)系數(shù)其實(shí)就是協(xié)方差的歸一化,消除了兩個(gè)變量的量綱變化幅度的不同所帶來的影響,單純地反映兩個(gè)變量在每單位變化時(shí)的相似程度。自相關(guān)函數(shù)的計(jì)算公式如下:ACF(k)=ρk=Cov(在上述公式中,k代表的是滯后期數(shù),ρk為相關(guān)系數(shù)偏自相關(guān)函數(shù)PACF(partialautocorrelationfunction)描述的是在已經(jīng)給定了中間觀測值的條件下,時(shí)間序列觀測值預(yù)期過去的觀測值之間的線性相關(guān)性。自相關(guān)函數(shù)雖然反映了時(shí)間序列在兩個(gè)不同時(shí)刻yt,ys,s<t的相依程度,但是兩個(gè)不同時(shí)間之間還有其他時(shí)間變量ys+1,ys+2到y(tǒng)t?1對(duì)y拖尾是指時(shí)間序列以指數(shù)率進(jìn)行單調(diào)遞減或震蕩衰減,截尾是指時(shí)間序列從某個(gè)時(shí)間節(jié)點(diǎn)開始變得很小趨近于零。p,q參數(shù)的確定就基于以下準(zhǔn)則:模型AR(p)MA(q)ARMA(p,q)自相關(guān)函數(shù)拖尾q階后截尾拖尾偏自相關(guān)函數(shù)p階后截尾拖尾拖尾但單單從自相關(guān)圖和非自相關(guān)圖來確定主觀性太大,容易造成偏差,所以這是就需要一個(gè)精確的方法來判斷參數(shù)p,q的值,這時(shí)就用到了模型選擇方法——赤池信息準(zhǔn)則(AkaikeInformationCriterion,AIC)和貝葉斯信息準(zhǔn)則(BayesianInformationCriterion,BIC)。AIC是由日本統(tǒng)計(jì)學(xué)家赤池弘次在1974年提出的模型調(diào)優(yōu)方法,它建立在熵的概念上,很好地提供了可以用來權(quán)衡估計(jì)模型復(fù)雜度以及擬合數(shù)據(jù)優(yōu)良性的標(biāo)準(zhǔn)。通常情況下,AIC定義為:AIC=2k?2lnL(在上述公式中,k表示的是模型參數(shù)個(gè)數(shù),L則代表的是似然函數(shù)。從一組可供我們選擇的模型中選擇一個(gè)最佳模型時(shí),通常會(huì)選擇AIC最小的模型。如果出現(xiàn)兩個(gè)模型之間存在著較大的差異的情況時(shí),這種差異主要體現(xiàn)在似然函數(shù)項(xiàng),如果這時(shí)似然函數(shù)差異并不顯著,那么,上述公式中的第一項(xiàng),也就是模型參數(shù)個(gè)數(shù)則起作用,從而參數(shù)個(gè)數(shù)少的模型就是較好的選擇。一般而言,當(dāng)k未超過某一個(gè)臨界值時(shí),模型復(fù)雜度提高(k增大)的同時(shí),似然函數(shù)L也會(huì)增大,這是似然函數(shù)的增長率會(huì)大于模型復(fù)雜度的增長率,從而使AIC變小,但是k過大時(shí),似然函數(shù)增速就會(huì)減緩,但是k仍然是線性增長的趨勢,從而導(dǎo)致AIC增大,所以模型過于復(fù)雜時(shí)就會(huì)容易造成過擬合現(xiàn)象。我們的目標(biāo)是選取AIC最小的模型,AIC不僅需要提高模型的擬合度(極大似然),而且還引入了懲罰項(xiàng),從而使模型參數(shù)盡可能少,這樣就有助于降低過擬合的可能性。BIC與AIC相似,也是用于模型選擇,BIC是1978年由Schwarz提出的模型調(diào)優(yōu)方法。針對(duì)上面提到過的模型復(fù)雜度增大的時(shí)候可能會(huì)造成過擬合現(xiàn)象的問題,AIC和BIC均引入了與模型參數(shù)個(gè)數(shù)相關(guān)的懲罰項(xiàng),不同的是,BIC的懲罰項(xiàng)比AIC的大,同時(shí)還考慮了樣本數(shù)量,當(dāng)樣本數(shù)量過多時(shí),可以有效地防止因?yàn)槟P途冗^高而造成的模型復(fù)雜度過高。通常情況下,BIC定義為BIC=klnn?2在上述公式中,k代表模型參數(shù)個(gè)數(shù),n是樣本數(shù)量,L是似然函數(shù)。kln(n)這一懲罰項(xiàng)在維數(shù)過大并且訓(xùn)練樣本數(shù)據(jù)相對(duì)較少的情況下,可以有效地避免出現(xiàn)維度災(zāi)難現(xiàn)象。分別對(duì)可能成立的模型進(jìn)行BIC值和AIC值的計(jì)算,從中找出,能使BIC值或者AIC值最小的參數(shù)p和參數(shù)q,計(jì)算結(jié)果見表3-1,表3-2.012345678901774.5204821759.2563321749.1640601753.6568891757.191188NaNNoneNoneNoneNone11772.5108171751.089492NaN1756.5087061761.7450141759.216760NoneNoneNoneNone21766.7113791754.8129121757.9184231762.3859831759.7883161764.121832NoneNoneNoneNone31771.2640141758.8687591761.9712981756.479211NaNNaNNoneNoneNoneNone41772.3480711757.7315021744.7117301744.430573NaNNaNNoneNoneNoneNone51771.8174381761.722407NaNNaNNaNNaNNoneNoneNoneNone61776.3646501766.2498951796.2788581773.527580NaNNaNNoneNoneNoneNone71778.6722291763.612854NaNNaNNaNNaNNoneNoneNoneNone81780.7445181763.463135NaNNaNNaNNaNNoneNoneNoneNone91780.2615621758.541671NaNNaNNaNNaNNoneNoneNoneNone表3-1不同p,q參數(shù)所建立模型的BIC值012345678901769.4127281751.5947011738.9485531740.8875051741.867927NaNNoneNoneNoneNone11764.8491871740.873984NaN1741.1854451743.8678761738.785745NoneNoneNoneNone21756.4958721742.0435281742.5951621744.5088441739.3573011741.136940NoneNoneNoneNone31758.4946291743.5454981744.0941601736.048196NaNNaNNoneNoneNoneNone41757.0248091739.8543641724.2807151721.445681NaNNaNNoneNoneNoneNone51753.9403001741.291392NaNNaNNaNNaNNoneNoneNoneNone61755.9336341743.2650031770.7400891745.434934NaNNaNNoneNoneNoneNone71755.6873371738.074085NaNNaNNaNNaNNoneNoneNoneNone81755.2057491735.370489NaNNaNNaNNaNNoneNoneNoneNone91752.1689171727.895148NaNNaNNaNNaNNoneNoneNoneNone表3-2不同p,q參數(shù)所建立模型的AIC值選擇BIC和AIC值最小的p、q參數(shù)值,觀察BIC表,發(fā)現(xiàn)BIC值最小為1744.43,對(duì)應(yīng)的參數(shù)值為:p值為4,q值為3;觀察AIC表。發(fā)現(xiàn)AIC值最小為1721.44,對(duì)應(yīng)的參數(shù)值為:p值為4,q值為3,最后我們建立的模型為ARIMA(4,1,3)。進(jìn)行殘差檢驗(yàn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論