【《基于數(shù)據(jù)挖掘的共享單車需求預(yù)測系統(tǒng)設(shè)計實現(xiàn)》13000字(論文)】_第1頁
【《基于數(shù)據(jù)挖掘的共享單車需求預(yù)測系統(tǒng)設(shè)計實現(xiàn)》13000字(論文)】_第2頁
【《基于數(shù)據(jù)挖掘的共享單車需求預(yù)測系統(tǒng)設(shè)計實現(xiàn)》13000字(論文)】_第3頁
【《基于數(shù)據(jù)挖掘的共享單車需求預(yù)測系統(tǒng)設(shè)計實現(xiàn)》13000字(論文)】_第4頁
【《基于數(shù)據(jù)挖掘的共享單車需求預(yù)測系統(tǒng)設(shè)計實現(xiàn)》13000字(論文)】_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于數(shù)據(jù)挖掘的共享單車需求預(yù)測系統(tǒng)設(shè)計實現(xiàn)目錄1緒論 )本文使用貝葉斯優(yōu)化對LSTM的神經(jīng)元個數(shù)進(jìn)行優(yōu)化,得到最佳神經(jīng)元個數(shù)為244個。圖SEQ圖\*ARABIC10LSTM預(yù)測結(jié)果由圖5.2所示,將2019-5.1300.00到2019-5-1923.30的時間段按序列進(jìn)行排序,對模型的預(yù)測數(shù)據(jù)和真實數(shù)據(jù)進(jìn)行擬合比對,發(fā)現(xiàn)擬合效果良好。設(shè)置初始訓(xùn)練批次為200次,設(shè)置earlystopping機制的最小性能提升量min_delta=0.001,設(shè)置停止訓(xùn)練批次的時段patience=20,輸入標(biāo)準(zhǔn)化的數(shù)據(jù),經(jīng)模型訓(xùn)練,學(xué)習(xí)曲線如圖11所示。圖SEQ圖\*ARABIC11訓(xùn)練學(xué)習(xí)曲線經(jīng)LSTM模型預(yù)測,得到訓(xùn)練精確度為0.7657,其中驗證集最小誤差為0.2186。5.2極端隨機樹回歸由于極端隨機樹在共享單車需求預(yù)測上的較好性能ADDINEN.CITE<EndNote><Cite><Author>曹旦旦</Author><Year>2021</Year><RecNum>90</RecNum><DisplayText><styleface="superscript">[15]</style></DisplayText><record><rec-number>90</rec-number><foreign-keys><keyapp="EN"db-id="d9t90r2wpfz9dle22z3vw2z2ee9av0r5z22p"timestamp="1620824463">90</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>曹旦旦</author><author>范書瑞</author><author>夏克文</author></authors></contributors><auth-address>河北工業(yè)大學(xué)電子信息工程學(xué)院;河北工業(yè)大學(xué)大數(shù)據(jù)重點實驗室;</auth-address><titles><title>共享單車短時需求量預(yù)測的機器學(xué)習(xí)方法比較</title><secondary-title>計算機仿真</secondary-title></titles><periodical><full-title>計算機仿真</full-title></periodical><pages>92-97</pages><volume>38</volume><number>01</number><keywords><keyword>共享單車</keyword><keyword>數(shù)據(jù)分析</keyword><keyword>極端隨機樹</keyword><keyword>需求量預(yù)測</keyword><keyword>機器學(xué)習(xí)</keyword></keywords><dates><year>2021</year></dates><isbn>1006-9348</isbn><call-num>11-3724/TP</call-num><urls></urls><remote-database-provider>Cnki</remote-database-provider></record></Cite></EndNote>[15],本次研究選擇將極端隨機樹作為Stacking策略集成學(xué)習(xí)的初級學(xué)習(xí)器之一。訓(xùn)練數(shù)據(jù)首先選取雙層聚類輸出的任一簇中的訂單數(shù)據(jù),之后篩選出開鎖時間在某一個半小時內(nèi)的訂單,統(tǒng)計開鎖時間在此半小時內(nèi)的訂單個數(shù),將個數(shù)作為此半小時內(nèi)該區(qū)域簇內(nèi)的共享單車需求量,之后提取南京逐小時地面氣象數(shù)據(jù),由于本次預(yù)測的樣本數(shù)據(jù)是基于每半個小時時間段的需求樣本,因此把每小時的氣象信息分配給一個小時時間段內(nèi)的兩個半小時時間段樣本。與此同時,為了預(yù)測某時段的需求,過去時間段的同區(qū)域的需求量對當(dāng)前的需求量也有較大影響,因此將過去時段的需求量作為回歸的自變量是有必要的,然而現(xiàn)實中,過去的歷史數(shù)據(jù)常有缺失,因此提取過去過長時段的需求量不利于算法的實際應(yīng)用,但是提取過短時段的需求量又不利于提升預(yù)測的準(zhǔn)確率,因此,此算法選擇提取過去6個小時的需求量作為自變量,即12個“半小時”需求量,設(shè)置此變量后,原始樣本中的前12個樣本因為缺少過去時段的需求量數(shù)據(jù),因此刪去這些樣本。最終的數(shù)據(jù)屬性說明如表5.2所示。表SEQ表\*ARABIC5ET訓(xùn)練數(shù)據(jù)說明屬性名稱說明數(shù)據(jù)形式t此樣本所屬時段的時段序號int(0-335)demand本時間段內(nèi)的需求量inttime需求量區(qū)段的起點datetimedate時段的日期inthour時段所屬小時intminute時段在這個小時的前半小時還是后半小時,前半小時為0,后半小時為1intweekday是否為工作日,是工作日為1,不是工作日為0intPRS氣壓地面氣壓floatWIN_S_AVG_2MI風(fēng)速一小時內(nèi)每2分鐘平均風(fēng)速的平均值floatTEM溫度溫度floatRHU(相對濕度)相對濕度floatPRE_1H一小時降水量一小時降水量floatt-1前一個時段的需求量intt-2t-2時段的需求量intt-3t-3時段的需求量intt-4t-4時段的需求量intt-5t-5時段的需求量intt-6t-6時段的需求量intt-7t-7時段的需求量intt-8t-8時段的需求量intt-9t-9時段的需求量intt-10t-10時段的需求量intt-11t-11時段的需求量intt-12t-12時段的需求量int用來訓(xùn)練模型的樣本屬性包括date,hour,minute,weekday,PRS氣壓,WIN_S_AVG_2MI風(fēng)速,TEM溫度,RHU(相對濕度),PRE_1H一小時降水量,模型的輸出屬性是demand,即樣本所屬區(qū)域在樣本所屬時段的需求量。使用針對時間序列的劃分訓(xùn)練集與測試集的方法,即不打亂樣本隨機抽樣,而是按照時段序號t遞增的順序去全部樣本中前80%的樣本作為訓(xùn)練集,后20%的樣本作為測試集。本次研究以均方差為屬性劃分的準(zhǔn)則,構(gòu)建極端隨機樹回歸算法,當(dāng)尋找最優(yōu)的分割屬性集時,極端隨機數(shù)會將所有屬性作為待選屬性,并且此極端隨機樹的節(jié)點會一直生成子節(jié)點,除非節(jié)點中的樣本需求量相同或者節(jié)點中只有一個樣本。極端隨機樹的一個重要超參數(shù)即是包含決策樹的個數(shù),本次研究嘗試決策樹個數(shù)從20個到1000個,觀察擁有不同數(shù)量決策樹的極端隨機樹在全部樣本的5折交叉驗證得分的變化曲線,如圖12所示。圖SEQ圖\*ARABIC12交叉驗證得分隨ET決策數(shù)個數(shù)變化曲線觀察到交叉驗證得分在決策樹個數(shù)達(dá)到100后就無顯著提升,因此我們將決策樹個數(shù)設(shè)置為100,將訓(xùn)練集輸入訓(xùn)練模型,之后將測試集輸入觀察預(yù)測效果,預(yù)測值與實際值的比較如圖13所示.圖SEQ圖\*ARABIC13實際值與ET預(yù)測值比較5.3stacking集成為了提升預(yù)測的準(zhǔn)確率,我們選擇stacking集成策略的集成學(xué)習(xí),集成多個初級學(xué)習(xí)器。全部樣本即是構(gòu)建極端隨機樹時使用的數(shù)據(jù)樣本,我們?nèi)砸?:2的比例分割時間序列數(shù)據(jù)集為訓(xùn)練集Trainset和測試集Testset。在第一層訓(xùn)練中,初級學(xué)習(xí)器采用4折交叉驗證的訓(xùn)練方式,即訓(xùn)練初級學(xué)習(xí)器時,將訓(xùn)練集經(jīng)過劃分得到4份同樣數(shù)量的測試集,具體方法是,第一次訓(xùn)練選取前15的樣本作為第一次的訓(xùn)練集Trainset1,15到25的樣本為第一次分割的測試集Testset1;第二次訓(xùn)練取全部樣本的前25為訓(xùn)練集Trainset2,25到35的樣本為第二次分割的測試集Testset2;第三次分割取全部樣本的前35為訓(xùn)練集Trainset3,35到4圖SEQ圖\*ARABIC14數(shù)據(jù)集劃分圖每一個初級學(xué)習(xí)器經(jīng)過第一層訓(xùn)練產(chǎn)生的Testsetn組合起來得到了對應(yīng)于總訓(xùn)練集Trainset樣本數(shù)目的Trainsetisecond,Trainsetisecond表示第i個學(xué)習(xí)經(jīng)過第一層訓(xùn)練得到的數(shù)目與更多的初級學(xué)習(xí)器個數(shù)不能保證集成學(xué)習(xí)模型的預(yù)測精度更高,而應(yīng)該更深入地探究不同初級學(xué)習(xí)器的組合策略ADDINEN.CITE<EndNote><Cite><Author>徐長興</Author><Year>2021</Year><RecNum>89</RecNum><DisplayText><styleface="superscript">[16]</style></DisplayText><record><rec-number>89</rec-number><foreign-keys><keyapp="EN"db-id="d9t90r2wpfz9dle22z3vw2z2ee9av0r5z22p"timestamp="1620824463">89</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>徐長興</author><author>汪偉平</author><author>昌錫銘</author><author>包旭</author><author>吳建軍</author></authors></contributors><auth-address>北京交通大學(xué)軌道交通控制與安全國家重點實驗室;淮陰工學(xué)院交通工程學(xué)院;</auth-address><titles><title>基于因果分析和相似日選擇的共享單車需求量預(yù)測組合模型</title><secondary-title>山東科學(xué)</secondary-title></titles><periodical><full-title>山東科學(xué)</full-title></periodical><pages>54-64</pages><volume>34</volume><number>02</number><keywords><keyword>共享單車</keyword><keyword>出行需求</keyword><keyword>因果分析</keyword><keyword>灰色關(guān)聯(lián)度</keyword><keyword>相似日</keyword><keyword>機器學(xué)習(xí)</keyword><keyword>Stacking策略</keyword></keywords><dates><year>2021</year></dates><isbn>1002-4026</isbn><call-num>37-1188/N</call-num><urls></urls><remote-database-provider>Cnki</remote-database-provider></record></Cite></EndNote>[16]。初級學(xué)習(xí)器和次級學(xué)習(xí)器的模型選擇對最后的集成學(xué)習(xí)模型的預(yù)測準(zhǔn)確率有著很大影響。本此研究比較了不同的模型選擇下集成學(xué)習(xí)模型的預(yù)測精度。為了比較不同組合策略的預(yù)測精度,確定最優(yōu)組合模型的結(jié)構(gòu),本此研究比較了多種組合策略,分別建立共享單車需求量預(yù)測模型,以精確度、均方誤差、均方根誤差、均方絕對誤差來衡量模型性能,輸入數(shù)據(jù)分別是雙層聚類輸出的簇類當(dāng)中的1號、10號、18號簇數(shù)據(jù),所有簇的性能衡量指標(biāo)取平均作為最終的性能衡量指標(biāo)。如表5.3所示,不同組合策略下的模型預(yù)測精度存在差異。策略2采用極端隨機樹和支持向量回歸作為初級學(xué)習(xí)器,策略3在策略2的基礎(chǔ)上,初級學(xué)習(xí)器將支持向量回歸變?yōu)榱硕嘣€性回歸。相較策略2,由于初級學(xué)習(xí)器的不同,策略3的預(yù)測精確度略有提高,同時誤差也稍有降低,相較策略4,策略3的MSE下降了20.2,也說明了集成學(xué)習(xí)相較于單個學(xué)習(xí)器的性能優(yōu)越性。初級學(xué)習(xí)器的預(yù)測精度對組合模型的預(yù)測精度有著重要影響。若初級學(xué)習(xí)器預(yù)測性能較差,可能會造成組合模型的預(yù)測精度降低。策略4和策略5作為單學(xué)習(xí)器與其他集成學(xué)習(xí)策略相比較,預(yù)測準(zhǔn)確度更低。由于組合策略1的預(yù)測誤差最小,因此本此研究采用的最優(yōu)組合模型以長短期記憶神經(jīng)網(wǎng)絡(luò)和極端隨機樹回歸為初級學(xué)習(xí)器,多元線性回歸為次級學(xué)習(xí)器。LSTM+ET作為初級學(xué)習(xí),LR作為次級學(xué)習(xí)器的stacking策略集成學(xué)習(xí),將預(yù)測的精確度提高到超過82%,能夠有效預(yù)測各區(qū)域的共享單車各時段的需求量,表明與其他預(yù)測基礎(chǔ)模型相比,本文提出的組合模型具有更高的預(yù)測精度,可為實際車輛調(diào)度提供參考依據(jù)。表SEQ表\*ARABIC6不同組合的預(yù)測性能比較策略`初級學(xué)習(xí)器次級學(xué)習(xí)器精確度MSERMSEMAE1LSTM+ETLR0.82105.210.257.782SVR+ETLR0.79180.0512.159.263LR+ETLR0.80183.513.159.884ET0.78205.0514.3211.315LSTM0.74六結(jié)論與建議本文提出了一種基于訂單數(shù)據(jù)挖掘的共享單車需求預(yù)測方法。獲取了南京市玄武區(qū)2019年5月13日至2019年5月19日的共享單車訂單數(shù)量,在對數(shù)據(jù)進(jìn)行去重、刪除異常值等清洗操作后,采用一種雙層聚類方法詳細(xì)劃分共享單車運營區(qū)域,然后將訂單數(shù)據(jù)按時間聚集并統(tǒng)計共享單車需求量,比較了LSTM模型、極端隨機樹回歸以及stacking集成三種方法對單車需求量的預(yù)測效果。本文的主要貢獻(xiàn)有以下兩點:第一,提出一種基于出行特征和土地利用特性的雙層聚類方法?;贙-means++算法,以單車出行者起終點的經(jīng)緯度坐標(biāo)作為第一層聚類的特征,充分考慮了用戶群體日常出行的空間分布特征;將第一層聚類結(jié)果與城市POI數(shù)據(jù)結(jié)合,以POI數(shù)據(jù)的類型和數(shù)量作為第二層聚類的特征,充分考慮不同簇的土地利用特性相似度。第二:基于訂單數(shù)據(jù)和天氣數(shù)據(jù)開發(fā)了三種共享單車需求預(yù)測模型,多變量LSTM模型、極端隨機樹模型和stacking集成模型,結(jié)果顯示將LSTM與極端隨機樹結(jié)合的集成學(xué)習(xí)模型預(yù)測效果較好,精度較高。由于時間和精力有限,本研究還存在一些不足和改進(jìn)方向:根據(jù)聚類劃分的運營區(qū)域和單車需求預(yù)測結(jié)果,融入共享單車的動態(tài)調(diào)度算法,實時調(diào)控單車的時空間分布;在開發(fā)需求預(yù)測模型時,采集更多源的數(shù)據(jù),增加特征數(shù)量以提高預(yù)測精度。參考文獻(xiàn):ADDINEN.REFLIST[1] 焦志倫,金紅,劉秉鐮,等.大數(shù)據(jù)驅(qū)動下的共享單車短期需求預(yù)測——基于機器學(xué)習(xí)模型的比較分析[J].商業(yè)經(jīng)濟(jì)與管理,2018,(08):16-25+35.[2] BAOJ,YUH,WUJ.Short-termFFBSdemandpredictionwithmulti-sourcedatainahybriddeeplearningframework[J].IETIntelligentTransportSystems,2019,13(9).[3] 孔靜.無樁式共享單車站點需求預(yù)測及調(diào)度路徑優(yōu)化研究[D].長安大學(xué),2018.[4] 李金昌.統(tǒng)計測度:統(tǒng)計學(xué)邁向數(shù)據(jù)科學(xué)的基礎(chǔ)[J].統(tǒng)計研究,2015,32(08):3-9.[5] 陳星佑.基于分層聚類及LSTM模型的共享單車流量預(yù)測研究[D].上海財經(jīng)大學(xué),2020.[6] 華明壯.基于訂單數(shù)據(jù)挖掘的共享單車調(diào)度需求分析方法研究[D].東南大學(xué),2018.[7] MATTSONJ,GODAVARTHYR.BikeshareinFargo,NorthDakota:Keystosuccessandfactorsaffectingridership[J].SustainableCitiesandSociety,2017,34.[8] CAMPBELLAA,CHERRYCR,RYERSONMS,等.FactorsinfluencingthechoiceofsharedbicyclesandsharedelectricbikesinBeijing[J].TransportationResearchPartC,2016,67.[9] RIEXYRA.Station-levelforecastingofbikesharingridership:stationnetworkeffectsinthreeU.S.Systems[M].London:SAGEPublications,2012.[10] CHENL,ZHANGD,WANGL,等.Dynamiccluster-basedover-demandpredictioninbikesharingsystems[J].P

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論