




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
基于GWAC天文光變曲線的異常檢測方法:探索與創(chuàng)新一、引言1.1研究背景與意義在浩瀚無垠的宇宙中,隱藏著無數(shù)的奧秘等待人類去探索。天文學(xué)作為一門研究宇宙中天體的性質(zhì)、結(jié)構(gòu)、演化以及宇宙整體性質(zhì)和規(guī)律的科學(xué),一直以來都吸引著眾多科學(xué)家的目光。隨著科技的不斷進(jìn)步,天文觀測設(shè)備的性能也在不斷提升,能夠獲取到的數(shù)據(jù)量呈爆炸式增長。地基廣角相機(jī)陣(GroundWideAngleCamera,GWAC)作為一種先進(jìn)的天文觀測設(shè)備,在現(xiàn)代天文學(xué)研究中發(fā)揮著至關(guān)重要的作用。GWAC是中法合作的SVOM(SpaceVariableObjectsMonitor)天文衛(wèi)星的重要地基觀測設(shè)備之一。它由一組口徑為18厘米的小望遠(yuǎn)鏡組成陣列,具有超大的觀測視場和較高的時(shí)間采樣分辨率。其一次觀測能覆蓋2000多平方度的天區(qū),遠(yuǎn)期將覆蓋5000平方度,極限星等為V15等,曝光時(shí)長為10秒,曝光間隔為15秒。這種獨(dú)特的設(shè)計(jì)使得GWAC能夠?qū)Υ竺娣e天區(qū)進(jìn)行快速掃描和監(jiān)測,為天文學(xué)家提供了大量的天文數(shù)據(jù)。在實(shí)際觀測中,GWAC取得了一系列重要成果。例如,國家天文臺SVOM團(tuán)隊(duì)利用GWAC成功探測到一例伽馬射線暴(GRB201223A)的瞬時(shí)光學(xué)輻射及其向極早期余輝的轉(zhuǎn)變過程,這是國際上首次將瞬時(shí)光學(xué)輻射的探測突破到暴發(fā)持續(xù)不到30秒的伽馬暴,遠(yuǎn)短于之前的事例。此外,借助GWAC,天文學(xué)家還探測到了名為SDSSJ013333.08+003223.7的極冷星的超級耀斑,該耀斑被命名為GWAC181229A,是迄今為止在極冷星上被觀測到的最劇烈的耀斑之一。這些成果充分展示了GWAC在探測瞬變天體和研究宇宙中極端物理過程方面的強(qiáng)大能力。隨著GWAC觀測數(shù)據(jù)的不斷積累,如何從這些海量數(shù)據(jù)中挖掘出有價(jià)值的信息成為了天文學(xué)研究中的一個(gè)關(guān)鍵問題。異常檢測作為一種重要的數(shù)據(jù)挖掘技術(shù),在天文研究中具有重要的應(yīng)用價(jià)值。通過對GWAC天文光變曲線進(jìn)行異常檢測,可以發(fā)現(xiàn)一些罕見的天文現(xiàn)象,如超新星爆發(fā)、伽馬射線暴、恒星耀斑等。這些異常現(xiàn)象往往蘊(yùn)含著豐富的物理信息,對于我們深入理解宇宙的演化和物理規(guī)律具有重要意義。超新星爆發(fā)是恒星演化的一種劇烈結(jié)局,它在短時(shí)間內(nèi)釋放出巨大的能量,其亮度可以在短時(shí)間內(nèi)增加數(shù)億倍甚至更多。通過對GWAC光變曲線的異常檢測,能夠及時(shí)發(fā)現(xiàn)超新星爆發(fā)的跡象,為后續(xù)的多波段觀測和研究提供寶貴的時(shí)間窗口。這有助于天文學(xué)家研究恒星的演化歷程、元素的合成與分布等重要問題。伽馬射線暴是宇宙中最劇烈的天體物理現(xiàn)象之一,它的能量釋放極其巨大,能夠在短時(shí)間內(nèi)發(fā)出比太陽在一整天內(nèi)釋放的能量還要多的伽馬射線。及時(shí)檢測到伽馬射線暴,并對其光變曲線進(jìn)行深入分析,有助于我們了解宇宙中的極端相對論噴流、暴周環(huán)境及前身星特性等。恒星耀斑是恒星表面局部區(qū)域突然增亮的現(xiàn)象,它反映了恒星內(nèi)部的磁場活動(dòng)和能量釋放過程。對恒星耀斑的研究可以幫助我們更好地理解恒星的物理性質(zhì)和演化過程,以及恒星與行星之間的相互作用。異常檢測還有助于驗(yàn)證和完善現(xiàn)有的天文學(xué)理論。天文學(xué)理論是基于對大量天文現(xiàn)象的觀測和分析建立起來的,但這些理論仍然存在許多未知和不確定性。通過發(fā)現(xiàn)和研究異常天文現(xiàn)象,可以對現(xiàn)有的理論進(jìn)行檢驗(yàn)和挑戰(zhàn),推動(dòng)天文學(xué)理論的不斷發(fā)展和完善。如果檢測到的異?,F(xiàn)象無法用現(xiàn)有的理論來解釋,那么就需要科學(xué)家們提出新的理論模型或?qū)ΜF(xiàn)有理論進(jìn)行修正,從而促進(jìn)天文學(xué)的進(jìn)步。GWAC在天文觀測中具有重要地位,能夠?yàn)槲覀兲峁┐罅康奶煳臄?shù)據(jù)。而異常檢測作為一種有效的數(shù)據(jù)挖掘手段,對于從GWAC數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的天文信息、推動(dòng)天文學(xué)研究的發(fā)展具有不可替代的作用。因此,開展基于GWAC天文光變曲線的異常檢測方法研究具有重要的現(xiàn)實(shí)意義和科學(xué)價(jià)值。1.2國內(nèi)外研究現(xiàn)狀隨著天文學(xué)觀測技術(shù)的飛速發(fā)展,天文數(shù)據(jù)量呈指數(shù)級增長,如何從海量的天文數(shù)據(jù)中有效地檢測出異常光變曲線成為了天文學(xué)研究領(lǐng)域的一個(gè)重要課題。國內(nèi)外眾多學(xué)者針對這一問題開展了廣泛而深入的研究,取得了一系列具有重要價(jià)值的研究成果。在國外,研究人員運(yùn)用多種方法對天文光變曲線進(jìn)行異常檢測。機(jī)器學(xué)習(xí)算法在天文數(shù)據(jù)處理中得到了廣泛應(yīng)用,如決策樹、隨機(jī)森林、支持向量機(jī)等。[學(xué)者姓名1]等人利用決策樹算法對天文光變曲線進(jìn)行分類,通過對不同類型天體光變曲線特征的學(xué)習(xí),能夠有效地識別出一些異常的光變曲線,為后續(xù)的天文研究提供了有價(jià)值的線索。隨機(jī)森林算法則通過構(gòu)建多個(gè)決策樹并進(jìn)行綜合決策,提高了異常檢測的準(zhǔn)確性和穩(wěn)定性。[學(xué)者姓名2]運(yùn)用隨機(jī)森林算法對大規(guī)模天文數(shù)據(jù)集進(jìn)行分析,成功地檢測出了一些罕見的天體現(xiàn)象,展示了該算法在處理復(fù)雜天文數(shù)據(jù)時(shí)的優(yōu)勢。支持向量機(jī)通過尋找一個(gè)最優(yōu)的超平面來區(qū)分正常和異常數(shù)據(jù),在天文光變曲線異常檢測中也表現(xiàn)出了良好的性能。[學(xué)者姓名3]利用支持向量機(jī)對特定天區(qū)的天文光變曲線進(jìn)行異常檢測,能夠準(zhǔn)確地識別出一些與已知天體光變模式不同的異常信號。深度學(xué)習(xí)技術(shù)的興起為天文光變曲線異常檢測帶來了新的思路和方法。卷積神經(jīng)網(wǎng)絡(luò)(CNN)能夠自動(dòng)學(xué)習(xí)數(shù)據(jù)的特征,在圖像識別領(lǐng)域取得了巨大成功,也被應(yīng)用于天文光變曲線的分析。[學(xué)者姓名4]將CNN應(yīng)用于天文光變曲線的分類和異常檢測,通過對大量光變曲線圖像的訓(xùn)練,模型能夠準(zhǔn)確地識別出不同類型的天體以及異常的光變情況。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)及其變體,如長短期記憶網(wǎng)絡(luò)(LSTM)和門控循環(huán)單元(GRU),由于其對時(shí)間序列數(shù)據(jù)的良好處理能力,在天文光變曲線分析中也得到了廣泛應(yīng)用。[學(xué)者姓名5]利用LSTM網(wǎng)絡(luò)對天文光變曲線進(jìn)行建模,能夠有效地捕捉光變曲線中的長期依賴關(guān)系,從而準(zhǔn)確地檢測出異常變化。變分自編碼器(VAE)和生成對抗網(wǎng)絡(luò)(GAN)等生成模型也被嘗試應(yīng)用于天文光變曲線異常檢測。[學(xué)者姓名6]使用VAE學(xué)習(xí)正常光變曲線的分布,通過計(jì)算重建誤差來判斷數(shù)據(jù)是否異常,取得了較好的檢測效果。GAN則通過生成器和判別器的對抗訓(xùn)練,學(xué)習(xí)數(shù)據(jù)的分布特征,進(jìn)而識別出異常數(shù)據(jù)。[學(xué)者姓名7]利用GAN對天文光變曲線進(jìn)行異常檢測,能夠發(fā)現(xiàn)一些傳統(tǒng)方法難以檢測到的異常模式。在國內(nèi),相關(guān)研究也在積極開展。國內(nèi)學(xué)者結(jié)合國內(nèi)天文觀測設(shè)備的特點(diǎn)和數(shù)據(jù)優(yōu)勢,提出了一系列具有創(chuàng)新性的異常檢測方法。[學(xué)者姓名8]等人針對我國郭守敬望遠(yuǎn)鏡(LAMOST)的光譜數(shù)據(jù),提出了一種基于深度學(xué)習(xí)的異常檢測方法。該方法通過構(gòu)建深度神經(jīng)網(wǎng)絡(luò)模型,對光譜數(shù)據(jù)進(jìn)行特征提取和分類,能夠有效地檢測出光譜中的異常信號,為恒星演化和星系形成等研究提供了重要的數(shù)據(jù)支持。[學(xué)者姓名9]基于我國的500米口徑球面射電望遠(yuǎn)鏡(FAST)數(shù)據(jù),研究了脈沖星信號的異常檢測方法。通過對脈沖星信號的特征分析和模型構(gòu)建,實(shí)現(xiàn)了對脈沖星信號中的異常干擾和噪聲的有效識別,提高了脈沖星信號的檢測精度和可靠性。針對GWAC天文光變曲線的異常檢測研究也逐漸受到關(guān)注。[學(xué)者姓名10]提出了一種基于統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí)相結(jié)合的方法,對GWAC光變曲線進(jìn)行異常檢測。該方法首先通過統(tǒng)計(jì)分析提取光變曲線的基本特征,如均值、標(biāo)準(zhǔn)差、峰值等,然后利用機(jī)器學(xué)習(xí)算法對這些特征進(jìn)行分類和建模,從而實(shí)現(xiàn)對異常光變曲線的識別。實(shí)驗(yàn)結(jié)果表明,該方法在GWAC光變曲線異常檢測中具有較高的準(zhǔn)確率和召回率。[學(xué)者姓名11]利用深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)相結(jié)合的模型,對GWAC光變曲線進(jìn)行異常檢測。該模型能夠充分利用卷積神經(jīng)網(wǎng)絡(luò)對圖像特征的提取能力和循環(huán)神經(jīng)網(wǎng)絡(luò)對時(shí)間序列數(shù)據(jù)的處理能力,有效地捕捉光變曲線中的時(shí)空特征,提高了異常檢測的性能。盡管國內(nèi)外在天文光變曲線異常檢測方面取得了一定的成果,但仍存在一些不足之處。現(xiàn)有方法在處理大規(guī)模、高維度的天文數(shù)據(jù)時(shí),計(jì)算效率和內(nèi)存消耗方面面臨挑戰(zhàn)。天文數(shù)據(jù)量巨大,數(shù)據(jù)維度也較高,傳統(tǒng)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法在處理這些數(shù)據(jù)時(shí)需要消耗大量的計(jì)算資源和時(shí)間,難以滿足實(shí)時(shí)性要求。部分異常檢測方法對數(shù)據(jù)的依賴性較強(qiáng),泛化能力有待提高。不同的天文觀測設(shè)備和觀測條件會(huì)導(dǎo)致數(shù)據(jù)特征存在差異,一些方法在特定數(shù)據(jù)集上表現(xiàn)良好,但在其他數(shù)據(jù)集上的性能可能會(huì)大幅下降。此外,對于一些復(fù)雜的天文現(xiàn)象,如多種天體現(xiàn)象相互疊加導(dǎo)致的異常光變,現(xiàn)有的檢測方法還難以準(zhǔn)確識別和分析。未來的研究需要進(jìn)一步探索更加高效、魯棒的異常檢測方法,以應(yīng)對不斷增長的天文數(shù)據(jù)和復(fù)雜多變的天文現(xiàn)象。1.3研究內(nèi)容與方法本研究圍繞GWAC天文光變曲線的異常檢測展開,旨在探索高效準(zhǔn)確的異常檢測方法,從海量天文數(shù)據(jù)中挖掘出有價(jià)值的異常信息。具體研究內(nèi)容如下:GWAC天文光變曲線數(shù)據(jù)特性分析:深入研究GWAC獲取的天文光變曲線數(shù)據(jù),分析其數(shù)據(jù)特性。GWAC具有超大的觀測視場和較高的時(shí)間采樣分辨率,一次觀測能覆蓋2000多平方度的天區(qū),遠(yuǎn)期將覆蓋5000平方度,曝光時(shí)長為10秒,曝光間隔為15秒。其光變曲線數(shù)據(jù)在時(shí)間序列上呈現(xiàn)出復(fù)雜的變化模式,不同天體的光變曲線具有不同的特征,包括周期性變化、爆發(fā)性變化等。通過對這些特性的分析,為后續(xù)的異常檢測方法選擇和模型構(gòu)建提供依據(jù)。異常檢測方法研究:對現(xiàn)有的異常檢測方法進(jìn)行深入研究和比較,包括基于統(tǒng)計(jì)的方法、基于機(jī)器學(xué)習(xí)的方法以及基于深度學(xué)習(xí)的方法?;诮y(tǒng)計(jì)的方法如3σ準(zhǔn)則,通過計(jì)算數(shù)據(jù)的均值和標(biāo)準(zhǔn)差,將偏離均值超過3倍標(biāo)準(zhǔn)差的數(shù)據(jù)點(diǎn)視為異常點(diǎn)。這種方法簡單直觀,但對于復(fù)雜的數(shù)據(jù)分布和非高斯數(shù)據(jù),其檢測效果可能不佳。基于機(jī)器學(xué)習(xí)的方法如IsolationForest算法,通過構(gòu)建隔離樹來隔離異常點(diǎn),能夠有效地處理高維數(shù)據(jù)和非線性數(shù)據(jù),但對數(shù)據(jù)的依賴性較強(qiáng),泛化能力有待提高。基于深度學(xué)習(xí)的方法如變分自編碼器(VAE),通過學(xué)習(xí)正常光變曲線的分布,計(jì)算重建誤差來判斷數(shù)據(jù)是否異常,能夠自動(dòng)學(xué)習(xí)數(shù)據(jù)的特征,在處理復(fù)雜數(shù)據(jù)時(shí)具有優(yōu)勢,但計(jì)算復(fù)雜度較高,訓(xùn)練過程也較為復(fù)雜。根據(jù)GWAC光變曲線數(shù)據(jù)的特點(diǎn),選擇合適的方法進(jìn)行改進(jìn)和優(yōu)化。特征工程:針對GWAC天文光變曲線數(shù)據(jù),進(jìn)行特征提取和選擇。光變曲線的特征包括統(tǒng)計(jì)特征,如均值、標(biāo)準(zhǔn)差、峰值、偏度、峰度等,這些特征可以反映光變曲線的基本統(tǒng)計(jì)特性;頻率特征,通過傅里葉變換等方法得到,能夠體現(xiàn)光變曲線的周期性變化信息;形態(tài)特征,如上升時(shí)間、下降時(shí)間、持續(xù)時(shí)間等,有助于描述光變曲線的形狀和變化趨勢。采用相關(guān)性分析、主成分分析(PCA)等方法對提取的特征進(jìn)行篩選,去除冗余特征,提高異常檢測的效率和準(zhǔn)確性。相關(guān)性分析可以衡量特征之間的線性相關(guān)性,去除相關(guān)性較高的特征,避免信息重復(fù)。PCA則可以通過降維的方式,將高維特征轉(zhuǎn)換為低維特征,同時(shí)保留數(shù)據(jù)的主要信息。模型構(gòu)建與訓(xùn)練:根據(jù)選擇的異常檢測方法和提取的特征,構(gòu)建異常檢測模型。如果采用深度學(xué)習(xí)方法,如基于LSTM的異常檢測模型,需要搭建合適的網(wǎng)絡(luò)結(jié)構(gòu),包括輸入層、隱藏層和輸出層。輸入層接收光變曲線的特征數(shù)據(jù),隱藏層通過LSTM單元學(xué)習(xí)數(shù)據(jù)中的時(shí)間序列特征,輸出層則輸出異常檢測的結(jié)果。使用GWAC的實(shí)際觀測數(shù)據(jù)對模型進(jìn)行訓(xùn)練,通過調(diào)整模型的參數(shù),如學(xué)習(xí)率、隱藏層節(jié)點(diǎn)數(shù)等,使模型能夠準(zhǔn)確地識別出異常光變曲線。在訓(xùn)練過程中,采用交叉驗(yàn)證等方法評估模型的性能,不斷優(yōu)化模型。實(shí)驗(yàn)驗(yàn)證與結(jié)果分析:利用GWAC的真實(shí)數(shù)據(jù)對構(gòu)建的異常檢測模型進(jìn)行實(shí)驗(yàn)驗(yàn)證。將數(shù)據(jù)分為訓(xùn)練集和測試集,在訓(xùn)練集上訓(xùn)練模型,在測試集上評估模型的性能。采用準(zhǔn)確率、召回率、F1值等指標(biāo)對模型的性能進(jìn)行評估。準(zhǔn)確率是指檢測出的異常樣本中真正的異常樣本所占的比例,召回率是指真正的異常樣本中被正確檢測出的比例,F(xiàn)1值則是綜合考慮準(zhǔn)確率和召回率的指標(biāo),能夠更全面地反映模型的性能。通過與其他現(xiàn)有方法進(jìn)行對比,分析所提出方法的優(yōu)勢和不足,進(jìn)一步改進(jìn)和完善異常檢測方法。為了實(shí)現(xiàn)上述研究內(nèi)容,本研究采用了以下研究方法:文獻(xiàn)研究法:廣泛查閱國內(nèi)外關(guān)于天文光變曲線異常檢測的相關(guān)文獻(xiàn),了解該領(lǐng)域的研究現(xiàn)狀和發(fā)展趨勢,總結(jié)現(xiàn)有方法的優(yōu)缺點(diǎn),為本研究提供理論基礎(chǔ)和研究思路。通過對文獻(xiàn)的分析,發(fā)現(xiàn)當(dāng)前研究在處理大規(guī)模、高維度天文數(shù)據(jù)時(shí)存在計(jì)算效率和內(nèi)存消耗的問題,以及部分方法泛化能力不足等問題,從而明確本研究的重點(diǎn)和方向。實(shí)驗(yàn)研究法:設(shè)計(jì)并進(jìn)行實(shí)驗(yàn),對不同的異常檢測方法進(jìn)行對比和驗(yàn)證。通過實(shí)驗(yàn),收集數(shù)據(jù)并分析模型的性能指標(biāo),從而確定最優(yōu)的異常檢測方法和模型參數(shù)。在實(shí)驗(yàn)過程中,嚴(yán)格控制實(shí)驗(yàn)條件,確保實(shí)驗(yàn)結(jié)果的可靠性和可重復(fù)性。對比分析法:將本研究提出的異常檢測方法與其他現(xiàn)有方法進(jìn)行對比分析,從檢測準(zhǔn)確率、召回率、計(jì)算效率等多個(gè)方面進(jìn)行評估,突出本研究方法的優(yōu)勢和創(chuàng)新點(diǎn)。通過對比,發(fā)現(xiàn)本研究方法在處理GWAC光變曲線數(shù)據(jù)時(shí),在某些性能指標(biāo)上優(yōu)于現(xiàn)有方法,為該領(lǐng)域的研究提供了新的解決方案。1.4研究創(chuàng)新點(diǎn)與難點(diǎn)本研究在基于GWAC天文光變曲線的異常檢測方法研究中,具有多方面的創(chuàng)新思路,同時(shí)也面臨著一系列挑戰(zhàn)。1.4.1創(chuàng)新點(diǎn)多方法融合創(chuàng)新:本研究將嘗試融合多種異常檢測方法,構(gòu)建一種全新的混合模型。在處理GWAC光變曲線數(shù)據(jù)時(shí),將基于統(tǒng)計(jì)的方法與深度學(xué)習(xí)方法相結(jié)合。先利用3σ準(zhǔn)則等統(tǒng)計(jì)方法對數(shù)據(jù)進(jìn)行初步篩選,快速定位可能的異常區(qū)域,再將這些區(qū)域的數(shù)據(jù)輸入到深度學(xué)習(xí)模型,如變分自編碼器(VAE)中進(jìn)行精細(xì)分析。這樣既能發(fā)揮統(tǒng)計(jì)方法的簡單高效,又能利用深度學(xué)習(xí)模型強(qiáng)大的特征學(xué)習(xí)能力,提高異常檢測的準(zhǔn)確性和效率。特征工程創(chuàng)新:針對GWAC光變曲線數(shù)據(jù),深入挖掘其獨(dú)特的特征,并提出新的特征提取和選擇方法。除了傳統(tǒng)的統(tǒng)計(jì)特征、頻率特征和形態(tài)特征外,還將考慮引入一些與天體物理過程相關(guān)的特征。對于超新星爆發(fā)的光變曲線,其特征不僅包括亮度的變化,還可能與爆發(fā)的物理機(jī)制,如物質(zhì)拋射速度、能量釋放方式等有關(guān)。通過提取這些特征,可以更全面地描述光變曲線,提高異常檢測的準(zhǔn)確率。在特征選擇方面,將采用一種基于信息增益和相關(guān)性分析的聯(lián)合方法,去除冗余和不相關(guān)的特征,提高模型的訓(xùn)練效率和泛化能力。模型優(yōu)化創(chuàng)新:對深度學(xué)習(xí)模型進(jìn)行創(chuàng)新優(yōu)化,以更好地適應(yīng)GWAC光變曲線數(shù)據(jù)的特點(diǎn)。針對循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在處理長序列數(shù)據(jù)時(shí)存在梯度消失和梯度爆炸的問題,對長短期記憶網(wǎng)絡(luò)(LSTM)的結(jié)構(gòu)進(jìn)行改進(jìn)。在LSTM單元中引入注意力機(jī)制,使模型能夠更加關(guān)注光變曲線中關(guān)鍵的時(shí)間點(diǎn)和變化趨勢,從而更準(zhǔn)確地捕捉異常信號。還將探索如何利用遷移學(xué)習(xí)技術(shù),將在其他天文數(shù)據(jù)集上訓(xùn)練好的模型參數(shù)遷移到本研究的模型中,減少模型的訓(xùn)練時(shí)間和數(shù)據(jù)需求,提高模型的性能。1.4.2難點(diǎn)數(shù)據(jù)處理難點(diǎn):GWAC產(chǎn)生的天文光變曲線數(shù)據(jù)量巨大,數(shù)據(jù)的存儲(chǔ)和傳輸面臨挑戰(zhàn)。隨著觀測時(shí)間的增加,數(shù)據(jù)量會(huì)不斷增長,如何高效地存儲(chǔ)這些數(shù)據(jù),以及在模型訓(xùn)練和分析過程中快速地傳輸數(shù)據(jù),是需要解決的問題。數(shù)據(jù)的噪聲和缺失值處理也較為困難。天文觀測受到多種因素的影響,如大氣干擾、儀器誤差等,導(dǎo)致光變曲線數(shù)據(jù)中存在大量噪聲。數(shù)據(jù)缺失值的出現(xiàn)也較為常見,這會(huì)影響模型的訓(xùn)練和預(yù)測效果。需要研究有效的噪聲濾波和缺失值填充方法,提高數(shù)據(jù)的質(zhì)量。算法優(yōu)化難點(diǎn):現(xiàn)有的異常檢測算法在處理GWAC光變曲線數(shù)據(jù)時(shí),計(jì)算效率和內(nèi)存消耗較高。深度學(xué)習(xí)算法通常需要大量的計(jì)算資源和內(nèi)存,在處理大規(guī)模數(shù)據(jù)時(shí),訓(xùn)練時(shí)間長,容易出現(xiàn)內(nèi)存溢出等問題。需要對算法進(jìn)行優(yōu)化,提高計(jì)算效率,降低內(nèi)存消耗。算法的泛化能力也是一個(gè)難點(diǎn)。不同的GWAC觀測區(qū)域和觀測時(shí)間,數(shù)據(jù)的特征可能存在差異,如何使訓(xùn)練好的模型能夠在不同的數(shù)據(jù)上都具有較好的檢測性能,是需要解決的問題。結(jié)果解釋難點(diǎn):深度學(xué)習(xí)模型通常被認(rèn)為是“黑盒模型”,其檢測結(jié)果難以解釋。在天文研究中,對異常檢測結(jié)果的解釋非常重要,天文學(xué)家需要了解檢測到的異常是由何種天文現(xiàn)象引起的。如何對深度學(xué)習(xí)模型的檢測結(jié)果進(jìn)行解釋,使其能夠?yàn)樘煳膶W(xué)家提供有價(jià)值的信息,是本研究面臨的一個(gè)挑戰(zhàn)。需要研究可視化技術(shù)和解釋性模型,將模型的檢測結(jié)果以直觀的方式呈現(xiàn)出來,并分析異常產(chǎn)生的原因。二、GWAC天文光變曲線相關(guān)理論基礎(chǔ)2.1GWAC概述地基廣角相機(jī)陣(GroundWideAngleCamera,GWAC)是中法合作的SVOM(SpaceVariableObjectsMonitor)天文衛(wèi)星的重要地基觀測設(shè)備,在現(xiàn)代天文學(xué)研究中占據(jù)著舉足輕重的地位。其獨(dú)特的設(shè)計(jì)和強(qiáng)大的功能,為天文學(xué)家探索宇宙奧秘提供了有力的工具。GWAC主要由一組口徑為18厘米的小望遠(yuǎn)鏡組成陣列。這些小望遠(yuǎn)鏡協(xié)同工作,賦予了GWAC超大的觀測視場,使其一次觀測便能覆蓋2000多平方度的天區(qū),遠(yuǎn)期更是計(jì)劃覆蓋5000平方度。這種大視場的觀測能力,使得GWAC能夠?qū)Υ竺娣e的星空進(jìn)行快速掃描,極大地提高了發(fā)現(xiàn)瞬變天體和監(jiān)測天體變化的概率。在探測伽馬射線暴時(shí),GWAC的大視場可以在短時(shí)間內(nèi)對大片天區(qū)進(jìn)行監(jiān)測,增加了捕捉到伽馬射線暴瞬時(shí)光學(xué)輻射的機(jī)會(huì)。GWAC具備較高的時(shí)間采樣分辨率,曝光時(shí)長為10秒,曝光間隔僅為15秒。這意味著它能夠以較快的頻率對天體進(jìn)行觀測,及時(shí)捕捉到天體亮度的快速變化。對于一些爆發(fā)性的天文現(xiàn)象,如超新星爆發(fā)、恒星耀斑等,GWAC的高時(shí)間采樣分辨率可以記錄下這些現(xiàn)象的詳細(xì)變化過程,為天文學(xué)家研究這些天體的物理機(jī)制提供豐富的數(shù)據(jù)。GWAC的工作原理基于光學(xué)成像技術(shù)。當(dāng)來自天體的光線進(jìn)入望遠(yuǎn)鏡后,會(huì)被聚焦到探測器上,探測器將光線轉(zhuǎn)化為電信號或數(shù)字信號,然后通過數(shù)據(jù)處理系統(tǒng)進(jìn)行處理和存儲(chǔ)。在這個(gè)過程中,GWAC利用其大視場和高時(shí)間采樣分辨率的特點(diǎn),對天區(qū)進(jìn)行連續(xù)觀測,獲取天體在不同時(shí)間點(diǎn)的亮度信息,從而形成光變曲線。在實(shí)際觀測中,GWAC需要精確的指向和跟蹤系統(tǒng),以確保能夠準(zhǔn)確地觀測到目標(biāo)天體。同時(shí),為了保證觀測數(shù)據(jù)的質(zhì)量,還需要對觀測環(huán)境進(jìn)行監(jiān)測和控制,減少大氣干擾、光污染等因素對觀測結(jié)果的影響。在天文觀測領(lǐng)域,GWAC發(fā)揮著多方面的重要作用。它能夠?yàn)樘煳膶W(xué)家提供大量的天文數(shù)據(jù),這些數(shù)據(jù)涵蓋了不同類型的天體和天文現(xiàn)象,為天文學(xué)研究提供了豐富的素材。通過對這些數(shù)據(jù)的分析和研究,天文學(xué)家可以深入了解天體的性質(zhì)、演化過程以及宇宙的結(jié)構(gòu)和演化。在研究恒星演化時(shí),GWAC可以監(jiān)測恒星在不同階段的亮度變化,幫助天文學(xué)家了解恒星內(nèi)部的物理過程和能量釋放機(jī)制。GWAC在探測瞬變天體方面具有獨(dú)特的優(yōu)勢。瞬變天體如伽馬射線暴、超新星等,其爆發(fā)時(shí)間短暫且具有隨機(jī)性,傳統(tǒng)的觀測設(shè)備很難及時(shí)捕捉到它們。而GWAC的大視場和高時(shí)間采樣分辨率使其能夠?qū)Υ竺娣e天區(qū)進(jìn)行實(shí)時(shí)監(jiān)測,大大提高了發(fā)現(xiàn)瞬變天體的概率。國家天文臺SVOM團(tuán)隊(duì)利用GWAC成功探測到一例伽馬射線暴(GRB201223A)的瞬時(shí)光學(xué)輻射及其向極早期余輝的轉(zhuǎn)變過程,這一成果充分展示了GWAC在探測瞬變天體方面的強(qiáng)大能力。GWAC還可以與其他天文觀測設(shè)備協(xié)同工作,形成多波段、多尺度的觀測網(wǎng)絡(luò)。通過與空間望遠(yuǎn)鏡、射電望遠(yuǎn)鏡等設(shè)備的聯(lián)合觀測,天文學(xué)家可以從不同的角度和波段對天體進(jìn)行研究,獲取更全面的天體信息,從而更深入地理解天體的物理本質(zhì)。與X射線望遠(yuǎn)鏡聯(lián)合觀測伽馬射線暴時(shí),可以同時(shí)研究伽馬射線暴在X射線波段和光學(xué)波段的輻射特性,為揭示伽馬射線暴的物理機(jī)制提供更多線索。2.2天文光變曲線原理光變曲線是天文學(xué)中用于描述天體亮度隨時(shí)間變化的圖形,它是時(shí)間的函數(shù),以時(shí)間為橫坐標(biāo),天體的亮度為縱坐標(biāo),通過繪制不同時(shí)刻天體的亮度值,形成一條反映天體亮度變化趨勢的曲線。光變曲線在天文學(xué)研究中具有舉足輕重的地位,它如同天體的“指紋”,蘊(yùn)含著豐富的天體物理信息,是天文學(xué)家了解天體性質(zhì)、結(jié)構(gòu)和演化的重要工具。光變曲線的形成機(jī)制與天體的物理過程密切相關(guān)。對于恒星而言,其光變曲線的變化可能由多種因素引起。恒星的周期性脈動(dòng)是導(dǎo)致光變曲線呈現(xiàn)周期性變化的常見原因之一。造父變星是一類典型的脈動(dòng)變星,其內(nèi)部存在著周期性的壓力和溫度變化,使得恒星的半徑和亮度發(fā)生周期性的膨脹和收縮。當(dāng)恒星膨脹時(shí),表面積增大,輻射面積增加,亮度升高;當(dāng)恒星收縮時(shí),表面積減小,輻射面積減小,亮度降低。這種周期性的變化使得造父變星的光變曲線呈現(xiàn)出規(guī)則的周期性,且其周期與恒星的光度之間存在著緊密的關(guān)系,即周光關(guān)系。天文學(xué)家可以利用這一關(guān)系,通過測量造父變星的光變周期來推斷其絕對光度,進(jìn)而確定其距離,因此造父變星也被稱為“量天尺”。食雙星系統(tǒng)的光變曲線則是由兩顆恒星相互繞轉(zhuǎn)時(shí)的掩食現(xiàn)象造成的。在食雙星系統(tǒng)中,兩顆恒星彼此繞著共同的質(zhì)心旋轉(zhuǎn),當(dāng)其中一顆恒星遮擋住另一顆恒星時(shí),就會(huì)發(fā)生掩食現(xiàn)象,導(dǎo)致我們觀測到的系統(tǒng)總亮度下降。根據(jù)兩顆恒星的大小、亮度以及它們之間的相對位置和軌道傾角等因素,食雙星的光變曲線會(huì)呈現(xiàn)出不同的形狀和特征。當(dāng)較大較亮的主星被較小較暗的伴星遮擋時(shí),光變曲線會(huì)出現(xiàn)較深的主極??;當(dāng)伴星被主星遮擋時(shí),光變曲線會(huì)出現(xiàn)較淺的次極小。通過對食雙星光變曲線的分析,天文學(xué)家可以獲取兩顆恒星的半徑、質(zhì)量、軌道參數(shù)等重要信息,深入研究雙星系統(tǒng)的演化過程。對于一些爆發(fā)性的天體現(xiàn)象,如超新星爆發(fā),其光變曲線的形成機(jī)制則截然不同。超新星爆發(fā)是恒星演化到末期時(shí)發(fā)生的一種極其劇烈的爆炸事件,在短時(shí)間內(nèi)釋放出巨大的能量。在超新星爆發(fā)初期,由于恒星內(nèi)部的核反應(yīng)和物質(zhì)拋射,其亮度會(huì)迅速上升,達(dá)到峰值后,隨著能量的逐漸消耗和物質(zhì)的擴(kuò)散,亮度會(huì)逐漸下降。不同類型的超新星,其光變曲線的形狀和變化速率也有所不同。Ia型超新星的光變曲線具有較為相似的特征,其亮度上升迅速,在達(dá)到峰值后,亮度下降的速率較為均勻。這是因?yàn)镮a型超新星是由白矮星吸積物質(zhì)達(dá)到錢德拉塞卡極限后發(fā)生爆炸形成的,其爆炸機(jī)制相對較為統(tǒng)一。而其他類型的超新星,如II型超新星,其光變曲線則更加復(fù)雜,這與它們的前身星質(zhì)量、內(nèi)部結(jié)構(gòu)以及爆炸過程中的物質(zhì)拋射等因素密切相關(guān)。通過對超新星光變曲線的研究,天文學(xué)家可以了解恒星演化的最終階段、宇宙中的元素合成以及暗能量的性質(zhì)等重要問題。除了上述天體現(xiàn)象外,還有許多其他因素也會(huì)導(dǎo)致天體的光變曲線發(fā)生變化。恒星耀斑是恒星表面局部區(qū)域突然增亮的現(xiàn)象,它通常是由于恒星內(nèi)部的磁場活動(dòng)和能量釋放引起的。當(dāng)恒星表面的磁場發(fā)生重聯(lián)時(shí),會(huì)釋放出大量的能量,加熱恒星表面的物質(zhì),使其發(fā)出強(qiáng)烈的輻射,導(dǎo)致恒星的亮度在短時(shí)間內(nèi)急劇增加。恒星耀斑的光變曲線具有快速上升和緩慢下降的特點(diǎn),其持續(xù)時(shí)間從幾分鐘到幾小時(shí)不等?;顒?dòng)星系核是一類具有強(qiáng)烈電磁輻射變化的特殊河外天體,其中心一般有超大質(zhì)量的黑洞和相對論性噴流?;顒?dòng)星系核的光變曲線變化較為復(fù)雜,可能在不同波段呈現(xiàn)出不同的變化特征。其光變機(jī)制與黑洞的吸積過程、噴流的產(chǎn)生和演化以及周圍物質(zhì)的相互作用等因素有關(guān)。通過對活動(dòng)星系核光變曲線的研究,天文學(xué)家可以深入了解超大質(zhì)量黑洞的物理性質(zhì)、噴流的形成和傳播機(jī)制以及星系的演化等問題。天文光變曲線的形成機(jī)制多種多樣,不同的天體物理過程會(huì)導(dǎo)致光變曲線呈現(xiàn)出不同的特征。通過對光變曲線的仔細(xì)分析和研究,天文學(xué)家能夠獲取關(guān)于天體的豐富物理信息,從而推動(dòng)天文學(xué)的不斷發(fā)展和進(jìn)步。2.3異常檢測的重要性在浩瀚無垠的宇宙中,隱藏著無數(shù)尚未被揭示的奧秘,而異常檢測在天文研究中扮演著至關(guān)重要的角色,為天文學(xué)家開啟了一扇探索未知宇宙的大門。異常檢測是發(fā)現(xiàn)新天體的重要途徑。宇宙中存在著各種各樣的天體,其中許多罕見的天體由于其獨(dú)特的物理性質(zhì)和演化過程,其光變曲線往往表現(xiàn)出與常見天體不同的特征。通過對GWAC天文光變曲線進(jìn)行異常檢測,能夠從海量的數(shù)據(jù)中篩選出這些具有異常特征的光變曲線,從而為發(fā)現(xiàn)新天體提供線索。一些新發(fā)現(xiàn)的系外行星,其宿主恒星的光變曲線會(huì)因?yàn)樾行堑牧栊乾F(xiàn)象而出現(xiàn)周期性的微小變化。這種變化相較于恒星自身的亮度波動(dòng)來說非常微弱,屬于異常信號。通過異常檢測算法,可以捕捉到這些細(xì)微的變化,進(jìn)而推斷出系外行星的存在。如果沒有異常檢測技術(shù),這些隱藏在大量數(shù)據(jù)中的微弱信號很容易被忽略,許多新天體可能就會(huì)與我們失之交臂。異常檢測有助于揭示天體的演化規(guī)律。天體的演化是一個(gè)漫長而復(fù)雜的過程,不同階段的天體在光變曲線上會(huì)呈現(xiàn)出不同的特征。一些恒星在演化后期會(huì)經(jīng)歷紅巨星階段,其亮度會(huì)發(fā)生顯著變化,光變曲線也會(huì)出現(xiàn)異常波動(dòng)。通過對這些異常光變曲線的分析,天文學(xué)家可以了解恒星在不同演化階段的物理過程和能量釋放機(jī)制,從而構(gòu)建更加完善的恒星演化模型。在研究星系演化時(shí),異常檢測可以幫助我們發(fā)現(xiàn)星系中正在發(fā)生的特殊事件,如星系碰撞、恒星形成爆發(fā)等。這些事件會(huì)導(dǎo)致星系的光變曲線出現(xiàn)異常,通過對這些異常的研究,可以深入了解星系的演化歷史和相互作用過程。異常檢測還能夠?yàn)樘煳膶W(xué)理論的發(fā)展提供支持。天文學(xué)理論是基于對大量天文現(xiàn)象的觀測和總結(jié)而建立起來的,但隨著觀測技術(shù)的不斷進(jìn)步,越來越多的異?,F(xiàn)象被發(fā)現(xiàn),這些現(xiàn)象往往無法用現(xiàn)有的理論來解釋。通過對GWAC光變曲線的異常檢測,發(fā)現(xiàn)一些與傳統(tǒng)超新星理論不符的超新星光變曲線。這些異常現(xiàn)象促使天文學(xué)家重新審視和修正現(xiàn)有的超新星理論,提出新的物理模型和解釋,從而推動(dòng)天文學(xué)理論的不斷發(fā)展和完善。異常檢測也可以驗(yàn)證新的天文學(xué)理論和模型。如果新的理論預(yù)測了某種特定的異常光變曲線特征,通過異常檢測在實(shí)際觀測數(shù)據(jù)中尋找這些特征,就可以對理論進(jìn)行驗(yàn)證和評估。異常檢測在天文研究中具有不可替代的重要性。它不僅能夠幫助我們發(fā)現(xiàn)新天體,揭示天體的演化規(guī)律,還能夠?yàn)樘煳膶W(xué)理論的發(fā)展提供關(guān)鍵支持。隨著GWAC等天文觀測設(shè)備不斷獲取海量的數(shù)據(jù),異常檢測技術(shù)將在未來的天文學(xué)研究中發(fā)揮更加重要的作用,引領(lǐng)我們不斷深入探索宇宙的奧秘。三、現(xiàn)有GWAC天文光變曲線異常檢測方法分析3.1傳統(tǒng)統(tǒng)計(jì)方法3.1.1格拉布斯準(zhǔn)則格拉布斯準(zhǔn)則(Grubbs'test)是一種經(jīng)典的用于檢測數(shù)據(jù)中異常值的統(tǒng)計(jì)方法,其在許多領(lǐng)域的數(shù)據(jù)處理中都有廣泛應(yīng)用,在GWAC天文光變曲線異常檢測中也有一定的應(yīng)用。格拉布斯準(zhǔn)則的原理基于數(shù)據(jù)服從正態(tài)分布的假設(shè)。在一組數(shù)據(jù)中,它通過計(jì)算每個(gè)數(shù)據(jù)點(diǎn)與樣本均值的偏離程度,來判斷數(shù)據(jù)點(diǎn)是否為異常值。具體計(jì)算過程如下:首先,計(jì)算數(shù)據(jù)的平均值<spandata-type="inline-math"data-value="XG92ZXJsaW5le3h9XA==">和標(biāo)準(zhǔn)差<spandata-type="inline-math"data-value="c1w=">。對于一個(gè)數(shù)據(jù)點(diǎn)<spandata-type="inline-math"data-value="eF9pXA==">,計(jì)算其格拉布斯統(tǒng)計(jì)量<spandata-type="inline-math"data-value="R19pPVxmcmFje1x2ZXJ0IHhfaSAtIFxvdmVybGluZXt4fSBcdmVydH17c31c">。然后,根據(jù)給定的顯著性水平(如0.05)和樣本數(shù)量<spandata-type="inline-math"data-value="blw=">,查找相應(yīng)的格拉布斯臨界值<spandata-type="inline-math"data-value="R197bixcYWxwaGF9XA==">。若<spandata-type="inline-math"data-value="R19pPkdfe24sXGFscGhhfVw=">,則判定數(shù)據(jù)點(diǎn)<spandata-type="inline-math"data-value="eF9pXA==">為異常值。在GWAC天文光變曲線的異常檢測中,格拉布斯準(zhǔn)則的應(yīng)用方式相對直接。以某段時(shí)間內(nèi)對某天體的GWAC觀測光變曲線數(shù)據(jù)為例,假設(shè)獲取了一系列時(shí)間點(diǎn)的天體亮度值,這些亮度值構(gòu)成了光變曲線的數(shù)據(jù)點(diǎn)集合。先對這些數(shù)據(jù)點(diǎn)進(jìn)行均值和標(biāo)準(zhǔn)差的計(jì)算,得到該光變曲線數(shù)據(jù)的平均亮度和亮度變化的標(biāo)準(zhǔn)差。對于每一個(gè)亮度數(shù)據(jù)點(diǎn),計(jì)算其格拉布斯統(tǒng)計(jì)量,并與相應(yīng)的臨界值進(jìn)行比較。如果某個(gè)數(shù)據(jù)點(diǎn)的格拉布斯統(tǒng)計(jì)量超過臨界值,那么就可以初步認(rèn)為該數(shù)據(jù)點(diǎn)對應(yīng)的天體亮度變化可能是異常的,即可能存在一些特殊的天文現(xiàn)象導(dǎo)致了這種異常的亮度變化。格拉布斯準(zhǔn)則在GWAC光變曲線異常檢測中存在一定的局限性。它依賴于數(shù)據(jù)服從正態(tài)分布的假設(shè),而GWAC光變曲線數(shù)據(jù)往往具有復(fù)雜的分布特征,很難完全滿足正態(tài)分布。許多天體的光變曲線可能包含周期性變化、爆發(fā)性變化等,這些復(fù)雜的變化模式使得數(shù)據(jù)分布偏離正態(tài)分布,從而降低了格拉布斯準(zhǔn)則的檢測準(zhǔn)確性。當(dāng)光變曲線中存在多個(gè)異常值時(shí),格拉布斯準(zhǔn)則可能會(huì)受到這些異常值的影響,導(dǎo)致誤判或漏判。由于異常值的存在會(huì)改變數(shù)據(jù)的均值和標(biāo)準(zhǔn)差,使得后續(xù)對其他數(shù)據(jù)點(diǎn)是否為異常值的判斷出現(xiàn)偏差。格拉布斯準(zhǔn)則對于數(shù)據(jù)中的微小異常變化可能不夠敏感,一些天文現(xiàn)象引起的細(xì)微異??赡軣o法被有效檢測出來,因?yàn)樗饕P(guān)注的是與整體數(shù)據(jù)偏離較大的數(shù)據(jù)點(diǎn),對于那些雖然偏離均值但程度較小的異常變化難以察覺。3.1.2其他統(tǒng)計(jì)方法除了格拉布斯準(zhǔn)則外,貝葉斯推斷等其他統(tǒng)計(jì)方法在天文光變曲線異常檢測中也有應(yīng)用。貝葉斯推斷為異常檢測提供了一個(gè)概率框架,它通過結(jié)合先驗(yàn)知識與觀察數(shù)據(jù)來計(jì)算給定觀察值為異常事件的概率。在貝葉斯異常檢測中,先驗(yàn)概率表示在沒有任何觀察的情況下,事件為異常事件的概率;條件概率表示在事件發(fā)生的情況下觀察到特定數(shù)據(jù)的概率。通過貝葉斯定理,可以計(jì)算出后驗(yàn)概率,即給定觀察值時(shí)事件為異常事件的概率,高于預(yù)定義閾值的概率值表示觀察值為異常事件。在GWAC天文光變曲線異常檢測中,使用貝葉斯推斷方法時(shí),先根據(jù)已有的天文學(xué)知識和經(jīng)驗(yàn),為不同類型的天體光變曲線建立先驗(yàn)概率模型。對于常見的造父變星,其光變曲線具有特定的周期和亮度變化模式,我們可以基于大量已有的造父變星光變曲線數(shù)據(jù),確定其正常光變的先驗(yàn)概率分布。當(dāng)獲取到新的GWAC光變曲線數(shù)據(jù)時(shí),結(jié)合觀測到的數(shù)據(jù)特征,利用貝葉斯定理計(jì)算該光變曲線屬于異常的后驗(yàn)概率。如果后驗(yàn)概率超過設(shè)定的閾值,就認(rèn)為該光變曲線存在異常,可能對應(yīng)著新的天體現(xiàn)象或未知的物理過程。貝葉斯推斷方法在光變曲線異常檢測中具有一些特點(diǎn)。它提供了一個(gè)概率框架,允許對異常事件的發(fā)生進(jìn)行正式推理,這使得檢測結(jié)果具有一定的可解釋性,天文學(xué)家可以根據(jù)概率的大小來評估異常的可能性。貝葉斯方法可以通過增加新數(shù)據(jù)輕松更新先驗(yàn)概率,從而使模型能夠隨時(shí)間適應(yīng)不同的觀測情況,提高檢測的準(zhǔn)確性和適應(yīng)性。該方法也面臨一些挑戰(zhàn),選擇合適的先驗(yàn)概率至關(guān)重要,因?yàn)樗鼤?huì)直接影響后驗(yàn)概率的計(jì)算結(jié)果,但先驗(yàn)概率的選擇往往具有一定的主觀性,需要依賴于天文學(xué)知識和經(jīng)驗(yàn)。在某些情況下,計(jì)算后驗(yàn)概率可能是計(jì)算密集型的,尤其是當(dāng)光變曲線數(shù)據(jù)維度高或模型復(fù)雜時(shí),這會(huì)增加計(jì)算成本和時(shí)間開銷,對計(jì)算資源提出較高要求。3.2機(jī)器學(xué)習(xí)方法3.2.1基于分類模型的方法機(jī)器學(xué)習(xí)中的分類模型在GWAC天文光變曲線異常檢測中具有重要的應(yīng)用價(jià)值,通過對正常和異常光變曲線特征的學(xué)習(xí)和分類,能夠有效地識別出異常數(shù)據(jù)。支持向量機(jī)(SupportVectorMachine,SVM)是一種廣泛應(yīng)用的分類模型,在異常檢測領(lǐng)域也展現(xiàn)出了強(qiáng)大的性能。SVM的基本原理是尋找一個(gè)最優(yōu)的超平面,將不同類別的數(shù)據(jù)點(diǎn)盡可能分開,并且使兩類數(shù)據(jù)點(diǎn)到超平面的距離最大化,這個(gè)距離被稱為間隔。在GWAC光變曲線異常檢測中,將正常光變曲線數(shù)據(jù)作為一類,異常光變曲線數(shù)據(jù)作為另一類,通過SVM算法尋找最優(yōu)超平面來區(qū)分這兩類數(shù)據(jù)。在實(shí)際應(yīng)用中,SVM通過核技巧將低維空間中的非線性問題映射到高維空間,使其在高維空間中變得線性可分。常見的核函數(shù)有線性核、多項(xiàng)式核、高斯核等。對于GWAC光變曲線數(shù)據(jù),由于其特征復(fù)雜,可能存在非線性關(guān)系,高斯核函數(shù)常常被選用。以某一段GWAC觀測的天區(qū)數(shù)據(jù)為例,其中包含了大量的恒星和星系的光變曲線。首先對這些光變曲線進(jìn)行特征提取,提取的特征包括光變曲線的均值、標(biāo)準(zhǔn)差、峰值、周期性特征等。然后將這些特征作為輸入數(shù)據(jù),一部分?jǐn)?shù)據(jù)用于訓(xùn)練SVM模型,另一部分用于測試。在訓(xùn)練過程中,通過調(diào)整SVM的參數(shù),如核函數(shù)的參數(shù)、懲罰參數(shù)C等,使模型能夠準(zhǔn)確地區(qū)分正常和異常光變曲線。經(jīng)過訓(xùn)練后的SVM模型,在測試數(shù)據(jù)上取得了較好的檢測效果,能夠準(zhǔn)確地識別出一些具有異常亮度變化、異常周期變化的光變曲線,這些異常光變曲線可能對應(yīng)著超新星爆發(fā)、伽馬射線暴等罕見的天文現(xiàn)象。決策樹(DecisionTree)也是一種常用的分類模型,它通過構(gòu)建樹形結(jié)構(gòu)來進(jìn)行決策。決策樹的節(jié)點(diǎn)表示特征,分支表示特征的取值,葉節(jié)點(diǎn)表示分類結(jié)果。在GWAC光變曲線異常檢測中,決策樹模型根據(jù)光變曲線的不同特征進(jìn)行逐步劃分,最終確定光變曲線是否異常。對于一條光變曲線,決策樹首先根據(jù)其亮度變化的幅度這一特征進(jìn)行判斷,如果亮度變化幅度超過某個(gè)閾值,則進(jìn)入下一個(gè)節(jié)點(diǎn),繼續(xù)根據(jù)其他特征如變化的頻率等進(jìn)行進(jìn)一步判斷,直到最終確定該光變曲線是否為異常。在處理GWAC光變曲線數(shù)據(jù)時(shí),決策樹模型的構(gòu)建過程需要考慮多個(gè)因素。需要選擇合適的特征作為決策樹的節(jié)點(diǎn),這些特征應(yīng)該能夠有效地反映光變曲線的異常特性。對于一些具有周期性變化的天體光變曲線,周期特征就是一個(gè)重要的決策特征。還需要確定決策樹的深度,過深的決策樹可能會(huì)導(dǎo)致過擬合,而過淺的決策樹則可能無法充分學(xué)習(xí)數(shù)據(jù)的特征。通過對GWAC光變曲線數(shù)據(jù)的實(shí)驗(yàn),發(fā)現(xiàn)當(dāng)決策樹深度控制在一定范圍內(nèi)時(shí),能夠較好地平衡模型的準(zhǔn)確性和泛化能力。以一組包含不同類型天體光變曲線的GWAC數(shù)據(jù)為例,使用決策樹模型進(jìn)行異常檢測,結(jié)果顯示決策樹能夠快速地對光變曲線進(jìn)行分類,準(zhǔn)確地識別出一些明顯的異常光變曲線,但對于一些特征較為模糊、異常特征不明顯的光變曲線,決策樹的檢測效果相對較差?;诜诸惸P偷姆椒ㄔ贕WAC天文光變曲線異常檢測中各有優(yōu)劣。SVM能夠有效地處理非線性問題,對復(fù)雜的光變曲線特征具有較好的適應(yīng)性,但計(jì)算復(fù)雜度較高,訓(xùn)練時(shí)間較長。決策樹模型簡單直觀,計(jì)算速度快,易于理解和解釋,但容易出現(xiàn)過擬合現(xiàn)象,對數(shù)據(jù)的噪聲較為敏感。在實(shí)際應(yīng)用中,需要根據(jù)GWAC光變曲線數(shù)據(jù)的特點(diǎn)和具體需求,選擇合適的分類模型或結(jié)合多種模型的優(yōu)勢,以提高異常檢測的準(zhǔn)確性和效率。3.2.2聚類分析方法聚類分析作為一種無監(jiān)督學(xué)習(xí)方法,在GWAC天文光變曲線異常檢測中發(fā)揮著獨(dú)特的作用,它能夠在沒有預(yù)先標(biāo)記數(shù)據(jù)的情況下,根據(jù)數(shù)據(jù)的相似性將光變曲線劃分為不同的簇,從而發(fā)現(xiàn)潛在的異常簇。聚類算法的基本原理是基于數(shù)據(jù)點(diǎn)之間的相似性度量,將相似的數(shù)據(jù)點(diǎn)聚集在一起形成簇。在GWAC光變曲線數(shù)據(jù)中,相似性度量可以基于光變曲線的多種特征,如亮度變化模式、周期性特征、峰值特征等。對于具有相似周期性變化的光變曲線,它們在特征空間中的距離較近,會(huì)被聚類到同一個(gè)簇中;而那些具有異常變化模式的光變曲線,由于其特征與其他大部分光變曲線不同,會(huì)被劃分到單獨(dú)的簇中,這些單獨(dú)的簇就可能包含異常的天文現(xiàn)象。以K-Means聚類算法為例,其工作流程如下:首先,隨機(jī)選擇K個(gè)初始聚類中心,這里的K值需要根據(jù)實(shí)際情況進(jìn)行設(shè)定,對于GWAC光變曲線數(shù)據(jù),K值的選擇可以參考已知的天體類型數(shù)量或通過多次實(shí)驗(yàn)來確定。然后,計(jì)算每個(gè)光變曲線數(shù)據(jù)點(diǎn)到這K個(gè)聚類中心的距離,通常使用歐幾里得距離等距離度量方法。將每個(gè)數(shù)據(jù)點(diǎn)分配到距離它最近的聚類中心所在的簇中。完成分配后,重新計(jì)算每個(gè)簇的中心,即該簇中所有數(shù)據(jù)點(diǎn)的均值。不斷重復(fù)上述分配和更新中心的步驟,直到聚類中心不再發(fā)生變化或變化非常小,此時(shí)聚類過程結(jié)束。在應(yīng)用K-Means聚類算法對GWAC光變曲線進(jìn)行異常檢測時(shí),通過對大量光變曲線數(shù)據(jù)的聚類分析,能夠發(fā)現(xiàn)一些具有獨(dú)特特征的簇。在一次對某一特定天區(qū)的GWAC光變曲線聚類實(shí)驗(yàn)中,發(fā)現(xiàn)了一個(gè)與其他簇明顯不同的簇。該簇中的光變曲線具有快速上升和緩慢下降的特征,且亮度變化幅度較大,與常見的恒星和星系光變曲線特征差異顯著。進(jìn)一步分析發(fā)現(xiàn),這個(gè)簇中的光變曲線很可能對應(yīng)著超新星爆發(fā)事件。通過對該簇光變曲線的詳細(xì)研究,天文學(xué)家可以獲取超新星爆發(fā)的更多信息,如爆發(fā)的時(shí)間、亮度變化規(guī)律等,為超新星的研究提供了重要的數(shù)據(jù)支持。除了K-Means算法,密度聚類算法如DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)也在GWAC光變曲線異常檢測中具有重要應(yīng)用。DBSCAN算法的核心思想是基于數(shù)據(jù)點(diǎn)的密度,將密度相連的數(shù)據(jù)點(diǎn)劃分為一個(gè)簇,同時(shí)能夠識別出噪聲點(diǎn)。在GWAC光變曲線數(shù)據(jù)中,密度高的區(qū)域?qū)?yīng)著具有相似特征的光變曲線聚集區(qū),而密度低的區(qū)域則可能包含異常數(shù)據(jù)點(diǎn)或噪聲。DBSCAN算法通過設(shè)定兩個(gè)重要參數(shù):半徑eps和最小點(diǎn)數(shù)MinPts來確定數(shù)據(jù)點(diǎn)的密度。以每個(gè)數(shù)據(jù)點(diǎn)為圓心,以eps為半徑畫圓,統(tǒng)計(jì)圓內(nèi)的數(shù)據(jù)點(diǎn)數(shù)量。如果圓內(nèi)的數(shù)據(jù)點(diǎn)數(shù)量大于等于MinPts,則該點(diǎn)被認(rèn)為是核心點(diǎn);如果某個(gè)點(diǎn)在核心點(diǎn)的eps鄰域內(nèi),但不是核心點(diǎn),則它是邊界點(diǎn);如果某個(gè)點(diǎn)既不是核心點(diǎn)也不是邊界點(diǎn),則它被視為噪聲點(diǎn)。通過密度可達(dá)性和密度相連性的概念,將核心點(diǎn)和其密度可達(dá)的點(diǎn)連接起來形成聚類簇。在對GWAC光變曲線數(shù)據(jù)使用DBSCAN算法時(shí),能夠有效地發(fā)現(xiàn)一些形狀不規(guī)則的簇,這些簇可能包含了不同類型的異常光變曲線。在對一片包含多種天體的天區(qū)進(jìn)行觀測得到的光變曲線數(shù)據(jù)進(jìn)行DBSCAN聚類時(shí),發(fā)現(xiàn)了一個(gè)形狀不規(guī)則的簇,該簇中的光變曲線特征各異,但都與周圍其他簇的光變曲線有明顯區(qū)別。經(jīng)過進(jìn)一步分析,發(fā)現(xiàn)這個(gè)簇中包含了一些由于恒星耀斑、雙星相互作用等特殊天文現(xiàn)象導(dǎo)致的異常光變曲線。這些發(fā)現(xiàn)為天文學(xué)家研究這些特殊天文現(xiàn)象提供了線索,有助于深入了解天體的物理過程和演化機(jī)制。聚類分析方法在GWAC天文光變曲線異常檢測中能夠發(fā)現(xiàn)一些隱藏在數(shù)據(jù)中的異常模式和簇,為天文學(xué)家提供了新的研究思路和方向。不同的聚類算法具有各自的特點(diǎn)和適用場景,在實(shí)際應(yīng)用中需要根據(jù)GWAC光變曲線數(shù)據(jù)的具體情況選擇合適的算法和參數(shù),以提高異常檢測的效果和準(zhǔn)確性。3.3深度學(xué)習(xí)方法3.3.1循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)及其變體循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)作為一種專門處理序列數(shù)據(jù)的深度學(xué)習(xí)模型,在處理GWAC天文光變曲線這類時(shí)間序列數(shù)據(jù)時(shí)展現(xiàn)出獨(dú)特的優(yōu)勢。RNN的結(jié)構(gòu)中包含循環(huán)連接,這使得它能夠捕捉到時(shí)間序列數(shù)據(jù)中的前后依賴關(guān)系。在GWAC光變曲線中,天體的亮度在不同時(shí)間點(diǎn)的變化并非孤立的,而是存在著時(shí)間上的關(guān)聯(lián)性。RNN可以通過隱藏層的循環(huán)結(jié)構(gòu),記住之前時(shí)間步的信息,并將其用于當(dāng)前時(shí)間步的計(jì)算,從而有效地對光變曲線的時(shí)間序列特征進(jìn)行建模。在實(shí)際應(yīng)用中,RNN能夠?qū)W習(xí)到光變曲線中周期性變化、趨勢變化等特征。對于具有周期性變化的天體光變曲線,RNN可以通過不斷學(xué)習(xí)不同周期內(nèi)的亮度變化模式,準(zhǔn)確地預(yù)測下一個(gè)周期的亮度變化趨勢。當(dāng)面對一顆造父變星的光變曲線時(shí),RNN可以從歷史數(shù)據(jù)中學(xué)習(xí)到其亮度隨時(shí)間周期性變化的規(guī)律,進(jìn)而對未來的亮度變化進(jìn)行預(yù)測。如果在預(yù)測過程中發(fā)現(xiàn)實(shí)際觀測的亮度與預(yù)測值出現(xiàn)較大偏差,就可以判斷該光變曲線可能存在異常,這種異??赡軐?yīng)著天體物理狀態(tài)的變化,如恒星內(nèi)部物質(zhì)的拋射、雙星系統(tǒng)中兩顆恒星的相互作用等。然而,RNN在處理長序列數(shù)據(jù)時(shí)存在一些局限性,其中最主要的問題是梯度消失和梯度爆炸。在RNN的訓(xùn)練過程中,隨著時(shí)間步的增加,梯度在反向傳播時(shí)會(huì)逐漸消失或爆炸,導(dǎo)致模型難以學(xué)習(xí)到長距離的依賴關(guān)系。這在處理GWAC光變曲線時(shí)可能會(huì)影響對一些長時(shí)間尺度變化特征的捕捉,從而降低異常檢測的準(zhǔn)確性。為了解決RNN的這些問題,長短期記憶網(wǎng)絡(luò)(LongShort-TermMemory,LSTM)和門控循環(huán)單元(GatedRecurrentUnit,GRU)等變體應(yīng)運(yùn)而生。LSTM通過引入門控機(jī)制,包括輸入門、遺忘門和輸出門,有效地控制了信息的流動(dòng)和記憶。遺忘門決定了上一時(shí)刻的記憶單元中哪些信息需要保留,輸入門決定了當(dāng)前輸入的哪些信息需要加入到記憶單元中,輸出門則決定了記憶單元中的哪些信息將被輸出用于當(dāng)前時(shí)間步的計(jì)算。這種門控機(jī)制使得LSTM能夠更好地處理長序列數(shù)據(jù),有效地避免了梯度消失和梯度爆炸問題。在GWAC光變曲線異常檢測中,LSTM展現(xiàn)出了良好的性能。通過對大量正常光變曲線的訓(xùn)練,LSTM可以學(xué)習(xí)到不同類型天體光變曲線的特征模式。當(dāng)輸入一條新的光變曲線時(shí),LSTM可以根據(jù)學(xué)習(xí)到的模式判斷其是否正常。如果光變曲線中出現(xiàn)了與正常模式不同的異常變化,LSTM能夠及時(shí)檢測到并輸出異常信號。在監(jiān)測某一片天區(qū)的恒星時(shí),LSTM通過對該天區(qū)恒星正常光變曲線的學(xué)習(xí),能夠準(zhǔn)確地識別出其中一顆恒星突然發(fā)生的耀斑現(xiàn)象,因?yàn)橐邥?huì)導(dǎo)致光變曲線出現(xiàn)快速上升和緩慢下降的異常變化,與正常的光變模式截然不同。GRU是LSTM的一種簡化變體,它將輸入門和遺忘門合并為更新門,并將記憶單元和隱藏狀態(tài)合并。GRU在保持對長序列數(shù)據(jù)處理能力的同時(shí),減少了模型的參數(shù)數(shù)量,降低了計(jì)算復(fù)雜度,提高了訓(xùn)練效率。在處理GWAC光變曲線數(shù)據(jù)時(shí),GRU同樣能夠有效地捕捉光變曲線的時(shí)間序列特征,實(shí)現(xiàn)準(zhǔn)確的異常檢測。對于一些計(jì)算資源有限的場景,GRU由于其高效性,成為了一種更合適的選擇。以某一實(shí)際的GWAC光變曲線異常檢測案例為例,研究人員使用LSTM模型對一片包含多種天體的天區(qū)光變曲線進(jìn)行分析。在訓(xùn)練過程中,LSTM模型學(xué)習(xí)到了該天區(qū)中不同類型恒星、星系以及其他天體的正常光變模式。在后續(xù)的觀測中,模型檢測到一條光變曲線出現(xiàn)了異常變化。經(jīng)過進(jìn)一步分析發(fā)現(xiàn),這條光變曲線對應(yīng)的天體是一顆正在經(jīng)歷超新星爆發(fā)的恒星。由于LSTM模型準(zhǔn)確地捕捉到了光變曲線中的異常特征,為天文學(xué)家及時(shí)對這顆超新星進(jìn)行后續(xù)觀測和研究提供了寶貴的時(shí)間。RNN及其變體LSTM和GRU在處理GWAC天文光變曲線時(shí)間序列數(shù)據(jù)方面具有顯著的優(yōu)勢,能夠有效地捕捉光變曲線的特征,實(shí)現(xiàn)準(zhǔn)確的異常檢測。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,這些模型在天文學(xué)研究中的應(yīng)用前景將更加廣闊,有望幫助天文學(xué)家發(fā)現(xiàn)更多的宇宙奧秘。3.3.2卷積神經(jīng)網(wǎng)絡(luò)(CNN)卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)最初是為圖像識別任務(wù)而設(shè)計(jì)的,其核心特點(diǎn)是通過卷積層中的卷積核在數(shù)據(jù)上滑動(dòng)進(jìn)行卷積操作,自動(dòng)提取數(shù)據(jù)的局部特征。近年來,CNN在處理GWAC天文光變曲線用于異常檢測方面展現(xiàn)出了一定的可行性和獨(dú)特優(yōu)勢。GWAC天文光變曲線雖然本質(zhì)上是時(shí)間序列數(shù)據(jù),但可以將其看作是一種特殊的“一維圖像”,時(shí)間維度對應(yīng)圖像的橫軸,亮度值對應(yīng)圖像的縱軸。在這種視角下,CNN的卷積操作能夠有效地提取光變曲線中的局部特征。不同的卷積核大小和步長可以捕捉到光變曲線中不同時(shí)間尺度的變化特征。較小的卷積核可以捕捉到光變曲線中的短期快速變化,如恒星耀斑爆發(fā)時(shí)亮度的突然增加;較大的卷積核則可以捕捉到光變曲線中的長期趨勢變化,如超新星爆發(fā)后亮度的逐漸衰減。CNN中的池化層在處理光變曲線時(shí)也發(fā)揮著重要作用。池化層通過對局部區(qū)域的數(shù)據(jù)進(jìn)行下采樣,減少數(shù)據(jù)量的同時(shí)保留主要特征,降低計(jì)算復(fù)雜度并提高模型的泛化能力。在最大池化操作中,選擇局部區(qū)域中的最大值作為輸出,這能夠突出光變曲線中的峰值等重要特征;平均池化則計(jì)算局部區(qū)域的平均值,能夠平滑數(shù)據(jù),減少噪聲的影響。通過池化層的處理,可以有效地壓縮光變曲線數(shù)據(jù)的維度,同時(shí)保留對異常檢測至關(guān)重要的特征信息。在實(shí)際應(yīng)用中,將CNN應(yīng)用于GWAC光變曲線異常檢測時(shí),通常會(huì)構(gòu)建一個(gè)包含多個(gè)卷積層、池化層和全連接層的網(wǎng)絡(luò)結(jié)構(gòu)。首先,光變曲線數(shù)據(jù)經(jīng)過卷積層和池化層的交替處理,逐步提取和壓縮特征。然后,這些特征被輸入到全連接層進(jìn)行分類或異常判斷。全連接層通過權(quán)重矩陣將前面提取的特征映射到最終的輸出,輸出可以是一個(gè)表示異常程度的數(shù)值,也可以是一個(gè)分類結(jié)果,即判斷光變曲線是否異常。以某一具體的實(shí)驗(yàn)為例,研究人員收集了大量的GWAC光變曲線數(shù)據(jù),將其分為訓(xùn)練集、驗(yàn)證集和測試集。使用訓(xùn)練集對CNN模型進(jìn)行訓(xùn)練,通過調(diào)整卷積核大小、池化方式、網(wǎng)絡(luò)層數(shù)等參數(shù),優(yōu)化模型的性能。在驗(yàn)證集上評估模型的表現(xiàn),選擇性能最佳的模型參數(shù)。最終在測試集上進(jìn)行測試,結(jié)果表明CNN模型能夠準(zhǔn)確地檢測出光變曲線中的異常。在測試集中,包含了一些正常的恒星和星系光變曲線,以及一些由于超新星爆發(fā)、伽馬射線暴等異常天文現(xiàn)象導(dǎo)致的異常光變曲線。CNN模型成功地識別出了這些異常光變曲線,并且對不同類型的異常具有較高的區(qū)分能力。CNN在處理GWAC天文光變曲線用于異常檢測時(shí),能夠通過卷積和池化操作有效地提取和壓縮光變曲線的特征,結(jié)合全連接層實(shí)現(xiàn)準(zhǔn)確的異常判斷。雖然CNN最初是為圖像識別設(shè)計(jì)的,但它在處理光變曲線這類特殊的時(shí)間序列數(shù)據(jù)時(shí)也展現(xiàn)出了良好的性能,為GWAC天文光變曲線異常檢測提供了一種新的有效方法。四、改進(jìn)的異常檢測方法設(shè)計(jì)4.1融合多方法的異常檢測框架在處理GWAC天文光變曲線異常檢測這一復(fù)雜任務(wù)時(shí),單一的異常檢測方法往往存在局限性。傳統(tǒng)統(tǒng)計(jì)方法雖然簡單直觀,但對數(shù)據(jù)分布假設(shè)要求較高,對于復(fù)雜的天文數(shù)據(jù)適應(yīng)性不足;機(jī)器學(xué)習(xí)方法雖能處理高維非線性數(shù)據(jù),但依賴大量標(biāo)注數(shù)據(jù)且模型可解釋性差;深度學(xué)習(xí)方法雖具有強(qiáng)大的特征學(xué)習(xí)能力,但計(jì)算資源需求大,訓(xùn)練過程復(fù)雜。為了克服這些問題,融合多方法的異常檢測框架成為一種有效的解決方案。融合多方法的異常檢測框架的優(yōu)勢在于能夠充分發(fā)揮不同方法的長處,彌補(bǔ)彼此的不足。統(tǒng)計(jì)方法中的3σ準(zhǔn)則,可以快速地對光變曲線數(shù)據(jù)進(jìn)行初步篩選,將明顯偏離正常范圍的數(shù)據(jù)點(diǎn)標(biāo)記出來。這一過程基于數(shù)據(jù)的均值和標(biāo)準(zhǔn)差,計(jì)算簡單且速度快,能夠在短時(shí)間內(nèi)處理大量數(shù)據(jù)。對于一些數(shù)據(jù)點(diǎn)的亮度值明顯超出正常范圍的情況,3σ準(zhǔn)則可以迅速識別并將其作為可能的異常點(diǎn)。但3σ準(zhǔn)則對于復(fù)雜的、非高斯分布的數(shù)據(jù)往往效果不佳,容易出現(xiàn)誤判和漏判。而機(jī)器學(xué)習(xí)方法中的IsolationForest算法,能夠處理高維數(shù)據(jù)和非線性數(shù)據(jù)。它通過構(gòu)建隔離樹來隔離異常點(diǎn),從整體數(shù)據(jù)的分布角度來判斷數(shù)據(jù)點(diǎn)的異常程度。對于GWAC光變曲線中那些具有復(fù)雜特征的異常情況,IsolationForest算法可以利用其對高維數(shù)據(jù)的處理能力,挖掘出數(shù)據(jù)中的潛在異常模式。該算法對數(shù)據(jù)的依賴性較強(qiáng),在不同數(shù)據(jù)集上的泛化能力有待提高。深度學(xué)習(xí)方法中的變分自編碼器(VAE),則具有強(qiáng)大的特征學(xué)習(xí)能力。它通過學(xué)習(xí)正常光變曲線的分布,能夠自動(dòng)提取數(shù)據(jù)的潛在特征。在處理GWAC光變曲線時(shí),VAE可以學(xué)習(xí)到不同天體正常光變曲線的復(fù)雜特征模式,然后通過計(jì)算重建誤差來判斷數(shù)據(jù)是否異常。當(dāng)光變曲線出現(xiàn)與正常模式不同的變化時(shí),VAE能夠敏銳地捕捉到這些差異。VAE的計(jì)算復(fù)雜度較高,訓(xùn)練過程需要大量的計(jì)算資源和時(shí)間。融合多方法的異常檢測框架架構(gòu)設(shè)計(jì)如下:首先是數(shù)據(jù)預(yù)處理層,該層對GWAC光變曲線原始數(shù)據(jù)進(jìn)行清洗、去噪和歸一化等操作。清洗操作可以去除數(shù)據(jù)中的錯(cuò)誤數(shù)據(jù)和重復(fù)數(shù)據(jù),去噪操作能夠減少噪聲對數(shù)據(jù)的干擾,歸一化操作則使數(shù)據(jù)具有統(tǒng)一的尺度,便于后續(xù)處理。在去噪過程中,可以采用小波變換等方法對光變曲線數(shù)據(jù)進(jìn)行降噪處理,提高數(shù)據(jù)的質(zhì)量。然后是特征提取層,針對GWAC光變曲線數(shù)據(jù),提取多種特征,包括統(tǒng)計(jì)特征、頻率特征和形態(tài)特征等。統(tǒng)計(jì)特征如均值、標(biāo)準(zhǔn)差、峰值等,能夠反映光變曲線的基本統(tǒng)計(jì)特性;頻率特征通過傅里葉變換等方法得到,可體現(xiàn)光變曲線的周期性變化信息;形態(tài)特征如上升時(shí)間、下降時(shí)間、持續(xù)時(shí)間等,有助于描述光變曲線的形狀和變化趨勢。對于具有周期性變化的光變曲線,可以通過傅里葉變換提取其頻率特征,分析其周期特性。接著是多方法融合層,這是整個(gè)框架的核心層。在該層中,先利用3σ準(zhǔn)則對提取的特征進(jìn)行初步異常檢測,快速篩選出可能的異常數(shù)據(jù)。然后將這些可能的異常數(shù)據(jù)輸入到IsolationForest算法中,進(jìn)一步判斷其異常程度。把經(jīng)過IsolationForest算法處理的數(shù)據(jù)輸入到VAE中,利用VAE強(qiáng)大的特征學(xué)習(xí)能力,對數(shù)據(jù)進(jìn)行深度分析,最終確定數(shù)據(jù)是否為異常。最后是結(jié)果輸出層,將多方法融合層的檢測結(jié)果進(jìn)行整合和可視化展示。通過可視化展示,天文學(xué)家可以更直觀地了解光變曲線的異常情況,如繪制異常光變曲線的圖形,標(biāo)注出異常點(diǎn)的位置和異常程度等。在實(shí)際應(yīng)用中,以某一特定天區(qū)的GWAC光變曲線數(shù)據(jù)為例,經(jīng)過數(shù)據(jù)預(yù)處理和特征提取后,3σ準(zhǔn)則初步檢測出一些亮度值異常的數(shù)據(jù)點(diǎn)。這些數(shù)據(jù)點(diǎn)進(jìn)入IsolationForest算法后,算法根據(jù)數(shù)據(jù)的整體分布情況,進(jìn)一步判斷出其中一些數(shù)據(jù)點(diǎn)屬于異常的可能性較大。這些數(shù)據(jù)點(diǎn)再經(jīng)過VAE的分析,最終確定了哪些是真正的異常光變曲線。這些異常光變曲線可能對應(yīng)著超新星爆發(fā)、伽馬射線暴等罕見的天文現(xiàn)象,為天文學(xué)家的后續(xù)研究提供了重要線索。融合多方法的異常檢測框架通過整合統(tǒng)計(jì)、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法,能夠更有效地處理GWAC天文光變曲線的異常檢測任務(wù),提高檢測的準(zhǔn)確性和效率,為天文學(xué)研究提供更有力的支持。4.2基于深度學(xué)習(xí)的優(yōu)化算法在深度學(xué)習(xí)方法用于GWAC天文光變曲線異常檢測的研究中,對傳統(tǒng)深度學(xué)習(xí)模型進(jìn)行優(yōu)化改進(jìn)具有重要意義。改進(jìn)的LSTM結(jié)構(gòu)以及結(jié)合注意力機(jī)制的深度學(xué)習(xí)模型,為提高異常檢測的準(zhǔn)確性和效率提供了新的思路。傳統(tǒng)的長短期記憶網(wǎng)絡(luò)(LSTM)在處理時(shí)間序列數(shù)據(jù)時(shí)已經(jīng)展現(xiàn)出了一定的優(yōu)勢,但為了更好地適應(yīng)GWAC天文光變曲線數(shù)據(jù)的復(fù)雜特性,對其結(jié)構(gòu)進(jìn)行改進(jìn)是必要的。一種改進(jìn)思路是引入跳躍連接(SkipConnection)。在傳統(tǒng)LSTM中,信息主要是按順序依次在時(shí)間步中傳遞,而跳躍連接可以使模型在不同時(shí)間步之間建立更直接的聯(lián)系,有助于捕捉光變曲線中長距離的依賴關(guān)系。在GWAC光變曲線中,一些天體的亮度變化可能在較長時(shí)間間隔后出現(xiàn)關(guān)聯(lián),跳躍連接能夠讓模型更有效地學(xué)習(xí)這種關(guān)系。例如,在處理一顆經(jīng)歷周期性爆發(fā)的恒星的光變曲線時(shí),跳躍連接可以使模型直接將前一個(gè)爆發(fā)周期的關(guān)鍵信息傳遞到當(dāng)前周期的處理中,避免信息在中間時(shí)間步的丟失或衰減,從而更準(zhǔn)確地預(yù)測和檢測光變曲線中的異常變化。另一種改進(jìn)方向是對LSTM單元中的門控機(jī)制進(jìn)行優(yōu)化。傳統(tǒng)LSTM單元包含輸入門、遺忘門和輸出門,通過這些門控來控制信息的流動(dòng)和記憶??梢钥紤]引入自適應(yīng)門控機(jī)制,根據(jù)光變曲線數(shù)據(jù)的特點(diǎn)自動(dòng)調(diào)整門控的權(quán)重和閾值。在面對GWAC光變曲線中不同類型的天體和復(fù)雜的亮度變化模式時(shí),自適應(yīng)門控機(jī)制能夠更靈活地決定哪些信息需要保留、哪些需要更新,從而提高模型對復(fù)雜數(shù)據(jù)的處理能力。對于具有快速變化和復(fù)雜周期的光變曲線,自適應(yīng)門控可以根據(jù)亮度變化的速率和趨勢動(dòng)態(tài)調(diào)整門控參數(shù),使模型能夠更好地捕捉這些變化特征,提高異常檢測的準(zhǔn)確性。注意力機(jī)制在深度學(xué)習(xí)中已被證明能夠有效提高模型對關(guān)鍵信息的關(guān)注,將其與LSTM相結(jié)合,能夠進(jìn)一步提升模型在GWAC光變曲線異常檢測中的性能。在基于注意力機(jī)制的LSTM模型中,注意力機(jī)制可以幫助模型在處理光變曲線時(shí),自動(dòng)分配不同時(shí)間步的注意力權(quán)重。對于那些對異常檢測至關(guān)重要的時(shí)間點(diǎn),模型會(huì)給予更高的注意力權(quán)重,從而更準(zhǔn)確地捕捉到異常信號。在檢測超新星爆發(fā)的光變曲線時(shí),爆發(fā)初期的亮度快速上升階段以及峰值附近的變化對于判斷超新星的類型和演化階段非常關(guān)鍵。注意力機(jī)制可以使模型聚焦于這些關(guān)鍵時(shí)間點(diǎn),充分學(xué)習(xí)和分析這些時(shí)間段內(nèi)光變曲線的特征,而不是平均地處理所有時(shí)間步的數(shù)據(jù)。這樣,當(dāng)光變曲線出現(xiàn)異常時(shí),模型能夠更敏銳地檢測到這些異常變化,提高檢測的靈敏度和準(zhǔn)確性。注意力機(jī)制還可以與卷積神經(jīng)網(wǎng)絡(luò)(CNN)相結(jié)合,應(yīng)用于GWAC光變曲線異常檢測。如前所述,CNN能夠有效地提取光變曲線的局部特征,而注意力機(jī)制可以增強(qiáng)模型對重要局部特征的關(guān)注。在這種結(jié)合模型中,首先通過CNN的卷積層和池化層提取光變曲線的局部特征,然后注意力機(jī)制對這些特征進(jìn)行加權(quán)處理,突出對異常檢測有重要貢獻(xiàn)的特征。在處理具有復(fù)雜形態(tài)變化的光變曲線時(shí),注意力機(jī)制可以使模型關(guān)注到曲線中的關(guān)鍵轉(zhuǎn)折點(diǎn)、峰值等特征,提高模型對異常形態(tài)的識別能力。改進(jìn)的深度學(xué)習(xí)算法,無論是改進(jìn)的LSTM結(jié)構(gòu)還是結(jié)合注意力機(jī)制的模型,都能夠更好地適應(yīng)GWAC天文光變曲線數(shù)據(jù)的特點(diǎn),提高異常檢測的性能。這些優(yōu)化算法為從海量的GWAC數(shù)據(jù)中準(zhǔn)確挖掘出異常天文現(xiàn)象提供了更有力的工具,有助于推動(dòng)天文學(xué)研究的發(fā)展。4.3數(shù)據(jù)預(yù)處理與特征工程優(yōu)化數(shù)據(jù)預(yù)處理與特征工程在基于GWAC天文光變曲線的異常檢測中起著關(guān)鍵作用,直接影響到異常檢測模型的性能和準(zhǔn)確性。針對GWAC數(shù)據(jù)的特點(diǎn),采取有效的預(yù)處理方法和優(yōu)化的特征工程策略至關(guān)重要。GWAC天文光變曲線數(shù)據(jù)在觀測過程中,不可避免地會(huì)受到多種因素的干擾,從而引入噪聲,這些噪聲會(huì)對后續(xù)的分析和異常檢測產(chǎn)生負(fù)面影響。為了去除噪聲,可采用小波變換方法。小波變換是一種時(shí)頻分析方法,它能夠?qū)⑿盘柗纸獬刹煌l率的子信號,從而有效地分離出噪聲和有用信號。在GWAC光變曲線數(shù)據(jù)中,噪聲通常表現(xiàn)為高頻成分,而光變曲線的真實(shí)信號則包含低頻和中頻成分。通過小波變換,可以將光變曲線數(shù)據(jù)分解為不同尺度的小波系數(shù),然后根據(jù)噪聲的特性,對高頻小波系數(shù)進(jìn)行閾值處理,去除噪聲的影響。再通過小波逆變換,將處理后的小波系數(shù)重構(gòu)為去噪后的光變曲線。以某一具體的GWAC光變曲線為例,在去噪前,光變曲線存在明顯的噪聲波動(dòng),使得曲線的真實(shí)變化趨勢難以準(zhǔn)確判斷。經(jīng)過小波變換去噪后,噪聲得到了有效抑制,光變曲線的變化趨勢更加清晰,為后續(xù)的異常檢測提供了更準(zhǔn)確的數(shù)據(jù)基礎(chǔ)。歸一化是數(shù)據(jù)預(yù)處理的另一個(gè)重要步驟,它能夠?qū)?shù)據(jù)的特征值映射到一個(gè)特定的范圍內(nèi),消除不同特征之間的量綱差異,使得數(shù)據(jù)具有可比性,有助于提高模型的訓(xùn)練效果和穩(wěn)定性。對于GWAC光變曲線數(shù)據(jù),可采用最小-最大歸一化方法。最小-最大歸一化將數(shù)據(jù)的特征值線性地映射到[0,1]區(qū)間內(nèi)。假設(shè)光變曲線數(shù)據(jù)的特征值為x,其最小值為x_{min},最大值為x_{max},經(jīng)過最小-最大歸一化后的結(jié)果為y,則歸一化公式為y=\frac{x-x_{min}}{x_{max}-x_{min}}。在處理GWAC光變曲線的亮度特征時(shí),不同天體的亮度范圍可能差異很大,通過最小-最大歸一化,可以將所有天體的亮度特征統(tǒng)一到[0,1]區(qū)間內(nèi),避免因亮度量綱不同而對模型訓(xùn)練產(chǎn)生的不利影響。特征提取是從原始數(shù)據(jù)中提取能夠反映數(shù)據(jù)本質(zhì)特征的過程,對于GWAC光變曲線數(shù)據(jù),除了傳統(tǒng)的統(tǒng)計(jì)特征、頻率特征和形態(tài)特征外,還可以挖掘一些新的特征。考慮引入光變曲線的變化速率特征,它能夠反映天體亮度變化的快慢程度。對于一些爆發(fā)性的天體現(xiàn)象,如超新星爆發(fā),其亮度變化速率在爆發(fā)初期會(huì)急劇增加,這是一個(gè)非常重要的特征。通過計(jì)算光變曲線在不同時(shí)間點(diǎn)的斜率,可以得到亮度變化速率特征。設(shè)光變曲線在時(shí)間t_1和t_2的亮度分別為L_1和L_2,則亮度變化速率v=\frac{L_2-L_1}{t_2-t_1}。還可以引入光變曲線的復(fù)雜度特征,它可以衡量光變曲線的不規(guī)則程度。對于一些具有復(fù)雜物理過程的天體,其光變曲線的復(fù)雜度較高??梢圆捎梅中尉S數(shù)等方法來計(jì)算光變曲線的復(fù)雜度特征,分形維數(shù)越大,說明光變曲線越復(fù)雜。在特征選擇方面,采用基于信息增益和相關(guān)性分析的聯(lián)合方法。信息增益是一種衡量特征對分類任務(wù)貢獻(xiàn)大小的指標(biāo),它表示由于使用某個(gè)特征而導(dǎo)致的信息不確定性的減少。相關(guān)性分析則用于衡量特征之間的線性相關(guān)性。首先,計(jì)算每個(gè)特征的信息增益,選擇信息增益較大的特征,這些特征對異常檢測具有較大的貢獻(xiàn)。對這些特征進(jìn)行相關(guān)性分析,去除相關(guān)性較高的特征,避免信息重復(fù)。對于兩個(gè)相關(guān)性較高的特征,只保留其中信息增益較大的特征。通過這種聯(lián)合方法,可以有效地選擇出對GWAC光變曲線異常檢測最有價(jià)值的特征,提高模型的訓(xùn)練效率和泛化能力。數(shù)據(jù)預(yù)處理與特征工程優(yōu)化是基于GWAC天文光變曲線異常檢測的重要環(huán)節(jié)。通過有效的去噪、歸一化方法以及創(chuàng)新的特征提取和選擇策略,可以提高數(shù)據(jù)的質(zhì)量和特征的有效性,為異常檢測模型的準(zhǔn)確訓(xùn)練和高效運(yùn)行提供有力支持,從而更準(zhǔn)確地發(fā)現(xiàn)GWAC光變曲線中的異常天文現(xiàn)象。五、實(shí)驗(yàn)與結(jié)果分析5.1實(shí)驗(yàn)數(shù)據(jù)與環(huán)境本實(shí)驗(yàn)所使用的GWAC光變曲線數(shù)據(jù)集來源于中國科學(xué)院國家天文臺的地基光學(xué)廣角相機(jī)陣GWAC的實(shí)際觀測數(shù)據(jù)。該數(shù)據(jù)集包含了大量不同天體的光變曲線信息,觀測時(shí)間跨度為[具體時(shí)間區(qū)間],涵蓋了各種不同類型的天文現(xiàn)象,為研究提供了豐富的數(shù)據(jù)基礎(chǔ)。數(shù)據(jù)集規(guī)模龐大,共計(jì)包含[X]條光變曲線,這些光變曲線記錄了天體在不同時(shí)間點(diǎn)的亮度變化情況,時(shí)間采樣率為15秒1個(gè)數(shù)據(jù)點(diǎn),這使得我們能夠捕捉到天體亮度的細(xì)微變化,為異常檢測提供了高精度的數(shù)據(jù)支持。在這些光變曲線中,包含了正常天體的光變曲線以及已知的異常天體光變曲線。正常天體光變曲線涵蓋了常見的恒星、星系等天體的正常亮度變化模式,例如穩(wěn)定的主序星光變曲線、具有周期性變化的造父變星光變曲線等。已知的異常天體光變曲線則包括了超新星爆發(fā)、伽馬射線暴、恒星耀斑等特殊天文現(xiàn)象對應(yīng)的光變曲線。對于超新星爆發(fā)的光變曲線,其在爆發(fā)初期亮度會(huì)迅速上升,達(dá)到峰值后逐漸下降;伽馬射線暴的光變曲線則具有快速的亮度變化和短時(shí)間內(nèi)的高強(qiáng)度輻射特征;恒星耀斑的光變曲線表現(xiàn)為亮度的突然增加,然后緩慢恢復(fù)到正常水平。通過對這些不同類型光變曲線的分析和研究,可以更好地訓(xùn)練和驗(yàn)證異常檢測模型的性能。實(shí)驗(yàn)環(huán)境配置對于實(shí)驗(yàn)的順利進(jìn)行和結(jié)果的準(zhǔn)確性具有重要影響。在硬件方面,實(shí)驗(yàn)使用的計(jì)算機(jī)配備了IntelXeonPlatinum8380處理器,擁有[X]個(gè)核心,能夠提供強(qiáng)大的計(jì)算能力,滿足復(fù)雜算法的計(jì)算需求。配備了NVIDIATeslaA100GPU,其具有高顯存帶寬和強(qiáng)大的并行計(jì)算能力,能夠加速深度學(xué)習(xí)模型的訓(xùn)練過程,大大縮短訓(xùn)練時(shí)間。內(nèi)存方面,配置了256GB的DDR4內(nèi)存,確保在處理大規(guī)模數(shù)據(jù)時(shí),計(jì)算機(jī)能夠快速讀取和存儲(chǔ)數(shù)據(jù),避免因內(nèi)存不足導(dǎo)致的計(jì)算中斷或效率低下。存儲(chǔ)設(shè)備采用了高速固態(tài)硬盤(SSD),容量為4TB,其快速的數(shù)據(jù)讀寫速度能夠快速加載和存儲(chǔ)實(shí)驗(yàn)數(shù)據(jù),提高數(shù)據(jù)處理效率。在軟件環(huán)境方面,操作系統(tǒng)選用了Ubuntu20.04,該操作系統(tǒng)具有良好的穩(wěn)定性和兼容性,能夠支持各種科學(xué)計(jì)算和深度學(xué)習(xí)框架的運(yùn)行。深度學(xué)習(xí)框架使用了PyTorch1.10,PyTorch具有動(dòng)態(tài)計(jì)算圖的特點(diǎn),使得模型的調(diào)試和開發(fā)更加方便,同時(shí)其豐富的函數(shù)庫和高效的計(jì)算性能能夠滿足本研究中對深度學(xué)習(xí)模型的構(gòu)建和訓(xùn)練需求。為了進(jìn)行數(shù)據(jù)處理和分析,還安裝了Python3.8以及一系列常用的數(shù)據(jù)分析和處理庫,如NumPy、Pandas、Matplotlib等。NumPy提供了高效的數(shù)值計(jì)算功能,能夠快速處理大規(guī)模的數(shù)組和矩陣運(yùn)算;Pandas用于數(shù)據(jù)的讀取、清洗、預(yù)處理和分析,其靈活的數(shù)據(jù)結(jié)構(gòu)和強(qiáng)大的數(shù)據(jù)處理方法能夠方便地對GWAC光變曲線數(shù)據(jù)進(jìn)行處理;Matplotlib則用于數(shù)據(jù)的可視化展示,能夠?qū)?shí)驗(yàn)結(jié)果以直觀的圖表形式呈現(xiàn)出來,便于分析和理解。5.2實(shí)驗(yàn)設(shè)置與流程在實(shí)驗(yàn)設(shè)置中,對比方法的選擇至關(guān)重要。本實(shí)驗(yàn)選取了多種具有代表性的異常檢測方法與提出的改進(jìn)方法進(jìn)行對比,以全面評估改進(jìn)方法的性能。傳統(tǒng)統(tǒng)計(jì)方法中的格拉布斯準(zhǔn)則作為對比方法之一。如前文所述,格拉布斯準(zhǔn)則基于數(shù)據(jù)服從正態(tài)分布的假設(shè),通過計(jì)算數(shù)據(jù)點(diǎn)與樣本均值的偏離程度來判斷異常值。在實(shí)驗(yàn)中,將格拉布斯準(zhǔn)則應(yīng)用于GWAC光變曲線數(shù)據(jù),根據(jù)給定的顯著性水平和樣本數(shù)量,計(jì)算格拉布斯統(tǒng)計(jì)量并與臨界值比較,從而判斷光變曲線中的數(shù)據(jù)點(diǎn)是否為異常值。機(jī)器學(xué)習(xí)方法中的IsolationForest算法也被納入對比。IsolationForest算法通過構(gòu)建隔離樹來隔離異常點(diǎn),其原理是利用數(shù)據(jù)點(diǎn)在高維空間中的分布情況,將那些容易被孤立的數(shù)據(jù)點(diǎn)視為異常點(diǎn)。在處理GWAC光變曲線數(shù)據(jù)時(shí),將光變曲線的各種特征作為輸入,IsolationForest算法通過對這些特征的分析,判斷光變曲線是否異常。深度學(xué)習(xí)方法中的長短期記憶網(wǎng)絡(luò)(LSTM)同樣作為對比方法。LSTM能夠有效處理時(shí)間序列數(shù)據(jù),通過學(xué)習(xí)光變曲線的時(shí)間序列特征來判斷是否存在異常。在實(shí)驗(yàn)中,搭建LSTM模型,將GWAC光變曲線數(shù)據(jù)按時(shí)間順序輸入模型,模型通過隱藏層中的記憶單元和門控機(jī)制,學(xué)習(xí)光變曲線的變化模式,從而對異常情況進(jìn)行檢測。評價(jià)指標(biāo)的確定對于客觀評估各方法的性能起著關(guān)鍵作用。本實(shí)驗(yàn)采用了準(zhǔn)確率、召回率和F1值作為主要評價(jià)指標(biāo)。準(zhǔn)確率(Accuracy)是指檢測出的正確結(jié)果(包括正確檢測出的異常和正常樣本)占總樣本的比例,其計(jì)算公式為:Accuracy=(TP+TN)/(TP+TN+FP+FN),其中TP(TruePositive)表示真正的異常樣本被正確檢測為異常的數(shù)量,TN(TrueNegative)表示真正的正常樣本被正確檢測為正常的數(shù)量,F(xiàn)P(FalsePositive)表示正常樣本被錯(cuò)誤檢測為異常的數(shù)量,F(xiàn)N(FalseNegative)表示異常樣本被錯(cuò)誤檢測為正常的數(shù)量。在GWAC光變曲線異常檢測中,準(zhǔn)確率反映了模型正確判斷光變曲線是否異常的能力。如果一個(gè)模型的準(zhǔn)確率較高,說明它能夠準(zhǔn)確地區(qū)分正常和異常的光變曲線,減少誤判的情況。召回率(Recall),也稱為真正率(TruePositiveRate),是指真正的異常樣本中被正確檢測出的比例,計(jì)算公式為:Recall=TP/(TP+FN)。召回率在GWAC光變曲線異常檢測中非常重要,因?yàn)樗饬苛四P筒蹲降秸鎸?shí)異常的能力。在天文學(xué)研究中,錯(cuò)過真正的異常光變曲線可能會(huì)導(dǎo)致錯(cuò)過重要的天文現(xiàn)象,因此高召回率能夠確保盡可能多地發(fā)現(xiàn)潛在的異常。F1值是綜合考慮準(zhǔn)確率和召回率的指標(biāo),它是準(zhǔn)確率和召回率的調(diào)和平均數(shù),計(jì)算公式為:F1=2*(Precision*Recall)/(Precision+Recall),其中Precision表示精確率,即真正預(yù)測為正樣本(異常樣本)的樣本數(shù)占所有預(yù)測為正樣本的樣本數(shù)的比例,Precision=TP/(TP+FP)。F1值能夠更全面地反映模型的性能,當(dāng)一個(gè)模型的F1值較高時(shí),說明它在準(zhǔn)確率和召回率之間取得了較好的平衡,既能夠準(zhǔn)確地判斷異常,又能夠盡可能多地檢測出真正的異常。實(shí)驗(yàn)流程嚴(yán)謹(jǐn)有序,以確保實(shí)驗(yàn)結(jié)果的可靠性和可重復(fù)性。首先,對GWAC光變曲線數(shù)據(jù)集進(jìn)行預(yù)處理。使用小波變換對數(shù)據(jù)進(jìn)行去噪處理,去除由于觀測環(huán)境、儀器誤差等因素引入的噪聲,使光變曲線更加平滑,真實(shí)反映天體的亮度變化。采用最小-最大歸一化方法對數(shù)據(jù)進(jìn)行歸一化,將光變曲線的亮度值等特征映射到[0,1]區(qū)間,消除不同特征之間的量綱差異,便于后續(xù)模型的處理。接著,進(jìn)行特征提取。針對GWAC光變曲線數(shù)據(jù),提取多種特征,包括統(tǒng)計(jì)特征如均值、標(biāo)準(zhǔn)差、峰值、偏度、峰度等,這些特征能夠反映光變曲線的基本統(tǒng)計(jì)特性;頻率特征通過傅里葉變換等方法得到,用于體現(xiàn)光變曲線的周期性變化信息;形態(tài)特征如上升時(shí)間、下降時(shí)間、持續(xù)時(shí)間等,有助于描述光變曲線的形狀和變化趨勢。還引入了光變曲線的變化速率特征和復(fù)雜度特征等新特征,以更全面地描述光變曲線的特性。然后,將預(yù)處理和特征提取后的數(shù)據(jù)按照70%訓(xùn)練集、15%驗(yàn)證集和15%測試集的比例進(jìn)行劃分。在訓(xùn)練集上對各個(gè)對比方法和改進(jìn)方法進(jìn)行訓(xùn)練。對于格拉布斯準(zhǔn)則,根據(jù)訓(xùn)練集數(shù)據(jù)計(jì)算相關(guān)統(tǒng)計(jì)量和臨界值;對于IsolationForest算法,調(diào)整其參數(shù)如樹的數(shù)量、子采樣比例等,以適應(yīng)訓(xùn)練數(shù)據(jù);對于LSTM模型,設(shè)置隱藏層節(jié)點(diǎn)數(shù)、學(xué)習(xí)率、迭代次數(shù)等參數(shù)進(jìn)行訓(xùn)練。在驗(yàn)證集上對訓(xùn)練過程中的模型進(jìn)行評估,通過調(diào)整參數(shù),選擇性能最佳的模型。最后,在測試集上對訓(xùn)練好的模型進(jìn)行測試,計(jì)算各模型的準(zhǔn)確率、召回率和F1值等評價(jià)指標(biāo)。對測試結(jié)果進(jìn)行分析,比較不同方法的性能差異,從而評估改進(jìn)方法在GWAC天文光變曲線異常檢測中的有效性和優(yōu)勢。5.3實(shí)驗(yàn)結(jié)果展示在對GWAC光變曲線異常檢測的實(shí)驗(yàn)中,不同方法在準(zhǔn)確率、召回率等指標(biāo)上呈現(xiàn)出明顯的差異。格拉布斯準(zhǔn)則在準(zhǔn)確率方面表現(xiàn)為[X1],召回率為[
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 張家口市人民醫(yī)院皮膚科醫(yī)療安全考核
- 張家口市人民醫(yī)院兒童心肺復(fù)蘇技能定期考核
- 2025年上半年全省事業(yè)單位公開招聘工作人員(含教師)筆試南充考區(qū)模擬試卷及答案詳解(易錯(cuò)題)
- 衡水市中醫(yī)院呼吸道傳染病防護(hù)與隔離技術(shù)年度授權(quán)復(fù)審題
- 2025江蘇鎮(zhèn)江市精神衛(wèi)生中心第一批編外崗位(非事業(yè)編制)招聘8人考前自測高頻考點(diǎn)模擬試題附答案詳解
- 2025春季四川敘永縣委組織部敘永縣人力資源和社會(huì)保障局?jǐn)⒂揽h事業(yè)單位人才崗位需求70人模擬試卷及完整答案詳解
- 2025年深圳市煙草專賣局(公司)應(yīng)屆高校畢業(yè)生招聘22名模擬試卷及答案詳解(考點(diǎn)梳理)
- 上海市人民醫(yī)院免疫熒光技術(shù)考核
- 秦皇島市中醫(yī)院護(hù)理培訓(xùn)資源建設(shè)考核
- 2025福建福州市長樂區(qū)金峰鎮(zhèn)人民政府公益性崗位招聘15人模擬試卷有完整答案詳解
- 流延膜設(shè)備安全操作培訓(xùn)課件
- 醫(yī)學(xué)基礎(chǔ)期末試題及答案
- 2025年放射診療培訓(xùn)試題及答案
- (零模)蘇州市2026屆高三年級期初陽光調(diào)研試卷 歷史試卷(含答案)
- 九年級英語上學(xué)期第一次月考(廣東卷)(原卷版)
- 碼頭生產(chǎn)調(diào)度管理辦法
- 智能巡查機(jī)器人系統(tǒng)設(shè)計(jì)
- 3.2營造清朗空間教學(xué)設(shè)計(jì) 2025-2026學(xué)年統(tǒng)編版道德與法治八年級上冊
- 教科版物理八年級上冊《2.光的反射定律》聽評課記錄2
- (2025年標(biāo)準(zhǔn))學(xué)生癲癇免責(zé)協(xié)議書
- 電商企業(yè)客服流失的問題及解決對策研究
評論
0/150
提交評論