




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
頁共25頁1緒論1.1研究背景財產(chǎn)類犯罪已成為阻礙我國經(jīng)濟發(fā)展的重要因素,其中最具代表性的為盜竊類犯罪,盜竊犯罪是一種常見的高發(fā)性犯罪,相較其他類型的犯罪,盜竊犯罪通常更具有頻繁性、規(guī)律性、反復(fù)性的特點,嚴重擾亂人民正常生活,侵害人民財產(chǎn)安全,危害社會安全穩(wěn)定,而盜竊犯罪刑滿釋放人員是一個具有潛在社會危害隱患的特殊群體,相較于盜竊初犯群體,該群體具有更強大的反偵察意識、更加嫻熟的犯罪經(jīng)驗以及更多樣化的犯罪手段,具有嚴重的社會危害隱患。盜竊罪刑滿釋放人員在回歸社會后再次實施盜竊行為進行重復(fù)盜竊犯罪活動的情況屢屢發(fā)生,嚴重侵害公民財產(chǎn)安全,擾亂社會治安,影響到社會的和諧穩(wěn)定。因此,針對盜竊罪刑滿釋放人員群體進行重復(fù)盜竊犯罪預(yù)測研究,能夠在一定程度上幫助各地公安機關(guān)有效預(yù)防該特殊群體再次實施盜竊犯罪活動,切實維護社會安全,這對預(yù)防和減少重復(fù)盜竊犯罪行為發(fā)生概率有一定的意義。當前的傳統(tǒng)警務(wù)工作方式在處理重復(fù)盜竊犯罪時具有滯后性,不能滿足新時代發(fā)展需求,難以在根源上解決問題,我國國內(nèi)現(xiàn)有的犯罪預(yù)報模型大多建立在一種單一的或者比較簡單的線性結(jié)合模式上,其預(yù)測效果不夠穩(wěn)定,且對重復(fù)盜竊犯罪預(yù)測模型的研究更是停留在宏觀方面,缺乏數(shù)據(jù)支持。1.2研究目的及意義曾有犯罪學(xué)的專家指出,絕大部分的犯罪行為都是有規(guī)矩可遵循的,是能夠被提前預(yù)測的[1]。盜竊犯罪作為高發(fā)類財產(chǎn)類犯罪,更是具有獨特的規(guī)律性,是可以預(yù)測的。并且隨著當今互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,現(xiàn)代數(shù)字化已滲透至人們的生活的各個方面之中,犯罪人員的信息基本上有跡可循,為公安機關(guān)進行智慧警務(wù)工作提供了必不可少的犯罪數(shù)據(jù)基礎(chǔ),因此,利用機器學(xué)習(xí)的相關(guān)算法建立相應(yīng)的重復(fù)盜竊犯罪預(yù)測模型,采取科學(xué)合理的犯罪預(yù)測方法,能夠有效地降低公安工作的工作難度,減小公安工作的工作壓力,預(yù)防重復(fù)盜竊犯罪行為,在根源上解決問題,力求做到防患于未然。在國內(nèi)犯罪預(yù)測研究領(lǐng)域,我國的犯罪預(yù)測技術(shù)大多仍停留在宏觀角度,相對更傾向于在犯罪邏輯學(xué)的基礎(chǔ)上結(jié)合簡單的統(tǒng)計方法對地區(qū)范圍內(nèi)的犯罪數(shù)量進行趨勢化預(yù)測分析。而本文旨在實現(xiàn)重復(fù)盜竊犯罪預(yù)測智能化,利用機器學(xué)習(xí)相關(guān)算法從犯罪數(shù)據(jù)集中發(fā)現(xiàn)并總結(jié)規(guī)律,結(jié)合宏觀角度,并從微觀角度出發(fā),對盜竊犯罪刑滿釋放人員的特征信息進行分析,建立科學(xué)有效的重復(fù)盜竊犯罪預(yù)測模型,為公安工作提供相關(guān)的解決思路與建議。1.3國內(nèi)外研究現(xiàn)狀1.3.1國內(nèi)研究現(xiàn)狀朱宇迪在《盜竊罪再犯行為的反思與預(yù)防》中針對盜竊罪數(shù)據(jù)和再犯成因展開分析,旨在探討盜竊罪再犯治理的緊迫性,并結(jié)合英國的經(jīng)驗提出預(yù)防盜竊罪再犯的建議[2]。田水寶在《盜竊再犯預(yù)防問題研究》中指出預(yù)防盜竊再犯的可能性并給出了預(yù)防盜竊再犯的可行對策[3]。朱小波和栗赫遙在《基于PCA-XGBoost聯(lián)合算法的盜竊犯罪預(yù)測模型》中將主成分分析算法與XGBoost算法進行聯(lián)合,建立了一個預(yù)測精度更高的聯(lián)合預(yù)測模型,對公安實踐有一定的指導(dǎo)意義,為本文要構(gòu)建的組合模型概念提供了思路[4]。徐會軍在《基于LSTM模型的盜竊犯罪預(yù)測研究》一文中建立了基于長短期記憶網(wǎng)絡(luò)的盜竊犯罪預(yù)測方法,構(gòu)建多元犯罪趨勢預(yù)測模型,可以更好地預(yù)測盜竊犯罪,為今后的治安管理部門打擊犯罪,維護社會治安的穩(wěn)定,提供一種科學(xué)的途徑和途徑[5]。1.3.2國外研究現(xiàn)狀GyeongseokO,JuyoungS等人為了分析和預(yù)測犯罪,比較了機器學(xué)習(xí)算法如KNN,決策樹和隨機森林的準確性,以便使用最好的分析和預(yù)測[6]。VittorioGT等人研究了機器學(xué)習(xí)模型在不同數(shù)據(jù)集的可復(fù)制性及其對累犯預(yù)測的適用性[7]。KaraboJ等人通過分析和比較三種已知的預(yù)測分類算法:樸素貝葉斯、隨機森林和梯度提升決策樹,提出了一種犯罪預(yù)測模型[8]。綜上所述,當前國內(nèi)外對盜竊犯罪、重復(fù)盜竊犯罪以及犯罪預(yù)測領(lǐng)域的研究較為透徹,但在對重復(fù)盜竊犯罪預(yù)測領(lǐng)域的研究較為空白,且我國對該領(lǐng)域的微觀研究文獻少之又少,大多僅停留在宏觀角度的研究,缺乏對個體案例數(shù)據(jù)的整合與分析,本文旨在嘗試對重復(fù)盜竊犯罪預(yù)測領(lǐng)域進行研究,整合并處理公開的個體案例數(shù)據(jù),構(gòu)建重復(fù)盜竊犯罪預(yù)測模型,輔助公安機關(guān)對盜竊再犯進行預(yù)防,對特定的盜竊犯罪刑滿釋放人員進行特殊管控。
2相關(guān)概念2.1重復(fù)盜竊犯罪2.1.1重復(fù)盜竊犯罪的定義重復(fù)盜竊犯罪是指曾經(jīng)因犯盜竊罪而被判處盜竊罪的罪犯在刑滿釋放后,因內(nèi)在的心理因素或者外在的經(jīng)濟壓力與社會影響,再次實施盜竊犯罪活動的行為[9]。2.1.2重復(fù)盜竊犯罪的應(yīng)對難度相較于單次盜竊犯罪,重復(fù)盜竊犯罪更加難以應(yīng)對,為公安機關(guān)帶來了不小的工作難度與工作壓力,重復(fù)盜竊罪犯的反偵察意識更強大、盜竊犯罪經(jīng)驗更豐富、犯罪手段更加多樣化,具有嚴重的社會危害隱患,嚴重危害社會秩序穩(wěn)定和人民財產(chǎn)安全,為公安機關(guān)帶來了更為復(fù)雜與繁瑣的工作挑戰(zhàn)[10]。2.1.3研究對象根據(jù)《刑法》第二百六十四條的規(guī)定,盜竊公私財物,數(shù)額較大的,或者多次盜竊、入戶盜竊、攜帶兇器盜竊、扒竊的,處三年以下有期徒刑、拘役或者管制,并處或者單處罰金;數(shù)額巨大或者有其他嚴重情節(jié)的,處三年以上十年以下有期徒刑,并處罰金;數(shù)額特別巨大或者有其他特別嚴重情節(jié)的,處十年以上有期徒刑或者無期徒刑,并處罰金或者沒收財產(chǎn)。據(jù)學(xué)者對近年來裁判文書網(wǎng)上的犯罪金額進行統(tǒng)計,“數(shù)額較大”的案例數(shù)量占比90.17%,“數(shù)額巨大”的案例數(shù)量占比8.77%,“數(shù)額特別巨大”的案例數(shù)量占比1.06%。結(jié)合上述統(tǒng)計數(shù)據(jù)與研究數(shù)據(jù)集,本文擬對判處三年以下有期徒刑、拘役或者管制的盜竊犯罪人員在刑滿釋放后兩年內(nèi)是否存在重復(fù)盜竊犯罪現(xiàn)象進行研究與預(yù)測分析。2.2組合模型2.2.1組合模型的定義組合模型是指人為將多個原理不同的單一模型進行融合,構(gòu)成相對較為復(fù)雜的模型,可以用來獲得更準確和穩(wěn)定的預(yù)測結(jié)果。組合模型的范疇很廣,不同的組合有著不同的原理與效果,本文所應(yīng)用到的組合模型是指將優(yōu)化算法與分類算法相互結(jié)合成的組合模型。2.2.2組合模型的優(yōu)點將優(yōu)化算法與分類算法進行組合,通過優(yōu)化算法來對分類算法的參數(shù)或超參數(shù)進行優(yōu)化,不斷調(diào)整參數(shù),可以使分類器更好地適應(yīng)數(shù)據(jù)并提高預(yù)測準確性,最大化提升分類模型的整體性能,強化模型的預(yù)測能力。除此之外,優(yōu)化算法也能夠幫助分類器更好地泛化樣本數(shù)據(jù),通過降低過擬合風(fēng)險,改進分類器的整體泛化能力[11]。2.2.3組合模型的應(yīng)用組合模型現(xiàn)已應(yīng)用于醫(yī)療、金融和經(jīng)濟等眾多領(lǐng)域,例如在醫(yī)療領(lǐng)域,可以通過使用優(yōu)化算法與分類算法構(gòu)成的組合模型針對某一疾病構(gòu)建出相應(yīng)的疾病診斷模型,幫助醫(yī)療人員對疾病進行準確識別,預(yù)測病人的病情發(fā)展情況。在機器學(xué)習(xí)中,分類算法是一種監(jiān)督學(xué)習(xí),能夠從歷史樣本數(shù)據(jù)中學(xué)習(xí)發(fā)生重復(fù)盜竊犯罪行為的刑滿釋放人員樣本與其各種特征因素之間的關(guān)系,并將這些關(guān)系應(yīng)用于新的樣本數(shù)據(jù),以預(yù)測未來一段時間內(nèi)哪些刑滿釋放人員會實施重復(fù)盜竊犯罪行為,因此,使用由優(yōu)化算法與分類算法構(gòu)成的組合模型來對重復(fù)盜竊犯罪進行預(yù)測是具有理論可能性的[12]。
3數(shù)據(jù)預(yù)處理與描述性統(tǒng)計3.1數(shù)據(jù)預(yù)處理3.1.1數(shù)據(jù)來源本文選用的數(shù)據(jù)為2014年至2021年裁判文書網(wǎng)中的盜竊刑事案件的刑事判決書,共計八萬余條數(shù)據(jù)。裁判文書網(wǎng)是一個提供全國各級法院裁判文書的公開平臺,開通于2013年7月1日,是司法公開中非常重要的一部分,有利于維護法律尊嚴,彰顯司法公開透明化,有助于加大法律監(jiān)督力度,有效遏制司法腐敗和權(quán)力濫用,使得司法裁判的社會和法律效果最大化。3.1.2基于正則表達式的結(jié)構(gòu)化信息抽取裁判文書網(wǎng)中的文本數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),過于繁多與復(fù)雜,類似于姓名、犯罪年齡、出生日期、民族、文化程度、處罰方式、處罰期限等非結(jié)構(gòu)化的個人犯罪信息并不總是以規(guī)范的格式呈現(xiàn),這給信息抽取帶來了一定的挑戰(zhàn)。為了從裁判文書網(wǎng)的文本數(shù)據(jù)中提取到上述的罪犯的個人信息,本文采用了正則表達式作為一種強大的文本匹配工具,利用Python編程語言的re庫來實現(xiàn)正則表達式的匹配和信息抽取,通過編寫相應(yīng)的正則表達式模式,并結(jié)合re庫提供的函數(shù)和方法,能夠有效地從大規(guī)模的文本數(shù)據(jù)中提取出所需的個人信息特征,這一過程不僅提高了數(shù)據(jù)處理的效率,而且也保證了信息抽取的準確性。將設(shè)定的正則表達式與待匹配的文本進行比較,查找出文本中與設(shè)定的正則表達式內(nèi)容一致的信息,即匹配功能。根據(jù)匹配的結(jié)果,可以提取出相應(yīng)的文本信息或者是將其替換成另外的文本信息。在使用正則表達式時,只需要將希望匹配的內(nèi)容正確寫入到正則表達式中即可。本文在研究過程中針對不同個人信息特征設(shè)計了相應(yīng)的正則表達式模式,可以用于識別并提取罪犯的各項個人信息特征。在裁判文書網(wǎng)的刑事判決書中,絕大多數(shù)犯罪人的個人信息都是規(guī)則化分布的,且法律術(shù)語規(guī)范,例如:“被告人劉某某,男,1964年5月3日出生,漢族,……,判決如下:一、被告人劉某某犯盜竊罪,判處有期徒刑七個月,并處罰金人民幣一千元?!蓖ㄟ^對上述文本進行觀察可以發(fā)現(xiàn),犯罪人姓名通常出現(xiàn)在文本開頭的“被告人”與逗號之間,性別、出生日期、民族都是規(guī)則的結(jié)構(gòu)化文本,處罰方式都是標準的“判處+處罰方式+處罰期限”,因此,本文就可以通過建立正則表達式“pile(r'被告人(.*?),')”抽取出犯罪人員的姓名,建立正則表達式“pile(r'判處管制[\u4e00-\u9fff]{1,3}年|判處拘役[\u4e00-\u9fff]{1,3}月|判處管制[\u4e00-\u9fff]{1,3}月|判處有期徒刑[\u4e00-\u9fff]{1,3}月|判處有期徒刑[\u4e00-\u9fff]{1,3}年')”抽取出對犯罪人員處罰方式和處罰期限。3.1.3數(shù)據(jù)清洗為了確保所研究的數(shù)據(jù)的完整性與準確性,提高和數(shù)據(jù)的質(zhì)量,本文對數(shù)據(jù)集進行了數(shù)據(jù)清洗,處理數(shù)據(jù)中的噪聲與異常值。首先,由于裁判文書網(wǎng)的文本數(shù)據(jù)繁雜,一份文書多次上傳的情況時有發(fā)生,因此,本文對數(shù)據(jù)集進行了刪除重復(fù)樣本的操作:其次,由于裁判文書網(wǎng)收錄的對象是全國各地的法律文書,不同地區(qū)的法律文書有各自的法律文書格式,部分地區(qū)的法律文書格式在不同的年份也有著不同的法律文書格式,因而在采用正則表達式進行結(jié)構(gòu)化抽取時難免會出現(xiàn)抽取結(jié)果缺失與異常的情況,因此,本文對數(shù)據(jù)集中的缺失值進行刪除操作,對年齡小于12周歲的異常值進行刪除操作。3.1.4數(shù)據(jù)篩選與欠采樣裁判文書網(wǎng)中的法律文書內(nèi)容無法體現(xiàn)出犯罪人員在未來兩年內(nèi)是否會重復(fù)盜竊犯罪,但由于裁判文書網(wǎng)中的法律文書采取實名制,包含犯罪人員的真實姓名信息,因此,本文先對判處三年以下有期徒刑、拘役或者管制的盜竊犯罪案例進行篩選,隨后在篩選出來的數(shù)據(jù)集中,對“姓名”、“出生年月”、“民族”、“文化程度”、“戶籍地”等個人基本信息相同的樣本進行比較,如果前者的犯罪日期與處罰期限之和大于后者的犯罪日期與兩年的差值,則為前者打上“重復(fù)盜竊犯罪”的標簽。經(jīng)處理后的樣本數(shù)量為66358條,但礙于抽取方式與數(shù)據(jù)質(zhì)量問題,為確保準確性,本文篩選出存在重復(fù)盜竊犯罪情況的樣本數(shù)量只有2803條,顯然存在數(shù)據(jù)不平衡的問題,因此,本文為了確保數(shù)據(jù)平衡,對數(shù)據(jù)集進行了欠采樣,處理后的數(shù)據(jù)量為5606條,在刪除無用字段后,整理出來的數(shù)據(jù)集字段共有10個,展示如表3.1所示:表3.1數(shù)據(jù)集字段說明字段名稱字段類型字段介紹性別Str犯罪人員性別文化程度Str犯罪人員文化程度民族Str犯罪人員民族犯罪年齡Int犯罪人員犯罪時的年齡是否累犯Str是否為累犯是否未遂Str犯罪行為是否未遂是否適用簡易程序Str犯罪行為是否適用簡易程序處罰方式Str有期徒刑或拘役或管制處罰期限Int判處刑罰的期限是否重復(fù)盜竊Str刑滿釋放后兩年內(nèi)是否重復(fù)盜竊犯罪3.1.5數(shù)據(jù)編碼鑒于本文要將數(shù)據(jù)集應(yīng)用于機器學(xué)習(xí)的相關(guān)算法當中,數(shù)據(jù)類型要全部轉(zhuǎn)換為數(shù)值類型,但是該數(shù)據(jù)集中的部分標簽信息的數(shù)據(jù)類型為字符型,無法直接應(yīng)用于機器學(xué)習(xí)的相關(guān)算法中,因此,本文對數(shù)據(jù)集進行了編碼操作,具體操作如下:對“性別”、“民族”、“是否累犯”、“是否未遂”、“是否適用簡易程序”與“是否重復(fù)盜竊”進行獨熱編碼;對“文化程度”和“處罰方式”進行標簽編碼。3.2描述性統(tǒng)計在預(yù)處理的基礎(chǔ)上,現(xiàn)本文通過Python對篩選出來的2803條存在重復(fù)盜竊犯罪行為的刑滿釋放人員樣本的性別、年齡段和前科簡易程序使用情況展開了描述性分析,并加以進行可視化,以得到出現(xiàn)重復(fù)盜竊犯罪現(xiàn)象的盜竊犯罪刑滿釋放人員存在的一些規(guī)律。3.2.1性別分析圖3.1重復(fù)盜竊犯罪人員性別分布圖通過分析可得出結(jié)論:重復(fù)盜竊犯罪人員男性占比遠大于女性。由圖3.1可知,在2803名存在重復(fù)盜竊犯罪行為的刑滿釋放人員中,有2728名男性,占比約97%,女性僅有75名,占比約3%。男性盜竊犯罪人員的再犯罪率遠高于女性,由此可以看出重復(fù)盜竊犯罪人員的性別占比體現(xiàn)出以男性為主的特征。針對上述現(xiàn)象,相關(guān)部門或許可在對盜竊犯罪刑滿釋放人員后續(xù)的管控工作中,加強對男性盜竊犯罪刑滿釋放人員的管控力度,制定更具有針對性的管控方案。3.2.2年齡分析圖3.2重復(fù)盜竊犯罪人員年齡段分布圖通過分析可得出結(jié)論:重復(fù)盜竊犯罪人員以青年人與中年人為主要群體。在《刑法》規(guī)定中,不滿十六周歲的人不能構(gòu)成盜竊犯罪,故也不能構(gòu)成重復(fù)盜竊犯罪,因此,本文在此基礎(chǔ)上將樣本的年齡劃分為16歲至29歲、30歲至39歲、40歲至49歲、50歲至59歲和60歲及以上五個年齡段。由圖3.2可知,16歲至29歲的樣本共有874條,占比約31%;30歲至39歲的樣本共有799條,占比為28.5%;40歲至49歲的樣本共有743條,占比為26.5%;50歲至59歲的樣本共有332條,占比約為12%;60歲及以上的樣本共有55條,占比約為2%。由此可見,重復(fù)盜竊犯罪人員主要集中在青年與中年集體中,具體年齡段體現(xiàn)為16歲至49歲,占比為86%,50歲及以上的中老年人占比14%,因此,公安部門與社區(qū)矯正部門應(yīng)加強對青中年盜竊犯罪刑滿釋放人員的后續(xù)管控力度。3.2.3累犯情況分析圖3.3重復(fù)盜竊犯罪人員累犯情況分布圖通過分析可得出結(jié)論:重復(fù)盜竊犯罪人員多數(shù)為累犯。由圖3.3可知,在2803名存在重復(fù)盜竊犯罪行為的刑滿釋放人員中,累犯占比60%,合計1682名人員先前存在多次盜竊犯罪行為,剩余1121人存在兩次盜竊犯罪行為。經(jīng)分析可以發(fā)現(xiàn),累犯更傾向于實施重復(fù)盜竊犯罪,這與犯罪人員的心理原因、物質(zhì)生活原因以及環(huán)境等復(fù)雜原因都有著一定的關(guān)系。因此,公安機關(guān)與社會矯正部門應(yīng)重視對盜竊犯罪刑滿釋放人員的后續(xù)管控與關(guān)照,除了對該類人員進行監(jiān)督管理,更需要彰顯人性化,重視他們的心理健康,糾正錯誤心理與行為,幫助他們更順利地重新融入社會。3.2.4適用簡易程序分析圖3.4重復(fù)盜竊犯罪人員簡易程序適用情況分布圖通過分析可得出結(jié)論:重復(fù)盜竊犯罪人員多數(shù)呈現(xiàn)出適用簡易程序的現(xiàn)象。由圖3.4可知,在2803名存在重復(fù)盜竊犯罪行為的刑滿釋放人員中,有1834名人員所涉及到的案件適用于簡易程序,占比約65%,剩余969名人員所涉及到的案件不適用于簡易程序,占比約35%。因此,公安部門與社區(qū)矯正部門應(yīng)著重管控前科適用于簡易程序的盜竊犯罪刑滿釋放人員。3.2.5描述性統(tǒng)計結(jié)果本文通過對2803條實施重復(fù)盜竊犯罪行為的盜竊犯罪刑滿釋放人員數(shù)據(jù)進行描述性統(tǒng)計并可視化,得到下列結(jié)論:(1)重復(fù)盜竊犯罪人員男性占比遠大于女性。(2)重復(fù)盜竊犯罪人員以16歲至49歲的青年人與中年人為主要群體。(3)重復(fù)盜竊犯罪人員多數(shù)為累犯。(4)重復(fù)盜竊犯罪人員多數(shù)呈現(xiàn)出適用簡易程序的現(xiàn)象。因此,本文建議公安機關(guān)與社區(qū)矯正部門加大對男性盜竊犯罪刑滿釋放人員、16歲至49歲的青中年盜竊犯罪刑滿釋放人員以及盜竊犯罪前科適用于簡易程序的刑滿釋放人員的后續(xù)管控力度,并重視該群體的心理健康情況,定期開展心理健康教育。
4重復(fù)盜竊犯罪預(yù)測4.1算法原理4.1.1XGBoost的概念與原理XGBoost(eXtremeGradientBoosting)屬于集成學(xué)習(xí)中的boosting方法,主要用于分類和回歸任務(wù),是在梯度提升決策樹(GBDT)的基礎(chǔ)上對boosting思想的擴展,通過優(yōu)化計算速度和模型性能,支持并行處理和正則化,有效防止過擬合。該方法的基本思路是把多個基分類器融合到一起,形成一個精確、可信的整體分類器,提高預(yù)測的速度和準確性[13]。圖4.1重復(fù)盜竊犯罪人員簡易程序適用情況分布圖該算法的工作流程如圖4.1所示,具體為:(1)為訓(xùn)練集中的每一個樣本都賦予相等的權(quán)重;(2)使用帶有初始權(quán)重的訓(xùn)練集來訓(xùn)練基學(xué)習(xí)器,對訓(xùn)練集進行預(yù)測,并計算每個樣本的誤差;(3)根據(jù)每個樣本的誤差去更新相對應(yīng)的權(quán)重,將更新權(quán)重后的數(shù)據(jù)集用來訓(xùn)練下一個基學(xué)習(xí)器,按上述步驟迭代;(4)對各基本學(xué)習(xí)算法的預(yù)測結(jié)果進行加權(quán)合并,獲得最后的強學(xué)習(xí)算法。XGBoost是由K個基模型組成的一個集成模型,假設(shè)我們第t次迭代要訓(xùn)練的樹模型是ft(xi),則第tyi(t)=其中yi(t)是第t次迭代之后樣本i的預(yù)測結(jié)果;ft(xi)是第t次迭代要訓(xùn)練的樹模型,yi(t?1)是第t-1棵樹的預(yù)測結(jié)果。進一步我們可以得到XGBoost的原始目標函數(shù)如公式4-2Obj=i=1nly因為XGBoost算法是一種前向迭代算法,它的核心是對第t棵樹進行處理,因此,與前t-1株樹相關(guān)的所有變量都可以看成是常數(shù)。將公式4-1代入到公式4-2中,對目標函數(shù)進行了進一步的優(yōu)化。并且根據(jù)泰勒公式可知,fx+△xfx+△x≈fx接下來將目標函數(shù)用公式4-3展開,由于在第t步時yi(t?1)已經(jīng)是一個已知值,所以lyi,Obj≈i=1ngi在此基礎(chǔ)上,我們利用迭代方法求解各步驟的一階微分、二階微分,并利用最優(yōu)算法對目標函數(shù)進行優(yōu)化,從而獲得各步驟的f(x)值,并基于此建立全局模型。4.1.2粒子群優(yōu)化算法的概念與原理粒子群優(yōu)化算法(PSO)是一種模仿鳥類群體覓食行為的優(yōu)化決策算法。PSO通過模擬鳥類群體尋找最佳覓食坐標區(qū)域的過程來實現(xiàn)最優(yōu)化決策。在整個過程中,鳥群的覓食活動總體上向全局最優(yōu)解所在的覓食坐標區(qū)域移動,通過不斷迭代、速度調(diào)整以及鳥群覓食位置的不斷更新,鳥群會逐漸靠近最優(yōu)位置,尋找到最能提升模型性能的參數(shù)[14]。在粒子群算法中,根據(jù)需要優(yōu)化的參數(shù)的取值范圍,建立一個N維搜索空間,并部署M個粒子以對最優(yōu)位置進行逐步搜索。每個粒子的初始位置被隨機設(shè)定生成,其速度也被初始化,具體數(shù)值為0。在每一次的迭代搜索過程中,系統(tǒng)會計算每個粒子的適應(yīng)度值,以此來判斷識別當前位置是否為全局最優(yōu)或個體最優(yōu)位置。在每一次的迭代過程中,系統(tǒng)會記錄下每個粒子所處的最優(yōu)位置,在記錄中的所有粒子最優(yōu)位置集合中,可以找到一個最優(yōu)解,以作為整個粒子群的最佳位置。每次搜索后,根據(jù)公式4-5和公式4-6更新粒子的速度和位置,以繼續(xù)搜索更好的解決方案。vid=wvxid=xi其中i=1,2,3,…,M;d=1,2,3,…,N;pi和pg分別為局部和全局最優(yōu)位置。c1和c2是調(diào)整局部最優(yōu)值和全局最優(yōu)值權(quán)重的參數(shù)。r1和r2是4.2重復(fù)盜竊犯罪預(yù)測模型構(gòu)建XGBoost有多個參數(shù)需要調(diào)優(yōu),包括樹的深度、學(xué)習(xí)率、正則化項等,本文通過借助粒子群優(yōu)化算法來輔助優(yōu)化模型參數(shù),具體流程如圖4.2所示:圖4.2PSO-XGBoost算法流程首先,定義PSO算法的參數(shù),包搜索空間維度n_dim、粒子群大小pop、最大迭代次數(shù)max_iter、搜索空間的邊界lb和ub、慣性權(quán)重w、個體認知因子c1和社會認知因子c2,確定需要優(yōu)化的超參數(shù),同時設(shè)置每個參數(shù)的調(diào)節(jié)范圍,部分參數(shù)值設(shè)定如表4.1所示:表4.1PSO部分參數(shù)展示參數(shù)值n_dim7pop33max_iter100w0.9c10.7c20.7然后將粒子群隨機初始化,通過對個體粒子的適應(yīng)度進行識別評估,確定粒子與種群的最優(yōu)位置,并在此基礎(chǔ)上實時更新粒子群的動態(tài)運動軌跡,直至迭代次數(shù)達到最大值,從而獲得最能提升模型性能的參數(shù)[15]。最后,將樣本數(shù)據(jù)劃分為訓(xùn)練集和測試集,對參數(shù)優(yōu)化后的XGBoost模型進行訓(xùn)練和測試,實現(xiàn)重復(fù)盜竊犯罪預(yù)測[16]。4.3重復(fù)盜竊犯罪預(yù)測模型評估4.3.1模型評估指標本文構(gòu)建的模型是一個二分類模型,可以通過混淆矩陣來總結(jié)模型的性能,如表4.2所示:表4.2二分類混淆矩陣預(yù)測為正例預(yù)測為反例實際為正例真正例(TP)假反例(FN)實際為反例假正例(FP)真反例(TN)混淆矩陣是一種用于評估分類模型性能的表格,其中,真正例(TP)表示被正確預(yù)測的正例,真實值與預(yù)測值均為正例;真反例(TN)表示被正確預(yù)測的反例,真實值與預(yù)測值均為反例;假正例(FP)表示被錯誤預(yù)測的正例,真實值為反例,預(yù)測值為正例;真反例(FN)表示被錯誤預(yù)測的反例,真實值為正例,預(yù)測值為反例。通過運用真正例(TP)、真負例(TN)、假正例(FP)和假負例(FN),我們可以計算出模型的多種評估指標,包括準確率、精確率、召回率和F1分數(shù),從而幫助我們更全面地評估模型的性能[17]?;诨煜仃嚕覀兡苷_分類的抽樣數(shù)目與抽樣總數(shù)的比例,即準確率,計算公式如公式4-7:Accuracy=(4-7)在某些情況下,準確度可能不是一個好的度量標準,特別是當類別不平衡或者誤分類的代價非常高時,此時,我們還可以通過精準度和召回率來檢驗?zāi)P偷男Ч?,精準度表示模型在預(yù)測為正類別的樣本中有多少是真正的正類別,計算公式如公式4-8:Precision=(4-8)召回率是指模型可以準確地預(yù)測到的正類別樣本的數(shù)量,其計算公式如公式4-9:Recall=(4-9)F1分數(shù)是精確度和召回率的調(diào)和平均值,它提供了一種衡量準確率和召回率的方法,適合在需要平衡準確率和召回率的情況下使用,計算公式如公式4-10:F1=2(4-10)ROC曲線是一種展示模型在不同分類閾值下的真正例率和假正例率之間的關(guān)系的曲線,AUC是ROC曲線下方的面積,范圍在0到1之間,可以反映出模型正確區(qū)分正例和反例的能力。隨著AUC數(shù)值的增大,模型的性能會得到改善。當AUC=1時,表示該模型有很好的分類性能;在AUC=0.5的情況下,該模型則具有與隨機猜想相同的分類能力。4.3.2模型結(jié)果分析與對比在本文中,我們針對重復(fù)盜竊犯罪數(shù)據(jù)集采用了四種不同的機器學(xué)習(xí)模型進行了訓(xùn)練和分類,分別是XGBoost、PSO-XGBoost、K最近鄰算法和決策樹模型[18]。這些模型在分類任務(wù)中的性能表現(xiàn)通過一系列指標進行了評估和對比,分類結(jié)果如表4.3與圖4.3所示:表4.3模型結(jié)果指標對比模型AccuracyRecallPrecisionF1-scoreAUCXGBoost0.5540.550.560.550.59PSO-XGBoost0.6000.610.600.600.61KNN0.5160.520.520.520.53決策樹0.5300.530.530.530.54圖4.3模型效果對比圖首先,我們觀察到相較于K最近鄰算法與決策樹模型的,XGBoost模型在各項指標上的表現(xiàn)相對較好,Accuracy、Recall、Precision、F1-score和AUC值都明顯高于二者,但PSO-XGBoost模型在各項指標上都實現(xiàn)了更進一步的提升。再通過進行下一步的分析發(fā)現(xiàn),PSO-XGBoost模型相較于傳統(tǒng)的XGBoost模型,在Accuracy、Recall、Precision、F1-score和AUC值上均有所提升,這些性能指標的提升共同反映了PSO-XGBoost模型對于重復(fù)盜竊犯罪預(yù)測任務(wù)的更好適應(yīng)能力和預(yù)測效果。隨后通過進一步分析表明,PSO-XGBoost模型的Accuracy提升了4.46%,已達到60%,表明該模型更具有一定的分類準確率;Recall提升了6%,說明模型能更好地識別真實陽性,降低了漏報率;Precision提升了4%,表示模型在預(yù)測陽性時更可靠,減少了誤報率;F1-score提升了5%,綜合了模型的準確率和召回率,更好地平衡了模型的性能;AUC值提升了2%,大于0.6,說明模型具有更好的預(yù)測效果。綜上所述,PSO-XGBoost模型相較于XGBoost、K最近鄰算法和決策樹模型,在各項指標上都更具備優(yōu)勢,能夠更好地適用于重復(fù)盜竊犯罪的預(yù)測任務(wù),實現(xiàn)對盜竊犯罪刑滿釋放人員的重復(fù)盜竊犯罪行為預(yù)測。
5結(jié)論本文針對重復(fù)盜竊犯罪進行了一系列的研究與分析,相關(guān)工作成果展示如下:(1)本文基于正則表達式,對裁判文書網(wǎng)文本數(shù)據(jù)進行結(jié)構(gòu)化抽取,并經(jīng)過篩選,得到“性別”、“文化程度”、“犯罪年齡”等10個字段,構(gòu)建出適用于本文研究的重復(fù)盜竊犯罪數(shù)據(jù)集。(2)本文對2803條盜竊犯罪刑滿釋放人員信息進行了描述性分析,并加以可視化,發(fā)現(xiàn):男性占比遠大于女性;以16歲至49歲的青年人與中年人為主要群體;多數(shù)為累犯;多數(shù)的前科適用簡易程序。因此,本文建議公安機關(guān)和社會矯正部門加強對上述人群的管控力度,并盡量滿足人性化的要求[15]。(3)本文將粒子群優(yōu)化算法與XGBoost算法進行組合,構(gòu)建出重復(fù)盜竊犯罪預(yù)測模型,準確率達到60%,相較于XGBoost模型提升了4.46%,具有一定的預(yù)測能力,能夠更好地適用于重復(fù)盜竊犯罪的預(yù)測任務(wù),實現(xiàn)對盜竊犯罪刑滿釋放人員的重復(fù)盜竊犯罪行為預(yù)測。與此同時,本文仍存在不足之處:目前我國國內(nèi)暫時沒有可以用來進行重復(fù)盜竊犯罪預(yù)測的開源數(shù)據(jù)庫,無法獲取對重復(fù)盜竊犯罪更具有影響力的特征信息,導(dǎo)致研究結(jié)果出現(xiàn)一定的誤差。因此,本文希望國內(nèi)可以出現(xiàn)更多的開源犯罪信息數(shù)據(jù)集,方便相關(guān)領(lǐng)域人員在犯罪預(yù)測領(lǐng)域進行研究分析。
參考文獻李樂亮,李桂峰.論盜竊案件的特點及偵查方法[J].市場周刊(理論研究),2008(12):115-116+92.《中共中央關(guān)于制定國民經(jīng)濟和社會發(fā)展第十四個五年規(guī)劃和二0三五年遠景目標的建議》[J].教學(xué)考試,2021(7):73.朱宇迪.盜竊罪再犯行為的反思與預(yù)防[J].湖北科技學(xué)院學(xué)報,2020,40(01):39-43.DOI:10.16751/ki.hbkj.2020.01.007.陳鵬,瞿珂,胡嘯峰等.入室盜竊犯罪時段分布特征分析[J].中國刑警學(xué)院學(xué)報,2018(02):41-44.田水寶.盜竊再犯預(yù)防問題研究[J].法制博覽,2016,(12):146-148.朱小波,栗赫遙.基于PCA-XGBoost聯(lián)合算法的盜竊犯罪預(yù)測模型[J].計算機應(yīng)用與軟件,2022,39(05):98-103.李娟.論搶劫罪[D].四川大學(xué),2008.徐會軍.基于LSTM模型的盜竊犯罪預(yù)測研究[J].警察技術(shù),2022(05):45-48.GyeongseokO,JuyoungS,HyoungahP,etal.EvaluationofRandomForestinCrimePrediction:ComparingThree-LayeredRandomForestandLogisticRegression[J].DeviantBehavior,2022,43(9).VittorioGT,FedericoP,SilviaB,etal.MachineLearningandCriminalJustice:ASystematicReviewofAdvancedMethodologyfor
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 冷鏈管理培訓(xùn)考核試題及答案
- 心電監(jiān)護儀的使用課件
- 跨文化交際能力在2025年國際教育中的教學(xué)策略研究報告
- 2025年幼兒園保育教育質(zhì)量評估指南試題與答案
- 2025年管理崗筆試試題及參考答案(學(xué)習(xí)資料)
- 2025年方便的十八項醫(yī)療核心制度考試題及答案
- 流媒體平臺在2025年智能家居市場的融合與創(chuàng)新研究報告
- 2025年公共圖書館服務(wù)提升實施方案評估報告:圖書館閱讀推廣與全民閱讀推廣活動研究
- 《質(zhì)量管理與可靠性》課件-第10章 可靠性設(shè)計與分析
- 行業(yè)精英面試實戰(zhàn):國企面試題庫精 編
- 班組質(zhì)量管理
- 2025年四川省建筑施工企業(yè)安管人員考試(企業(yè)主要負責人·A類)歷年參考題庫含答案詳解(5卷)
- 2025版金屬材料買賣合同終止及廢舊材料回收利用協(xié)議
- 智慧監(jiān)獄AI大模型數(shù)字化平臺規(guī)劃設(shè)計方案
- 危大工程安全智能化管理措施
- 內(nèi)能的利用單元練習(xí) 2025-2026學(xué)年物理人教版(2024)九年級全一冊
- 鐵路建設(shè)工程質(zhì)量安全監(jiān)督管理辦法
- 數(shù)字經(jīng)濟與市場結(jié)構(gòu)-洞察及研究
- 醫(yī)療器械經(jīng)營質(zhì)量管理規(guī)范培訓(xùn)
- DB42T 1496-2019 公路邊坡監(jiān)測技術(shù)規(guī)程
- 2025駕駛員交通安全培訓(xùn)
評論
0/150
提交評論