




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、精選優(yōu)質(zhì)文檔-傾情為你奉上R語(yǔ)言偵測(cè)欺詐交易背景考慮到在經(jīng)濟(jì)和社會(huì)領(lǐng)域中經(jīng)常存在欺詐交易等非法活動(dòng),因此欺詐檢驗(yàn)是數(shù)據(jù)挖掘技術(shù)的一個(gè)重要應(yīng)用領(lǐng)域。從數(shù)據(jù)分析的角度,欺詐行為通常和異常的觀測(cè)值相關(guān)聯(lián),因?yàn)檫@些欺詐行為是偏離常規(guī)的。在多個(gè)數(shù)據(jù)分析領(lǐng)域,這些偏離常規(guī)的行為經(jīng)常成為離群值。數(shù)據(jù)挖掘的結(jié)果有助于公司的事后檢查活動(dòng),能夠提供某種欺詐概率排序作為輸出結(jié)果,可以使公司以最佳方式來(lái)利用其事后檢查資源。目的偵測(cè)欺詐交易的目的是找到“奇怪的”交易記錄報(bào)告,它可能指出某些銷售員涉嫌欺詐。這里用的數(shù)據(jù)是一個(gè)較短時(shí)期內(nèi)的銷售數(shù)據(jù),銷售員可按照自己的策略和公司情況來(lái)自由設(shè)置銷售價(jià)格。我們的目的是根據(jù)公司過(guò)去
2、發(fā)現(xiàn)的交易報(bào)告中的錯(cuò)誤和欺詐企圖,幫助公司完成核實(shí)這些銷售報(bào)告真實(shí)性的工作。1.加載數(shù)據(jù):共401 146行數(shù)據(jù),每一行包括來(lái)自銷售員報(bào)告的信息。ID:說(shuō)明銷售員ID的一個(gè)因子變量。Prod:說(shuō)明銷售產(chǎn)品ID號(hào)的一個(gè)因子變量。Quant:報(bào)告該產(chǎn)品銷售的數(shù)量。Val:報(bào)告銷售記錄的總價(jià)值。Insp:有3個(gè)可能值的因子變量ok表示公司檢查了該交易并認(rèn)為該交易有效;fraud表示發(fā)現(xiàn)該交易為欺詐;unkn表示該交易未經(jīng)過(guò)公司審核。2.數(shù)據(jù)集探索:> sum(is.na(sales$Quant) & is.na(sales$Val)1 888從數(shù)據(jù)的統(tǒng)計(jì)特征初步可以看出v431號(hào)雇員錄
3、入的數(shù)據(jù)最多,p1125號(hào)產(chǎn)品賣出最多,可以看到產(chǎn)品銷售的數(shù)量和總價(jià)值的四分位數(shù)據(jù),公司已檢查承認(rèn)有效的數(shù)據(jù)有14462,已發(fā)現(xiàn)欺詐的數(shù)據(jù)有1270,未經(jīng)過(guò)審查的有,說(shuō)明大量數(shù)據(jù)還未經(jīng)過(guò)審核,需要接下來(lái)的數(shù)據(jù)分析來(lái)檢查其中的欺詐數(shù)據(jù)。數(shù)據(jù)中有大量缺失值,當(dāng)重要產(chǎn)品銷售數(shù)和銷售總價(jià)值同時(shí)缺失時(shí),就無(wú)法進(jìn)行分析,這樣的數(shù)據(jù)有888條,在40萬(wàn)組數(shù)據(jù)中可以忽略不計(jì)。判斷數(shù)據(jù)框中每個(gè)變量的屬性:str(sales)'data.frame': obs. of 5 variables: $ ID : Factor w/ 6016 levels "v1","v2
4、","v3",.: 1 2 3 4 3 5 6 7 8 9 . $ Prod : Factor w/ 4548 levels "p1","p2","p3",.: 1 1 1 1 1 2 2 2 2 2 . $ Quant: int 182 3072 20393 112 6164 104 350 200 233 118 . $ Val : num 1665 8780 76990 1100 20260 . $ Insp : Factor w/ 3 levels "ok","unk
5、n","fraud": 2 2 2 2 2 2 2 2 2 2 .可以看到ID,Prod,Insp是因子型變量, Quant整數(shù)型,Val數(shù)值型。table(sales$Insp)/nrow(sales)*100 ok unkn fraud 3. 96. 0.在只考慮已檢查過(guò)的銷售記錄,看到欺詐比例較小。繪制每個(gè)交易人員的交易數(shù)量和每個(gè)產(chǎn)品的交易數(shù)量圖形totS <- table(sales$ID)totP <- table(sales$Prod)barplot(totS,main='Transactions per salespeople
6、39;,names.arg='',xlab='Salespeople', ylab='Amount')barplot(totP,main='Transactions per product',names.arg='',xlab='Products', ylab='Amount')看到所有銷售人員的數(shù)據(jù)相當(dāng)不同,對(duì)于每個(gè)產(chǎn)品,波動(dòng)性較大。sales$Uprice <- sales$Val/sales$Quantsummary(sales$Uprice) Min. 1st Qu.
7、Median Mean 3rd Qu. Max. NA's 0.00 8.46 11.89 20.30 19.11 26460.00 13248檢查產(chǎn)品單位價(jià)格的分布,看到有明顯的變動(dòng)性。out <- tapply(Uprice,list(Prod=Prod),function(x) length(boxplot.stats(x)$out)outorder(out,decreasing=T)1:10sum(out)129446sum(out)/nrow(sales)*10017.34047初步找到29446個(gè)被認(rèn)為是離群值的交易,相當(dāng)于交易的7.3%3.缺失值處理:找出變量Qua
8、nt和變量Val同時(shí)有缺失值的交易占很大比例的銷售人員> totS<-table(sales$ID)> totP<-table(sales$Prod)> nas<-saleswhich(is.na(sales$Quant)&is.na(sales$Val),c("ID","Prod")> propS<-100*table(nas$ID)/totS> propSorder(propS,decreasing=T)1:10 v1237 v4254 v4038 v5248 v3666 v4433 v4
9、170 13. 9. 8. 8. 6. 6. 5. v4926 v4664 v4642 5. 5. 4.可以考慮直接剔除同時(shí)在兩個(gè)變量有缺失值的交易sales<-sales-which(is.na(sales$Quant) & is.na(sales$Val),分析剩余的在數(shù)量或者價(jià)格變量上有缺失值的交易。計(jì)算每一種產(chǎn)品在數(shù)量上有缺失值的交易,顯示前10個(gè):> nnasQp<-tapply(sales$Quant,list(sales$Prod),function(x) sum(is.na(x)> propNAsQp<-nnasQp/table(sales
10、$Prod)> propNAsQporder(propNAsQp,decreasing=T)1:10 p2442 p2443 p1653 p4101 p4243 p903 p3678 1. 1. 0. 0. 0. 0. 0. p4061 p3955 p4313 0. 0. 0.P2442和p2443兩個(gè)產(chǎn)品所有的交易數(shù)量是缺失的,因此我們無(wú)法計(jì)算其標(biāo)準(zhǔn)價(jià)格,所以這些產(chǎn)品的交易信息不可能進(jìn)行任何分析。一共54份報(bào)告,標(biāo)記為ok的報(bào)告,意味著檢查員掌握了比這個(gè)數(shù)據(jù)集更多的信息,或者我們得到的數(shù)據(jù)有輸入錯(cuò)誤,因?yàn)閺倪@些交易中似乎不可能得到任何結(jié)論,基于此,將刪除這些交易報(bào)告:> sale
11、s <- sales!sales$Prod %in% c('p2442','p2443'),更新刪除兩種產(chǎn)品后的Prod:> nlevels(sales$Prod)1 4548> sales$Prod <- factor(sales$Prod)> nlevels(sales$Prod)1 4546觀察是否有銷售人員的所有交易數(shù)量為缺失值:> nnasQs<-tapply(sales$Quant,list(sales$ID),function(x) sum(is.na(x)> propNAsQs<-nnasQs
12、/table(sales$ID)> propNAsQsorder(propNAsQs,decreasing=T)1:10 v2925 v5537 v5836 v6058 v6065 v4368 v2923 1. 1. 1. 1. 1. 0. 0. v2970 v4910 v4542 0. 0. 0.從結(jié)果上看,有幾個(gè)銷售人員沒(méi)有在報(bào)告中填寫交易的數(shù)量信息。我們只要有其他銷售人員報(bào)告的相同產(chǎn)品的交易,就可以嘗試使用此信息來(lái)填補(bǔ)那些缺失值,所以不刪除這些交易。對(duì)剩余的交易,用每個(gè)產(chǎn)品單位價(jià)格的中位數(shù)作為產(chǎn)品的標(biāo)準(zhǔn)價(jià)格:tPrice<-tapply(salessales$Insp!=
13、39;fraud','Uprice',list(salessales$Insp!='fraud','Prod'),median,na.rm=T)用標(biāo)準(zhǔn)單價(jià)計(jì)算缺失值Quant和Val,填補(bǔ)所有缺失值noQuant<-which(is.na(sales$Quant)salesnoQuant,'Quant'<-ceiling(salesnoQuant,'Val'/tPricesalesnoQuant,'Prod')noVal<-which(is.na(sales$Val)sal
14、esnoVal,'Val'<-salesnoVal,'Quant'*tPricesalesnoVal,'Prod'重新計(jì)算Uprice列的值來(lái)填充先前未知的單位價(jià)格sales$Uprice<-sales$Val/sales$Quant填補(bǔ)缺失值之后保存為sales,后面分析的數(shù)據(jù)就用這個(gè)數(shù)據(jù)。有些產(chǎn)品只有極少的交易,因?yàn)樘俚慕灰?,在要求的統(tǒng)計(jì)學(xué)顯著性下很難做出決定。這種情況下,可以和一些產(chǎn)品的交易一起分析來(lái)避免這個(gè)問(wèn)題。盡管缺失產(chǎn)品之間關(guān)系的信息,但可以嘗試通過(guò)觀察產(chǎn)品單價(jià)分部之間的相似性來(lái)推斷其中的一些關(guān)系,如果可以發(fā)現(xiàn)具有類似價(jià)
15、格的產(chǎn)品,我們可以考慮合并它們相應(yīng)的交易并對(duì)它們一起進(jìn)行分析,從而找到異常值。比較兩個(gè)分布的方法是比較總結(jié)分布的一些統(tǒng)計(jì)特性。連續(xù)變量分布的兩個(gè)重要屬性是集中趨勢(shì)和離散趨勢(shì),這里使用中位數(shù)作為衡量中心的統(tǒng)計(jì)量,應(yīng)用四分位距(IQR)作為離散指標(biāo)的統(tǒng)計(jì)量。 > notF<-which(Insp!="fraud")> ms<-tapply(UpricenotF,list(Prod=ProdnotF),function(x)+ bp<-boxplot.stats(x)$stats+ c(median=bp3,iqr=bp4-bp2)+ )> m
16、s<-matrix(unlist(ms),length(ms),2,byrow=T,dimnames=list(names(ms),c('median','iqr')> head(ms) median iqrp1 11. 8.p2 10. 5.p3 10. 4.p4 9. 5.p5 10. 7.p6 13. 6.上面的代碼使用函數(shù)boxplot()獲得中位數(shù)、第一個(gè)四分位數(shù)和第三個(gè)四分位數(shù)。對(duì)每個(gè)產(chǎn)品的所有交易,計(jì)算這些統(tǒng)計(jì)量,從分析中剔除有欺詐的交易。有了這些統(tǒng)計(jì)量以后,得到含有每個(gè)產(chǎn)品的中位數(shù)和四分位距的一個(gè)矩陣。par(mfrow=c(1,2)
17、plot(ms,1,ms,2,xlab='Median',ylab='IQR',main='')plot(ms,1,ms,2,xlab='Median',ylab='IQR',main='',col='grey',log="xy")smalls <- which(table(Prod) < 20)points(log(mssmalls,1),log(mssmalls,2),pch='+')許多產(chǎn)品的中位數(shù)和IQR大致相同,我們可以看到,
18、那些有少數(shù)交易的產(chǎn)品中有很多和其他產(chǎn)品很相似。但是難以判斷這些產(chǎn)品是否為欺詐交易。對(duì)于交易數(shù)量少于20的產(chǎn)品,我們將尋找與它的單位價(jià)格分布最相似的產(chǎn)品,然后用Kolmogorow-Smirnov檢驗(yàn)來(lái)檢查兩個(gè)產(chǎn)品是否在統(tǒng)計(jì)意義上相似。下面的代碼用來(lái)獲得一個(gè)矩陣(similar)。矩陣中存儲(chǔ)的事這種少于20個(gè)交易的每個(gè)產(chǎn)品的檢查信息,用對(duì)象ms來(lái)保存前面獲得的每個(gè)產(chǎn)品的單位價(jià)格的中位數(shù)和IQR。dms <- scale(ms)smalls <- which(table(Prod) < 20)prods <- tapply(sales$Uprice,sales$Prod,l
19、ist)similar <- matrix(NA,length(smalls),7,dimnames=list(names(smalls), c('Simil','ks.stat','ks.p','medP','iqrP','medS','iqrS') for(i in seq(along=smalls) d <- scale(dms,dmssmallsi,FALSE) d <- sqrt(drop(d2 %*% rep(1,ncol(d) stat &l
20、t;- ks.test(prodssmallsi,prodsorder(d)2) similari, <- c(order(d)2,stat$statistic,stat$p.value,mssmallsi, msorder(d)2,)head(similar) Simil ks.stat ks.p medP iqrP medS iqrSp8 2827 0. 0. 3. 0. 3. 0.p18 213 0. 0. 5. 8. 5. 7.p38 1044 0. 0. 5. 6. 5. 6.p39 1540 0. 0. 7. 1. 8. 1.p40 3971 0. 0. 9. 1. 9. 1
21、.p47 1387 0. 0. 2. 2. 2. 2.得到矩陣similar前幾行相應(yīng)產(chǎn)品的ID:levels(Prod)similar1,11 "p2829"在90%的顯著水平下,我們可以檢查單位價(jià)格分布有相似性的產(chǎn)品的數(shù)量:sum(similar,'ks.p' >= 0.9)1 117對(duì)于這117個(gè)產(chǎn)品,我們可以把更多的交易納入決策,提高檢驗(yàn)的統(tǒng)計(jì)顯著水平。4.用無(wú)監(jiān)督技術(shù)進(jìn)行數(shù)據(jù)挖掘:我們面臨的不是預(yù)測(cè)任務(wù),而是一個(gè)描述性的數(shù)據(jù)挖掘任務(wù)。對(duì)于未被檢驗(yàn)的報(bào)告,Insp列沒(méi)有任何信息,所以它對(duì)分析沒(méi)有影響。對(duì)于這些觀測(cè)值,我們只有對(duì)交易的描述。這意味
22、著這些銷售報(bào)告僅僅有描述他的自變量,這種類型的數(shù)據(jù)適用于非監(jiān)督學(xué)習(xí)技術(shù)。聚類方法師徒對(duì)一組觀測(cè)值形成多個(gè)聚類,一個(gè)聚類內(nèi)的個(gè)案相似,從而找到這些觀測(cè)值的“自然”組別。相似性概念通常要求由描述觀測(cè)值的變量所定義的空間給出一個(gè)距離定義,這個(gè)距離定義是衡量一個(gè)觀測(cè)值和其他觀測(cè)值之間距離的函數(shù),距離靠近的個(gè)案通常認(rèn)為屬于同一個(gè)自然組。有些異常值檢驗(yàn)方法假定數(shù)據(jù)的預(yù)期分布,把背離這一分布的任何標(biāo)記值記為異常值。另一個(gè)常見(jiàn)的異常值檢驗(yàn)策略是假定一個(gè)變量空間的距離度量,然后把距離其他觀測(cè)值“太遠(yuǎn)”的觀測(cè)值標(biāo)記為異常觀測(cè)值,我們的目標(biāo)是得到一組觀測(cè)值的異常值排序,這個(gè)排序作為公司內(nèi)檢驗(yàn)決策的基礎(chǔ)。5.評(píng)價(jià)準(zhǔn)則
23、library(ROCR)data(ROCR.simple)pred<-prediction(ROCR.simple$predictions,ROCR.simple$labels)perf<-performance(pred,'prec','rec')plot(perf)PRcurve <- function(preds,trues,.) require(ROCR,quietly=T) pd <- prediction(preds,trues) pf <- performance(pd,'prec','rec
24、') pfy.values <- lapply(pfy.values,function(x) rev(cummax(rev(x) plot(pf,.)PRcurve(ROCR.simple$predictions,ROCR.simple$labels)標(biāo)準(zhǔn)價(jià)格的標(biāo)準(zhǔn)化距離:為了避免不同價(jià)格對(duì)異常值排名的影響,對(duì)單位價(jià)格和標(biāo)準(zhǔn)價(jià)格之間的距離進(jìn)行標(biāo)準(zhǔn)化。 是產(chǎn)品p的標(biāo)準(zhǔn)單位價(jià)格,是該產(chǎn)品交易的單位價(jià)格的中位數(shù),是該產(chǎn)品單位價(jià)格的四分位距avgNDTP <- function(toInsp,train,stats) if (missing(train) && mi
25、ssing(stats) stop('Provide either the training data or the product stats') if (missing(stats) notF <- which(train$Insp != 'fraud') stats <- tapply(train$UpricenotF, list(Prod=train$ProdnotF), function(x) bp <- boxplot.stats(x)$stats c(median=bp3,iqr=bp4-bp2) ) stats <- ma
26、trix(unlist(stats), length(stats),2,byrow=T, dimnames=list(names(stats),c('median','iqr') statswhich(stats,'iqr'=0),'iqr' <- statswhich(stats,'iqr'=0),'median' mdtp <- mean(abs(toInsp$Uprice-statstoInsp$Prod,'median')/ statstoInsp$Prod,'iqr') return(mdtp)6.計(jì)算離群值排序:這里用局部離群值
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 山東省濱州市2024-2025學(xué)年高一下學(xué)期期末測(cè)試物理試題(含答案)
- 2025北京市通州高二下學(xué)期期末政治(含解析)
- 中醫(yī)藥現(xiàn)代化進(jìn)程中2025年俄羅斯市場(chǎng)拓展案例分析報(bào)告001
- 專利政策考試題庫(kù)及答案
- 地震逃生說(shuō)課課件
- 地球的引力科學(xué)課件
- 2025年當(dāng)前合同承包商管理的關(guān)鍵問(wèn)題備考資料
- 不留遺憾作文800字遺憾作文(15篇)
- 地球環(huán)境問(wèn)題
- 語(yǔ)言韻律在高中語(yǔ)文中的應(yīng)用
- 醫(yī)學(xué)人文與人文醫(yī)學(xué) 課件
- 建筑施工特種作業(yè)人員體檢表
- 《人才畫像 讓招聘準(zhǔn)確率倍增》讀書筆記思維導(dǎo)圖
- 供應(yīng)鏈ABN實(shí)操手冊(cè)(2021版)
- 隧道洞渣加工石料組織管理方案
- 機(jī)電安裝質(zhì)量標(biāo)準(zhǔn)
- 2023年湖北農(nóng)谷實(shí)業(yè)集團(tuán)有限責(zé)任公司招聘筆試模擬試題及答案解析
- DB15T 2748-2022 綠色電力應(yīng)用評(píng)價(jià)方法
- 外科學(xué)肺部疾病教案(共18頁(yè))
- 廠房改造合同范本
- 專業(yè)技術(shù)職務(wù)任職資格評(píng)審表2009
評(píng)論
0/150
提交評(píng)論