




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第二節(jié)數(shù)據(jù)挖掘的統(tǒng)計限制一、整體情報預(yù)警二、邦弗朗尼原理三、邦弗朗尼原理的例子1、事件:
2002年,美國布什政府提出了針對所有可獲得的數(shù)據(jù)進行挖掘的計劃,目的用于追蹤恐怖活動。這些數(shù)據(jù)包括信用卡收據(jù)、酒店記錄、旅行數(shù)據(jù)以及許多其他類型的情報。一、整體情報預(yù)警Totalinformationawareness(TIA)2、缺陷:
尋找了許多關(guān)聯(lián)模糊的數(shù)據(jù),顯然會得出虛假的結(jié)果因此侵犯無辜者的隱私。
①通過瀏覽大量的數(shù)據(jù),并想從中發(fā)現(xiàn)疑似的恐怖行為,是否會找出很多無辜行為。
②是否會找出雖然非法但不是恐怖行為的行為。
③這些最終結(jié)果的發(fā)現(xiàn)是否會導(dǎo)致警察登門造訪甚至更糟糕的情形。二、邦弗朗尼原理1、非正式闡述:可幫助我們避免將隨機出現(xiàn)看成真正出現(xiàn)。
假定人們有一定量的數(shù)據(jù)并期望從中找到某個特定類型的事件。即使數(shù)據(jù)完全隨機,也可以期望該類型事件發(fā)生。任何隨機數(shù)據(jù)往往都會有一些不同尋常的特征,這些特征看上去雖然很重要,但實際上并不重要,除此之外,別無他由,這個意義上而言,這些事件的出現(xiàn)純屬“臆造”。
在數(shù)據(jù)隨機性假設(shè)的基礎(chǔ)上,可以計算所尋找事件出現(xiàn)次數(shù)的期望值。如果該結(jié)果顯著高于你所希望找到的真正實例的數(shù)目,那么可以預(yù)期,尋找到的幾乎任何事物都是臆造的,也就是說,他們是在統(tǒng)計上出現(xiàn)的假象,而不是你所尋找事件的憑證。二、邦弗朗尼原理2、原理:
在考察數(shù)據(jù)時,如果將某些對象視為數(shù)據(jù)的有趣特征,而這些對象中的許多都可能會在隨機數(shù)據(jù)中出現(xiàn),那么這些顯著的特征就不可依賴。對于那些實際中并不充分罕見的特征來說,上述觀察結(jié)果限制了從這些數(shù)據(jù)特征中進行挖掘的能力。3、作用:對數(shù)據(jù)挖掘的過度使用進行警告。三、邦弗朗尼原理的例子1、數(shù)據(jù)挖掘的目標:
確信在某個地方有一群惡人,目的是找出這群惡人。我們有理由相信這些惡人會定期在某個賓館聚會商討作惡計劃。2、數(shù)據(jù)的有趣特征:惡人在兩個不同日子入住同一賓館。3、假設(shè):(1)惡人數(shù)目可能有10億(2)每個人每100天當中會有一天去賓館(3)一個賓館最多容納100個人。因此10
萬個賓館足夠容納10億人中的1%也
就是1000萬人在某個給定的日子入住賓館。(4)我們將對1000天的賓館入住記錄進行
核查。4、是否能推斷某兩人可能是惡人:(1)假設(shè)沒有惡人,則每人去賓館的概率為0.01,且是隨機地從10萬個賓館中選擇一個。(2)給定某天,任意兩人決定去賓館的概率:0.0001(3)給定某天,兩人同時入住同一賓館的概率:0.0001/105=10-9
(4)任意給定不同兩天,兩人入住同一賓館的概率:10-9的平方,即10-18上述推理中,只需要兩人兩次中每次住的賓館相同即可,不需要兩次都是同一賓館。5、事件出現(xiàn)多少次表明作惡事件發(fā)生:事件:兩個人在兩天中的每一天入住相同賓館。(1)10億人中的人員組對個數(shù):(2)1000天內(nèi)任意兩天的組合個數(shù):(3)疑似作惡事件的期望數(shù)目:6、結(jié)果:大概25萬對人員疑似惡人,即使他們根本不是。假定實
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年黑河市公安局面向社會公開招聘22名警務(wù)輔助人員模擬試卷參考答案詳解
- 2025廣東佛山市南海區(qū)桂城街道招聘輔警體能測評、筆試模擬試卷完整參考答案詳解
- 2025黑龍江齊齊哈爾市富??h信訪局招聘公益性崗位人員2人模擬試卷有答案詳解
- 2025廣東廣州市增城區(qū)教育局“粵聚英才粵見未來”招聘廣州增城外國語實驗中學(xué)教師10人模擬試卷附答案詳解
- 2025年上半年延邊州社會考生普通話水平測試模擬試卷及答案詳解1套
- 2025北京京工健康服務(wù)有限責(zé)任公司招聘2人考前自測高頻考點模擬試題及答案詳解(奪冠系列)
- 2025屆春季東華公司社會招聘模擬試卷及1套參考答案詳解
- 2025年度哈爾濱市木蘭縣“丁香人才周”(春季)事業(yè)單位引才招聘76人模擬試卷及答案詳解(易錯題)
- 2025昆明市西山區(qū)??诮值勒衅傅诙o助性崗位人員(6人)考前自測高頻考點模擬試題及答案詳解(全優(yōu))
- 2025年甘肅省民航機場集團校園招聘45人考前自測高頻考點模擬試題及答案詳解(網(wǎng)校專用)
- 關(guān)愛弱勢群體課件
- 跨境資金池管理辦法
- 校企掛職鍛煉協(xié)議書范本
- 2025年成人高考政治試題及答案
- 旅游公司旅行社安全應(yīng)急救援預(yù)案及措施
- 駕照換證考試題庫及答案
- 2025年維護患者合法權(quán)益及知情同意培訓(xùn)試題
- 醫(yī)藥物流倉庫管理流程標準
- 三所里戰(zhàn)役講解
- 英語介紹端午節(jié)課件
- 先兆流產(chǎn)課件
評論
0/150
提交評論