數(shù)據(jù)分析與數(shù)據(jù)挖掘課件第2章 數(shù)據(jù)_第1頁
數(shù)據(jù)分析與數(shù)據(jù)挖掘課件第2章 數(shù)據(jù)_第2頁
數(shù)據(jù)分析與數(shù)據(jù)挖掘課件第2章 數(shù)據(jù)_第3頁
數(shù)據(jù)分析與數(shù)據(jù)挖掘課件第2章 數(shù)據(jù)_第4頁
數(shù)據(jù)分析與數(shù)據(jù)挖掘課件第2章 數(shù)據(jù)_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

第2章數(shù)據(jù)目錄

CONTENTS1.52

2.12.22.3數(shù)據(jù)的屬性數(shù)據(jù)的基本統(tǒng)計描述數(shù)據(jù)的相似性與相異性Chapter2.1數(shù)據(jù)的屬性4

數(shù)據(jù)集由數(shù)據(jù)對象組成。一個數(shù)據(jù)對象代表一個實體。例如:銷售數(shù)據(jù)庫:顧客、

商品、銷售醫(yī)療數(shù)據(jù)庫:患者、醫(yī)生、診斷治療選課數(shù)據(jù)庫:學生、教師、課程數(shù)據(jù)對象又稱為樣本、實例、數(shù)據(jù)點、對象或元組。數(shù)據(jù)對象用屬性描述。數(shù)據(jù)表的行對應數(shù)據(jù)對象;列對應屬性。2.1數(shù)據(jù)的屬性1.數(shù)據(jù)對象5

屬性(特征,變量)是一個數(shù)據(jù)字段,表示數(shù)據(jù)對象的一個特征。例如:客戶編號、姓名、地址等商品編號、商品名、價格、種類等2.1數(shù)據(jù)的屬性2.屬性(Attributes)6

標稱屬性(nominal)二元屬性(binary)序數(shù)屬性(ordinal)數(shù)值屬性(numeric)區(qū)間標度屬性(interval-scaled)比率標度屬性(ratio-scaled)2.1數(shù)據(jù)的屬性3.屬性類型7

標稱屬性(nominalattribute):類別,狀態(tài)或事物的名字每個值代表某種類別、編碼或狀態(tài),這些值不必具有有意義的序,可以看做是枚舉的例如:頭發(fā)顏色={赤褐色,黑色,金色,棕色,褐色,灰色,白色,紅色}也可以用數(shù)值表示這些符號或名稱,但并不定量地使用這些數(shù)。例如:婚姻狀況,職業(yè),ID號,郵政編碼,

可以用0表示未婚、1表示已婚2.1數(shù)據(jù)的屬性3.屬性類型8

二元屬性(binaryattribute):布爾屬性,是一種標稱屬性,只有兩個狀態(tài):0或1。對稱的(symmetric):兩種狀態(tài)具有同等價值,且具有相同的權(quán)重。例如:性別非對稱的(asymmetric):其狀態(tài)的結(jié)果不是同樣重要。例如:體檢結(jié)果(陰性和陽性),慣例:重要的結(jié)果用1編碼(如,HIV陽性)。2.1數(shù)據(jù)的屬性3.屬性類型9

序數(shù)屬性(ordinalattribute),其可能的值之間具有有意義的序或者秩評定(ranking),但是相繼值之間的差是未知的。例如:尺寸={小,中,大},軍銜,職稱序數(shù)屬性可用于主觀質(zhì)量評估例如:顧客對客服的滿意度調(diào)查。0-很不滿意;1-不太滿意;2-基本滿意;3-滿意;4-非常滿意2.1數(shù)據(jù)的屬性3.屬性類型10

數(shù)值屬性(numericattribute):定量度量,用整數(shù)或?qū)崝?shù)值表示區(qū)間標度(interval-scaled)屬性:使用相等的單位尺度度量。值有序,可以評估值之間的差,不能評估倍數(shù)。沒有絕對的零點。例如:日期,攝氏溫度,華氏溫度比率標度(ratio-scaled)屬性:具有固定零點的數(shù)值屬性。值有序,可以評估值之間的差,也可以說一個值是另一個的倍數(shù)。例如:開式溫標(K),重量,高度,速度2.1數(shù)據(jù)的屬性3.屬性類型11

離散屬性(discreteAttribute):具有有限或者無限可數(shù)個值。有時,表示為整型量。例如:郵編、職業(yè)或文庫中的字集二進制屬性是離散屬性的一個特例連續(xù)屬性(ContinuousAttribute):屬性值為實數(shù),一般用浮點變量表示。例如,溫度,高度或重量,實際上,真實值只能使用一個有限的數(shù)字來測量和表示。2.1數(shù)據(jù)的屬性離散屬性VS連續(xù)屬性Chapter2.2數(shù)據(jù)的基本統(tǒng)計描述13

2.2數(shù)據(jù)的基本統(tǒng)計描述目的數(shù)據(jù)的基本統(tǒng)計描述更好地識別數(shù)據(jù)的性質(zhì),把握數(shù)據(jù)全貌。中心趨勢度量、數(shù)據(jù)分散度量、數(shù)據(jù)的圖形表示中心趨勢度量均值、加權(quán)算數(shù)均值、中位數(shù)、眾數(shù)、中列數(shù)數(shù)據(jù)分散度量極差、分位數(shù)和四分位數(shù)、方差和標準差數(shù)據(jù)的圖形顯示箱圖、餅圖、頻率直方圖、散點圖均值(Mean)令x1,x2,…,xN為某數(shù)值屬性X的N個觀測值,該值集合的均值如式(2-1)所示。14

2.2數(shù)據(jù)的基本統(tǒng)計描述1.中心趨勢度量例:有學生考試成績的值:60,45,33,77,80,100,100,90,70,65。

(2-1)截尾均值15

例:某同學的某一科的考試成績:平時測驗80,期中90,期末95。科目成績的計算方式是:平時測驗占20%,期中成績占30%,期末成績占50%。這里,每個成績所占的比重為權(quán)重。那么,2.2數(shù)據(jù)的基本統(tǒng)計描述1.中心趨勢度量加權(quán)算數(shù)平均數(shù)(WeightedMean)(2-2)對于i=1,…,N,每個值xi都有一個權(quán)重wi。

中位數(shù)(Median):正中間的值如果值有奇數(shù)個,取中間值,否則取中間兩個數(shù)的平均值有序數(shù)據(jù)值的中間值如果觀察值有偶數(shù)個,通常取最中間的兩個數(shù)值的平均數(shù)作為中位數(shù)。16

2.2數(shù)據(jù)的基本統(tǒng)計描述1.中心趨勢度量例:數(shù)據(jù)按遞增排序為:33,45,60,65,70,77,80,90,100,100。有10個觀測值,因此中位數(shù)不唯一。中間兩個值為70和77,則中位數(shù)為17

分組數(shù)據(jù)中位數(shù)(GroupedMedian)2.2數(shù)據(jù)的基本統(tǒng)計描述1.中心趨勢度量Me:中位數(shù),L:中位數(shù)所在組的下限,Sm-1:中位數(shù)所在組以下各組的累計頻數(shù),fm:中位數(shù)所在組的頻數(shù),d:中位數(shù)所在組的組距。根據(jù)N/2確定中位數(shù)所在的組

(2-3)18

分組數(shù)據(jù)中位數(shù)2.2數(shù)據(jù)的基本統(tǒng)計描述1.中心趨勢度量例:表2-1為某公司員工薪酬的分組數(shù)據(jù),計算數(shù)據(jù)的近似分組數(shù)據(jù)中位數(shù)。SalaryFrequency15001699180170018994601900~19998502000~20992502100~21991302200~2299702300~2399202400~249910表2-1員工薪酬分組數(shù)據(jù)①判斷中位數(shù)區(qū)間:N=110+180+320+460+850+250+130+70+20+10=2400;N/2=1200;因為:110+180+320+460=1070<1200<1070+850=1920;所以:1900~1999為對應區(qū)間。

19

2.2數(shù)據(jù)的基本統(tǒng)計描述1.中心趨勢度量經(jīng)驗公式:可能最高頻率對應多個不同值,導致多個眾數(shù)例:數(shù)據(jù)按遞增序排序為:33,45,60,65,70,77,80,90,100,100。mode=100眾數(shù)(Mode):數(shù)據(jù)中出現(xiàn)最頻繁的值20

2.2數(shù)據(jù)的基本統(tǒng)計描述1.中心趨勢度量例:數(shù)據(jù)按遞增序排序為:33,45,60,65,70,77,80,90,100,100。中列數(shù)(Midrange):數(shù)據(jù)集中最大值和最小值的算術平均值

最小值和最大值分別為33和100,則中列數(shù)為21

2.2數(shù)據(jù)的基本統(tǒng)計描述2.數(shù)據(jù)分散度量例:數(shù)據(jù)按遞增序排序為:33,45,60,65,70,77,80,90,100,100。極差(又稱全距,Range):是集合中最大值與最小值之間的差距,即最大值減最小值后所得數(shù)據(jù)。100-33=6722

2.2數(shù)據(jù)的基本統(tǒng)計描述2.數(shù)據(jù)分散度量分位數(shù)(Quantile):取自數(shù)據(jù)分布的每隔一定間隔上的點,把數(shù)據(jù)劃分成基本上大小相等的連貫集合。給定數(shù)據(jù)分布的第k個q-分位數(shù)的值為x,使得小于x的數(shù)據(jù)值最多為k/q,而大于x的數(shù)據(jù)值最多為(q-k)/q,其中k是整數(shù),使得0<k<q。這里有q-1個q-分位數(shù)。圖2-1某變量X的數(shù)據(jù)統(tǒng)計描述顯示23

2.2數(shù)據(jù)的基本統(tǒng)計描述2.數(shù)據(jù)分散度量四分位數(shù)(Quantile):把數(shù)據(jù)分布劃分成4個相等的部分,使得每部分表示數(shù)據(jù)分布的四分之一。這3個數(shù)據(jù)點稱為四分位數(shù)。圖2-1某變量X的數(shù)據(jù)統(tǒng)計描述顯示Q1:“下四分位數(shù)”;Q2:“中位數(shù)”;Q3:“上四分位數(shù)”。24

2.2數(shù)據(jù)的基本統(tǒng)計描述2.數(shù)據(jù)分散度量四分位數(shù)極差(

InterQuartileRange,IQR):

Q1和Q3之間的距離。圖2-1某變量X的數(shù)據(jù)統(tǒng)計描述顯示

確定四分位數(shù)的位置:

Q1的位置=(n+1)/4=(n+1)×0.25

Q2的位置=2*(n+1)/4=(n+1)×0.5

Q3的位置=3*(n+1)/4=(n+1)×0.75

n表示項數(shù)25

2.2數(shù)據(jù)的基本統(tǒng)計描述2.數(shù)據(jù)分散度量四分位數(shù)極差(

InterQuartileRange,IQR):

Q1和Q3之間的距離。

例:由8人組成的旅游小團隊年齡分別為:17,19,22,24,25,28,34,37,求其年齡的四分位差。①計算Q1與Q3的位置:Q1的位置=(n+1)/4=(8+1)/4=2.25;Q3的位置=3*(n+1)/4=3*(8+1)/4=6.75②確定Q1與Q3的數(shù)值:Q1=19+(22-19)*0.25=19.75;Q3=28+(34-28)*0.75=32.5③計算四分位差:IQR=Q3-Q1=32.5-19.75=12.7526

2.2數(shù)據(jù)的基本統(tǒng)計描述2.數(shù)據(jù)分散度量四分位數(shù)極差(

InterQuartileRange,IQR):

Q1和Q3之間的距離。圖2-1某變量X的數(shù)據(jù)統(tǒng)計描述顯示

另一種確定四分位數(shù)的位置:

Q1的位置=1+(n-1)×0.25

Q2的位置=1+(n-1)×0.5

Q3的位置=1+(n-1)×0.75

n表示項數(shù)方差(樣本方差):是每個數(shù)據(jù)分別與平均數(shù)之差的平方的平均數(shù)??傮w方差:樣本方差:27

標準差:方差的平方根

2.2數(shù)據(jù)的基本統(tǒng)計描述2.數(shù)據(jù)分散度量(2-5)28

例:有學生考試成績的值:60,45,33,77,80,100,100,90,70,65。標準差:2.2數(shù)據(jù)的基本統(tǒng)計描述2.數(shù)據(jù)分散度量29

盒圖(又稱箱線圖,Box-plot),是一種用來描述數(shù)據(jù)分布的統(tǒng)計圖形,可以表現(xiàn)觀測數(shù)據(jù)的中位數(shù)、四分位數(shù)和極值等描述性統(tǒng)計量。2.2數(shù)據(jù)的基本統(tǒng)計描述離群點:繪制在離群閾值范圍外的點盒子外線延伸到最小和最大的觀測值中位數(shù)用盒內(nèi)線標記盒子的端點在四分位數(shù)上,使得盒子長度為四分位數(shù)極差IQR用盒子表示數(shù)據(jù)3.數(shù)據(jù)的圖形顯示30

盒圖(又稱箱線圖,Box-plot),是一種用來描述數(shù)據(jù)分布的統(tǒng)計圖形,可以表現(xiàn)觀測數(shù)據(jù)的中位數(shù)、四分位數(shù)和極值等描述性統(tǒng)計量。2.2數(shù)據(jù)的基本統(tǒng)計描述3.數(shù)據(jù)的圖形顯示離群點:第三個四分位數(shù)之上或者第一個四分位數(shù)之下至少1.5xIQR的值盒圖:分布直觀表示,體現(xiàn)五數(shù)概括五數(shù)概括:min,Q1,median,Q3,max31

餅圖(又稱圓形圖或餅形圖,PieGraph),通常用來表示整體的構(gòu)成部分及各部分之間的比例關系。餅圖顯示一個數(shù)據(jù)系列中各項的大小與各項總和的比例關系。2.2數(shù)據(jù)的基本統(tǒng)計描述3.數(shù)據(jù)的圖形顯示例:使用餅圖表示不同年齡區(qū)間的人參與某活動的情況表2-4某活動覆蓋人群年齡區(qū)間參與人數(shù)19歲及以下27020-29歲124830-39歲108040-49歲28050歲及以上180圖2-4某活動覆蓋人群餅圖32

頻率直方圖(又稱頻率分布直方圖,F(xiàn)requencyHistogram),是在統(tǒng)計學中表示頻率分布的圖形。2.2數(shù)據(jù)的基本統(tǒng)計描述3.數(shù)據(jù)的圖形顯示例:使用直方圖表示學生數(shù)學成績的分布學號成績70160702717035670499705667069070710070866709777106071188712797138371455表2-5

學生數(shù)學成績圖2-5學生成績數(shù)據(jù)頻率直方圖33

散點圖(ScatterDiagram):將樣本數(shù)據(jù)點繪制在二維平面或三維空間上,根據(jù)數(shù)據(jù)點的分布特征,直觀地研究變量之間的統(tǒng)計關系以及強弱程度。2.2數(shù)據(jù)的基本統(tǒng)計描述3.數(shù)據(jù)的圖形顯示例:使用散點圖表示物流收貨天數(shù)和客戶滿意度之間的關系物流收貨天數(shù)客戶滿意度64.51238365181.573.53482.511325122.5152表2-6物流收貨天數(shù)和客戶滿意度相關數(shù)據(jù)圖2-7物流收貨天數(shù)和客戶滿意度散點圖34

散點圖(ScatterDiagram)2.2數(shù)據(jù)的基本統(tǒng)計描述3.數(shù)據(jù)的圖形顯示(a)

線性相關

(b)非線性相關

(c)不相關圖2-6散點圖中屬性之間的相關性35

散點圖(ScatterDiagram)2.2數(shù)據(jù)的基本統(tǒng)計描述3.數(shù)據(jù)的圖形顯示(d)

正相關

(e)負相關圖2-6散點圖中屬性之間的相關性盒圖Boxplot描述五數(shù)概括餅圖PieGraph顯示一個數(shù)據(jù)系列中各項的大小與各項總和的比例關系直方圖Histogramx-axis表示數(shù)值大小,y-axis表示頻率36

散點圖Scatterplot每個值視作一個坐標對,作為一個點畫在平面上2.2數(shù)據(jù)的基本統(tǒng)計描述基本統(tǒng)計圖Chapter2.3數(shù)據(jù)的相似性與相異性38

2.3數(shù)據(jù)的相似性與相異性相似性(Similarity)兩個對象相似程度的數(shù)量表示數(shù)值越高表明相似性越大通常取值范圍為[0,1]相異性(Dissimilarity)(例如距離)兩個對象不相似程度的數(shù)量表示數(shù)值越低表明相似性越大相異性的最小值通常為0相異性的最大值(上限)是不同的鄰近性(Proximity):相似性和相異性都稱為鄰近性39

2.3數(shù)據(jù)的相似性與相異性1.數(shù)據(jù)矩陣與相異矩陣數(shù)據(jù)矩陣:對象-屬性結(jié)構(gòu)行-對象:n個對象列-屬性:p個屬性二模矩陣(Twomodes)相異性矩陣:對象-對象結(jié)構(gòu)n個對象兩兩之間的鄰近度對稱矩陣單模(Singlemode)40

2.3數(shù)據(jù)的相似性與相異性2.標稱屬性的鄰近性度量相異性p是對象的屬性總數(shù),m是匹配的屬性數(shù)目(即對象i和j狀態(tài)相同的屬性數(shù))相似性

41

2.3數(shù)據(jù)的相似性與相異性2.標稱屬性的鄰近性度量例:計算

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論