




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
了解和管理數(shù)據(jù)數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)類型數(shù)據(jù)統(tǒng)計(jì)特征數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)質(zhì)量主數(shù)據(jù)管理數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)結(jié)構(gòu)一般定義為指互相之間存在著一種或者多種關(guān)系的數(shù)據(jù)元素的集合和該集合中數(shù)據(jù)元素之間的關(guān)系組成。不同的學(xué)者在不同的論述場景里也給出了一些其它定義,比如SartajSahni在其《數(shù)據(jù)結(jié)構(gòu)、算法與應(yīng)用》一書中定義數(shù)據(jù)結(jié)構(gòu)是數(shù)據(jù)對象,以及存在于該對象的實(shí)例和組成實(shí)例的數(shù)據(jù)元素之間的各種聯(lián)系,這些聯(lián)系可以通過定義相關(guān)的函數(shù)來給出;CliffordA.Shaffer在《數(shù)據(jù)結(jié)構(gòu)與算法分析》一書中定義是數(shù)據(jù)結(jié)構(gòu)是抽象數(shù)據(jù)類型(AbstractDataType,ADT)的物理實(shí)現(xiàn);RobertL.Kruse在《數(shù)據(jù)結(jié)構(gòu)與程序設(shè)計(jì)》一書中將一個(gè)數(shù)據(jù)結(jié)構(gòu)的設(shè)計(jì)過程分成抽象層、數(shù)據(jù)結(jié)構(gòu)層和實(shí)現(xiàn)層,其中抽象層是指抽象數(shù)據(jù)類型層,它討論數(shù)據(jù)的邏輯結(jié)構(gòu)及其運(yùn)算,數(shù)據(jù)結(jié)構(gòu)層和實(shí)現(xiàn)層討論一個(gè)數(shù)據(jù)結(jié)構(gòu)的表示和在計(jì)算機(jī)內(nèi)的存儲細(xì)節(jié)以及運(yùn)算的實(shí)現(xiàn)。在數(shù)據(jù)挖掘中,尤其是大多數(shù)情況下的結(jié)構(gòu)化數(shù)據(jù)的挖掘中,數(shù)據(jù)結(jié)構(gòu)可以具體指代同一類的數(shù)據(jù)元素,各元素之間有相互關(guān)系。絕大部分的數(shù)據(jù)挖掘算法可以使用一種非常簡單的數(shù)據(jù)格式,我們稱它為寬表。寬表將客戶相關(guān)的信息都記錄在一行上,以便進(jìn)行分析。其特征:每個(gè)客戶一條記錄,極多的屬性(字段、列、變量、指標(biāo)),幾百個(gè)指標(biāo)是很常見的,有時(shí)指標(biāo)達(dá)3000以上。數(shù)據(jù)類型從數(shù)據(jù)的測量尺度來看,數(shù)據(jù)可以分為四種類型:(1)名義分類數(shù)據(jù),取值是定性的,表現(xiàn)為互不相容的類別或?qū)傩?,沒有順序和大小的差異,如客戶類型、性別(男、女)、本地網(wǎng)(是、否)等。(2)有序分類數(shù)據(jù),各類別之間有程度的差異,但不能進(jìn)行算術(shù)運(yùn)算,如收入的低、中和高。(3)定距數(shù)值數(shù)據(jù),可以計(jì)算兩個(gè)取值之差,但不能做其它類型的算術(shù)運(yùn)算,如日期和時(shí)間的間隔。(4)定比數(shù)值數(shù)據(jù),支持各種類型算術(shù)運(yùn)算的數(shù)據(jù),如話務(wù)量、收入等。數(shù)據(jù)類型數(shù)據(jù)通常以字符串或數(shù)字的形成出現(xiàn),但數(shù)據(jù)的形式未必能說明數(shù)據(jù)的類型。許多編碼都包含數(shù)字,但這些數(shù)字之間并沒有順序,更不能進(jìn)行四則運(yùn)算。有時(shí)數(shù)據(jù)是以字符串的形式存儲,但它們之間是有順序的,如代表客戶等級的鉆、金和銀。上述的四種類型的數(shù)據(jù)都是結(jié)構(gòu)化的數(shù)據(jù),還有文本、圖片、聲音和視頻等數(shù)據(jù),它們屬于非結(jié)構(gòu)化數(shù)據(jù),還以電信行業(yè)數(shù)據(jù)舉例,譬如用戶姓名、地址、投訴內(nèi)容等。數(shù)據(jù)挖掘算法不能直接處理非結(jié)構(gòu)化數(shù)據(jù),需要首先將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。另外還有事務(wù)數(shù)據(jù)、數(shù)據(jù)矩陣、各類有序數(shù)據(jù)、文本數(shù)據(jù)、Web數(shù)據(jù)、多媒體數(shù)據(jù)(圖形圖像、音頻視頻)等。數(shù)據(jù)統(tǒng)計(jì)特征數(shù)據(jù)統(tǒng)計(jì)特征,指運(yùn)用統(tǒng)計(jì)學(xué)的方法進(jìn)行數(shù)據(jù)探索,發(fā)現(xiàn)數(shù)據(jù)中隱藏的規(guī)律,為數(shù)據(jù)挖掘過程中的數(shù)據(jù)質(zhì)量檢查、變量篩選和變量預(yù)處理提供依據(jù)。數(shù)據(jù)統(tǒng)計(jì)特征(1)——單一分類變量對單一分類變量探索的最基本統(tǒng)計(jì)方法是通過柱形圖或者條形圖描述變量中不同類別出現(xiàn)的次數(shù)或頻率分布。通過變量的頻數(shù)分析,我們可以回答:一個(gè)分類變量取值個(gè)數(shù)是多還是少?用戶是集中在某幾個(gè)類別還是分散在各個(gè)類別?是否某些類別的用戶數(shù)與經(jīng)驗(yàn)不符?通過回答這些問題,我們可能會發(fā)現(xiàn)潛在的數(shù)據(jù)質(zhì)量問題,也為建模前的變量預(yù)處理提供思路。例如一個(gè)分類變量取值很多,但大多數(shù)類別的用戶數(shù)較少,此時(shí)建議將用戶數(shù)較少的類別進(jìn)行合并,以便更能滿足數(shù)據(jù)挖掘算法的需要。數(shù)據(jù)統(tǒng)計(jì)特征(2)——單一數(shù)值變量單一數(shù)值變量探索的最常用方法是計(jì)算變量的一組描述統(tǒng)計(jì)量,如描述數(shù)據(jù)集中趨勢的統(tǒng)計(jì)量:均值、中位數(shù)和分位數(shù)等;描述數(shù)據(jù)離散程度的統(tǒng)計(jì)量:極差、方差、標(biāo)準(zhǔn)差和離散系數(shù)等;探索單一數(shù)值變量的分布:箱線圖和直方圖。當(dāng)然了,總量是最常用的分析變量,即直接對一組數(shù)據(jù)計(jì)數(shù)或者求和,譬如某區(qū)域的總用戶數(shù)、某區(qū)域的總收入、總話務(wù)量等。總量反應(yīng)了總體情況,在環(huán)境相似情況下,通常還用總量進(jìn)行比較分析,譬如人口規(guī)模、經(jīng)濟(jì)環(huán)境基本相近的兩個(gè)區(qū)域,進(jìn)行收入量、用戶總量的比較分析等。數(shù)據(jù)統(tǒng)計(jì)特征(2)——單一數(shù)值變量(1)描述數(shù)據(jù)集中趨勢的統(tǒng)計(jì)量均值:一組數(shù)據(jù)的平均值,它是對較細(xì)粒度的數(shù)據(jù)進(jìn)行匯總得到的較粗粒度的數(shù)據(jù)。如電信XX省份移動用戶的平均ARPU值,它可以讓人們對該省份移動用戶價(jià)值的高低有個(gè)基本的認(rèn)識。中位數(shù):將數(shù)據(jù)按從小到大的順序排列起來,形成一個(gè)數(shù)列,居于數(shù)列中間位置的那個(gè)數(shù)據(jù),即50%位置的那個(gè)數(shù)據(jù)。中位數(shù)跟均值相比,它不容易受極端值的影響。分位數(shù):中位數(shù)是分位數(shù)的一種,分位數(shù)是指處于第n%位置的數(shù),常用的分位數(shù)有四分位數(shù)、十分位數(shù)、百分位數(shù)。如ARPU值最高的前10%的用戶就是百分位數(shù)的一個(gè)應(yīng)用。數(shù)據(jù)統(tǒng)計(jì)特征(2)——單一數(shù)值變量(2)描述數(shù)據(jù)離散程度的統(tǒng)計(jì)量極差:數(shù)據(jù)中的最大值與最小值之差,只考慮數(shù)據(jù)中的兩個(gè)值,容易受極端值的影響。方差:衡量一組數(shù)據(jù)偏離其平均值的波動程度,如用戶最近幾個(gè)月的ARPU值波動大小,就可以用方差來衡量。方差一般代表信息量的多少,如果一個(gè)變量的方差越?。O端情況只取一個(gè)值),那么它包含的信息量就越少,它對挖掘的作用就越小。標(biāo)準(zhǔn)差:方差的平方根,它是使用更頻繁的波動度量指標(biāo),它與數(shù)據(jù)有相同的量綱。離散系數(shù)(變異系數(shù)):一組數(shù)據(jù)的標(biāo)準(zhǔn)差與均值之比,是衡量數(shù)據(jù)離散程度的相對指標(biāo)。它的優(yōu)點(diǎn)是不受數(shù)據(jù)量綱的影響,可以對不同量綱的數(shù)據(jù)波動程度進(jìn)行比較,離散系數(shù)越大表明數(shù)據(jù)的波動越大。如可以用離散系數(shù)比較用戶話務(wù)量和ARPU的波動大小。數(shù)據(jù)統(tǒng)計(jì)特征(2)——單一數(shù)值變量(3)探索單一數(shù)值變量的分布數(shù)值變量的描述統(tǒng)計(jì)量只能從總體上描述一組數(shù)據(jù),但是不能充分地描述一組數(shù)據(jù)的細(xì)節(jié),兩個(gè)平均值和方差完全相同的變量,它們的分布可能差別較大。這里介紹兩種探索數(shù)值變量分布的方法:箱線圖和直方圖。箱線圖:箱線圖類似于股票的K線圖,它是利用數(shù)據(jù)中的五個(gè)統(tǒng)計(jì)量:最小值、第一四分位數(shù)(Q1)、中位數(shù)、第三四分位數(shù)(Q3)與最大值來描述數(shù)據(jù)的一種圖示方法。它可以粗略地觀察數(shù)據(jù)分布的對稱性,分布的分散程度,是否有極端值等信息,特別地可以用于對幾組數(shù)據(jù)分布的比較。直方圖:將數(shù)值變量離散化,以變量的取值區(qū)間為橫坐標(biāo)、區(qū)間頻數(shù)或頻率為縱坐標(biāo)而作的連續(xù)排列的柱形圖,用于評估數(shù)值變量取值的分布情況,類似于分類變量的柱形圖。數(shù)據(jù)統(tǒng)計(jì)特征(3)——多個(gè)變量的關(guān)系對于多個(gè)分類變量,可以通過構(gòu)造多維表的形式觀察它們的關(guān)系,對于多個(gè)數(shù)值變量,可以通過計(jì)算變量之間的相關(guān)系數(shù)來判斷它們之間相關(guān)程度的大小。二維表是把其中一個(gè)分類變量作為行,另一個(gè)分類變量作為列,行和列交叉所形成的單元格用兩類別出現(xiàn)的頻數(shù)或頻率填充而形成的交叉表格。通過二維表如何判斷兩個(gè)分類變量之間的關(guān)系,一種方法是通過觀察可視化的圖形,但是要展現(xiàn)整個(gè)表格的內(nèi)容是有困難的,我們可以有重點(diǎn)的觀察。數(shù)據(jù)統(tǒng)計(jì)特征(3)——多個(gè)變量的關(guān)系相關(guān)系數(shù):另一個(gè)非常重要的統(tǒng)計(jì)概念,是考察一個(gè)數(shù)值變量的變化與另一個(gè)數(shù)值變量的變化關(guān)聯(lián)程度大小的度量。如用戶的話務(wù)量和ARPU就存在相關(guān)關(guān)系,一般話務(wù)量越高的用戶,ARPU也會越高。相關(guān)系數(shù)變化范圍在-1和1之間,相關(guān)系數(shù)為0表明兩個(gè)變量不相關(guān);相關(guān)系數(shù)大于零表明兩個(gè)變量存在正向相關(guān)關(guān)系,且數(shù)值越大,相關(guān)性越強(qiáng),為1意味著當(dāng)一個(gè)變量變化時(shí),另一個(gè)變量將完全按同方向變化;相關(guān)系數(shù)小于零表明兩個(gè)變量存在反向相關(guān)關(guān)系,且數(shù)值越大,相關(guān)性越強(qiáng),為-1意味著當(dāng)一個(gè)變量變化時(shí),另一個(gè)變量將完全按反方向變化。數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換是為了使數(shù)據(jù)符合模型算法的要求,并且為了顯著提高模型的效果和穩(wěn)定性,對數(shù)據(jù)做的一系列預(yù)處理工作。對單個(gè)數(shù)值型變量,常用的轉(zhuǎn)換方法有變量離散化、變量歸一化、變量標(biāo)準(zhǔn)化(Z-Score變換)和數(shù)學(xué)變換等。對單個(gè)分類型變量,常用的轉(zhuǎn)換方法有分類變量數(shù)值化和分類變量類別規(guī)整等。對多個(gè)數(shù)值型變量,介紹通過主成分分析或因子分析進(jìn)行變量降維的轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換(1)——單個(gè)數(shù)值變量變量離散化(Binning)是指將連續(xù)的數(shù)值變量轉(zhuǎn)換為離散的區(qū)間或類別變量,也稱作分箱或分檔,常用的離散化方法還有等寬離散化、等頻離散化和有監(jiān)督的離散化(如決策樹根據(jù)信息增益對變量進(jìn)行劃分)。變量歸一化(Normalization)指使轉(zhuǎn)換后的數(shù)值落在特定的區(qū)間內(nèi),比如說,通過減去最小值并且除以整個(gè)區(qū)間范圍。歸一化不影響數(shù)據(jù)的排列順序,但它消除了數(shù)據(jù)量綱的影響,使得具有不同量綱的數(shù)據(jù)具有可比性。數(shù)據(jù)標(biāo)準(zhǔn)化(Standardizing)指將數(shù)據(jù)減去平均值并且除以標(biāo)準(zhǔn)差,它可以衡量數(shù)據(jù)非正態(tài)分布的程度。數(shù)學(xué)變換:由于某些模型的使用條件對數(shù)據(jù)的分布有一定的要求,而實(shí)際的數(shù)據(jù)往往不能滿足這些要求,因此就需要對原始變量進(jìn)行適當(dāng)?shù)臄?shù)學(xué)變換以滿足模型的要求。常用的數(shù)學(xué)變換有對數(shù)變換、指數(shù)變換、倒數(shù)變換和Logit變換等。數(shù)據(jù)轉(zhuǎn)換(2)——單個(gè)分類變量分類變量數(shù)值化:生成指示變量是分類變量數(shù)值化最常用的方法,它對某些要求輸入變量必須是數(shù)值變量的模型(如Logistic回歸和神經(jīng)網(wǎng)絡(luò))是一種有效的處理方法,它把變量的每個(gè)取值生成一個(gè)是否的指示變量。分類變量類別規(guī)整:對分類變量的類別重新梳理和調(diào)整,如類別合并和概念分層。類別合并是對類別數(shù)量較多的變量進(jìn)行類別合并,行成具有少數(shù)幾個(gè)類別的變量,合并的原則包括使各類別用戶數(shù)大致相同(如將用戶數(shù)都較少的類別合并),或者各類別的目標(biāo)變量差異較大(如將流失率都較高的類別合并)。概念分層指用較高層次的類別代替原有的類別,如用較高層次的產(chǎn)品分類代替較低層次的產(chǎn)品分類。類別合并可以避免模型的過度擬合,概念分層可以讓新生成的變量更有業(yè)務(wù)含義或?qū)δ繕?biāo)的影響更加顯著。數(shù)據(jù)轉(zhuǎn)換(3)——多變量降維
當(dāng)數(shù)值變量很多并且存在較強(qiáng)相關(guān)性時(shí),會對模型構(gòu)建造成不利的影響,一種有效的處理方法就是變量降維。變量降維指在不損失變量大量信息的前提下,將眾多相關(guān)性較強(qiáng)的變量變成少數(shù)幾個(gè)不相關(guān)的因素。變量降維常用方法是主成分分析和因子分析,它們經(jīng)常作為聚類分析和多元回歸分析的中間過程,達(dá)到同時(shí)減少變量個(gè)數(shù)和消除變量相關(guān)性的目的。數(shù)據(jù)質(zhì)量對企業(yè)而言,數(shù)據(jù)質(zhì)量的重要性不言而喻。六步法是Informatica公司為幫助指導(dǎo)數(shù)據(jù)質(zhì)量控制而設(shè)計(jì)的,從初始的數(shù)據(jù)探查到持續(xù)監(jiān)測以及持續(xù)進(jìn)行的數(shù)據(jù)優(yōu)化。探查數(shù)據(jù)內(nèi)容、結(jié)構(gòu)和異常建立數(shù)據(jù)質(zhì)量度量并明確目標(biāo)設(shè)計(jì)和實(shí)施數(shù)據(jù)質(zhì)量業(yè)務(wù)規(guī)則將數(shù)據(jù)質(zhì)量規(guī)則構(gòu)建到數(shù)據(jù)集成過程中檢查異常并完善規(guī)則對照目標(biāo),監(jiān)測數(shù)據(jù)質(zhì)量主數(shù)據(jù)管理主數(shù)據(jù)管理(MasterDataManagement,MDM)是將主數(shù)據(jù)作為企業(yè)的記錄系統(tǒng)進(jìn)行創(chuàng)建和維護(hù)的方式。實(shí)施MDM的目的在于確保主數(shù)據(jù)具有準(zhǔn)確性、一致性和完整性,并且能夠在內(nèi)部或外部業(yè)務(wù)流程、應(yīng)用程序或用戶使用的環(huán)境中周而復(fù)始地流轉(zhuǎn)。主數(shù)據(jù)管理解決方案可能包括以下一些特性:在企業(yè)層面上整合了現(xiàn)有縱向結(jié)構(gòu)中的客戶信息以及其它知識和深層次信息;共享所有系統(tǒng)中的數(shù)據(jù),使之成為一系列以客戶為中心的業(yè)務(wù)流程和服務(wù);實(shí)現(xiàn)對于客戶、產(chǎn)品和供應(yīng)商都通用的主數(shù)據(jù)形式,加速數(shù)據(jù)輸入、檢索和分析;支持?jǐn)?shù)據(jù)的多用戶管理,包括限制某些用戶添加、更新或查看維護(hù)主數(shù)據(jù)的流程的能力;集成產(chǎn)品信息管理、客戶關(guān)系管理、客戶數(shù)據(jù)集成以及可對主數(shù)據(jù)進(jìn)行分析的其它解決方案。主數(shù)據(jù)管理下面是評估MDM產(chǎn)品時(shí)需要的考慮的關(guān)鍵要求。第1項(xiàng)要求:在單一MDM系統(tǒng)內(nèi)為多個(gè)業(yè)務(wù)數(shù)據(jù)實(shí)體提供支持第2項(xiàng)要求:確保以平臺方法實(shí)施MDM第3項(xiàng)要求:為復(fù)雜的關(guān)系和層級結(jié)構(gòu)提供支持第4項(xiàng)要求:自動生成面向服務(wù)的體系架構(gòu)(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 湖北利川文斗重點(diǎn)中學(xué)2026屆十校聯(lián)考最后英語試題含答案
- 百信銀行筆試題庫及答案
- 2025年中央銀行學(xué)考試題型及答案
- 2025年招商銀行春招筆試題庫及答案
- 2025年長沙銀行運(yùn)營面試題目及答案
- 2025年??谱o(hù)理試題及答案
- 2025年??茣?jì)經(jīng)濟(jì)法考試題庫
- 2026屆江蘇省張家港市梁豐初級中學(xué)中考英語適應(yīng)性模擬試題含答案
- 2025年專四試題特點(diǎn)分析及答案
- 2025年專升本針灸學(xué)試題及答案
- 人教版新教材初中英語七年級下冊單詞表(含音標(biāo))
- 單側(cè)腹股溝疝的個(gè)案護(hù)理
- 成人清潔間歇導(dǎo)尿護(hù)理(2024護(hù)理團(tuán)體標(biāo)準(zhǔn))
- 第12章一次函數(shù) 單元測試 數(shù)學(xué)八年級上冊 滬科版
- 鄉(xiāng)村民宿安全管理
- 養(yǎng)老服務(wù)投標(biāo)文件(技術(shù)方案)
- 寧都黃雞-標(biāo)準(zhǔn)
- 高中化學(xué)知識結(jié)構(gòu)圖
- 第04章 CIE標(biāo)準(zhǔn)色度系統(tǒng)
- 中國水痘疫苗行業(yè)投資分析、市場運(yùn)行態(tài)勢研究報(bào)告-智研咨詢發(fā)布(2024版)
- 【標(biāo)準(zhǔn)】城市森林碳匯計(jì)量監(jiān)測技術(shù)規(guī)程
評論
0/150
提交評論