




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
面向新工科高等院校大數(shù)據(jù)專業(yè)系列教材大數(shù)據(jù)可視化(第2版)大數(shù)據(jù)可視化(第2版)第1章數(shù)據(jù)可視化基礎弗洛倫斯·南丁格爾(1820年5月12日~1910年8月13日)是世界上第一個真正意義上的女護士,被譽為現(xiàn)代護理業(yè)之母,每年5.12國際護士節(jié)就是南丁格爾的生日。南丁格爾“極區(qū)圖”是作為統(tǒng)計學家的南
丁格爾對利用圖形來展示數(shù)據(jù)進行的早期
探索,充分說明了數(shù)據(jù)可視化的價值,特
別是在公共領域的價值?!緦ёx案例】南丁格爾“極區(qū)圖”數(shù)據(jù)是什么?大部分人會含糊地回答說,數(shù)據(jù)是一種類似電子表格的東西或者一大堆數(shù)字。有點兒技術(shù)背景的人會提及數(shù)據(jù)庫或者數(shù)據(jù)倉庫。然而,這些回答只說明了獲取數(shù)據(jù)的格式和存儲數(shù)據(jù)的方式,并未說明數(shù)據(jù)的本質(zhì)是什么,以及特定的數(shù)據(jù)集代表著什么。第1章數(shù)據(jù)可視化基礎當你可視化數(shù)據(jù)的時候,其實是在可視化現(xiàn)實世界的抽象表達,或至少是將其細微方面可視化??梢暬軒椭銖莫毩⒌臄?shù)據(jù)點中解脫出來,從一個不同的角度去探索它們。圖1-3杭州城市大腦20秒發(fā)現(xiàn)路面交通事件第1章數(shù)據(jù)可視化基礎01數(shù)據(jù)再認識02數(shù)據(jù)的背景信息03數(shù)據(jù)預處理04數(shù)據(jù)組織與管理目錄/CONTENTS05數(shù)據(jù)分析與挖掘PART01數(shù)據(jù)再認識要想把數(shù)據(jù)可視化,就必須知道它表達的是什么。數(shù)據(jù)是符號的集合,是表達客觀事物的未經(jīng)加工的原始素材。例如圖形、符號、數(shù)字、字母等都是數(shù)據(jù)的不同形式。數(shù)據(jù)模型是用來描述數(shù)據(jù)表達的底層描述模型,它包含數(shù)據(jù)的定義和類型,以及不同類型數(shù)據(jù)的操作功能,例如浮點數(shù)類型可以配備加、減、乘、除操作等。與數(shù)據(jù)模型對應的是概念模型,它對目標事物的狀態(tài)和行為進行抽象的語義描述,并提供構(gòu)建、推理支持等操作。例如,一維浮點數(shù)可以描述溫度,三維浮點數(shù)向量可以描述空間的風向等。1.1數(shù)據(jù)再認識數(shù)據(jù)是數(shù)據(jù)對象和其屬性的集合,屬性可以是變量、值域、特征或特性,如人類頭發(fā)的顏色、人類的體溫等。單個數(shù)據(jù)對象可以由一組屬性描述,稱為記錄、點、實例、采樣、實體等。屬性值可以是表達屬性的任意數(shù)值或符號,同一類屬性可以具有不同的屬性值,例如,長度的度量單位可以是英尺或米。不同的屬性也可能具有相同的取值和不同的含義,例如,年份和年齡都是整數(shù)型數(shù)值,而年齡通常有取值區(qū)間。1.1數(shù)據(jù)再認識數(shù)據(jù)是現(xiàn)實世界的一個快照,會傳遞給我們大量的信息。一個數(shù)據(jù)點可以包含時間、地點、人物、事件、起因等因素。因此,一個數(shù)字不再只是滄海一粟??墒牵瑥囊粋€數(shù)據(jù)點中提取信息并不像一張照片那么簡單。你需要觀察數(shù)據(jù)產(chǎn)生的來龍去脈,并把數(shù)據(jù)集作為一個整體來理解。關注全貌,比只注意到局部時更容易做出準確的判斷。1.1數(shù)據(jù)再認識通常在實施記錄時,由于成本太高或者缺少人力,人們只能獲取零碎的信息,然后尋找其中的模式和關聯(lián),憑經(jīng)驗猜測數(shù)據(jù)所表達的含義。數(shù)據(jù)和它所代表的事物之間的關聯(lián)既是把數(shù)據(jù)可視化的關鍵,也是全面分析數(shù)據(jù)的關鍵,同樣還是深層次理解數(shù)據(jù)的關鍵。計算機可以把數(shù)字批量轉(zhuǎn)換成不同的形狀和顏色,但是你必須建立起數(shù)據(jù)和現(xiàn)實世界的聯(lián)系,以便使用圖表的人能夠從中得到有價值的信息。1.1數(shù)據(jù)再認識數(shù)據(jù)的分類和信息與知識的分類相關。從關系模型的角度講,數(shù)據(jù)可被分為實體和關系兩部分。實體是被可視化的對象;關系定義了實體與其他實體之間關系的結(jié)構(gòu)和模式。關系可被顯式地定義,也可在可視化過程中逐步挖掘。實體或關系可以配備屬性,實體、關系和屬性在數(shù)據(jù)庫設計中被廣泛使用,形成關系數(shù)據(jù)庫的基礎。1.1.1數(shù)據(jù)分類實體關系模型能描述數(shù)據(jù)之間的結(jié)構(gòu),但不考慮基于實體、關系和屬性的操作。常規(guī)的數(shù)據(jù)操作包括:數(shù)值計算;數(shù)據(jù)列表的插入、融合與刪除;取反;生成新的實體或關系;實體的變換;從其他對象中形成新對象;單個實體拆分成組件。1.1.1數(shù)據(jù)分類數(shù)據(jù)屬性分為離散屬性和連續(xù)屬性。離散屬性的取值來自有限或可數(shù)的集合,例如郵政編碼、等級、文檔單詞等;連續(xù)屬性則對應于實數(shù)域,例如溫度、高度和濕度等。在測量和計算機表示時,實數(shù)精度受限于所采用的數(shù)值精度。針對這些基本數(shù)據(jù)類型的交互方法有;概括、縮放、過濾、查看細節(jié)、關聯(lián)、查看歷史和提取等,這些基本任務構(gòu)成了可視化設計的基礎。1.1.1數(shù)據(jù)分類數(shù)據(jù)集是數(shù)據(jù)的實例。常見的數(shù)據(jù)集的表達形式有三類。(1)數(shù)據(jù)記錄集。由一組包含固定屬性值的數(shù)據(jù)元素組成。數(shù)據(jù)記錄主要有三種形式:數(shù)據(jù)矩陣、文檔向量表示和事務處理數(shù)據(jù)。如果數(shù)據(jù)對象具有一組固定的數(shù)值屬性,則數(shù)據(jù)對象可視為高維空間的點集,每個維度對應單個屬性,這種數(shù)據(jù)集可以表達為一個m×n的矩陣,其中矩陣的每行代表一個對象,每列代表單個屬性在數(shù)據(jù)集中的分布。這種表示方法稱為數(shù)據(jù)矩陣,它通常呈現(xiàn)為表格形式(見圖1-4)。1.1.2數(shù)據(jù)集圖1-4各過程之間順序及相互關系矩陣圖1.1.2數(shù)據(jù)集文檔是單詞的集合。如果統(tǒng)計文檔中所有單詞出現(xiàn)的頻率,則一個文檔可以被表示為一個向量,其長度是單詞集的個數(shù),每個分量記錄單詞集中每個單詞在該文檔中的頻率。事務處理數(shù)據(jù)是一類特殊的數(shù)據(jù)記錄,每條記錄都包含一組數(shù)據(jù)項。例如,一組超市購物的事務處理數(shù)據(jù)是(西瓜,梨子,蘋果)、(洗發(fā)水,蘋果,核桃,香蕉)、(香煙,西瓜,口香糖,筆記本,臉盆)。事務處理數(shù)據(jù)與數(shù)據(jù)矩陣的差別在于,事務處理數(shù)據(jù)的每條記錄包含的個數(shù)和屬性不固定,因此無法用矩陣方式來表達。1.1.2數(shù)據(jù)集(2)圖數(shù)據(jù)集。這是一種非結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu),由一組節(jié)點和一組連接兩個節(jié)點之間的加權(quán)邊組成。常見的圖數(shù)據(jù)有表達城市之間航空路線的世界航線圖、萬維網(wǎng)鏈接圖、化學分子式等。樹是一種沒有回路的連通圖,是任意兩個頂點間有且只有一條路徑的圖。(3)有序數(shù)據(jù)集。這是具有某種順序的數(shù)據(jù)集,常見的有空間數(shù)據(jù)、時間數(shù)據(jù)、時空數(shù)據(jù)、順序數(shù)據(jù)和基因測序數(shù)據(jù)等。某些場合中,數(shù)據(jù)可以根據(jù)其維度進行分類,如標量(一維)、向量(多維)、張量(矩陣)等。1.1.2數(shù)據(jù)集相似度是衡量多個數(shù)據(jù)對象之間相似的數(shù)值,通常位于0和1之間。與之對應的測度是相異度,其下限是0,上限與數(shù)據(jù)集有關,可能超過1。鄰近度是相似度和相異度的統(tǒng)一描述。計算相似度有很多種方法,常用的距離和相似度定義有歐幾里得距離、明科夫斯基距離(歐幾里得距離的推廣)、余弦距離和Jaccard(杰卡德)相似度。如果數(shù)據(jù)對象的屬性具有多種類型,則可為每個屬性計算相似度,再進行加權(quán)平均。1.1.3相似度與密度在基于密度的數(shù)據(jù)聚類時,需要衡量數(shù)據(jù)的密度,通常定義有三類:(1)歐幾里得密度(單位區(qū)域內(nèi)點的數(shù)目)。其中最簡單方法是將區(qū)域等分,統(tǒng)計每個部分包含的點的數(shù)目。另一種基于中心的歐幾里得密度定義為該點固定尺寸鄰域內(nèi)的點的數(shù)目。(2)基于圖結(jié)構(gòu)的密度。(3)概率密度。圖1-5使用Excel繪制F分布概率密度函數(shù)圖1.1.3相似度與密度德國物理學家兼業(yè)余攝影師克里斯蒂安·克維塞克經(jīng)常晚上帶著相機到小鎮(zhèn)的森林里,用長時間曝光攝影,抓拍螢火蟲在樹叢中飛舞的情景。螢火蟲特別小,在白天幾乎看不見,但是在晚上,除了樹林里,又很難在別的地方看到。雖然對觀察者來說,螢火蟲飛行中的每個時刻都像是空間中隨機的點,但在克維塞克的照片中還是出現(xiàn)了一個模式。1.1.4數(shù)據(jù)的可變性如圖1-6所示,看上去螢火蟲們好像沿著小徑,環(huán)繞著大樹,朝既定的方向飛舞。然而,這些依然是隨機的。下一次你可以根據(jù)這條飛行路線圖猜測螢火蟲會往哪兒飛嗎?
圖1-6螢火蟲之路1.1.4數(shù)據(jù)的可變性一只螢火蟲隨時上下左右地飛竄,它的每次飛行都是獨一無二的。也正因為此,觀察螢火蟲才那么有趣,拍出來的照片才那么漂亮。你關心的是螢火蟲飛行的路徑,而它的起點、終點和平均位置并沒有那么重要。從這些數(shù)據(jù)中,我們可以發(fā)現(xiàn)一些模式、趨勢和周期,但從A點到B點往往都不是一條平滑的線路??倲?shù)、平均值和聚合測量可能很有趣,但它們都只揭示了冰山一角而已。數(shù)據(jù)中的波動才是最有趣、最重要的部分。1.1.4數(shù)據(jù)的可變性以美國國家公路交通安全管理局發(fā)布的公路交通事故數(shù)據(jù)為例,我們來了解數(shù)據(jù)的可變性。從2001年到2010年,根據(jù)美國國家公路交通安全管理局發(fā)布的數(shù)據(jù),全美共發(fā)生了363839起致命的公路交通事故。這個總數(shù)代表著那部分逝去的生命,把所有注意力放在這個數(shù)字上,能讓你深思,甚至反省自己的一生。然而,從這個數(shù)據(jù)中你能了解到什么呢?圖1-72001年~2010年全美公路
致命交通事故總數(shù)1.1.4數(shù)據(jù)的可變性美國國家公路交通安全管理局提供的數(shù)據(jù)具體到了每一起事故及其發(fā)生的時間和地點,我們可以從中了解到更多的信息。如果在地圖中畫出2001年~2010年間全美國發(fā)生的每一起致命的交通事故,用一個點代表一起事故,就可以看到事故多集中發(fā)生在大城市和高速公路主干道上。這樣,這幅圖除了提醒我們重視交通安全之外,還告訴了我們美國公路網(wǎng)絡的情況。1.1.4數(shù)據(jù)的可變性觀察這些年里發(fā)生的交通事故,人們會把關注焦點切換到具體的事故上。圖1-8顯示了每年發(fā)生的交通事故數(shù),所表達的內(nèi)容與簡單告訴你一個總數(shù)完全不同。雖然每年仍會發(fā)生成千上萬起交通事故,但通過觀察可以看到,2006年到2010年間事故顯著呈下降趨勢。圖1-8每年的致命交通事故數(shù)1.1.4數(shù)據(jù)的可變性從圖1-9中可以看出,交通事故發(fā)生的季節(jié)性周期很明顯。夏季是事故多發(fā)期,因為此時外出旅游的人較多。而在冬季,開車出門旅行的人相對較少,事故就會少很多。每年都是如此。同時,也可以看到2006年到2010年呈下降趨勢。圖1-9月度致命交通事故數(shù)1.1.4數(shù)據(jù)的可變性如果比較那些年的具體月份,還有一些變化。例如,在2001年,8月份的事故最多,9月份相對回落。從2002年到2004年每年都是這樣。從2005年到2007年,每年7月份的事故最多。從2008年到2010年又變成了8月份。另一方面,因為每年2月份的天數(shù)最少,事故數(shù)也就最少,只有2008年例外。因此,這里存在著不同季節(jié)的變化和季節(jié)內(nèi)的變化。1.1.4數(shù)據(jù)的可變性我們還可以更加詳細地觀察每日的交通事故數(shù),例如看出高峰和低谷模式,可以看出周循環(huán)周期,就是周末比周中事故多,每周的高峰日在周五、周六和周日間的波動??梢岳^續(xù)增加數(shù)據(jù)的粒度,即觀察每小時的數(shù)據(jù)。重要的是,查看這些數(shù)據(jù)比查看平均數(shù)、中位數(shù)和總數(shù)更有價值。大多數(shù)時候總數(shù)或中值只告訴了你分布的中間在哪里,而未能顯示出應該關注的細節(jié)。1.1.4數(shù)據(jù)的可變性一個獨立的離群值可能需要修正或特別注意,也許在你的體系中隨著時間推移其變化預示有好事(或壞事)將要發(fā)生。周期性或規(guī)律性的事件可以幫助你為將來做好準備,但面對那么多的變化,它往往就失效了,這時應該退回到整體和分布的粒度來進行觀察。1.1.4數(shù)據(jù)的可變性人們可以輕松地識別可視物體,這種輕松正是計算機識別的難處。主要挑戰(zhàn)就是圖像的多變性——例如物體的位置、大小、方位、姿勢、亮度等,任何一個物體都可以在視網(wǎng)膜上投射下無數(shù)個不同的圖像。圖像變化多端,因此很難分辨不同的圖片是否包含了相同的人或物。而且,圖案識別也更加困難。要在一個句子中找出“總統(tǒng)”這個單詞很容易,在上百萬個句子中找出它來也相對簡單,但要在圖片中找出擁有“總統(tǒng)”這個頭銜的人卻困難重重。1.1.4數(shù)據(jù)的可變性通常大部分數(shù)據(jù)都是估算的,并不精確。分析師會研究一個樣本,并據(jù)此猜測整體的情況。人們會基于自己的知識和見聞來猜測,即使大多數(shù)時候猜測是正確的,但仍然存在著不確定性。如果你的數(shù)據(jù)是一系列平均數(shù)和中位數(shù),或者是基于一個樣本群體的一些估算,就應該同時考慮它所存在的不確定性。當人們基于類似全國人口或世界人口的預測數(shù)做影響廣泛的重大決定時,這一點尤為重要,因為一個很小的誤差可能會導致巨大的差異。1.1.5數(shù)據(jù)的不確定性換個角度,想象一下你有一罐彩虹糖,你想猜猜罐子里每種顏色的彩虹糖各有多少顆。如果把一罐彩虹糖統(tǒng)統(tǒng)倒在桌子上,一顆顆數(shù)過去,就不用估算了,你已經(jīng)得到了總數(shù)。但是如果你只能抓一把,然后基于手里的彩虹糖推測整罐的情況。這一把越大估計值就越接近整罐的情況,也就越容易猜測。相反,如果只能拿一顆彩虹糖,那你幾乎就無法推測罐子里的情況。1.1.5數(shù)據(jù)的不確定性只拿一顆彩虹糖,誤差會很大。而拿一大把彩虹糖,誤差會小很多。如果把整罐都數(shù)一遍,誤差就是零。當有數(shù)百萬個彩虹糖裝在上千個大小不同的罐子里時,分布各不相同,每一把的大小也不一樣,估算就會變得更復雜了。接下來,把彩虹糖換成人,把罐子換成城、鎮(zhèn)和縣,把那一把彩虹糖換成隨機分布的調(diào)查,誤差的含義就有分量多了。1.1.5數(shù)據(jù)的不確定性PART02數(shù)據(jù)的背景信息雖然數(shù)據(jù)會因其可變性和不確定性而變得復雜,但將其放入一個合適的背景信息中,也許就會變得容易理解了。仰望夜空,滿天繁星看上去就像平面上的一個個點。你感覺不到視覺深度,會覺得星星都離你一樣遠。把星空直接搬到紙面上,于是星座也就不難想象了,把一個個點連接起來即可。然而,實際上不同的星星與你之間的距離可能相差許多光年。假如你能飛得比星星還遠,星座看起來又會是什么樣子呢?
圖1-10星空視圖1.2數(shù)據(jù)的背景信息如果切換到顯示實際距離的模式,星星的位置轉(zhuǎn)移了,原先容易辨別的星座就幾乎都認不出來了。從新的視角出發(fā),數(shù)據(jù)看起來就不同,這就是背景信息的作用。背景信息可以完全改變你對某一個數(shù)據(jù)集的看法,它能幫助你確定數(shù)據(jù)代表著什么以及如何解釋。在確切了解了數(shù)據(jù)的含義之后,你的理解會幫你找出有趣的信息,從而帶來有價值的可視化效果。1.2數(shù)據(jù)的背景信息使用數(shù)據(jù)而不了解除數(shù)值本身之外的任何信息,就好比引用理解了斷章取義的文章片段。這樣做或許沒有問題,但卻可能完全誤解說話人的意思。你必須首先了解何人、如何、何事、何時、何地以及何因,即元數(shù)據(jù),或者說關于數(shù)據(jù)的數(shù)據(jù),然后才能了解數(shù)據(jù)的本質(zhì)是什么。1.2數(shù)據(jù)的背景信息何人(who):“誰收集了數(shù)據(jù)”和“數(shù)據(jù)是關于誰的”同樣重要。如何(how):大致了解怎樣獲取你感興趣的數(shù)據(jù)。如果數(shù)據(jù)是從網(wǎng)上獲取的,你不需要知道每種數(shù)據(jù)集背后精確的統(tǒng)計模型,但要小心小樣本,樣本小,誤差率就高;也要小心不合適的假設,比如包含不一致或不相關信息的指數(shù)或排名等。何事(what):還要知道自己的數(shù)據(jù)的背景,你應該知道圍繞在數(shù)字周圍的信息是什么。1.2數(shù)據(jù)的背景信息何時(when):數(shù)據(jù)大都以某種方式與時間關聯(lián)。數(shù)據(jù)可能是一個時間序列,或者是特定時期的一組快照。不論是哪一種,你都必須清楚地知道數(shù)據(jù)是什么時候采集的。由于只能得到舊數(shù)據(jù),于是很多人便把舊數(shù)據(jù)當成現(xiàn)在的對付一下,這是一種常見的錯誤。事在變,人在變,地點也在變,數(shù)據(jù)自然也會變。何地(where):事情也會隨著城市、地區(qū)和國家的不同而變化。例如,不要將來自少數(shù)幾個國家的數(shù)據(jù)推及整個世界。同樣的道理也適用于數(shù)字定位。來自微信之類網(wǎng)站的數(shù)據(jù)能夠概括網(wǎng)站用戶的行為,但未必適用于物理世界。1.2數(shù)據(jù)的背景信息為何(why):最后,你必須了解收集數(shù)據(jù)的原因,通常這是為了檢查數(shù)據(jù)是否存在偏頗。有時人們收集甚至捏造數(shù)據(jù)只是為了應付某項議程。數(shù)據(jù)是曲折的、旋轉(zhuǎn)的,也是波動的、個性化的,甚至是富有詩意的。因此,你可以看到多種形式的可視化數(shù)據(jù)。1.2數(shù)據(jù)的背景信息PART03數(shù)據(jù)預處理通常,與處理數(shù)據(jù)相關的工作時間會占據(jù)整個分析項目的70%以上。數(shù)據(jù)的質(zhì)量直接決定了模型的預測和泛化能力的好壞,它涉及很多因素,包括準確性、完整性、一致性、時效性、可信性和解釋性。實際情況下,人們拿到的數(shù)據(jù)可能包含了大量的缺失值,可能包含大量的噪音,也可能因為人工錄入錯誤導致有異常點存在,不利于算法模型的訓練。1.3數(shù)據(jù)預處理大數(shù)據(jù)時代收集數(shù)據(jù)的途徑多種多樣,通常有實驗測量、計算機仿真與網(wǎng)絡數(shù)據(jù)傳輸?shù)?。傳統(tǒng)的數(shù)據(jù)獲取方式以文件輸入/輸出為主。在移動互聯(lián)網(wǎng)時代,基于網(wǎng)絡的多源數(shù)據(jù)交換占據(jù)主流。數(shù)據(jù)獲取的挑戰(zhàn)主要有數(shù)據(jù)格式變換和異構(gòu)異質(zhì)數(shù)據(jù)的獲取協(xié)議兩部分。數(shù)據(jù)的多樣性導致不同的數(shù)據(jù)語義表述,這些差異來自不同的安全要求、不同的用戶類型、不同的數(shù)據(jù)格式、不同的數(shù)據(jù)來源。1.3.1數(shù)據(jù)獲取在科研領域應用,作為一種通用的數(shù)據(jù)獲取標準,數(shù)據(jù)獲取協(xié)議通過定義基于網(wǎng)絡的數(shù)據(jù)獲取句法,以完善數(shù)據(jù)交換機制,維護、發(fā)展和提升數(shù)據(jù)獲取效率。理論上,數(shù)據(jù)獲取協(xié)議是一個中立的、不受限于任何規(guī)則的協(xié)議,它提供跨越規(guī)則的句法的互操作性,允許規(guī)則內(nèi)的語義互操作性。數(shù)據(jù)獲取協(xié)議以文件為基礎,提供數(shù)據(jù)格式、位置和數(shù)據(jù)組織的透明度,并以純Web化的方式與網(wǎng)格FTP/FTP、HTTP、SRB(源路由網(wǎng)橋)、開放地理空間聯(lián)盟(如WCS,WMS,WFS)、天文學(如SIAP,SSAP,STAP)等協(xié)議兼容。1.3.1數(shù)據(jù)獲取此外,互聯(lián)網(wǎng)上存在大量免費的數(shù)據(jù)資源,這些資源通常由網(wǎng)站進行維護,并開放專門的API使用戶得以訪問。例如,谷歌提供了許多用于免費數(shù)據(jù)獲取的API,用于獲取高級定制搜索結(jié)果的谷歌自定義搜索,以及用于獲取地理坐標信息的谷歌地理編碼API等。一些社交網(wǎng)站也開放了數(shù)據(jù)獲取API,用于獲取社交網(wǎng)絡相關信息。1.3.1數(shù)據(jù)獲取數(shù)據(jù)清洗的結(jié)果是處理各種臟數(shù)據(jù),得到標準、干凈、連續(xù)的數(shù)據(jù),以供數(shù)據(jù)統(tǒng)計和數(shù)據(jù)挖掘等使用。對于海量數(shù)據(jù)來說,未經(jīng)處理的原始數(shù)據(jù)中包含大量的無效數(shù)據(jù),這些數(shù)據(jù)在到達存儲過程之前就應該被過濾掉。在原始數(shù)據(jù)中,常見的數(shù)據(jù)質(zhì)量問題包括:噪聲和離群值、數(shù)值缺失、數(shù)值重復等。解決這些問題的方法稱為數(shù)據(jù)清洗。1.3.2數(shù)據(jù)清洗(1)噪聲是指對真實數(shù)據(jù)的修改;離群值是指與大多數(shù)數(shù)據(jù)偏離較大的數(shù)據(jù)。(2)非結(jié)構(gòu)化數(shù)據(jù)通常會存在低質(zhì)量數(shù)據(jù)項(例如從網(wǎng)頁和傳感器網(wǎng)絡獲得的數(shù)據(jù))。數(shù)值缺失的主要原因包括:信息未被記錄;某些屬性不適用于所有實例等。處理數(shù)據(jù)缺失的方法有:刪除該數(shù)據(jù)對象、插值計算補充缺失值、分析時忽略該缺失值、用概率模型估算補充該缺失值等。(3)數(shù)值重復的主要來源是異構(gòu)數(shù)據(jù)源的合并。1.3.2數(shù)據(jù)清洗數(shù)據(jù)清洗的其他操作還包括:運用匯總統(tǒng)計刪除、分辨或者修訂錯誤或不精確的數(shù)據(jù);調(diào)整數(shù)據(jù)格式和測量單位;數(shù)據(jù)標準化與歸一化等。1.3.2數(shù)據(jù)清洗在數(shù)據(jù)集成與清洗之后,我們能夠得到整合了多數(shù)據(jù)源,同時數(shù)據(jù)質(zhì)量完好的數(shù)據(jù)集。但是,集成與清洗無法改變(縮?。?shù)據(jù)集的規(guī)模。由高維性帶來的維度災難、數(shù)據(jù)的稀疏性和特征的多尺度性是大數(shù)據(jù)時代中數(shù)據(jù)所特有的性質(zhì)。直接對海量高維數(shù)據(jù)集進行可視化通常會產(chǎn)生雜亂無章的結(jié)果,這種現(xiàn)象被稱為視覺混亂。為了能夠在有限的顯示空間內(nèi)表達比顯示空間尺寸大得多的數(shù)據(jù),需要進行數(shù)據(jù)精簡。1.3.3數(shù)據(jù)規(guī)約在數(shù)據(jù)存儲、分析層面進行的數(shù)據(jù)精簡能降低數(shù)據(jù)復雜度,減少數(shù)據(jù)點數(shù)目并同時保留數(shù)據(jù)中的內(nèi)涵特征,從而減少查詢和處理時的資源開銷,提高查詢的響應性能。在數(shù)據(jù)倉庫或聯(lián)機分析處理系統(tǒng)應用中,數(shù)據(jù)精簡可用于提升大規(guī)模數(shù)據(jù)查詢和管理的交互性。由于分析和推理只需要定性的結(jié)果,所以可采用近似解提高針對大數(shù)據(jù)的精簡效率。1.3.3數(shù)據(jù)規(guī)約以是否可視化為標準,數(shù)據(jù)精簡方法可分為兩類。(1)使用質(zhì)量指標優(yōu)化非視覺因素,如時間、空間等;(2)使用質(zhì)量指標優(yōu)化數(shù)據(jù)可視化,稱為可視化數(shù)據(jù)精簡。可視化數(shù)據(jù)精簡需要自動分析數(shù)據(jù)以便選擇和衡量數(shù)據(jù)的不同特征,如關聯(lián)性、布局和密度,這些量度指導和評估數(shù)據(jù)精簡的過程,向用戶呈現(xiàn)優(yōu)化的可視化結(jié)果,常用的可視化質(zhì)量指標包括尺寸、視覺有效性和特征保留度。1.3.3數(shù)據(jù)規(guī)約尺寸是可量化的量度,如數(shù)據(jù)點的數(shù)量,構(gòu)成了其他計算的基礎,視覺有效性用于衡量圖像退化(如沖突、模糊)或可視布局的美學愉悅程度,常見方法有數(shù)據(jù)密度和數(shù)據(jù)油墨比等特征。數(shù)據(jù)油墨比被定義為用于展現(xiàn)數(shù)據(jù)的像素數(shù)目與全部油墨像素數(shù)目的比值。
圖1-11數(shù)據(jù)油墨比:左圖顯示的數(shù)據(jù)油墨比遠低于右圖1.3.3數(shù)據(jù)規(guī)約特征保留度是評估可視化質(zhì)量的核心,它衡量可視化結(jié)果在數(shù)據(jù)、可視化和認知方面正確展現(xiàn)數(shù)據(jù)特性的程度。通過技術(shù)手段降低數(shù)據(jù)規(guī)模也叫數(shù)據(jù)規(guī)約,即縮小數(shù)據(jù)挖掘所需要的數(shù)據(jù)集規(guī)模,具體方式有維度規(guī)約與數(shù)量規(guī)約。數(shù)據(jù)規(guī)約采用編碼方案,通過小波變換或主成分分析有效的壓縮原始數(shù)據(jù),或者通過特征提取技術(shù)進行屬性子集的選擇或重造。1.3.3數(shù)據(jù)規(guī)約數(shù)據(jù)規(guī)約處理操作主要有:(1)合并。將兩個以上的屬性或?qū)ο蠛喜ⅰ:喜⒉僮鞯男в冒ǎ河行Ш喕瘮?shù)據(jù);改變數(shù)據(jù)尺度(例如,從鄉(xiāng)村起逐級合并,形成城鎮(zhèn)、地區(qū)、州、國家等);減少數(shù)據(jù)的方差。1.3.3數(shù)據(jù)規(guī)約(2)采樣。是統(tǒng)計學的基本方法,也是對數(shù)據(jù)進行選擇的主要手段,經(jīng)常在對數(shù)據(jù)的初步探索和最后的數(shù)據(jù)分析環(huán)節(jié)時采用。統(tǒng)計學家實施采樣操作的根本原因是獲取或處理全部數(shù)據(jù)集的代價太高,或者時間開銷無法接受。如果采樣結(jié)果大致具備原始數(shù)據(jù)的特征,那么這個采樣是具有代表性的。最簡單的隨機采樣可以按某種分布隨機從數(shù)據(jù)集中等概率地選擇數(shù)據(jù)項。當某個數(shù)據(jù)項被選中后,它可以繼續(xù)保留在采樣對象中,也可以在后繼采樣過程中被剔除。采樣也可分層次地,將數(shù)據(jù)全集分為多份,然后在每份中隨機采樣。1.3.3數(shù)據(jù)規(guī)約(3)降維。維度越高,數(shù)據(jù)集在高維空間的分布越稀疏,從而減弱了數(shù)據(jù)集對數(shù)據(jù)聚類和離群值檢測等操作的影響。降低數(shù)據(jù)屬性維度有助于解決維度災難,減少數(shù)據(jù)處理的時間和內(nèi)存消耗;可以更為有效地可視化數(shù)據(jù);降低噪聲或消除無關特征等。降維常規(guī)的做法有主元分析、奇異值分解等。1.3.3數(shù)據(jù)規(guī)約(4)特征子集選擇。從數(shù)據(jù)集中選擇部分數(shù)據(jù)屬性值可以消除冗余的以及與任務無關的特征。特征子集選擇可達到降維的效果,但不破壞原始的數(shù)據(jù)屬性結(jié)構(gòu)。選擇方法包括:暴力枚舉法、特征重要性選擇、壓縮感知理論的稀疏表達方法等。(5)特征生成??梢栽谠紨?shù)據(jù)集基礎上構(gòu)建新的能反映數(shù)據(jù)集重要信息的屬性。常用的方法是特征抽取、將數(shù)據(jù)應用到新空間、基于特征融合與特征變換的特征構(gòu)造。1.3.3數(shù)據(jù)規(guī)約(6)離散化與二值化。將數(shù)據(jù)集根據(jù)其分布劃分為若干個子類,形成對數(shù)據(jù)集的離散表達,稱為離散化。將數(shù)據(jù)值映射為二值區(qū)間,是數(shù)據(jù)處理中的常見做法。將數(shù)據(jù)區(qū)間映射到[0,1]區(qū)間的方法稱為歸一化。(7)屬性變換。將某個屬性的所有可能值一一映射到另一個空間的做法稱為屬性變換,如指數(shù)變換、取絕對值等。標準化與歸一化是兩類特殊的屬性變換,其中標準化將數(shù)據(jù)區(qū)間變換到某個統(tǒng)一的區(qū)間范圍,歸一化則變換到[0,1]區(qū)間。1.3.3數(shù)據(jù)規(guī)約來自不同數(shù)據(jù)源的數(shù)據(jù)具有高度異構(gòu)的特點:不同的數(shù)據(jù)模型、不同的數(shù)據(jù)類型、不同的命名方法、不同的數(shù)據(jù)單元等,例如來自不同國家氣象檢測站的氣象數(shù)據(jù),或不同企業(yè)的客戶數(shù)據(jù)等。當需要對這些異構(gòu)數(shù)據(jù)的集合進行處理時,首先需要有效的數(shù)據(jù)集成方法對這些數(shù)據(jù)進行整合,將不同數(shù)據(jù)源的數(shù)據(jù)轉(zhuǎn)換后統(tǒng)一融合在一個數(shù)據(jù)集合中,并提供統(tǒng)一數(shù)據(jù)視圖的數(shù)據(jù)集成方式。
圖1-12異構(gòu)數(shù)據(jù)的可視化1.3.4數(shù)據(jù)整合與集成數(shù)據(jù)整合的需求來源于多個方面。從數(shù)據(jù)獲取的角度看,數(shù)據(jù)獲取的不精確、大范圍的不協(xié)調(diào)數(shù)據(jù)采集策略、商業(yè)競爭和存儲空間限制,來自不同數(shù)據(jù)源的數(shù)據(jù)可能具有不同的質(zhì)量等都是進行多數(shù)據(jù)源數(shù)據(jù)整合的原因。交互分析和可視數(shù)據(jù)的基本解決方案是采用工具或中間件進行數(shù)據(jù)源包裝和數(shù)據(jù)庫聯(lián)合,提供通用模型用于交換異構(gòu)數(shù)據(jù)和實現(xiàn)物理層透明,同時處理異構(gòu)性,保存數(shù)據(jù)源的自主性及保證可擴展性。更好的方式是基于計算查詢理念的語義整合,利用應用領域的概念視圖而不是數(shù)據(jù)源的普通描述以提供概念數(shù)據(jù)的透明性。1.3.4數(shù)據(jù)整合與集成數(shù)據(jù)集成指數(shù)據(jù)庫應用中結(jié)合不同資源的數(shù)據(jù)并為用戶提供數(shù)據(jù)集合的統(tǒng)一訪問,其涵蓋范圍要比數(shù)據(jù)整合廣。此外,數(shù)據(jù)整合與數(shù)據(jù)聯(lián)邦也有所區(qū)別:數(shù)據(jù)整合關注對眾多獨立和異構(gòu)的數(shù)據(jù)源提供統(tǒng)一和透明的訪問,使得原本無法被單數(shù)據(jù)源支持的查詢表達獲得支持,因此需要一個實際的物理數(shù)據(jù)源作為統(tǒng)一數(shù)據(jù)視圖的數(shù)據(jù)來源;數(shù)據(jù)聯(lián)邦則提供了一種邏輯上統(tǒng)一、實際物理位置分布在多個數(shù)據(jù)源中的數(shù)據(jù)的集成。1.3.4數(shù)據(jù)整合與集成面對海量數(shù)據(jù),大多數(shù)時候我們很難通過直接觀察數(shù)據(jù)本身,或者對數(shù)據(jù)進行簡單統(tǒng)計分析后得到數(shù)據(jù)中蘊含的信息。例如,我們無法通過查看海量的服務器日志來判斷系統(tǒng)是否遭到攻擊威脅,或者簡單統(tǒng)計交友網(wǎng)站上所有的好友關系來發(fā)掘用戶的喜好等。海量的數(shù)據(jù)通過可視化方法變成形象、生動的圖形,有助于人類對數(shù)據(jù)中的屬性、關系進行深入探究,利用人類智慧來挖掘數(shù)據(jù)中蘊含的信息,從表面雜亂無章的海量數(shù)據(jù)中探究隱藏的規(guī)律,為科學發(fā)現(xiàn)、工程開發(fā)、醫(yī)學診療和商業(yè)決策等提供依據(jù)。1.3.5數(shù)據(jù)可視化如圖1-13所示,可視化可以作用于數(shù)據(jù)科學過程中不同的部分,作為一種人機交互手段,貫穿于整個數(shù)據(jù)過程。
圖1-13可視化作為人機交互手段,貫穿于整個數(shù)據(jù)科學過程1.3.5數(shù)據(jù)可視化PART04數(shù)據(jù)組織與管理在科學研究領域,傳統(tǒng)的科學探究模式正受到來自大數(shù)據(jù)的強烈沖擊。隨著技術(shù)的不斷推進,諸如衛(wèi)星上的遠程傳感器、天空望遠鏡、生物顯微鏡以及大規(guī)模科學計算模擬等設備和實驗都會實時產(chǎn)生出海量數(shù)據(jù)流,在科學探索中發(fā)揮著越來越大的作用??茖W研究人員在擁有大型數(shù)據(jù)集的同時,也需要應對這種數(shù)據(jù)密度的軟件工具和高性能計算資源,以協(xié)助進行基于數(shù)據(jù)的科學研究。
圖1-14超新星模擬數(shù)據(jù)的可視化1.4數(shù)據(jù)組織與管理數(shù)據(jù)在政府管理、國家安全等領域的價值也越來越明顯。從2009年起,美國政府就通過數(shù)據(jù)網(wǎng)站開始向公眾提供各類政府數(shù)據(jù)。幾乎同時,聯(lián)合國推出了“全球脈動”項目,期望利用大數(shù)據(jù)促進全球經(jīng)濟發(fā)展。同時,國家戰(zhàn)略政策方針的制定也開始依賴大數(shù)據(jù)和數(shù)據(jù)科學,期望從數(shù)據(jù)中能夠?qū)ふ业街С謬覜Q策的有效信息。2015年我國政府發(fā)布的《促進大數(shù)據(jù)發(fā)展行動綱要》提出了“政府數(shù)據(jù)資源共享開放”“國家大數(shù)據(jù)資源統(tǒng)籌發(fā)展工程”和“政府治理大數(shù)據(jù)工程”等專項。1.4.1數(shù)據(jù)的價值在服務科學蓬勃發(fā)展的今天,社會已經(jīng)走向“數(shù)據(jù)即服務(DaaS)”的時代。用戶可以隨時隨地按需求獲取數(shù)據(jù)和信息。海量數(shù)據(jù)帶來了相應的海量數(shù)據(jù)處理及分析需求。然而,傳統(tǒng)方法難以應對海量原始數(shù)據(jù)的直接處理和分析,在很多情況下數(shù)據(jù)被淹沒于浩瀚的“數(shù)據(jù)海洋”中,這些被淹沒的數(shù)據(jù)中不乏能夠提供有價值信息的數(shù)據(jù),因此,我們在解決大數(shù)據(jù)獲取、存儲等問題的同時,急需能夠針對大數(shù)據(jù)進行統(tǒng)計、分析和信息提取的方法。1.4.1數(shù)據(jù)的價值近年來,以數(shù)據(jù)為研究對象的電子科學、信息科學、語義網(wǎng)絡、數(shù)據(jù)組織與管理、數(shù)據(jù)分析、數(shù)據(jù)挖掘和數(shù)據(jù)可視化等手段,可以有效地提取隱藏在數(shù)據(jù)中有價值的信息,并且將數(shù)據(jù)利用率提高到傳統(tǒng)方法所不能及的高度,是提煉科學原理、驗證科學假設、服務科學探索的新思路。研究這種綜合性方法的交叉學科被稱為“數(shù)據(jù)科學”,它涵蓋了數(shù)據(jù)管理、計算機科學、統(tǒng)計學、視覺設計、可視化、人機交互以及基于架構(gòu)式和信息技術(shù)的物理科學,它改變了所有學科個人和協(xié)作工作的模式,使得無論是商業(yè)還是科學數(shù)據(jù)分析處理都上升到一個新的“數(shù)據(jù)驅(qū)動”的階段,幫助數(shù)據(jù)分析師和科學家解決尺度、復雜度超越已有的所有工具承受范圍的全局問題。1.4.1數(shù)據(jù)的價值從應用角度出發(fā),適合使用數(shù)據(jù)科學的研究領域包括:地球科學、生物、天文、環(huán)境與氣候、化學、物理、航空、環(huán)境工程、數(shù)據(jù)圖書館和科學出版、商業(yè)、社會學、經(jīng)濟等。1.4.1數(shù)據(jù)的價值數(shù)據(jù)管理包括對數(shù)據(jù)進行有效的收集、存儲、處理和應用的過程。在面向復雜數(shù)據(jù)的數(shù)據(jù)可視化過程中,還涉及面向應用的數(shù)據(jù)管理,它的管理對象是數(shù)據(jù)生命周期所涉及的應用過程中描述構(gòu)成應用系統(tǒng)構(gòu)件屬性的元數(shù)據(jù),包括流程、文件、數(shù)據(jù)元、代碼、規(guī)則、腳本、檔案、模型、指標、物理表、ETL(抽取-轉(zhuǎn)換-裝載)、運行狀態(tài)等。1.4.2數(shù)據(jù)管理通常數(shù)據(jù)按照一定的組織形式和規(guī)則進行存儲和處理,以實現(xiàn)有效的數(shù)據(jù)管理。從邏輯上看,數(shù)據(jù)組織具有一個層層相連的層次體系:位、字符、數(shù)據(jù)元、記錄、文件、數(shù)據(jù)庫。其中,記錄是邏輯上相關的數(shù)據(jù)元組合;文件是邏輯上相關的記錄集合;數(shù)據(jù)庫是一種作為計算機系統(tǒng)資源共享的數(shù)據(jù)集合。1.4.2數(shù)據(jù)管理與數(shù)據(jù)可視化有關的常用數(shù)據(jù)組織和管理形式如下:(1)文件存儲。這是最簡單的數(shù)據(jù)組織形式。以文件作為數(shù)據(jù)存儲形式,數(shù)據(jù)可能出現(xiàn)冗余、不一致,數(shù)據(jù)訪問繁瑣,難以添加數(shù)據(jù)約束,安全性不高等問題。然而作為一種高度靈活的數(shù)據(jù)存儲形式,它允許使用者非常自由地進行數(shù)據(jù)處理而不受過多的約束。電子表單是得到廣泛使用的多功能數(shù)據(jù)組織形式,其主要缺點是缺少類型和元數(shù)據(jù),因而在使用時需要預先給出對每個數(shù)據(jù)項的語義解釋。1.4.2數(shù)據(jù)管理(2)結(jié)構(gòu)化文件格式。為方便數(shù)據(jù)存儲和交換,數(shù)據(jù)導向型的應用程序采用標記語言格式將數(shù)據(jù)進行結(jié)構(gòu)化組織,XML(可擴展標記語言)是其中的典型代表。除此之外,一些科學領域使用特定的結(jié)構(gòu)化文件記錄數(shù)據(jù),以滿足特殊領域知識的表達高性能處理的需求,這些科學數(shù)據(jù)格式充分考慮了實驗或測量數(shù)據(jù)的性能需求,適用于高分辨率、高通量的傳感器數(shù)據(jù)。1.4.2數(shù)據(jù)管理(3)數(shù)據(jù)庫。即存儲在計算設備,有組織、共享、統(tǒng)一的數(shù)據(jù)集合。數(shù)據(jù)庫中保存的數(shù)據(jù)結(jié)構(gòu)既描述了數(shù)據(jù)間的內(nèi)在聯(lián)系,便于數(shù)據(jù)增加、更新與刪除,也保證了數(shù)據(jù)的獨立性、可靠性、安全性與完整性,提高了數(shù)據(jù)的共享程度和管理效率。關系數(shù)據(jù)庫是最為常用的數(shù)據(jù)模型。1.4.2數(shù)據(jù)管理數(shù)據(jù)庫作為信息存儲應用已經(jīng)成為數(shù)據(jù)服務的基礎。對于能夠獲取到的信息,需要一種強大的、靈活的管理系統(tǒng)和理論有效地組織、存儲和管理大量的數(shù)據(jù),以進一步發(fā)揮這些數(shù)據(jù)的價值。在這樣的背景下,數(shù)據(jù)庫和數(shù)據(jù)庫管理系統(tǒng)應運而生,擔當起數(shù)據(jù)組織和存儲的角色。1.4.3數(shù)據(jù)庫與數(shù)據(jù)倉庫除了數(shù)據(jù)的集合,數(shù)據(jù)庫同時包含對數(shù)據(jù)的相關組織和操作。數(shù)據(jù)庫管理系統(tǒng)用來幫助維護大量數(shù)據(jù)集合,滿足對數(shù)據(jù)存儲、管理、維護以及提供查詢、分析等服務的需要。數(shù)據(jù)庫管理系統(tǒng)通常需要考慮的因素:數(shù)據(jù)庫模型設計、數(shù)據(jù)分析支持、并發(fā)和容錯和速度和存儲容量。數(shù)據(jù)庫結(jié)構(gòu)的基礎是數(shù)據(jù)模型,它是數(shù)據(jù)描述、數(shù)據(jù)聯(lián)系、數(shù)據(jù)域以及一致性約束的集合。現(xiàn)有的數(shù)據(jù)模型主要有基于對象和基于記錄的邏輯模型。1.4.3數(shù)據(jù)庫與數(shù)據(jù)倉庫作為一種最常見的基于記錄的邏輯模型,關系模型廣泛應用在各種關系數(shù)據(jù)庫系統(tǒng)中。它借助于關系代數(shù)等數(shù)學概念和方法來處理數(shù)據(jù)庫中的數(shù)據(jù),由關系數(shù)據(jù)結(jié)構(gòu)、關系操作集合、關系完整性約束三部分組成。在關系數(shù)據(jù)庫中,數(shù)據(jù)以表格的形式表現(xiàn),數(shù)據(jù)之間的聯(lián)系由屬性值表達。NoSQL數(shù)據(jù)庫被認為是不同于傳統(tǒng)關系數(shù)據(jù)庫的數(shù)據(jù)庫管理系統(tǒng)的總稱,這種數(shù)據(jù)庫能夠滿足對數(shù)據(jù)的高并發(fā)讀寫、高效存儲和訪問、數(shù)據(jù)庫高擴展性和高可用性等需求,為社交網(wǎng)站等規(guī)模大、并發(fā)數(shù)高的應用提供了符合其性能標準的解決方案。1.4.3數(shù)據(jù)庫與數(shù)據(jù)倉庫數(shù)據(jù)倉庫指“面向主題的、集成的、與時間相關的、主要用于存儲的數(shù)據(jù)集合,支持管理部門的決策過程”,其目的是構(gòu)建面向分析的集成化數(shù)據(jù)環(huán)境,為分析人員提供決策支持。區(qū)別于其他類型的數(shù)據(jù)存儲系統(tǒng),數(shù)據(jù)倉庫通常有特定的應用方向,并且能夠集成多個異構(gòu)數(shù)據(jù)源的數(shù)據(jù)。同時,數(shù)據(jù)倉庫中的數(shù)據(jù)還具有時變性、非易失性等特點。數(shù)據(jù)倉庫中的數(shù)據(jù)來源于外部,開放給外部應用,其基本架構(gòu)是數(shù)據(jù)流入/流出的過程,該過程可以分為三層:源數(shù)據(jù)、數(shù)據(jù)倉庫和數(shù)據(jù)應用,即ETL(抽取-轉(zhuǎn)換-裝載)。1.4.3數(shù)據(jù)庫與數(shù)據(jù)倉庫PART05數(shù)據(jù)分析與挖掘所謂數(shù)據(jù)分析,是指組織有目的地采集數(shù)據(jù)、詳細研究和概括總結(jié)數(shù)據(jù),從中提取有用信息并形成結(jié)論的過程,其目的是從一堆雜亂無章的數(shù)據(jù)中,萃取和提煉出信息,探索數(shù)據(jù)對象的內(nèi)在規(guī)律。概念上,數(shù)據(jù)分析的任務分解為定位、識別、區(qū)分、分類、聚類、分布、排列、比較、內(nèi)外連接比較、關聯(lián)、關系等活動?;跀?shù)據(jù)可視化的分析任務則包括識別、決定、可視化、比較、推理、配置和定位。基于數(shù)據(jù)的決策則可分解為確定目標、評價可供選擇方案,選擇目標方案、執(zhí)行方案等。1.5數(shù)據(jù)分析與挖掘數(shù)據(jù)分析從統(tǒng)計學中發(fā)展而來,具有代表性的分析方法有描述性分析、探索式分析、驗證性分析等,其中探索式分析主要強調(diào)從數(shù)據(jù)中尋找出之前沒有發(fā)現(xiàn)過的特征和信息,驗證性分析則強調(diào)通過分析數(shù)據(jù)來驗證或證偽已提出的假說。統(tǒng)計分析中的傳統(tǒng)數(shù)據(jù)分析工具包括:排列圖、因果圖、分層法、調(diào)查表、散布圖、直方圖、控制圖等。面向復雜關系和任務,又發(fā)展了新的分析手段,如關聯(lián)圖、系統(tǒng)圖、矩陣圖、計劃評審技術(shù)、矩陣數(shù)據(jù)圖等。流行的統(tǒng)計分析軟件如R、SPSS、SAS都支持大量的統(tǒng)計分析方法。1.5.1數(shù)據(jù)分析方法從流程上看,數(shù)據(jù)分析以數(shù)據(jù)為輸入,處理完畢后提煉出對數(shù)據(jù)的理解。因此,在整個數(shù)據(jù)工作流中,數(shù)據(jù)分析建立在數(shù)據(jù)組織和管理基礎上,通過通信機制和其他應用程序連接,并采用數(shù)據(jù)可視化方法呈現(xiàn)數(shù)據(jù)分析的中間結(jié)果或最終結(jié)論。面向大型或復雜的異構(gòu)數(shù)據(jù)集,數(shù)據(jù)分析的挑戰(zhàn)是結(jié)合數(shù)據(jù)組織和管理的特點,考慮數(shù)據(jù)可視化的交互性和操控性要求需求。1.5.1數(shù)據(jù)分析方法數(shù)據(jù)挖掘被認為是一種專門的數(shù)據(jù)分析方式,與傳統(tǒng)的數(shù)據(jù)分析(如統(tǒng)計分析、聯(lián)機分析處理)方法的本質(zhì)區(qū)別是,前者在沒有明確假設的前提下去挖掘知識,所得到的信息具有未知、有效和實用三個特征,并且數(shù)據(jù)挖掘的任務往往是預測性的而非傳統(tǒng)的描述性任務。數(shù)據(jù)挖掘的輸入可以是數(shù)據(jù)庫或數(shù)據(jù)倉庫,或者是其他的數(shù)據(jù)源類型,例如網(wǎng)頁、文本、圖像、視頻、音頻等。1.5.1數(shù)據(jù)分析方法聯(lián)機分析處理是面向分析決策的方法。傳統(tǒng)的數(shù)據(jù)庫查詢和統(tǒng)計分析工具負責提供數(shù)據(jù)庫中的內(nèi)容信息,而聯(lián)機分析處理則提供基于數(shù)據(jù)的假設驗證方法。這個過程是一個演繹推理的過程。與之相反的是,數(shù)據(jù)挖掘并不驗證某個假定的模型的正確性,而是從數(shù)據(jù)中計算未知的模型,因此本質(zhì)上是一個歸納的過程,通過構(gòu)建模型對未來進行預測。1.5.1數(shù)據(jù)分析方法數(shù)據(jù)挖掘和聯(lián)機分析處理都致力于模式發(fā)現(xiàn)和預測,具有一定的互補性。當然,數(shù)據(jù)挖掘并不能替代傳統(tǒng)的統(tǒng)計分析和探索式數(shù)據(jù)分析技術(shù)。在實際應用中,需要針對不同的問題類型采用不同的方法。特別需要指出的是,將數(shù)據(jù)可視化作為一種可視思考策略和解決方法,可以有效地提高統(tǒng)計分析、探索式數(shù)據(jù)分析、數(shù)據(jù)挖掘和聯(lián)機分析處理的效率。1.5.1數(shù)據(jù)分析方法探索式分析是一種有別于統(tǒng)計分析的新思路,是統(tǒng)計學和數(shù)據(jù)分析結(jié)合的產(chǎn)物。著名的統(tǒng)計學家、信息可視化先驅(qū)約翰·圖基將探索式分析定義為一種以數(shù)據(jù)可視化為主的數(shù)據(jù)分析方法,其主要目的包括:洞悉數(shù)據(jù)的原理、發(fā)現(xiàn)潛在的數(shù)據(jù)結(jié)構(gòu)、抽取重要變量、檢測離群值和異常值、測試假設、發(fā)展數(shù)據(jù)精簡模型、確定優(yōu)化因子設置等。大多數(shù)探索式分析關注數(shù)據(jù)本身,包括結(jié)構(gòu)、離群值、異常值和數(shù)據(jù)導出的模型。而傳統(tǒng)的統(tǒng)計分析關注模型,即估計模型的參數(shù),從模型生成預測值。1.5.2探索式分析從數(shù)據(jù)處理的流程上看,探索式分析和統(tǒng)計分析、貝葉斯分析也有很大不同。統(tǒng)計分析的流程是:問題,數(shù)據(jù),模型,分析,結(jié)論;探索式分析的流程是:問題,數(shù)據(jù),分析,模型,結(jié)論;貝葉斯分析的流程則是:問題,數(shù)據(jù),模型,先驗分布,分析,結(jié)論。探索式分析與數(shù)據(jù)挖掘也有很大差別。前者將聚類和異常檢測看成探索式過程,而后者則關注模型的選擇和參數(shù)的調(diào)節(jié)。1.5.2探索式分析聯(lián)機分析處理(OLAP)是一種交互式探索大規(guī)模多維數(shù)據(jù)集的方法。關系數(shù)據(jù)庫將數(shù)據(jù)表示為表格中的行,而聯(lián)機分析處理則關注統(tǒng)計學意義上的多維數(shù)組。將表單數(shù)據(jù)轉(zhuǎn)換為多維數(shù)組需要兩個步驟。首先,確定作為多維數(shù)組索引項的屬性集合,以及作為多維數(shù)組數(shù)據(jù)項的屬性。作為索引項的屬性必須具有離散值,而對應數(shù)據(jù)項的屬性通常是一個數(shù)值。然后,根據(jù)確定的索引項生成多維數(shù)組表示。1.5.3聯(lián)機分析處理聯(lián)機分析處理的核心表達是多維數(shù)據(jù)模型,它可表達為多維數(shù)組的數(shù)據(jù)。數(shù)據(jù)立方是數(shù)據(jù)的一個各種聚合操作的多維表示,用于記錄包含數(shù)十個維度、數(shù)百萬數(shù)據(jù)項的數(shù)據(jù)集,并在其基礎上構(gòu)建維度的層次結(jié)構(gòu)。通過對數(shù)據(jù)立方不同維度的聚合、檢索和數(shù)值計算等操作,可從不同角度完成對數(shù)據(jù)集的理解。由于數(shù)據(jù)立方的高維和大尺度,聯(lián)機分析處理面臨著設計高度交互性方法的挑戰(zhàn)。一種方案是預計算并存儲不同層級的聚合值,以減小數(shù)據(jù)尺度;另一種方案是從系統(tǒng)的可用性出發(fā),將任一時刻的處理對象限制在部分維度,從而減少處理的數(shù)據(jù)內(nèi)容。1.5.3聯(lián)機分析處理聯(lián)機分析處
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 電儀培訓課件
- 瓷磚釉面專業(yè)知識培訓課件
- 瓷瓦基礎知識培訓總結(jié)
- 瓜子皮拼貼畫課件
- 基于分數(shù)階模型的裂隙介質(zhì)井流問題解析解研究
- 平遙牛肉買賣合同6篇
- 父與女課件教學課件
- 詩歌家課件教學課件
- 愛情哲學課件
- 愛嬰醫(yī)院知識培訓
- 初級消防員培訓課程教學大綱
- 2025年重慶市長壽區(qū)面向社會選拔 社區(qū)專職工作者后備庫人選模擬試卷附答案詳解(完整版)
- 人工智能技術(shù)與工程造價領域的融合發(fā)展
- 2025年“學憲法講憲法”主題活動知識競賽題庫附答案
- 護理部季度工作匯報
- 煙霧病護理問題及護理措施
- 煙草職稱管理辦法
- 2025年黨紀法規(guī)知識測試題(含答案)
- 村委會印章使用管理制度
- 勞務分包安全管理辦法
- 數(shù)控刀具壽命管理辦法
評論
0/150
提交評論