大數(shù)據(jù)技術(shù)與應(yīng)用 第2版 課件 第5章 大數(shù)據(jù)分析與挖掘;第6章 大數(shù)據(jù)可視化_第1頁
大數(shù)據(jù)技術(shù)與應(yīng)用 第2版 課件 第5章 大數(shù)據(jù)分析與挖掘;第6章 大數(shù)據(jù)可視化_第2頁
大數(shù)據(jù)技術(shù)與應(yīng)用 第2版 課件 第5章 大數(shù)據(jù)分析與挖掘;第6章 大數(shù)據(jù)可視化_第3頁
大數(shù)據(jù)技術(shù)與應(yīng)用 第2版 課件 第5章 大數(shù)據(jù)分析與挖掘;第6章 大數(shù)據(jù)可視化_第4頁
大數(shù)據(jù)技術(shù)與應(yīng)用 第2版 課件 第5章 大數(shù)據(jù)分析與挖掘;第6章 大數(shù)據(jù)可視化_第5頁
已閱讀5頁,還剩196頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第5章大數(shù)據(jù)分析與挖掘大數(shù)據(jù)為人服務(wù),為企業(yè)和個人提供決策參考,讓人少犯錯,更聰明。這方面主要體現(xiàn)在精準(zhǔn)營銷、用戶需求、市場拓展、趨勢預(yù)測、資源配置、產(chǎn)品升級。大數(shù)據(jù)為機(jī)器服務(wù)。大數(shù)據(jù)可以訓(xùn)練機(jī)器設(shè)備、人工智能,讓機(jī)器更聰明。這方面主要體現(xiàn)在物聯(lián)設(shè)備、人工智能訓(xùn)練、搜索引擎、信息分發(fā)平臺的推送機(jī)制。大數(shù)據(jù)分析概述

數(shù)據(jù)分析是大數(shù)據(jù)價值鏈中的一個重要環(huán)節(jié),其目標(biāo)是提取海量數(shù)據(jù)中的有價值的內(nèi)容,找出內(nèi)在的規(guī)律,從而幫助人們作出最正確的決策。1、認(rèn)清事實2、找出規(guī)律3、預(yù)測未來4、洞悉關(guān)系

大數(shù)據(jù)分析的主要任務(wù)主要有:第一類是預(yù)測任務(wù),第二類是描述任務(wù),具體可分為分類、回歸、關(guān)聯(lián)分析、聚類分析、推薦系統(tǒng)、異常檢測、鏈接分析等幾種。

大數(shù)據(jù)分析主要有描述性統(tǒng)計分析、探索性數(shù)據(jù)分析以及驗證性數(shù)據(jù)分析等。

描述性統(tǒng)計,是指運用制表和分類,圖形以及計算概括性數(shù)據(jù)來描述數(shù)據(jù)特征的各項活動。

驗證性數(shù)據(jù)分析注重對數(shù)據(jù)模型和研究假設(shè)的驗證,側(cè)重于已有假設(shè)的證實或證偽。假設(shè)檢驗是根據(jù)數(shù)據(jù)樣本所提供的證據(jù),肯定或否定有關(guān)總體的聲明。

探索性數(shù)據(jù)分析是指為了形成值得假設(shè)的檢驗而對數(shù)據(jù)進(jìn)行分析的一種方法,是對傳統(tǒng)統(tǒng)計學(xué)假設(shè)檢驗手段的補充。

大數(shù)據(jù)分析的內(nèi)容主要有數(shù)據(jù)挖掘算法、大數(shù)據(jù)預(yù)測性分析以及可視化分析等。數(shù)據(jù)挖掘算法大數(shù)據(jù)分析的理論核心就是數(shù)據(jù)挖掘算法。

預(yù)測性分析

大數(shù)據(jù)分析最終要應(yīng)用的領(lǐng)域之一就是預(yù)測性分析,從大數(shù)據(jù)中挖掘出特點,通過科學(xué)的建立模型,之后便可以通過模型帶入新的數(shù)據(jù),從而預(yù)測未來的數(shù)據(jù)。

可視化分析大數(shù)據(jù)分析的使用者有大數(shù)據(jù)分析專家,同時還有普通用戶,但是他們二者對于大數(shù)據(jù)分析最基本的要求都是能夠可視化分析,因為可視化分析能夠直觀地呈現(xiàn)大數(shù)據(jù)特點。大數(shù)據(jù)分析的方法

分類分類是一種重要的數(shù)據(jù)挖掘技術(shù)。分類的目的是根據(jù)數(shù)據(jù)集的特點構(gòu)造一個分類函數(shù)或分類模型(也常常稱作分類器),該模型能把未知類別的樣本映射到給定類別中的某一個。

簡言之,確定對象屬于哪個預(yù)定義的目標(biāo)類。

學(xué)術(shù)一點:通過學(xué)習(xí)得到一個目標(biāo)函數(shù)f(分類模型),把每個屬性集x映射到一個預(yù)先定義的類標(biāo)號y。

雖然我們?nèi)祟惗疾幌矚g被分類,被貼標(biāo)簽,但數(shù)據(jù)研究的基礎(chǔ)正是給數(shù)據(jù)“貼標(biāo)簽”進(jìn)行分類。類別分得越精準(zhǔn),我們得到的結(jié)果就越有價值。

例如,在家長眼里乖巧的小明是一個好孩子,同時家長也想確保他會在學(xué)校做一名“好學(xué)生”而不是“壞學(xué)生”。這里的區(qū)分“好學(xué)生”和“壞學(xué)生”就是一個分類任務(wù)。

分類是一個有監(jiān)督的學(xué)習(xí)過程,目標(biāo)數(shù)據(jù)庫中有哪些類別是已知的,分類過程需要做的就是把每一條記錄歸到對應(yīng)的類別之中。由于必須事先知道各個類別的信息,并且所有待分類的數(shù)據(jù)條目都默認(rèn)有對應(yīng)的類別,因此分類算法也有其局限性。常用的分類算法包括:NBC(NaiveBayesianClassifier,樸素貝葉斯分類)算法、LR(LogisticRegress,邏輯回歸)算法、ID3(IterativeDichotomiser3迭代二叉樹3代)決策樹算法、C4.5決策樹算法、C5.0決策樹算法、SVM(SupportVectorMachine,支持向量機(jī))算法、KNN(K-NearestNeighbor,K最近鄰近)算法、ANN(ArtificialNeuralNetwork,人工神經(jīng)網(wǎng)絡(luò))算法等。

“別和其他壞學(xué)生在一起,否則你也會和他們一樣?!?/p>

——家長這句話通常來自家長的勸誡,但它透露著不折不扣的近鄰思想。在分類算法中,K最近鄰是最普通也是最好理解的算法。它的主要思想是通過離待預(yù)測樣本最近的K個樣本的類別來判斷當(dāng)前樣本的類別。家長們希望孩子成為好學(xué)生,可能為此不惜重金購買學(xué)區(qū)房或者上私立學(xué)校,一個原因之一是這些優(yōu)秀的學(xué)校里有更多的優(yōu)秀學(xué)生。與其他優(yōu)秀學(xué)生走的更近,從K最近鄰算法的角度來看,就是讓目標(biāo)樣本與其他正樣本距離更近、與其他負(fù)樣本距離更遠(yuǎn),從而使得其近鄰中的正樣本比例更高,更大概率被判斷成正樣本。條件概率是指事件A在另外一個事件B已經(jīng)發(fā)生條件下的發(fā)生概率,記P(A|B)左邊為一個布袋,里邊裝有5個球,其中2個藍(lán)色球,3個紅色球。每次隨機(jī)從布袋里拿一顆球(不放回),求連續(xù)2次拿到籃球的概率是多少?拿到2個籃球的概率即P(AB),事件A為第一次拿到籃球的概率,這里為P(A)=2/5;事件B為第二次拿到籃球的概率,這里為在第一次拿到籃球的條件下,第二次拿到籃球的條件概率P(B|A)。貝葉斯定理是關(guān)于隨機(jī)事件A和B的條件概率(或邊緣概率)的一則定理。貝葉斯定理之所以有用,是因為我們在生活中經(jīng)常遇到這種情況:我們可以很容易直接得出P(A|B),P(B|A)則很難直接得出,但我們更關(guān)心P(B|A),貝葉斯定理就為我們打通從P(A|B)獲得P(B|A)的道路。

樸素貝葉斯的思想基礎(chǔ)是這樣的:對于給出的待分類項,求解在此項出現(xiàn)的條件下各個類別出現(xiàn)的概率,哪個最大,就認(rèn)為此待分類項屬于哪個類別。

通俗來說,在街上看到一個黑人,猜這哥們哪里來的,十有八九猜非洲。為什么呢?因為黑人中非洲人的比率最高。

“根據(jù)以往抓獲的情況來看,十個壞學(xué)生有九個愛打架。”

——教導(dǎo)主任說這句話的訓(xùn)導(dǎo)主任很有可能就是通過樸素貝葉斯算法來區(qū)分好、壞學(xué)生?!笆畟€壞學(xué)生有九個愛打架”就意味著“壞學(xué)生”打架的概率P(打架|壞學(xué)生)=0.9,假設(shè)根據(jù)訓(xùn)導(dǎo)處歷史記錄壞學(xué)生占學(xué)生總數(shù)P(壞學(xué)生)=0.1、打架發(fā)生的概率是P(打架)=0.09,那么這時如果發(fā)生打架事件,就可以通過貝葉斯公式判斷出當(dāng)事學(xué)生是“壞學(xué)生”的概率P(壞學(xué)生|打架)=P(打架|壞學(xué)生)×P(壞學(xué)生)÷P(打架)=1.0,即該學(xué)生100%是“壞學(xué)生”。某人身高6英尺、體重130磅,腳掌8英寸,請問該人是男是女?樸素貝葉斯分類常用于文本分類,尤其是對于英文等語言來說,分類效果很好。它常用于垃圾文本過濾、情感預(yù)測、推薦系統(tǒng)等。

“上課講話扣1分,不交作業(yè)扣2分,比賽得獎加5分。”

——紀(jì)律委員班上的紀(jì)律委員既勤懇又嚴(yán)格,總是在小本本上記錄同學(xué)們的每一項行為得分。在完成對每一項行為的評分后,紀(jì)律委員根據(jù)最終加總得到的總分來判斷每位同學(xué)的表現(xiàn)好壞。上述的過程就非常類似于邏輯回歸的算法原理。我們稱邏輯回歸為一種線性分類器,其特征就在于自變量x和因變量y之間存在類似y=ax+b的一階的、線性的關(guān)系。假設(shè)“上課講話”、“不交作業(yè)”和“比賽得獎”的次數(shù)分別表示為x1、x2、和x3,且每個學(xué)生的基礎(chǔ)分為0,那么最終得分y=-1*x1-2*x2+5*x3+0。其中-1、-2和5分別就對應(yīng)于每種行為在“表現(xiàn)好”這一類別下的權(quán)重。

““我想個辦法把表現(xiàn)差的學(xué)生都調(diào)到最后一排。”

——班主任即使學(xué)生們再不情愿,班主任也有一萬個理由對他們的座位作出安排。對于“壞學(xué)生”,一些班主任的采取的做法是盡量讓他們與“好學(xué)生”保持距離,即將“壞學(xué)生”們都調(diào)到教室的最后一排。這樣一來,就相當(dāng)于在學(xué)生們之間畫了一條清晰的分割界線,一眼就能區(qū)分出來。支持向量機(jī)的思想就是如此。支持向量機(jī)致力于在正負(fù)樣本的邊界上找到一條分割界線(超平面),使得它能完全區(qū)分兩類樣本的同時,保證劃分出的間隔盡量的大。對于班主任來講,調(diào)換學(xué)生們的座位就相當(dāng)于使用了核函數(shù),讓原本散落在教室里的“好”、“壞”學(xué)生從線性不可分變得線性可分了。人工神經(jīng)網(wǎng)絡(luò),簡稱神經(jīng)網(wǎng)絡(luò)或類神經(jīng)網(wǎng)絡(luò),是一種模仿生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能的數(shù)學(xué)模型或計算模型,用于對函數(shù)進(jìn)行估計或近似。神經(jīng)網(wǎng)絡(luò)由大量的人工神經(jīng)元聯(lián)結(jié)進(jìn)行計算。大多數(shù)情況下人工神經(jīng)網(wǎng)絡(luò)能在外界信息的基礎(chǔ)上改變內(nèi)部結(jié)構(gòu),是一種自適應(yīng)系統(tǒng)。人工神經(jīng)網(wǎng)絡(luò)由很多的層組成,最前面這一層叫輸入層,最后面一層叫輸出層,最中間的層叫隱層,并且每一層有很多節(jié)點,節(jié)點之間有邊相連的,每條邊都有一個權(quán)重。對于文本來說輸入值是每一個字符,對于圖片來說輸入值就是每一個像素。垃圾郵件過濾器是一個機(jī)器學(xué)習(xí)程序,通過學(xué)習(xí)用戶標(biāo)記好的垃圾郵件和常規(guī)非垃圾郵件示例,它可以學(xué)會標(biāo)記垃圾郵件。系統(tǒng)用于學(xué)習(xí)的示例稱為訓(xùn)練集。在此案例中,任務(wù)(T)是標(biāo)記新郵件是否為垃圾郵件,經(jīng)驗(E)是訓(xùn)練數(shù)據(jù),性能度量(P)需要定義。回歸在統(tǒng)計學(xué)中,回歸分析指的是確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法。

線性回歸是最為人熟知的建模技術(shù)之一。線性回歸通常是人們在學(xué)習(xí)預(yù)測模型時首選的少數(shù)幾種技術(shù)之一。在該技術(shù)中,因變量是連續(xù)的,自變量(單個或多個)可以是連續(xù)的,也可以是離散的。線性回歸用于根據(jù)連續(xù)變量估算實際值(房屋成本,通話成本,總銷售額等)。在這里,我們通過擬合一條直線來建立自變量和因變量之間的關(guān)系。該最佳擬合線稱為回歸線,并由線性方程Y=a*X+b表示。我們確定了線性方程y=0.2811x+13.9的最佳擬合線?,F(xiàn)在使用這個方程,我們可以求出重量,而知道一個人的身高?;貧w問題根據(jù)先前觀察到的數(shù)據(jù)預(yù)測數(shù)值;回歸的例子包括房價預(yù)測、股價預(yù)測、身高-體重預(yù)測等。線性回歸主要有兩種類型:簡單線性回歸和多元線性回歸。簡單線性回歸的特征在于一個自變量。而多元線性回歸(顧名思義)的特征是多個(超過1個)的自變量。在找到最佳擬合線時,可以擬合多項式或曲線回歸。這些被稱為多項式或曲線回歸。

聚類聚類分析指將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程。聚類自動尋找并建立分組規(guī)則的方法,通過判斷樣本之間的相似性,把相似樣本劃分在一個簇中。

與分類不同,聚類的目的就是實現(xiàn)對樣本的細(xì)分,使得同組內(nèi)的樣本特征較為相似,不同組的樣本特征差異較大。聚類是一種無監(jiān)督的學(xué)習(xí),在事先不知道數(shù)據(jù)分類的情況下,根據(jù)數(shù)據(jù)之間的相似程度進(jìn)行劃分,目的是使同類別的數(shù)據(jù)對象之間的差別盡量小,不同類別的數(shù)據(jù)對象之間的差別盡量大。

聚類的商業(yè)領(lǐng)域應(yīng)用包括:按照不同主題對文檔、音樂、電影進(jìn)行分組,或基于常見的購買行為,發(fā)現(xiàn)有相同興趣愛好的顧客,并以此構(gòu)建推薦引擎。

實現(xiàn)給定一個n個對象的合集,劃分方法構(gòu)建數(shù)據(jù)的k個分區(qū),其中每個分區(qū)代表一個簇,并且k《n,也就是說把數(shù)據(jù)劃分為k個組,使的每個組至少包含一個對象。換就話說就是劃分方法在數(shù)據(jù)集上進(jìn)行一層劃分,典型的,基本劃分方法采取互斥的簇劃分,即每個對象的必須恰好屬于一組。

聚類的商業(yè)領(lǐng)域應(yīng)用包括:按照不同主題對文檔、音樂、電影進(jìn)行分組,或基于常見的購買行為,發(fā)現(xiàn)有相同興趣愛好的顧客,并以此構(gòu)建推薦引擎。

在生物上,聚類分析被用來對動植物和基因進(jìn)行分類,以獲取對種群固有結(jié)構(gòu)的認(rèn)識。

在保險行業(yè)上,聚類分析可以通過平均消費來鑒定汽車保險單持有者的分組,同時可以根據(jù)住宅類型、價值、地理位置來鑒定城市的房產(chǎn)分組。

在電子商務(wù)上,聚類分析通過分組聚類出具有相似瀏覽行為的客戶,并分析客戶的共同特征,從而幫助電子商務(wù)企業(yè)了解自己的客戶,向客戶提供更合適的服務(wù)。

與分類不同,聚類所要求劃分的類是未知的。

關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則就是由關(guān)聯(lián)的規(guī)則,它的定義是:兩個不相交的非空集合X、Y,如果由X->Y,就說X->Y是一條關(guān)聯(lián)規(guī)則。其中X表示的是兩個互斥事件,X稱為前因(antecedent),Y稱為后果(consequent),上述關(guān)聯(lián)規(guī)則表示X會導(dǎo)致Y。

在實際應(yīng)用中,“商品銷售”講述了產(chǎn)品之間的關(guān)聯(lián)性,如果大量的數(shù)據(jù)表明,消費者購買A產(chǎn)品的同時,也會同時購買B產(chǎn)品。那么A和B之間存在關(guān)聯(lián)性,記為A->B。

使用關(guān)聯(lián)規(guī)則的過程主要包含以下四個步驟:(1)數(shù)據(jù)篩選,首先對數(shù)據(jù)進(jìn)行清洗,清洗掉那些公共的項目,比如:熱門詞,通用詞(此步依據(jù)具體項目而定)。(2)根據(jù)支持度(support),從事務(wù)集合中找出頻繁項集(使用算法:Apriori算法,F(xiàn)P-Growth算法)。(3)根據(jù)置信度(confidence),從頻繁項集中找出強(qiáng)關(guān)聯(lián)規(guī)則(置信度閾值需要根據(jù)實驗或者經(jīng)驗而定)。(4)根據(jù)提升度(lift),從強(qiáng)關(guān)聯(lián)規(guī)則中篩選出有效的強(qiáng)關(guān)聯(lián)規(guī)則(提升度的設(shè)定需要經(jīng)過多次試驗確定)。大數(shù)據(jù)挖掘

數(shù)據(jù)挖掘是指在大量的數(shù)據(jù)中挖掘出有用信息,通過分析來揭示數(shù)據(jù)之間有意義的聯(lián)系、趨勢和模式。

數(shù)據(jù)挖掘是一門交叉學(xué)科。

數(shù)據(jù)挖掘可以分為兩類:直接數(shù)據(jù)挖掘和間接數(shù)據(jù)挖掘。(1)直接數(shù)據(jù)挖掘直接數(shù)據(jù)挖掘的目標(biāo)是利用可用的數(shù)據(jù)建立一個模型,利用這個模型對剩余的數(shù)據(jù),對一個特定的變量進(jìn)行描述。(2)間接數(shù)據(jù)挖掘間接數(shù)據(jù)挖掘的目標(biāo)中沒有選出某一具體的變量,也不是用模型進(jìn)行描述,而是在所有的變量中建立起某種關(guān)系。

數(shù)據(jù)挖掘技術(shù)

指為了完成數(shù)據(jù)挖掘任務(wù)所需要的全部技術(shù),是數(shù)據(jù)挖掘方法的集合。在金融、零售等企業(yè)已廣泛采用數(shù)據(jù)挖掘技術(shù),分析用戶的可信度和購物偏好等。數(shù)據(jù)挖掘應(yīng)用在當(dāng)今大數(shù)據(jù)時代下,數(shù)據(jù)挖掘應(yīng)用到各種各樣的領(lǐng)域中,成為高科技發(fā)展的熱點問題。在軟件開發(fā)、醫(yī)療衛(wèi)生、金融、教育等方面都可以隨處看到數(shù)據(jù)挖掘的影子,可以使用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)大數(shù)據(jù)的內(nèi)在的巨大價值。(1)電子郵件系統(tǒng)中垃圾郵件的判斷(2)金融領(lǐng)域中金融產(chǎn)品的推廣營銷(3)商品銷售(4)疾病診斷(5)電子商務(wù)中的推薦系統(tǒng)數(shù)據(jù)挖掘算法K-Means算法

K-Means算法也叫作k均值聚類算法,它是最著名的劃分聚類算法,由于簡潔和效率使得它成為所有聚類算法中最廣泛使用的。決策樹算法決策樹算法是一種能解決分類或回歸問題的機(jī)器學(xué)習(xí)算法,它是一種典型的分類方法,最早產(chǎn)生于上世紀(jì)60年代。決策樹算法首先對數(shù)據(jù)進(jìn)行處理,利用歸納算法生成可讀的規(guī)則和決策樹,然后使用決策對新數(shù)據(jù)進(jìn)行分析。

決策樹的原理如下:(1)找到劃分?jǐn)?shù)據(jù)的特征,作為決策點。(2)利用找到的特征對數(shù)據(jù)進(jìn)行劃分成n個數(shù)據(jù)子集。(3)如果同一個子集中的數(shù)據(jù)屬于同一類型就不再劃分,如果不屬于同一類型,繼續(xù)利用特征進(jìn)行劃分。(4)指導(dǎo)每一個子集的數(shù)據(jù)屬于同一類型停止劃分。

決策樹算法

某女,26歲,相親,提出的見面條件如下:

(1)年齡在30歲以下;

(2)長相中等以上;

(3)收入高,或者職業(yè)是公務(wù)員。KNN算法

KNN算法也叫作K最近鄰算法,是數(shù)據(jù)挖掘分類技術(shù)中最簡單的方法之一。所謂K最近鄰,就是k個最近的鄰居的意思,說的是每個樣本都可以用它最接近的k個鄰居來代表。

KNN算法的實現(xiàn)主要有三個步驟:(1)給定待分類樣本,計算它與已分類樣本中的每個樣本的距離。(2)圈定與待分類樣本距離最近的K個已分類樣本,作為待分類樣本的近鄰。(3)根據(jù)這K個近鄰中的大部分樣本所屬的類別來決定待分類樣本該屬于哪個分類。遺傳算法遺傳算法模擬了自然選擇和遺傳中發(fā)生的繁殖、交配和基因突變現(xiàn)象,是一種采用遺傳結(jié)合、遺傳交叉變異及自然選擇等操作來生成實現(xiàn)規(guī)則的、基于進(jìn)化理論的機(jī)器學(xué)習(xí)方法。遺傳算法的實現(xiàn)步驟如下:(1)隨機(jī)產(chǎn)生種群。(2)根據(jù)策略判斷個體的適應(yīng)度,是否符合優(yōu)化準(zhǔn)則,若符合,輸出最佳個體及其最優(yōu)解,結(jié)束;否則,進(jìn)行下一步。(3)依據(jù)適應(yīng)度選擇父母,適應(yīng)度高的個體被選中的概率高,適應(yīng)度低的個體被淘汰。(4)用父母的染色體按照一定的方法進(jìn)行交叉,生成子代。(5)對子代染色體進(jìn)行變異。(6)由交叉和變異產(chǎn)生新一代種群,返回步驟2,直到最優(yōu)解產(chǎn)生。神經(jīng)網(wǎng)絡(luò)算法

神經(jīng)網(wǎng)絡(luò)可以指向兩種,一個是生物神經(jīng)網(wǎng)絡(luò),一個是人工神經(jīng)網(wǎng)絡(luò)。在這里專指人工神經(jīng)網(wǎng)絡(luò)。它是一種模仿動物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。人工神經(jīng)網(wǎng)絡(luò)算法的原理基于以下兩點:1.信息是通過神經(jīng)元上的興奮模式分布存儲在網(wǎng)絡(luò)上;2.信息處理是通過神經(jīng)元之間同時相互作用的動態(tài)過程來完成的。人工神經(jīng)網(wǎng)絡(luò)首先要以一定的學(xué)習(xí)準(zhǔn)則進(jìn)行學(xué)習(xí),然后才能工作。現(xiàn)以人工神經(jīng)網(wǎng)絡(luò)對于寫“A”、“B”兩個字母的識別為例進(jìn)行說明,規(guī)定當(dāng)“A”輸入網(wǎng)絡(luò)時,應(yīng)該輸出“1”,而當(dāng)輸入為“B”時,輸出為“0”。在這個結(jié)構(gòu)中,網(wǎng)絡(luò)的最左邊一層被稱為輸入層,用input表示,其中的神經(jīng)元被稱為輸入神經(jīng)元。最右邊及輸出層包含輸出神經(jīng)元,用output表示。在這個例子中,只有一個單一的輸出神經(jīng)元,但一般情況下輸出層也會有多個神經(jīng)元。有多個輸出神經(jīng)元的神經(jīng)網(wǎng)絡(luò)。文本挖掘數(shù)據(jù)挖掘與分析的應(yīng)用本章小結(jié)1)大數(shù)據(jù)分析是指對規(guī)模巨大的數(shù)據(jù)進(jìn)行分析。2)大數(shù)據(jù)分析包括:數(shù)據(jù)挖掘算法、大數(shù)據(jù)預(yù)測性分析、可視化分析等。3)數(shù)據(jù)挖掘是指在大量的數(shù)據(jù)中挖掘出有用信息,通過分析來揭示數(shù)據(jù)之間有意義的聯(lián)系、趨勢和模式。4)數(shù)據(jù)挖掘可以分為兩類:直接數(shù)據(jù)挖掘和間接數(shù)據(jù)挖掘。5)分類首先從數(shù)據(jù)中選出已經(jīng)分好類的訓(xùn)練集,在該訓(xùn)練集上運用數(shù)據(jù)挖掘技術(shù),建立一個分類模型,再將該模型用于對沒有分類的數(shù)據(jù)進(jìn)行分類。6)聚類是自動尋找并建立分組規(guī)則的方法,通過判斷樣本之間的相似性,把相似樣本劃分在一個簇中。它的目的就是實現(xiàn)對樣本的細(xì)分,使得同組內(nèi)的樣本特征較為相似,不同組的樣本特征差異較大。7)關(guān)聯(lián)規(guī)則就是由關(guān)聯(lián)的規(guī)則,它的定義是:兩個不相交的非空集合X、Y,如果由X->Y,就說X->Y是一條關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則的強(qiáng)度用支持度(support)和自信度(confidence)來描述。支持度和自信度越高,說明規(guī)則越強(qiáng),關(guān)聯(lián)規(guī)則挖掘就是挖掘出滿足一定強(qiáng)度的規(guī)則。8)在當(dāng)今大數(shù)據(jù)時代下,數(shù)據(jù)挖掘應(yīng)用到各種各樣的領(lǐng)域中,成為高科技發(fā)展的熱點問題。在軟件開發(fā)、醫(yī)療衛(wèi)生、金融、教育等方面都可以隨處看到數(shù)據(jù)挖掘的影子。第6章大數(shù)據(jù)可視化數(shù)據(jù)可視化概述數(shù)字永遠(yuǎn)是枯燥而抽象的,而圖形圖像卻充滿了生動性和表現(xiàn)力。數(shù)據(jù)可視化起源與發(fā)展

數(shù)據(jù)可視化,是關(guān)于數(shù)據(jù)視覺表現(xiàn)形式的科學(xué)技術(shù)研究,它為大數(shù)據(jù)分析提供了一種更加直觀的挖掘、分析與展示當(dāng)代手段,從而讓大數(shù)據(jù)更有意義。在遠(yuǎn)古時期,我們遙遠(yuǎn)的祖先——智人就已經(jīng)學(xué)會畫畫,基于自己對周邊生活環(huán)境的認(rèn)知,將人、鳥、獸、草、木等事物以及狩獵、耕種、出行、征戰(zhàn)、搏斗、祭祀等日?;顒涌坍嬙趲r石上、石壁上、洞穴里。而數(shù)據(jù)可視化的作品,最早可追溯到10世紀(jì)。當(dāng)時一位不知名的天文學(xué)家繪制了一幅作品。隨著歐洲在14世紀(jì)開始進(jìn)入了文藝復(fù)興時期,各種測量技術(shù)的出現(xiàn),在數(shù)學(xué)學(xué)科中出現(xiàn)了早期的數(shù)學(xué)坐標(biāo)圖表,如笛卡爾解析幾何坐標(biāo)系等。值得一提的是法國哲學(xué)家、數(shù)學(xué)家笛卡爾(1596-1650),他創(chuàng)立了解析幾何,將幾何曲線與代數(shù)方程相結(jié)合,為數(shù)據(jù)可視化的發(fā)展正式開啟了大門。到了18世紀(jì),隨著社會的進(jìn)一步發(fā)展與文字的廣泛應(yīng)用,微積分,物理,化學(xué),數(shù)學(xué)等都開始蓬勃發(fā)展,統(tǒng)計學(xué)也開始出現(xiàn)了萌芽。數(shù)據(jù)的價值開始為人們重視起來,人口、商業(yè)、農(nóng)業(yè)等經(jīng)驗數(shù)據(jù)開始被系統(tǒng)的收集整理,記錄下來,于是各種圖表和圖形也開始誕生。大數(shù)據(jù)可視化已經(jīng)注定成為可視化歷史中的新的里程碑,VR、AR、MR、全息投影…這些當(dāng)下最火熱的數(shù)據(jù)可視化技術(shù)已經(jīng)被應(yīng)用到游戲、房地產(chǎn)、教育等各行各業(yè)。

當(dāng)前,在大數(shù)據(jù)的研究領(lǐng)域中,數(shù)據(jù)可視化是一個異?;钴S的方面。一方面,數(shù)據(jù)可視化以數(shù)據(jù)挖掘、數(shù)據(jù)采集、數(shù)據(jù)分析為基礎(chǔ);另一方面,它還是一種新的表達(dá)數(shù)據(jù)的方式,是對現(xiàn)實世界的抽象表達(dá)。數(shù)據(jù)可視化世界人口數(shù)據(jù)可視化城市污染數(shù)據(jù)可視化百度校園案件最早的數(shù)據(jù)可視化倫敦地鐵數(shù)據(jù)可視化倫敦地鐵數(shù)據(jù)可視化戰(zhàn)爭中的傷亡數(shù)據(jù)可視化動物研究數(shù)據(jù)可視化足球比賽

這就是數(shù)據(jù)被可視化之后的魅力,它們會產(chǎn)生邏輯、意義,變成更值得思考的東西。

隨著對大數(shù)據(jù)可視化認(rèn)識的不斷加深,人們認(rèn)為數(shù)據(jù)可視化一般分為三種不同的類型:科學(xué)可視化、信息可視化和可視化分析

科學(xué)可視化是數(shù)據(jù)可視化中的一個應(yīng)用領(lǐng)域,主要關(guān)注空間數(shù)據(jù)與三維現(xiàn)象的可視化,包含氣象學(xué)、生物學(xué)、物理學(xué)、農(nóng)學(xué)等,重點在于對客觀事物的體、面及光源等的逼真渲染。

信息可視化(Informationvisualization)是一個跨學(xué)科領(lǐng)域,旨在研究大規(guī)模非數(shù)值型信息資源的視覺呈現(xiàn)(如軟件系統(tǒng)之中眾多的文件或者一行行的程序代碼)。通過利用圖形圖像方面的技術(shù)與方法,幫助人們理解和分析數(shù)據(jù)??梢暬治鍪强茖W(xué)可視化與信息可視化領(lǐng)域發(fā)展的產(chǎn)物,側(cè)重于借助交互式的用戶界面而進(jìn)行對數(shù)據(jù)的分析與推理。

可視化分析是一個多學(xué)科領(lǐng)域。

大數(shù)據(jù)可視化的流程數(shù)據(jù)可視化是一個系統(tǒng)的流程,該流程以數(shù)據(jù)為基礎(chǔ),以數(shù)據(jù)流為導(dǎo)向,還包括了數(shù)據(jù)采集、數(shù)據(jù)處理、可視化映射和用戶感知等環(huán)節(jié)。數(shù)據(jù)采集

數(shù)據(jù)可視化的基礎(chǔ)是數(shù)據(jù),數(shù)據(jù)可以通過儀器采樣、調(diào)查記錄等方式進(jìn)行采集。數(shù)據(jù)采集又稱為“數(shù)據(jù)獲取”或“數(shù)據(jù)收集”,是指對現(xiàn)實世界的信息進(jìn)行采樣。

采集得來的原始數(shù)據(jù)一方面不可避免含有噪聲和誤差,另一方面數(shù)據(jù)的模式和特征往往被隱藏。因此,通過數(shù)據(jù)處理能夠保證數(shù)據(jù)的完整性、有效性、準(zhǔn)確性、一致性和可用性。數(shù)據(jù)處理

可視化映射是可視化流程的核心環(huán)節(jié),它用于把不同數(shù)據(jù)之間的聯(lián)系映射為可視化視覺通道中的不同元素,如標(biāo)記的位置、大小、長度、形狀、方向、色調(diào)、飽和度、亮度等??梢暬成?/p>

用戶感知從數(shù)據(jù)的可視化結(jié)果中提取有用的信息、知識和靈感。用戶可以借助數(shù)據(jù)可視化結(jié)果感受數(shù)據(jù)的不同,從中提取信息、知識和靈感,并從中發(fā)現(xiàn)數(shù)據(jù)背后隱藏的現(xiàn)象和規(guī)律。用戶感知大數(shù)據(jù)可視化圖表介紹圖是表達(dá)數(shù)據(jù)的最直觀、最強(qiáng)大的方式之一,通過圖的展示能夠?qū)?shù)據(jù)進(jìn)行優(yōu)雅的變換,從而讓枯燥的數(shù)字能吸引人們注意力。在實現(xiàn)數(shù)據(jù)可視化選擇圖時,應(yīng)當(dāng)首先考慮的問題是:我有什么數(shù)據(jù),我需要用圖做什么,我該如何展示數(shù)據(jù)。統(tǒng)計圖表中每一種類型的圖表中都可包含不同的數(shù)據(jù)可視化圖形,如柱狀圖、餅圖、氣泡圖、熱力圖、趨勢圖、直方圖、雷達(dá)圖、色塊圖、漏斗圖、和弦圖、儀表盤、面積圖、折線圖、密度圖以及K線圖等。在大數(shù)據(jù)的可視化圖中,按照數(shù)據(jù)的作用和功能可以把圖分為以下幾類:比較類、分布類、流程類、地圖類、占比類、區(qū)間類、關(guān)聯(lián)類、時間類和趨勢類等。大數(shù)據(jù)可視化方法文本可視化將互聯(lián)網(wǎng)中廣泛存在的文本信息用可視化的方式表示能夠更加生動的表達(dá)蘊含在文本中的語義特征,如邏輯結(jié)構(gòu)、詞頻、動態(tài)演化規(guī)律等。文本可視化的實現(xiàn)他來到重慶大學(xué)上大學(xué)【全模式】:他/來到/重慶大學(xué)/上/大學(xué)京口瓜洲一水間,鐘山只隔數(shù)重山。春風(fēng)又綠江南岸,明月何時照我還?【搜索引擎模式】:京口/瓜洲/一水間/,/鐘山/只/隔/數(shù)重/山/。/春風(fēng)/又/綠/江南/岸/,/明月/何時/照/我/還/?詞頻統(tǒng)計結(jié)果:寶玉:45賈母:17紅樓夢部分章節(jié)出現(xiàn)單詞的統(tǒng)計詞云,也稱為標(biāo)簽云或是文字云,它是一種典型的文本可視化技術(shù)。詞云對文本中出現(xiàn)頻率較高的“關(guān)鍵詞”予以視覺上的突出,從而形成“關(guān)鍵詞云層”或“關(guān)鍵詞渲染”。在詞云中會過濾掉大量的文本信息,使瀏覽網(wǎng)頁者只要一眼掃過文本就可以領(lǐng)略文本的主旨在詞云中一般用字號大小、字體顏色等圖形屬性對文本關(guān)鍵詞進(jìn)行可視化。其中字號大小常用于表示該關(guān)鍵詞的重要性,字號越大表示該關(guān)鍵詞越重要。使用Python3制作詞云,需要導(dǎo)入wordcloud庫,該庫是Python中的一個非常優(yōu)秀的詞云展示第三方庫。

從網(wǎng)上下載并安裝wordcloud庫后,在Windows7命令提示符中輸入以下命令:importwordcloud

此外,為了能夠在Python3中顯示中文字符,還需要下載安裝另外一個庫:jieba,該庫也是一個Python第三方庫,用于中文分詞。在下載并安裝jieba庫后,在Windows7命令提示符中輸入以下命令:importjiebamatplotlib庫是Python下著名的繪圖庫,也是Python可視化庫的基礎(chǔ)庫,

matplotlib庫的功能十分強(qiáng)大。在Windows7下安裝Python可視化庫,常用pip命令來實現(xiàn),如輸入命令pipinstall

matplotlib來安裝matplotlib庫。安裝完成后,可在Windows命令行中輸入Python,并在進(jìn)入Python界面后輸入以下命令:import

matplotlibimport

pandasimport

seabornimport

bokehimport

pyqtgraphimport

numpyfromwordcloudimportWordCloudimportmatplotlib.pyplotaspltwithopen('1.txt','r')asf:mytext=f.read()wordcloud=WordCloud().generate(mytext)plt.imshow(wordcloud,interpolation="bilinear")plt.axis("off")plt.show()詞云的代碼書寫在線詞云的制作

(1)登錄網(wǎng)址:/,選擇“線上作品”,點擊“基本”按鈕,并選擇不同的形狀,即可直接生成詞云網(wǎng)絡(luò)可視化網(wǎng)絡(luò)可視化通常是展示數(shù)據(jù)在網(wǎng)絡(luò)中的關(guān)聯(lián)關(guān)系,一般用于描繪互相連接的實體,例如社交網(wǎng)絡(luò)。騰訊微博、新浪微博等都是目前網(wǎng)絡(luò)上較為出名的社交網(wǎng)站社交網(wǎng)絡(luò)可視化社交網(wǎng)絡(luò)圖側(cè)重于顯示網(wǎng)絡(luò)內(nèi)部的實體關(guān)系,它將實體作為節(jié)點,一張社交網(wǎng)絡(luò)圖可以由無數(shù)多的節(jié)點組成,并用邊連接所有的節(jié)點。通過分析社交網(wǎng)絡(luò)圖可以直觀的看出每個人或是每個組織的相互關(guān)系。frommatplotlibimportpyplotaspltimportnetworkxasnxG=nx.Graph()G.add_nodes_from([1,2,3,4])G.add_edges_from([(1,2),(1,3),(1,4)])nx.draw_networkx(G)plt.show()樹圖也是社交網(wǎng)絡(luò)圖的常見表現(xiàn)形式,也是一種流行的利用包含關(guān)系表達(dá)層次化數(shù)據(jù)的可視化方法。由于其呈現(xiàn)數(shù)據(jù)時高效的空間利用率和良好的交互性,受到眾多的關(guān)注,得到深入的研究,并在科學(xué)、社會學(xué)、工程、商業(yè)等領(lǐng)域都得到了廣泛的應(yīng)用但是值得注意的是:對于具有海量節(jié)點和邊的大規(guī)模網(wǎng)絡(luò),如節(jié)點規(guī)模達(dá)到上百萬個以上時,如何在有限空間中進(jìn)行可視化,是網(wǎng)絡(luò)可視化面臨的一個難點??臻g信息可視化空間信息可視化是指運用計算機(jī)圖形圖像處理技術(shù),將復(fù)雜的科學(xué)現(xiàn)象和自然景觀及一些抽象概念圖形化的過程??臻g信息可視化常用地圖學(xué)、計算機(jī)圖形圖像技術(shù),將地學(xué)信息輸入、查詢、分析、處理,采用圖形、圖像,結(jié)合圖表、文字、報表,以可視化形式,實現(xiàn)交互處理和顯示的理論、技術(shù)和方法。在空間信息可視化的實現(xiàn)中經(jīng)常要使用到3D圖形,3D圖形可以讓空間信息的展現(xiàn)變得真實。多媒體信息動態(tài)地圖三維仿真地圖虛擬現(xiàn)實數(shù)據(jù)可視化工具Excel

Excel擁有強(qiáng)大的函數(shù)庫,是快速分析數(shù)據(jù)的理想工具,也能創(chuàng)建供內(nèi)部使用的數(shù)據(jù)圖。但是Excel的圖形化功能并不強(qiáng)大。初學(xué)者可以使用Excel制作各種精美的圖表,包括了條形圖、餅圖、氣泡圖、折線圖、儀表圖以及面積圖等。Echarts

ECharts是一個使用JavaScript實現(xiàn)的開源可視化庫,可以流暢的運行在PC和移動設(shè)備上,并能夠兼容當(dāng)前絕大部分瀏覽器。在功能上,ECharts可以提供直觀、交互豐富,可高度個性化定制的數(shù)據(jù)可視化圖表。普通用戶想要使用ECharts必須要進(jìn)入官網(wǎng)中下載其開源的版本,然后才能繪制各種圖形。

ECharts官網(wǎng)上提供了大量的可視化圖表,如折線圖、柱狀圖、餅圖、散點圖、雷達(dá)圖、關(guān)系圖、熱力圖、樹圖等。

魔鏡魔鏡是中國國產(chǎn)的一個大數(shù)據(jù)可視化分析平臺,該平臺積累了大量來自內(nèi)部和外部的數(shù)據(jù),用戶可以自由的對這些數(shù)據(jù)進(jìn)行整合、分析、預(yù)測和可視化。

D3.js

D3的全稱是(Data-DrivenDocuments),顧名思義是一個被數(shù)據(jù)驅(qū)動的文檔,其實也就是一個JavaScript的函數(shù)庫,開發(fā)者可使用該函數(shù)庫來實現(xiàn)數(shù)據(jù)可視化。

用戶在使用D3來處理數(shù)據(jù)之前,需要對HTML、CSS以及Javascript有一個很好的理解。除此以外,這個JS庫將數(shù)據(jù)以SVG和HTML5格式呈現(xiàn),所以像IE7和8這樣的舊式瀏覽器不能利用D3.js功能。D3.js可繪制各種圖形可視化開發(fā)語言使用可視化工具的目的是為了讓開發(fā)者的工作變得簡單而高效,但是如果能掌握了一門以上的編程語言,則可視化設(shè)計會變得更加容易。

R語言

R是屬于GNU系統(tǒng)的一個自由、免費、源代碼開放的軟件,主要用于統(tǒng)計分析

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論