大數(shù)據(jù)基礎(chǔ)(第二版) 課件 項(xiàng)目四 大數(shù)據(jù)分析技術(shù)及相關(guān)應(yīng)用_第1頁(yè)
大數(shù)據(jù)基礎(chǔ)(第二版) 課件 項(xiàng)目四 大數(shù)據(jù)分析技術(shù)及相關(guān)應(yīng)用_第2頁(yè)
大數(shù)據(jù)基礎(chǔ)(第二版) 課件 項(xiàng)目四 大數(shù)據(jù)分析技術(shù)及相關(guān)應(yīng)用_第3頁(yè)
大數(shù)據(jù)基礎(chǔ)(第二版) 課件 項(xiàng)目四 大數(shù)據(jù)分析技術(shù)及相關(guān)應(yīng)用_第4頁(yè)
大數(shù)據(jù)基礎(chǔ)(第二版) 課件 項(xiàng)目四 大數(shù)據(jù)分析技術(shù)及相關(guān)應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩74頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

目錄項(xiàng)目一大數(shù)據(jù)概述項(xiàng)目二大數(shù)據(jù)思維項(xiàng)目三數(shù)據(jù)庫(kù)基礎(chǔ)知識(shí)項(xiàng)目四大數(shù)據(jù)分析技術(shù)及相關(guān)應(yīng)用項(xiàng)目五數(shù)據(jù)可視化概論項(xiàng)目六大數(shù)據(jù)安全項(xiàng)目七大數(shù)據(jù)與新一代信息技術(shù)的融合應(yīng)用項(xiàng)目四大數(shù)據(jù)分析技術(shù)及相關(guān)應(yīng)用

1大數(shù)據(jù)分析技術(shù)之初體驗(yàn)

2大數(shù)據(jù)分析生命周期

3大數(shù)據(jù)處理和分析工具

4大數(shù)據(jù)實(shí)際使用案例任務(wù)1大數(shù)據(jù)分析技術(shù)之初體驗(yàn)傳統(tǒng)方式下數(shù)據(jù)處理和分析首先明確:所有業(yè)務(wù)分析都是基于數(shù)據(jù)進(jìn)行的。傳統(tǒng)方式:企業(yè)自己創(chuàng)建和存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如CRM系統(tǒng)中的客戶數(shù)據(jù),ERP系統(tǒng)中的運(yùn)營(yíng)數(shù)據(jù),以及會(huì)計(jì)數(shù)據(jù)庫(kù)中的財(cái)務(wù)數(shù)據(jù)。任務(wù)1大數(shù)據(jù)分析技術(shù)之初體驗(yàn)大數(shù)據(jù)時(shí)代下數(shù)據(jù)以及大數(shù)據(jù)處理和分析大數(shù)據(jù)時(shí)代:得益于社交媒體和網(wǎng)絡(luò)服務(wù)(如Facebook,Twitter),數(shù)據(jù)傳感器以及網(wǎng)絡(luò)設(shè)備,機(jī)器和人類產(chǎn)生的網(wǎng)上交易,以及其他來(lái)源的非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)的普及,企業(yè)現(xiàn)有數(shù)據(jù)的體積和類型以及為追求最大商業(yè)價(jià)值而產(chǎn)生的近實(shí)時(shí)分析的需求正在迅速增加。我們稱這些為大數(shù)據(jù)。大數(shù)據(jù)分析通常是指對(duì)規(guī)模巨大的數(shù)據(jù)進(jìn)行的分析。通過多個(gè)學(xué)科技術(shù)的融合,實(shí)現(xiàn)數(shù)據(jù)的采集、管理和分析,從而發(fā)現(xiàn)新的知識(shí)規(guī)律。

任務(wù)1大數(shù)據(jù)分析技術(shù)之初體驗(yàn)大數(shù)據(jù)下:數(shù)據(jù)處理和分析傳統(tǒng)的數(shù)據(jù)管理和業(yè)務(wù)分析工具及技術(shù):解決不了大數(shù)據(jù)問題,面臨大數(shù)據(jù)的壓力,故大數(shù)據(jù)分析見解的新方法開始不斷涌現(xiàn)。新方法:采取一種完全不同于傳統(tǒng)工具和技術(shù)的方式進(jìn)行數(shù)據(jù)處理、分析和應(yīng)用。新方法包括:開源框架Hadoop,NoSQL數(shù)據(jù)庫(kù)(如Cassandra和Accumulo)以及大規(guī)模并行分析數(shù)據(jù)庫(kù)(如EMC的Greenplum,惠普的Vertica和TeradataASTERData)。這意味著,企業(yè)也需要從技術(shù)和文化兩個(gè)角度重新思考他們對(duì)待業(yè)務(wù)分析的方式。任務(wù)1大數(shù)據(jù)分析技術(shù)之初體驗(yàn)傳統(tǒng)方式下數(shù)據(jù)處理和分析傳統(tǒng)的數(shù)據(jù)管理和業(yè)務(wù)分析工具及技術(shù)都面臨大數(shù)據(jù)的壓力,與此同時(shí),幫助企業(yè)獲得來(lái)自大數(shù)據(jù)分析見解的新方法不斷涌現(xiàn)。這些新方法采取一種完全不同于傳統(tǒng)工具和技術(shù)的方式進(jìn)行數(shù)據(jù)處理、分析和應(yīng)用。大數(shù)據(jù)性質(zhì)的變化具體來(lái)說,大數(shù)據(jù)性質(zhì)的變化體現(xiàn)在以下幾點(diǎn):1.體積2.類型3.速度任務(wù)1大數(shù)據(jù)分析技術(shù)之初體驗(yàn)傳統(tǒng)方式下數(shù)據(jù)處理和分析傳統(tǒng)上:為了特定分析目的進(jìn)行的數(shù)據(jù)處理都是基于相當(dāng)靜態(tài)的藍(lán)圖。通過常規(guī)的業(yè)務(wù)流程,企業(yè)通過CRM、ERP和財(cái)務(wù)系統(tǒng)等應(yīng)用程序,創(chuàng)建基于穩(wěn)定數(shù)據(jù)模型的結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)集成工具用于從企業(yè)應(yīng)用程序和事務(wù)型數(shù)據(jù)庫(kù)中提取、轉(zhuǎn)換和加載數(shù)據(jù)到一個(gè)臨時(shí)區(qū)域,在這個(gè)臨時(shí)區(qū)域進(jìn)行數(shù)據(jù)質(zhì)量檢查和數(shù)據(jù)標(biāo)準(zhǔn)化,數(shù)據(jù)最終被模式化到整齊的行和表。這種模型化和清洗過的數(shù)據(jù)被加載到企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)。這個(gè)過程會(huì)周期性發(fā)生,如每天或每周,有時(shí)會(huì)更頻繁。傳統(tǒng)的數(shù)據(jù)處理/分析如圖4-1所示。任務(wù)1大數(shù)據(jù)分析技術(shù)之初體驗(yàn)圖4-1傳統(tǒng)的數(shù)據(jù)處理/分析任務(wù)1大數(shù)據(jù)分析技術(shù)之初體驗(yàn)大數(shù)據(jù)性質(zhì)的變化Web、移動(dòng)設(shè)備和其他技術(shù)的出現(xiàn)導(dǎo)致數(shù)據(jù)性質(zhì)的根本性變化。大數(shù)據(jù)具有重要而獨(dú)特的特性,這種特性使得它與“傳統(tǒng)”企業(yè)數(shù)據(jù)區(qū)分開來(lái)。不再集中化、高度結(jié)構(gòu)化并且易于管理,與以往任何時(shí)候相比,現(xiàn)在的數(shù)據(jù)都是高度分散的、結(jié)構(gòu)松散(如果存在結(jié)構(gòu)的話)并且體積越來(lái)越大。具體來(lái)說:任務(wù)1大數(shù)據(jù)分析技術(shù)之初體驗(yàn)1.體積通過Web、移動(dòng)設(shè)備、IT基礎(chǔ)設(shè)施和其他來(lái)源產(chǎn)生的企業(yè)內(nèi)部和防火墻外的數(shù)據(jù)量每年都在成倍增加。

2.類型數(shù)據(jù)類型的多樣性增加,包括非結(jié)構(gòu)化文本數(shù)據(jù)以及半結(jié)構(gòu)化數(shù)據(jù)(如社交媒體數(shù)據(jù),基于位置的數(shù)據(jù)和日志文件數(shù)據(jù))。

3.速度得益于數(shù)字化交易、移動(dòng)計(jì)算以及互聯(lián)網(wǎng)和移動(dòng)設(shè)備的高用戶量,新數(shù)據(jù)被創(chuàng)建的速度以及實(shí)時(shí)分析的需求正在增加。廣義地說,大數(shù)據(jù)由多個(gè)來(lái)源產(chǎn)生,包括:任務(wù)1大數(shù)據(jù)分析技術(shù)之初體驗(yàn)傳統(tǒng)方式下數(shù)據(jù)處理和分析(1)社交網(wǎng)絡(luò)和媒體目前有超過7億facebook用戶,2.5億推ter用戶和1.56億面向公眾開放的博客。facebook上的每個(gè)更新、Tweet和博客上文章的發(fā)布及評(píng)論都會(huì)創(chuàng)建多個(gè)新的數(shù)據(jù)點(diǎn)(包含結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的),這些數(shù)據(jù)點(diǎn)有時(shí)被稱為“數(shù)據(jù)廢氣”(2)移動(dòng)設(shè)備全球有超過50億正在使用中的移動(dòng)電話。每次呼叫、短信和即時(shí)消息都被記錄為數(shù)據(jù)。移動(dòng)設(shè)備(尤其是智能手機(jī)和平板電腦)讓使用社交媒體等應(yīng)用程序更容易,而社會(huì)媒體的使用會(huì)產(chǎn)生大量數(shù)據(jù)。移動(dòng)設(shè)備也收集和傳送位置數(shù)據(jù)。任務(wù)1大數(shù)據(jù)分析技術(shù)之初體驗(yàn)傳統(tǒng)方式下數(shù)據(jù)處理和分析(3)網(wǎng)上交易數(shù)十億的網(wǎng)上購(gòu)物、股票交易等每天都在發(fā)生,包括無(wú)數(shù)的自動(dòng)交易。每次交易都產(chǎn)生了大量數(shù)據(jù)點(diǎn),這些數(shù)據(jù)點(diǎn)會(huì)被零售商、銀行、信用卡、信貸機(jī)構(gòu)和其他機(jī)構(gòu)收集。(4)網(wǎng)絡(luò)設(shè)備和傳感器各種類型的電子設(shè)備(包括服務(wù)器和其他IT硬件、智能電表和溫度傳感器)都會(huì)創(chuàng)建半結(jié)構(gòu)化的日志數(shù)據(jù)記錄每一個(gè)動(dòng)作。任務(wù)1大數(shù)據(jù)分析技術(shù)之初體驗(yàn)大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)既有聯(lián)系又有區(qū)別傳統(tǒng)數(shù)據(jù)大數(shù)據(jù)千兆字節(jié)--百萬(wàn)兆字節(jié)拍字節(jié)(PB)--艾字節(jié)(EB)集中化分布式結(jié)構(gòu)化半結(jié)構(gòu)化和非結(jié)構(gòu)化穩(wěn)定的數(shù)據(jù)模型平面模式已知的復(fù)雜的內(nèi)部關(guān)系不復(fù)雜的內(nèi)部關(guān)系任務(wù)1大數(shù)據(jù)分析技術(shù)之初體驗(yàn)小結(jié):

大數(shù)據(jù)是所有行業(yè)新的權(quán)威的競(jìng)爭(zhēng)優(yōu)勢(shì)。認(rèn)為大數(shù)據(jù)是曇花一現(xiàn)的企業(yè)和技術(shù)供應(yīng)商很快就會(huì)發(fā)現(xiàn)自己需要很辛苦才能跟上那些提前思考的競(jìng)爭(zhēng)對(duì)手的步伐。在我們看來(lái),他們是非常危險(xiǎn)的。對(duì)于那些理解并擁抱大數(shù)據(jù)現(xiàn)實(shí)的企業(yè),新創(chuàng)新,高靈活性,以及高盈利能力的可能性幾乎是無(wú)止境的。因此,需要處理和分析大數(shù)據(jù)的新工具。感謝聆聽參考教材:請(qǐng)輸入教材名稱目錄項(xiàng)目一大數(shù)據(jù)概述項(xiàng)目二大數(shù)據(jù)思維項(xiàng)目三數(shù)據(jù)庫(kù)基礎(chǔ)知識(shí)項(xiàng)目四大數(shù)據(jù)分析技術(shù)及相關(guān)應(yīng)用項(xiàng)目五數(shù)據(jù)可視化概論項(xiàng)目六大數(shù)據(jù)安全項(xiàng)目七大數(shù)據(jù)與新一代信息技術(shù)的融合應(yīng)用項(xiàng)目四大數(shù)據(jù)分析技術(shù)及相關(guān)應(yīng)用

1大數(shù)據(jù)分析技術(shù)之初體驗(yàn)

2大數(shù)據(jù)分析生命周期

3大數(shù)據(jù)處理和分析工具

4大數(shù)據(jù)實(shí)際使用案例任務(wù)2大數(shù)據(jù)分析生命周期

大數(shù)據(jù)分析的生命周期可以分為以下七個(gè)階段:1)明確目的;2)數(shù)據(jù)獲取;3)數(shù)據(jù)存儲(chǔ);4)數(shù)據(jù)處理;5)數(shù)據(jù)分析;6)數(shù)據(jù)可視化;7)報(bào)告撰寫大數(shù)據(jù)分析的生命周期的不同階段所需的大數(shù)據(jù)技術(shù)也不盡相同,從數(shù)據(jù)分析的生命周期角度看:大數(shù)據(jù)技術(shù)主要包括數(shù)據(jù)收集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)可視化任務(wù)2大數(shù)據(jù)分析生命周期數(shù)據(jù)收集是在明確數(shù)據(jù)分析的目的之后,獲取數(shù)據(jù)的過程,可以為數(shù)據(jù)分析提供直接的素材和依據(jù)。在收集數(shù)據(jù)時(shí),數(shù)據(jù)來(lái)源包含兩種方式。第一種方式是直接來(lái)源,通過直接來(lái)源獲取的數(shù)據(jù)是第一手?jǐn)?shù)據(jù),這類數(shù)據(jù)主要來(lái)源于直接的調(diào)查或?qū)嶒?yàn)的結(jié)果。第二種方式是間接數(shù)據(jù),也稱為第二手?jǐn)?shù)據(jù),第二手?jǐn)?shù)據(jù)一般來(lái)源于他人的調(diào)查或?qū)嶒?yàn),是對(duì)結(jié)果進(jìn)行加工整理后的數(shù)據(jù)。

一、數(shù)據(jù)收集任務(wù)2大數(shù)據(jù)分析生命周期在實(shí)際工作中,獲取數(shù)據(jù)的方式有很多種,包括:數(shù)據(jù)庫(kù)、公開出版物、統(tǒng)計(jì)工具、市場(chǎng)調(diào)查。1.數(shù)據(jù)庫(kù)現(xiàn)代企業(yè)都有自己的業(yè)務(wù)數(shù)據(jù)庫(kù),用來(lái)存放公司自成立以來(lái)的相關(guān)的業(yè)務(wù)數(shù)據(jù)。(1)網(wǎng)站用戶數(shù)據(jù):包括注冊(cè)時(shí)間、用戶性別、所屬地域、來(lái)訪次數(shù)、停留時(shí)間等。(2)訂單數(shù)據(jù):包括下單時(shí)間、訂單數(shù)量、商品品類、訂單金額、訂購(gòu)頻次等。(3)反饋數(shù)據(jù);包括客戶評(píng)價(jià)、退貨換貨、客戶投訴等。

數(shù)據(jù)收集任務(wù)2大數(shù)據(jù)分析生命周期2.公開出版物在數(shù)據(jù)分析中,有時(shí)會(huì)需要一些比較專業(yè)的數(shù)據(jù),這些數(shù)據(jù)可以通過公開出版物獲取,比如,中國(guó)統(tǒng)計(jì)網(wǎng),各行各業(yè)發(fā)展報(bào)告等。3.統(tǒng)計(jì)工具的數(shù)據(jù)專業(yè)的網(wǎng)站統(tǒng)計(jì)工具有很多,國(guó)內(nèi)常用的網(wǎng)站統(tǒng)計(jì)工具有百度統(tǒng)計(jì)和CNZZ(現(xiàn)已改名為友盟+)等。通過這些統(tǒng)計(jì)工具可以獲取訪客來(lái)自哪些地域、訪客來(lái)自哪些網(wǎng)站、訪客來(lái)自哪些搜索詞、訪客測(cè)覽了哪些頁(yè)面等數(shù)據(jù)信息,并且會(huì)根據(jù)需要進(jìn)行廣告跟蹤等。

數(shù)據(jù)收集任務(wù)2大數(shù)據(jù)分析生命周期4.市場(chǎng)調(diào)查市場(chǎng)調(diào)查就是用科學(xué)的方法,有目的、系統(tǒng)地搜集、記錄、整理和分析市場(chǎng)情況,了解市場(chǎng)的現(xiàn)狀以及發(fā)展趨勢(shì),為企業(yè)的決策者進(jìn)行市場(chǎng)預(yù)測(cè)、做出經(jīng)營(yíng)決策制訂計(jì)劃提供客觀、正確的依據(jù)。市場(chǎng)調(diào)查的常用方法有:觀察法、實(shí)驗(yàn)法、訪問法、問卷法等。

數(shù)據(jù)收集任務(wù)2大數(shù)據(jù)分析生命周期數(shù)據(jù)的有效存儲(chǔ)是大數(shù)據(jù)技術(shù)的基礎(chǔ),數(shù)據(jù)存儲(chǔ)技術(shù)的發(fā)展主要經(jīng)歷了以下階段。

二、數(shù)據(jù)存儲(chǔ)1.關(guān)系型數(shù)據(jù)庫(kù)傳統(tǒng)的數(shù)據(jù)處理技術(shù)以關(guān)系型數(shù)據(jù)庫(kù)作為基本的存儲(chǔ)方式,在關(guān)系型數(shù)據(jù)庫(kù)中,通常要把待分析的數(shù)據(jù)處理成一張表的形式,表的每一行稱為一個(gè)實(shí)例、對(duì)象或樣本,表的每一列稱為屬性、特征或變量。關(guān)系型數(shù)據(jù)庫(kù)強(qiáng)調(diào)的是密集的數(shù)據(jù)更新處理性能和系統(tǒng)的可靠性,而不同系統(tǒng)產(chǎn)生的業(yè)務(wù)數(shù)據(jù)存放于分散、異構(gòu)的環(huán)境中,不易統(tǒng)一查詢?cè)L問,因而在針對(duì)支持決策而進(jìn)行的數(shù)據(jù)分析處理上難以滿足多樣化的需求。任務(wù)2大數(shù)據(jù)分析生命周期

2.數(shù)據(jù)倉(cāng)庫(kù)為了將大量的業(yè)務(wù)數(shù)據(jù)用于分析和統(tǒng)計(jì),人們提出了數(shù)據(jù)倉(cāng)庫(kù)的概念。一個(gè)完整的數(shù)據(jù)倉(cāng)庫(kù)主要由四部分構(gòu)成:數(shù)據(jù)源、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市、OLAP服務(wù)器,以及前臺(tái)分析工具。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)源包括聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、歷史業(yè)務(wù)數(shù)據(jù)集等,前臺(tái)分析工具主要包括各種報(bào)表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具,以及各種基于數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市的應(yīng)用開發(fā)工具等。任務(wù)2大數(shù)據(jù)分析生命周期

3.非關(guān)系型數(shù)據(jù)庫(kù)和分布式文件系統(tǒng)在Web2.0時(shí)代,互聯(lián)網(wǎng)更加注重用戶交互,網(wǎng)站信息的提供者由傳統(tǒng)網(wǎng)站管理員變成了普通用戶。用戶提供的信息是海量的,從航班預(yù)定、股票交易到通信、購(gòu)物、娛樂、社交,數(shù)據(jù)量從TB級(jí)升至PB級(jí),并仍在持續(xù)爆炸式地增長(zhǎng)。為了應(yīng)對(duì)大數(shù)據(jù)時(shí)代海量互聯(lián)網(wǎng)數(shù)據(jù)的存能和管理,非關(guān)系型數(shù)據(jù)庫(kù)和分布式文件系統(tǒng)應(yīng)送而生,非關(guān)系型數(shù)據(jù)庫(kù)和分布式文件系統(tǒng)使得數(shù)據(jù)的存儲(chǔ)可以發(fā)展到數(shù)以千計(jì)的節(jié)點(diǎn)上,具有更高的可用性和可擴(kuò)展性。任務(wù)2大數(shù)據(jù)分析生命周期三、數(shù)據(jù)處理

在數(shù)據(jù)分析師獲取的大量數(shù)據(jù)中,并不是所有的數(shù)據(jù)都具有價(jià)值,這時(shí)就需要數(shù)據(jù)分析師對(duì)數(shù)據(jù)進(jìn)行處理加工提取有價(jià)值的數(shù)據(jù)。在數(shù)據(jù)分析中,數(shù)據(jù)處理是必不可少的一個(gè)環(huán)節(jié),主要包括數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)提取、數(shù)據(jù)匯總、數(shù)據(jù)計(jì)算等數(shù)據(jù)處理這些方法。任務(wù)2大數(shù)據(jù)分析生命周期四、數(shù)據(jù)分析

數(shù)據(jù)分析師對(duì)處理過的數(shù)據(jù)進(jìn)行分析,通過合適的方法及工具,從中推導(dǎo)出有價(jià)值的信息并形成有效結(jié)論的過程。在確定數(shù)據(jù)分析思路的階段,同時(shí)應(yīng)根據(jù)分析內(nèi)容確定合適的分析方法,這樣才能從容地對(duì)數(shù)據(jù)進(jìn)行分析研究。目前數(shù)據(jù)分析多是通過軟件來(lái)完成的,簡(jiǎn)單實(shí)用的軟件有人們比較熟悉的Excel,專業(yè)高端的分析軟件有SPSS(統(tǒng)計(jì)產(chǎn)品與解決方案軟件)和SAS(統(tǒng)計(jì)分析軟件)等。另外,在電商數(shù)據(jù)分析中還需要使用生意參謀等專門的數(shù)據(jù)分析工具。任務(wù)2大數(shù)據(jù)分析生命周期五、數(shù)據(jù)可視化

數(shù)據(jù)可視化是將數(shù)據(jù)分析結(jié)果通過直觀的方式(表格、圖形等)呈現(xiàn)出來(lái)。通過數(shù)據(jù)展現(xiàn)可以讓決策者更好地理解數(shù)據(jù)分析結(jié)果。通常情況下,表格和圖形是展現(xiàn)數(shù)據(jù)的最好的方式。常用的數(shù)據(jù)圖表包括條形圖、柱形圖、餅圖、折線圖、散點(diǎn)圖、雷達(dá)圖等。根據(jù)需求,數(shù)據(jù)分析師可以將分析完成的數(shù)據(jù)進(jìn)一步整理成相應(yīng)的圖表,如漏斗圖、矩陣圖、金字塔圖等,因?yàn)閳D形能夠更直觀、有效地將數(shù)據(jù)分析師的結(jié)論和觀點(diǎn)表達(dá)出來(lái),所以人們更樂于接受用圖形展現(xiàn)數(shù)據(jù)的方式。任務(wù)2大數(shù)據(jù)分析生命周期【素質(zhì)拓展】數(shù)據(jù)挖掘與數(shù)據(jù)分析的區(qū)別

數(shù)據(jù)分析一般都是得到一個(gè)指標(biāo)統(tǒng)計(jì)量結(jié)果,比如總和、平均值等,這些指標(biāo)數(shù)據(jù)都需要與業(yè)務(wù)結(jié)合進(jìn)行解讀,才能發(fā)揮數(shù)據(jù)的價(jià)值與作用。

數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏在其中有價(jià)值的信息的過程。數(shù)據(jù)挖掘側(cè)重于解決四類問題:分類、聚類、關(guān)聯(lián)和預(yù)測(cè)(定量、定性),其重點(diǎn)在于尋找未知的模式與規(guī)律。總地來(lái)說,數(shù)據(jù)分析與數(shù)據(jù)挖掘的本質(zhì)都是一樣的,都是從數(shù)據(jù)中發(fā)現(xiàn)關(guān)于業(yè)務(wù)的有價(jià)值的信息,只不過分工不同。感謝聆聽參考教材:請(qǐng)輸入教材名稱目錄項(xiàng)目一大數(shù)據(jù)概述項(xiàng)目二大數(shù)據(jù)思維項(xiàng)目三數(shù)據(jù)庫(kù)基礎(chǔ)知識(shí)項(xiàng)目四大數(shù)據(jù)分析技術(shù)及相關(guān)應(yīng)用項(xiàng)目五數(shù)據(jù)可視化概論項(xiàng)目六大數(shù)據(jù)安全項(xiàng)目七大數(shù)據(jù)與新一代信息技術(shù)的融合應(yīng)用項(xiàng)目四大數(shù)據(jù)分析技術(shù)及相關(guān)應(yīng)用

1大數(shù)據(jù)分析技術(shù)之初體驗(yàn)

2大數(shù)據(jù)分析生命周期

3大數(shù)據(jù)處理和分析工具

4大數(shù)據(jù)實(shí)際使用案例任務(wù)3大數(shù)據(jù)處理和分析工具大數(shù)據(jù)處理和分析工具

目前市場(chǎng)上存在多種方法處理和分析大數(shù)據(jù),但多數(shù)都有一些共同的特點(diǎn)。即他們利用硬件的優(yōu)勢(shì),使用擴(kuò)展的、并行的處理技術(shù),采用非關(guān)系型數(shù)據(jù)存儲(chǔ)處理非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),并對(duì)大數(shù)據(jù)運(yùn)用高級(jí)分析和數(shù)據(jù)可視化技術(shù),向終端用戶傳達(dá)見解。目前較流行的有三種將會(huì)改變業(yè)務(wù)分析和數(shù)據(jù)管理市場(chǎng)的大數(shù)據(jù)分析技術(shù)。任務(wù)3大數(shù)據(jù)處理和分析工具一、HadoopHadoop是一個(gè)處理、存儲(chǔ)和分析海量的分布式、非結(jié)構(gòu)化數(shù)據(jù)的開源框架。最初由雅虎的DougCutting創(chuàng)建,Hadoop的靈感來(lái)自于MapReduce,MapReduce是谷歌在2000年代初期開發(fā)的用于網(wǎng)頁(yè)索引的用戶定義函數(shù)。它被設(shè)計(jì)用來(lái)處理分布在多個(gè)并行節(jié)點(diǎn)的PB級(jí)和EB級(jí)數(shù)據(jù)。Hadoop集群運(yùn)行在廉價(jià)的商用硬件上,這樣硬件擴(kuò)展就不存在資金壓力。Hadoop現(xiàn)在是Apache軟件聯(lián)盟(TheApacheSoftwareFoundation)的一個(gè)項(xiàng)目,數(shù)百名貢獻(xiàn)者不斷改進(jìn)其核心技術(shù)。任務(wù)3大數(shù)據(jù)處理和分析工具一、HadoopHadoop基本概念:與將海量數(shù)據(jù)限定在一臺(tái)機(jī)器運(yùn)行的方式不同,Hadoop將大數(shù)據(jù)分成多個(gè)部分,這樣每個(gè)部分都可以被同時(shí)處理和分析。(一)Hadoop的發(fā)展史

雛形開始于2002年的Apache的Nutch,Nutch是一個(gè)開源Java實(shí)現(xiàn)的搜索引擎。它提供了我們運(yùn)行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。任務(wù)3大數(shù)據(jù)處理和分析工具一、Hadoop(一)Hadoop的發(fā)展史2003年:Google發(fā)表了一篇技術(shù)學(xué)術(shù)論文谷歌文件系統(tǒng)(GFS)2004年:Nutch創(chuàng)始人DougCutting基于Google的GFS論文實(shí)現(xiàn)了分布式文件存儲(chǔ)系統(tǒng)名為NDFS2005年:DougCutting又基于MapReduce,在Nutch搜索引擎實(shí)現(xiàn)了該功能2006年:Yahoo雇用了DougCutting,DougCutting將NDFS和MapReduce升級(jí)命名為Hadoop,Yahoo建立了一個(gè)獨(dú)立的團(tuán)隊(duì)給GougCutting專門研究發(fā)展Hadoop。任務(wù)3大數(shù)據(jù)處理和分析工具一、Hadoop(一)Hadoop的發(fā)展史Hadoop框架中最核心的設(shè)計(jì)就是:MapReduce和HDFS。1.MapReduce的思想是由Google的一篇論文所提及而被廣為流傳的,簡(jiǎn)單的一句話解釋MapReduce就是“任務(wù)的分解與結(jié)果的匯總”,即為海量的數(shù)據(jù)提供了處理和計(jì)算。2.HDFS是Hadoop分布式文件系統(tǒng)(HadoopDistributedFileSystem)的縮寫,為海量的數(shù)據(jù)提供了存儲(chǔ),為分布式計(jì)算存儲(chǔ)提供了底層支持。任務(wù)3大數(shù)據(jù)處理和分析工具大數(shù)據(jù)處理和分析工具Hadoop的組成圖任務(wù)3大數(shù)據(jù)處理和分析工具大數(shù)據(jù)處理和分析工具HDFSArchitecture任務(wù)3大數(shù)據(jù)處理和分析工具大數(shù)據(jù)處理和分析工具M(jìn)apRedcu的處理流程圖任務(wù)3大數(shù)據(jù)處理和分析工具大數(shù)據(jù)處理和分析工具Hadoop框架任務(wù)3大數(shù)據(jù)處理和分析工具大數(shù)據(jù)處理和分析工具HBase數(shù)據(jù)表結(jié)構(gòu)圖任務(wù)3大數(shù)據(jù)處理和分析工具一、Hadoop(二)Hadoop如何工作

客戶從日志文件、社交媒體供稿和內(nèi)部數(shù)據(jù)存儲(chǔ)等來(lái)源獲得非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。它將數(shù)據(jù)打碎成“部分”,這些“部分”被載入到商用硬件的多個(gè)節(jié)點(diǎn)組成的文件系統(tǒng)。Hadoop的默認(rèn)文件存儲(chǔ)系統(tǒng)是Hadoop分布式文件系統(tǒng)。一旦MapReduce階段完成,數(shù)據(jù)科學(xué)家和其他人就可以使用高級(jí)數(shù)據(jù)分析技巧對(duì)處理后的數(shù)據(jù)進(jìn)一步分析。也可以對(duì)這些數(shù)據(jù)建模,將數(shù)據(jù)從Hadoop集群轉(zhuǎn)移到現(xiàn)有的關(guān)系型數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)等傳統(tǒng)IT系統(tǒng)進(jìn)行進(jìn)一步的分析。任務(wù)3大數(shù)據(jù)處理和分析工具大數(shù)據(jù)處理和分析工具M(jìn)apReduce工作流程圖任務(wù)3大數(shù)據(jù)處理和分析工具一、Hadoop(三)Hadoop的優(yōu)點(diǎn)和缺點(diǎn)

Hadoop的主要優(yōu)點(diǎn):它可以讓企業(yè)以節(jié)省成本并高效的方式處理和分析大量的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),而這類數(shù)據(jù)迄今還沒有其他處理方式。因?yàn)镠adoop集群可以擴(kuò)展到PB級(jí)甚至EB級(jí)數(shù)據(jù),企業(yè)不再必須依賴于樣本數(shù)據(jù)集,而可以處理和分析所有相關(guān)數(shù)據(jù)。使用Hadoop的成本也很廉價(jià)。任務(wù)3大數(shù)據(jù)處理和分析工具一、Hadoop(三)Hadoop的優(yōu)點(diǎn)和缺點(diǎn)

Hadoop的主要優(yōu)點(diǎn):1.高可靠性。Hadoo按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴。2.高擴(kuò)展性。Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。3.高效性。Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡,因此處理速度非???。任務(wù)3大數(shù)據(jù)處理和分析工具一、Hadoop(三)Hadoop的優(yōu)點(diǎn)和缺點(diǎn)

Hadoop的主要優(yōu)點(diǎn):4.高容錯(cuò)性。Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配。5.低成本。與一體機(jī)、商用數(shù)據(jù)倉(cāng)庫(kù)以及QlikView、Yonghong、Z-Suite等數(shù)據(jù)集市相比,hadoop是開源的,項(xiàng)目的軟件成本因此會(huì)大大降低。任務(wù)3大數(shù)據(jù)處理和分析工具二、NoSQL

一種稱為NoSQL的新形式的數(shù)據(jù)庫(kù)(NotOnlySQL)已經(jīng)出現(xiàn),像Hadoop一樣,可以處理大量的多結(jié)構(gòu)化數(shù)據(jù)。但是,如果說Hadoop擅長(zhǎng)支持大規(guī)模、批量式的歷史分析,在大多數(shù)情況下(雖然也有一些例外),NoSQL數(shù)據(jù)庫(kù)的目的是為最終用戶和自動(dòng)化的大數(shù)據(jù)應(yīng)用程序提供大量存儲(chǔ)在多結(jié)構(gòu)化數(shù)據(jù)中的離散數(shù)據(jù)。這種能力是關(guān)系型數(shù)據(jù)庫(kù)欠缺的,它根本無(wú)法在大數(shù)據(jù)規(guī)模維持基本的性能水平。任務(wù)3大數(shù)據(jù)處理和分析工具

在某些情況下,NoSQL和Hadoop協(xié)同工作。例如,HBase是流行的NoSQL數(shù)據(jù)庫(kù),它仿照谷歌的BigTable,通常部署在HDFS(Hadoop分布式文件系統(tǒng))之上,為Hadoop提供低延遲的快速查找功能。目前可用的NoSQL數(shù)據(jù)庫(kù)包括:1.HBase;2.Cassandra;3.MarkLogic;4.Aerospike;5.MongoDB;6.Accumulo7.Riak8.CouchDB9.DynamoDB。二、NoSQL任務(wù)3大數(shù)據(jù)處理和分析工具

目前大多數(shù)NoSQL數(shù)據(jù)庫(kù)的缺點(diǎn)是,為了性能和可擴(kuò)展性,他們遵從ACID(原子性,一致性,隔離性,持久性)原則。許多NoSQL數(shù)據(jù)庫(kù)還缺乏成熟的管理和監(jiān)控工具。這些缺點(diǎn)在開源的NoSQL社區(qū)和少數(shù)廠商的努力下都在克服過程中,這些廠商包括DataStax,Sqrrl,10gen,Aerospike和Couchbase,他們正在嘗試商業(yè)化各種NoSQL數(shù)據(jù)庫(kù)。二、NoSQL任務(wù)3大數(shù)據(jù)處理和分析工具三、大規(guī)模并行分析數(shù)據(jù)庫(kù)

不同于傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù),大規(guī)模并行分析數(shù)據(jù)庫(kù)能夠以必需的最小的數(shù)據(jù)建模,快速獲取大量的結(jié)構(gòu)化數(shù)據(jù),可以向外擴(kuò)展以容納TB甚至PB級(jí)數(shù)據(jù)。對(duì)最終用戶而言最重要的是,大規(guī)模并行分析數(shù)據(jù)庫(kù)支持近乎實(shí)時(shí)的復(fù)雜SQL查詢結(jié)果,也叫交互式查詢功能,而這正是Hadoop顯著缺失的能力。大規(guī)模并行分析數(shù)據(jù)庫(kù)在某些情況下支持近實(shí)時(shí)的大數(shù)據(jù)應(yīng)用。任務(wù)3大數(shù)據(jù)處理和分析工具三、大規(guī)模并行分析數(shù)據(jù)庫(kù)大規(guī)模并行分析數(shù)據(jù)庫(kù)的基本特性包括:1.大規(guī)模并行處理的能力就像其名字表明的一樣,大規(guī)模并行分析數(shù)據(jù)庫(kù)采用大規(guī)模并行處理同時(shí)支持多臺(tái)機(jī)器上的數(shù)據(jù)采集、處理和查詢。相對(duì)傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)具有更快的性能,傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)運(yùn)行在單一機(jī)器上,會(huì)受到數(shù)據(jù)采集這個(gè)單一瓶頸點(diǎn)的限制。任務(wù)3大數(shù)據(jù)處理和分析工具三、大規(guī)模并行分析數(shù)據(jù)庫(kù)大規(guī)模并行分析數(shù)據(jù)庫(kù)的基本特性包括:2.無(wú)共享架構(gòu)無(wú)共享架構(gòu)可確保分析數(shù)據(jù)庫(kù)環(huán)境中沒有單點(diǎn)故障。在這種架構(gòu)下,每個(gè)節(jié)點(diǎn)獨(dú)立于其他節(jié)點(diǎn),所以如果一臺(tái)機(jī)器出現(xiàn)故障,其他機(jī)器可以繼續(xù)運(yùn)行。對(duì)大規(guī)模并行處理環(huán)境而言,這點(diǎn)尤其重要,數(shù)百臺(tái)計(jì)算機(jī)并行處理數(shù)據(jù),偶爾出現(xiàn)一臺(tái)或多臺(tái)機(jī)器失敗是不可避免的。任務(wù)3大數(shù)據(jù)處理和分析工具三、大規(guī)模并行分析數(shù)據(jù)庫(kù)大規(guī)模并行分析數(shù)據(jù)庫(kù)的基本特性包括:3.列存儲(chǔ)結(jié)構(gòu)大多數(shù)大規(guī)模并行分析數(shù)據(jù)庫(kù)采用列存儲(chǔ)結(jié)構(gòu),而大多數(shù)關(guān)系型數(shù)據(jù)庫(kù)以行結(jié)構(gòu)存儲(chǔ)和處理數(shù)據(jù)。在列存儲(chǔ)環(huán)境中,由包含必要數(shù)據(jù)的列決定查詢語(yǔ)句的“答案”,而不是由整行的數(shù)據(jù)決定,從而導(dǎo)致查詢結(jié)果瞬間可以得出。這也意味著數(shù)據(jù)不需要像傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)那樣構(gòu)造成整齊的表格。任務(wù)3大數(shù)據(jù)處理和分析工具三、大規(guī)模并行分析數(shù)據(jù)庫(kù)大規(guī)模并行分析數(shù)據(jù)庫(kù)的基本特性包括:4.強(qiáng)大的數(shù)據(jù)壓縮功能它們?cè)试S分析數(shù)據(jù)庫(kù)收集和存儲(chǔ)更大量的數(shù)據(jù),而且與傳統(tǒng)數(shù)據(jù)庫(kù)相比占用更少的硬件資源。例如,具有10比1的壓縮功能的數(shù)據(jù)庫(kù),可以將10TB字節(jié)的數(shù)據(jù)壓縮到1TB。數(shù)據(jù)編碼(包括數(shù)據(jù)壓縮以及相關(guān)的技術(shù))是有效的擴(kuò)展到海量數(shù)據(jù)的關(guān)鍵。任務(wù)3大數(shù)據(jù)處理和分析工具三、大規(guī)模并行分析數(shù)據(jù)庫(kù)大規(guī)模并行分析數(shù)據(jù)庫(kù)的基本特性包括:5.商用硬件像Hadoop集群一樣,大多數(shù)(肯定不是全部)大規(guī)模并行分析數(shù)據(jù)庫(kù)運(yùn)行在戴爾、IBM等廠商現(xiàn)成的商用硬件上,這使他們能夠以具有成本效益的方式向外擴(kuò)展。任務(wù)3大數(shù)據(jù)處理和分析工具三、大規(guī)模并行分析數(shù)據(jù)庫(kù)大規(guī)模并行分析數(shù)據(jù)庫(kù)的基本特性包括:6.在內(nèi)存中進(jìn)行數(shù)據(jù)處理有些(肯定不是全部)大規(guī)模并行分析數(shù)據(jù)庫(kù)使用動(dòng)態(tài)RAM或閃存進(jìn)行實(shí)時(shí)數(shù)據(jù)處理。有些(如SAPHANA和Aerospike)完全在內(nèi)存中運(yùn)行數(shù)據(jù),而其他則采用混合的方式,即用較便宜但低性能的磁盤內(nèi)存處理“冷”數(shù)據(jù),用動(dòng)態(tài)RAM或閃存處理“熱”數(shù)據(jù)。任務(wù)3大數(shù)據(jù)處理和分析工具現(xiàn)代數(shù)據(jù)架構(gòu)任務(wù)3大數(shù)據(jù)處理和分析工具大數(shù)據(jù)處理和分析工具小結(jié):三種大數(shù)據(jù)處理和分析工具Hadoop,NoSQL和大規(guī)模并行分析數(shù)據(jù)庫(kù)不是相互排斥的。相反的,這三種方法是互補(bǔ)的,彼此可以而且應(yīng)該共存于許多企業(yè)。Hadoop擅長(zhǎng)處理和分析大量分布式的非結(jié)構(gòu)化數(shù)據(jù),以分批的方式進(jìn)行歷史分析。NoSQL數(shù)據(jù)庫(kù)擅長(zhǎng)為基于Web的大數(shù)據(jù)應(yīng)用程序提供近實(shí)時(shí)地多結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和處理。而大規(guī)模并行分析數(shù)據(jù)庫(kù)最擅長(zhǎng)對(duì)大容量的主流結(jié)構(gòu)化數(shù)據(jù)提供接近實(shí)時(shí)的分析。任務(wù)3大數(shù)據(jù)處理和分析工具【引經(jīng)據(jù)典】從“分馬”問題講起數(shù)據(jù)處理古時(shí)候,有個(gè)老人,在臨死時(shí)決定把遺產(chǎn)這樣分配:大兒子得二分之一,二兒子得三分之一,三兒子得九分之一。老人的遺產(chǎn)原來(lái)是17匹馬。如果按照老人的遺囑分,就得把馬殺死。正在三個(gè)兒子左右為難時(shí),一個(gè)過路的智者下了馬,看情況笑了笑,說他可以解決此事。他說要借給你們一匹馬,這時(shí)候總數(shù)就變成了18匹馬,大兒子得二分之一共9匹,二兒子得三分之一共6匹馬,三兒子得九分之一共2匹,還剩下1匹馬,智者又牽了回去。故事告訴我們,對(duì)于數(shù)據(jù)的處理需要采用合適的方法才能完成預(yù)期任務(wù)。感謝聆聽參考教材:請(qǐng)輸入教材名稱目錄項(xiàng)目一大數(shù)據(jù)概述項(xiàng)目二大數(shù)據(jù)思維項(xiàng)目三數(shù)據(jù)庫(kù)基礎(chǔ)知識(shí)項(xiàng)目四大數(shù)據(jù)分析技術(shù)及相關(guān)應(yīng)用項(xiàng)目五數(shù)據(jù)可視化概論項(xiàng)目六大數(shù)據(jù)安全項(xiàng)目七大數(shù)據(jù)與新一代信息技術(shù)的融合應(yīng)用項(xiàng)目四大數(shù)據(jù)分析技術(shù)及相關(guān)應(yīng)用

1大數(shù)據(jù)分析技術(shù)之初體驗(yàn)

2大數(shù)據(jù)分析生命周期

3大數(shù)據(jù)處理和分析工具

4大數(shù)據(jù)實(shí)際使用案例任務(wù)4大數(shù)據(jù)實(shí)際使用案例

當(dāng)前,各地各部門都將大數(shù)據(jù)事業(yè)作為“一把手工程”,開展“千企改造工程”,搭建服務(wù)平臺(tái),推進(jìn)大數(shù)據(jù)與產(chǎn)業(yè)融合應(yīng)用,利用新一代信息技術(shù)對(duì)傳統(tǒng)產(chǎn)業(yè)進(jìn)行全方位、全角度、全鏈條的改造,提高全要素生產(chǎn)率。接下來(lái)讓我們看看大數(shù)據(jù)應(yīng)用的實(shí)際案例:任務(wù)4大數(shù)據(jù)實(shí)際使用案例大數(shù)據(jù)在彩票選號(hào)中的應(yīng)用

大數(shù)據(jù)在產(chǎn)品質(zhì)量管理中的應(yīng)用大數(shù)據(jù)在人口統(tǒng)計(jì)中的應(yīng)用大數(shù)據(jù)在投資風(fēng)險(xiǎn)報(bào)酬分析中的應(yīng)用01020304任務(wù)4大數(shù)據(jù)實(shí)際使用案例一、大數(shù)據(jù)在彩票選號(hào)中的應(yīng)用

當(dāng)今社會(huì)彩票市場(chǎng)越來(lái)越火爆,很多彩民都密切關(guān)注怎么能夠?qū)⒔y(tǒng)計(jì)學(xué)理論運(yùn)用到彩票選號(hào)中這一實(shí)際問題。實(shí)踐中,統(tǒng)計(jì)學(xué)理論在實(shí)際的應(yīng)用主要體現(xiàn)在下面兩個(gè)方面:

一是基于所獲得數(shù)據(jù)并配用合理的概率統(tǒng)計(jì)公式來(lái)得出各種彩票數(shù)字號(hào)碼出現(xiàn)的概率值,根據(jù)計(jì)算得出的最大可能數(shù)值進(jìn)行選號(hào)。舉個(gè)例子,像“1234567”這樣一直連續(xù)數(shù)據(jù)的彩票號(hào)碼相比較“2674531”這種非連續(xù)性數(shù)據(jù)號(hào)碼來(lái)說,發(fā)生的概率極低,二者發(fā)生的概率值比例約為29∶6724491(1∶230000)。任務(wù)4大數(shù)據(jù)實(shí)際使用案例一、大數(shù)據(jù)在彩票選號(hào)中的應(yīng)用

二是統(tǒng)計(jì)數(shù)據(jù)的應(yīng)用。

統(tǒng)計(jì)以前出現(xiàn)過的所有中獎(jiǎng)號(hào)碼數(shù)據(jù),然后進(jìn)行計(jì)算整理,用統(tǒng)計(jì)數(shù)據(jù)預(yù)測(cè)的概率值來(lái)選擇選號(hào)區(qū)間及可能中獎(jiǎng)號(hào)碼。而這些都是和大數(shù)據(jù)有關(guān),因?yàn)楦鞣N數(shù)字組合是海量的,另外以往開獎(jiǎng)次數(shù)也達(dá)到了幾萬(wàn)次,中獎(jiǎng)號(hào)碼數(shù)據(jù)也是海量的。這些都要使用統(tǒng)計(jì)方法對(duì)大數(shù)據(jù)進(jìn)行處理。任務(wù)4大數(shù)據(jù)實(shí)際使用案例

二、大數(shù)據(jù)在產(chǎn)品質(zhì)量管理中的應(yīng)用

在質(zhì)量管理中,通常研究一個(gè)過程中生產(chǎn)的全體產(chǎn)品。如果需要觀測(cè)的總體N很大,有破壞性或者成本很高,那這種方法是不可取的。通常的做法是從總體中抽取一個(gè)或多個(gè)個(gè)體來(lái)進(jìn)行觀測(cè)。這種從所需要觀測(cè)的總體中抽取部分個(gè)體,組成所研究對(duì)象的樣本,通過觀察樣本來(lái)推斷總體的方法就是概率統(tǒng)計(jì)的核心。任務(wù)4大數(shù)據(jù)實(shí)際使用案例

二、大數(shù)據(jù)在產(chǎn)品質(zhì)量管理中的應(yīng)用

過去產(chǎn)品比較簡(jiǎn)單,檢驗(yàn)工廠生產(chǎn)的成品大部分都是隨機(jī)抽樣,相比市場(chǎng)抽樣合格率有所不足。

現(xiàn)在的產(chǎn)品越來(lái)越復(fù)雜,由于實(shí)際情況,大數(shù)據(jù)的管理方式:檢驗(yàn)部門借助成品檢驗(yàn)結(jié)果數(shù)據(jù)、不合格檢驗(yàn)數(shù)據(jù),以及相適應(yīng)的管理數(shù)據(jù),了解出定性和定量指標(biāo)與成品質(zhì)量的關(guān)系。

比如,如果需要了解廠家生產(chǎn)的產(chǎn)品的質(zhì)量合格率,就應(yīng)該了解這批產(chǎn)品的質(zhì)量指標(biāo)變化規(guī)律,由此可對(duì)工廠成品的質(zhì)量做出合理的預(yù)測(cè)與決斷,從而提升檢驗(yàn)工作的效率與準(zhǔn)確率。任務(wù)4大數(shù)據(jù)實(shí)際使用案例

三、大數(shù)據(jù)在人口統(tǒng)計(jì)中的應(yīng)用

人口統(tǒng)計(jì)是從大量的調(diào)查數(shù)據(jù)中研究人口現(xiàn)象的一種方法。通過統(tǒng)計(jì)方法和數(shù)據(jù)處理技術(shù)分析人口調(diào)查得到的大量數(shù)據(jù),得出關(guān)于人口發(fā)展的各種現(xiàn)象和本質(zhì),預(yù)測(cè)人口數(shù)量的發(fā)展趨勢(shì),據(jù)此制定各種人口政策和經(jīng)濟(jì)發(fā)展政策,促進(jìn)人口的可持續(xù)健康發(fā)展,最終達(dá)到人口與社會(huì)經(jīng)濟(jì)協(xié)調(diào)發(fā)展。任務(wù)4大數(shù)據(jù)實(shí)際使用案例

三、大數(shù)據(jù)在人口統(tǒng)計(jì)中的應(yīng)用

通過對(duì)人口、金融、交通、電力、電信等各種大數(shù)據(jù)的整合和挖掘,找到有關(guān)衡量社會(huì)因素的指標(biāo)。建立經(jīng)濟(jì)、社會(huì)、環(huán)境因素對(duì)勞動(dòng)力需求及供給數(shù)量的預(yù)測(cè)模型,并通過系統(tǒng)動(dòng)力學(xué)方法,建立勞動(dòng)力供需數(shù)量對(duì)經(jīng)濟(jì)、社會(huì)、教育等問題的反饋影響,通過反饋機(jī)制將這些影響引入到勞動(dòng)力供需預(yù)測(cè)模型中,對(duì)預(yù)測(cè)結(jié)果進(jìn)行修正,最終建立區(qū)域經(jīng)濟(jì)平衡時(shí)的勞動(dòng)力供需預(yù)測(cè)穩(wěn)態(tài)模型。任務(wù)4大數(shù)據(jù)實(shí)際使用案例

四、大數(shù)據(jù)在投資風(fēng)險(xiǎn)報(bào)酬分析中的應(yīng)用

現(xiàn)代社會(huì)的投資環(huán)境越來(lái)越復(fù)雜,投資方式逐漸多樣化,投資對(duì)象也不斷創(chuàng)新。然而投資即意味著風(fēng)險(xiǎn),風(fēng)險(xiǎn)和收益總是對(duì)應(yīng)而生的。投資者一般根據(jù)自己的風(fēng)險(xiǎn)偏好選擇合適的投資產(chǎn)品。由于風(fēng)險(xiǎn)性投資能給投資者帶來(lái)超乎想象的報(bào)酬,所以投資者還是喜歡進(jìn)行風(fēng)險(xiǎn)性投資的,這種報(bào)酬就稱為“風(fēng)險(xiǎn)報(bào)酬”。風(fēng)險(xiǎn)報(bào)酬的分析在很大程度上也是依賴于統(tǒng)計(jì)方法的應(yīng)用。任務(wù)4大數(shù)據(jù)實(shí)際使用案例

其他以下幾個(gè)方面的應(yīng)用,它們包括:1.推薦引擎網(wǎng)絡(luò)資源和在線零售商使用Hadoop根據(jù)用戶的個(gè)人資料和

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論