




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
BIGDATA導(dǎo)論目錄1.1大數(shù)據(jù)涌現(xiàn)1.2什么是大數(shù)據(jù)1.3大數(shù)據(jù)結(jié)構(gòu)類型1.4大數(shù)據(jù)商業(yè)模式變革第一章大數(shù)據(jù)基礎(chǔ)大數(shù)據(jù)涌現(xiàn)1.1.1.大數(shù)據(jù)時(shí)代的技術(shù)基礎(chǔ)管理模式變革信息技術(shù)(IT)向數(shù)據(jù)技術(shù)(DT)的轉(zhuǎn)變1。技術(shù)發(fā)展范式“技術(shù)革命始于大爆發(fā),前半階段是安裝階段,先后經(jīng)歷劇增繁殖期和狂熱期,后半階段是部署階段,先后經(jīng)歷了狂熱階段與成熟期”英國(guó)演化經(jīng)濟(jì)學(xué)家卡羅塔佩雷斯繪制了經(jīng)濟(jì)-技術(shù)范式演化的四個(gè)階段大數(shù)據(jù)時(shí)代技術(shù)變革特征管理模式變革信息技術(shù)(IT)向數(shù)據(jù)技術(shù)(DT)的轉(zhuǎn)變從大型計(jì)算機(jī)的誕生、微機(jī)的產(chǎn)生、瀏覽器的出現(xiàn)、網(wǎng)絡(luò)時(shí)代和大數(shù)據(jù)時(shí)代交疊與發(fā)展,阿里研究院依據(jù)國(guó)家統(tǒng)計(jì)局的數(shù)據(jù)繪制了近幾十年內(nèi)技術(shù)發(fā)展的不同時(shí)期,反映出隨著時(shí)間的推移和新技術(shù)的推出,數(shù)值被利用的程度。左圖說(shuō)明了技術(shù)的擴(kuò)散和蔓延及大數(shù)據(jù)的產(chǎn)生。技術(shù)發(fā)展范式技術(shù)曲線GartnerGroup大數(shù)據(jù)時(shí)代技術(shù)變革特征管理模式變革信息技術(shù)(IT)向數(shù)據(jù)技術(shù)(DT)的轉(zhuǎn)變技術(shù)變革特征20世紀(jì)末的IT技術(shù)的老四大件,包括硬件、軟件、通訊和網(wǎng)絡(luò)已經(jīng)在我們生活和社會(huì)中發(fā)揮著脊梁作用。現(xiàn)在人們所處的時(shí)代又開始深度運(yùn)用技術(shù),新的四大件稱為由大數(shù)據(jù)、云計(jì)算、移動(dòng)商務(wù)和社交網(wǎng)絡(luò)組成的新的技術(shù)特征主宰者日常生活和駕馭各個(gè)組織的運(yùn)營(yíng)。從技術(shù)發(fā)展和應(yīng)用的特征中把握競(jìng)爭(zhēng)優(yōu)勢(shì)。IT-enabledInnovation
一切IT技術(shù)、IT系統(tǒng)(ERP、CRM、社會(huì)化媒體等等)在信息系統(tǒng)專業(yè)中均和創(chuàng)新有關(guān)技術(shù)/數(shù)據(jù)/系統(tǒng)本身具有創(chuàng)新潛力產(chǎn)品創(chuàng)新、業(yè)務(wù)流程創(chuàng)新和其他專業(yè)區(qū)分開來(lái),比如計(jì)算機(jī)科學(xué)、市場(chǎng)營(yíng)銷等計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù)處理與
分析、大數(shù)據(jù)計(jì)算機(jī)硬軟件終端桌面移動(dòng)與無(wú)線網(wǎng)智能技術(shù)與IOT云計(jì)算ITenabledApplications:如ERP,CRM、SCM、電子商務(wù)、網(wǎng)絡(luò)營(yíng)銷、APPIT應(yīng)用使能結(jié)果運(yùn)營(yíng)創(chuàng)新產(chǎn)品/服務(wù)創(chuàng)新戰(zhàn)略創(chuàng)新(商業(yè)模式)管理創(chuàng)新IT使能的創(chuàng)新討論題:當(dāng)今,新技術(shù)和管理模式的關(guān)系??大數(shù)據(jù)時(shí)代2。物聯(lián)網(wǎng)技術(shù)變革特征管理模式變革信息技術(shù)(IT)向數(shù)據(jù)技術(shù)(DT)的轉(zhuǎn)變物聯(lián)網(wǎng)的核心和基礎(chǔ)仍然是互聯(lián)網(wǎng),是在互聯(lián)網(wǎng)基礎(chǔ)上的延伸和擴(kuò)展的網(wǎng)絡(luò)其用戶端延伸和擴(kuò)展到了任何物品與物品之間,進(jìn)行信息交換和通信,也就是物物相關(guān)InternetofThings(IoT)智能社區(qū)你家的冰箱可監(jiān)控冰箱里面的東西,并給出重新貯備建議。(擁有聯(lián)網(wǎng)功能的冰箱已經(jīng)出現(xiàn)在市面上,包括三星推出的一款聯(lián)網(wǎng)冰箱,不過(guò)目前市場(chǎng)似乎缺乏需求。)
使用來(lái)自云計(jì)算環(huán)境的數(shù)據(jù),你的汽車就能跟蹤它去過(guò)哪里、要去哪里,預(yù)測(cè)接下來(lái)開往哪里,如果你想詢問(wèn)最近的加油站在哪里,它隨時(shí)可以提供建議(豐田和微軟已經(jīng)開發(fā)在這樣的服務(wù)。)大數(shù)據(jù)時(shí)代物聯(lián)網(wǎng)技術(shù)變革特征管理模式變革信息技術(shù)(IT)向數(shù)據(jù)技術(shù)(DT)的轉(zhuǎn)變物聯(lián)網(wǎng)通過(guò)智能感知、識(shí)別技術(shù)與普適計(jì)算等通信感知技術(shù),廣泛應(yīng)用于網(wǎng)絡(luò)的融合中,世界信息產(chǎn)業(yè)發(fā)展的第三次浪潮。物聯(lián)網(wǎng)是互聯(lián)網(wǎng)的應(yīng)用拓展,與其說(shuō)物聯(lián)網(wǎng)是網(wǎng)絡(luò),不如說(shuō)物聯(lián)網(wǎng)是業(yè)務(wù)和應(yīng)用。利用局部網(wǎng)絡(luò)或互聯(lián)網(wǎng)等通信技術(shù)把傳感器、控制器、機(jī)器、人員和物等通過(guò)新的方式聯(lián)在一起,形成人與物、物與物相聯(lián),實(shí)現(xiàn)信息化、遠(yuǎn)程管理控制和智能化的網(wǎng)絡(luò)。大數(shù)據(jù)時(shí)代3。云計(jì)算技術(shù)變革特征管理模式變革信息技術(shù)(IT)向數(shù)據(jù)技術(shù)(DT)的轉(zhuǎn)變?cè)朴?jì)算的發(fā)展為整合打通業(yè)務(wù)系統(tǒng)、聚合數(shù)據(jù)提供了技術(shù)支撐網(wǎng)絡(luò)公司提出了以數(shù)據(jù)為核心,以云中心、云服務(wù)、云數(shù)據(jù)、云伙伴為四大方向企業(yè)的服務(wù)器的存儲(chǔ)方式,迅速轉(zhuǎn)化為云端的存儲(chǔ)方式
全球大數(shù)據(jù)總量變化趨勢(shì)但是,目前企業(yè)大數(shù)據(jù)的利用率僅為12%左右,大部分?jǐn)?shù)據(jù)未得到充分利用。
下表1-1所示如果利用好大數(shù)據(jù),企業(yè)人均產(chǎn)出率提高程度預(yù)測(cè)。
行業(yè)效率提高程度世界財(cái)富100強(qiáng)中的企業(yè)人均產(chǎn)出14.4%零售、咨詢服務(wù)行業(yè)人均產(chǎn)出49%、39% 食品、建筑、鋼鐵人均產(chǎn)出20%以上表1-1大數(shù)據(jù)利用后企業(yè)人均產(chǎn)出提高情況結(jié)構(gòu)20%、半結(jié)構(gòu)和非結(jié)構(gòu)數(shù)據(jù)80%與之前的數(shù)據(jù)庫(kù)相關(guān)技術(shù)相比,大數(shù)據(jù)可以處理半結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù)。這將使計(jì)算機(jī)能夠分析的數(shù)據(jù)范圍迅速擴(kuò)大大數(shù)據(jù)能夠在最大程度上利用互聯(lián)網(wǎng)上記錄的人類行為數(shù)據(jù)進(jìn)行分析。大數(shù)據(jù)出現(xiàn)之前,計(jì)算機(jī)所能夠處理的數(shù)據(jù)都需要前期進(jìn)行結(jié)構(gòu)化處理,并記錄在相應(yīng)的數(shù)據(jù)庫(kù)中。但大數(shù)據(jù)技術(shù)對(duì)于數(shù)據(jù)的結(jié)構(gòu)的要求大大降低,互聯(lián)網(wǎng)上人們留下的社交信息、地理位置信息、行為習(xí)慣信息、偏好信息等各種維度的信息都可以實(shí)時(shí)處理,立體完整地勾勒出每一個(gè)個(gè)體的各種特征。大數(shù)據(jù)時(shí)代的新理念數(shù)據(jù)密集型計(jì)算科學(xué)范式大數(shù)據(jù)涌現(xiàn)技術(shù)變革特征管理模式變革信息技術(shù)(IT)向數(shù)據(jù)技術(shù)(DT)的轉(zhuǎn)變?cè)诖髷?shù)據(jù)時(shí)代中的典型產(chǎn)品是微軟公司生產(chǎn)了一款數(shù)據(jù)驅(qū)動(dòng)的軟件,主要是為工程建設(shè)節(jié)約資源提高效率。軟件的運(yùn)用可以為世界節(jié)約40%的能源。從微軟團(tuán)隊(duì)致力于研究不僅是為了節(jié)約了能源,更關(guān)注智能化運(yùn)營(yíng)。通過(guò)跟蹤取暖器、空調(diào)、風(fēng)扇以及燈光等積累下來(lái)的超大量數(shù)據(jù),捕捉如何杜絕能源浪費(fèi)。技術(shù)發(fā)展范式討論題:當(dāng)今,技術(shù)的過(guò)度使用??大數(shù)據(jù)的綠色理念大數(shù)據(jù)時(shí)代三種變革力量技術(shù)變革特征管理模式變革信息技術(shù)(IT)向數(shù)據(jù)技術(shù)(DT)的轉(zhuǎn)變
1.大數(shù)據(jù)引發(fā)社會(huì)變革認(rèn)識(shí)自然和宇宙的方式的深度及廣度;改變社會(huì)組織、群體結(jié)構(gòu)及其聯(lián)動(dòng)方式;使社會(huì)活動(dòng)和社會(huì)管理的方式發(fā)生變革
2.大數(shù)據(jù)引發(fā)的經(jīng)濟(jì)變革
3.大數(shù)據(jù)引發(fā)個(gè)人生活方式變化改變實(shí)體企業(yè)生產(chǎn)制造的方式;引發(fā)產(chǎn)業(yè)結(jié)構(gòu)的調(diào)整和升級(jí);引發(fā)經(jīng)營(yíng)管理模式和商業(yè)模式的變革導(dǎo)致人類思維的變化,是最根本最深遠(yuǎn)的,又是漸次的,潛移默化的;衣、食、住、行、工作、學(xué)習(xí)、健康、交友、娛樂(lè)活動(dòng)正發(fā)生著并將繼續(xù)發(fā)生巨大的變化且與大數(shù)據(jù)和相關(guān)信息技術(shù)息息相關(guān)1.1.2大數(shù)據(jù)時(shí)代的變革大數(shù)據(jù)時(shí)代技術(shù)變革特征管理模式變革信息技術(shù)(IT)向數(shù)據(jù)技術(shù)(DT)的轉(zhuǎn)變IT界有句非常著名的話,稱為“人類正在從IT時(shí)代走向DT時(shí)代?!盜T界提到的“IT”是指“InformationTechnology”,即“信息技術(shù)”。那么,與此對(duì)應(yīng),DT”就應(yīng)該是“DataTechnology”,即“數(shù)據(jù)技術(shù)(或數(shù)據(jù)處理技術(shù))”。以大數(shù)據(jù)技術(shù)為代表的DT時(shí)代和過(guò)去人們所知的IT時(shí)代是兩個(gè)時(shí)代。IT時(shí)代是讓自己更加強(qiáng)大,DT時(shí)代是讓別人更加強(qiáng)大,IT時(shí)代是讓別人為自己服務(wù),DT時(shí)代是讓你去服務(wù)好別人。1.1.3信息技術(shù)(IT)向數(shù)據(jù)技術(shù)(DT)的轉(zhuǎn)變大數(shù)據(jù)時(shí)代技術(shù)變革特征管理模式變革信息技術(shù)(IT)向數(shù)據(jù)技術(shù)(DT)的轉(zhuǎn)變從IT到DT的轉(zhuǎn)化如圖所示由數(shù)據(jù)驅(qū)動(dòng)的時(shí)代商業(yè)模式將是C2B(CustomertoBusiness)而不是B2C。IT以自我控制、自我管理為主,DT以服務(wù)大眾、激發(fā)生產(chǎn)力為主。1.1.3信息技術(shù)(IT)向數(shù)據(jù)技術(shù)(DT)的轉(zhuǎn)變
大數(shù)據(jù)時(shí)代技術(shù)變革特征管理模式變革信息技術(shù)(IT)向數(shù)據(jù)技術(shù)(DT)的轉(zhuǎn)變
大數(shù)據(jù)高效采集、有效整合,深化政府?dāng)?shù)據(jù)和社會(huì)數(shù)據(jù)關(guān)聯(lián)分析、融合利用,提高宏觀調(diào)控、市場(chǎng)監(jiān)管、社會(huì)治理和公共服務(wù)精準(zhǔn)性和有效性。依托政府?dāng)?shù)據(jù)統(tǒng)一共享交換平臺(tái),加快推進(jìn)跨部門數(shù)據(jù)資源共享共用。加快建設(shè)國(guó)家政府?dāng)?shù)據(jù)統(tǒng)一開放平臺(tái),推動(dòng)政府信息系統(tǒng)和公共數(shù)據(jù)互聯(lián)開放共享。研究制定數(shù)據(jù)開放、保護(hù)等法律法規(guī),制定政府信息資源管理辦法。
深化大數(shù)據(jù)在各行業(yè)的創(chuàng)新應(yīng)用,探索與傳統(tǒng)產(chǎn)業(yè)協(xié)同發(fā)展新業(yè)態(tài)新模式,加快完善大數(shù)據(jù)產(chǎn)業(yè)鏈。加快海量數(shù)據(jù)采集、存儲(chǔ)、清洗、分析發(fā)掘、可視化、安全與隱私保護(hù)等領(lǐng)域關(guān)鍵技術(shù)攻關(guān)。促進(jìn)大數(shù)據(jù)軟硬件產(chǎn)品發(fā)展。完善大數(shù)據(jù)產(chǎn)業(yè)公共服務(wù)支撐體系和生態(tài)體系,加強(qiáng)標(biāo)準(zhǔn)體系和質(zhì)量技術(shù)基礎(chǔ)建設(shè)。我國(guó)的大數(shù)據(jù)戰(zhàn)略總結(jié):
大數(shù)據(jù)問(wèn)題(涌現(xiàn))特征粒度縮放(粒度/像素)跨界關(guān)聯(lián)(發(fā)言/跟帖)全局視圖(個(gè)人/平臺(tái)匯總)1.2什么是大數(shù)據(jù)>>>什么是大數(shù)據(jù)數(shù)據(jù)基本知識(shí)大數(shù)據(jù)定義用4V描述大數(shù)據(jù)特征1.2.1數(shù)據(jù)基礎(chǔ)知識(shí)數(shù)據(jù)是各種符號(hào)如字符、數(shù)字等。聲音、圖片動(dòng)畫、視頻多媒體,數(shù)據(jù)也是原始事實(shí)。要保證其原始性和真實(shí)性,后期加工才有意義。信息是人們?yōu)榱四撤N需求而對(duì)原始數(shù)據(jù)加工重組后形成的有意義、有用途的數(shù)據(jù)。什么是大數(shù)據(jù)數(shù)據(jù)基本知識(shí)大數(shù)據(jù)定義用4V描述大數(shù)據(jù)特征數(shù)據(jù)基礎(chǔ)知識(shí)信息系統(tǒng)的表達(dá)上,可以把數(shù)據(jù)放在輸入端,信息放在輸出端。從信息的角度看數(shù)據(jù)可以從數(shù)據(jù)的輸入和輸出的位置得到理解。如圖是信息系統(tǒng)的工作方式人們掌握數(shù)據(jù)資源的目的是為了提煉加工數(shù)據(jù)為有用的資源,稱為信息。在信息的基礎(chǔ)上提煉和總結(jié)成具有普遍指導(dǎo)意義的內(nèi)容,包括共性規(guī)律、理論、模型模式方法等稱為知識(shí)。智慧:運(yùn)用知識(shí),結(jié)合經(jīng)驗(yàn)創(chuàng)造性的預(yù)測(cè)未來(lái)解釋現(xiàn)象和問(wèn)題,洞見未來(lái)。什么是大數(shù)據(jù)數(shù)據(jù)基本知識(shí)大數(shù)據(jù)定義用4V描述大數(shù)據(jù)特征數(shù)據(jù)基礎(chǔ)知識(shí)數(shù)據(jù)處理技術(shù)包括數(shù)據(jù)的采集、存儲(chǔ)、處理、分析、表現(xiàn)等技術(shù),目的是把數(shù)據(jù)變成有價(jià)值的信息,乃至將數(shù)據(jù)挖掘或處理升華成知識(shí)。下圖表明了從數(shù)據(jù)到信息到知識(shí)再到智慧什么是大數(shù)據(jù)數(shù)據(jù)基本知識(shí)大數(shù)據(jù)定義用4V描述大數(shù)據(jù)特征1.2.2大數(shù)據(jù)定義1.大數(shù)據(jù)來(lái)源如下圖是大數(shù)據(jù)在物聯(lián)網(wǎng)智能設(shè)備上產(chǎn)生的數(shù)據(jù)存儲(chǔ)在云端形成大數(shù)據(jù)情況大數(shù)據(jù)是如此龐大而復(fù)雜的,他們需要專門設(shè)計(jì)的硬件和軟件工具進(jìn)行處理。該數(shù)據(jù)集通常是萬(wàn)億或EB的大小。這些數(shù)據(jù)集收集自各種各樣的來(lái)源:傳感器,氣候信息,公開的信息,如雜志,報(bào)紙,文章。大數(shù)據(jù)產(chǎn)生的其他例子包括購(gòu)買交易記錄,網(wǎng)絡(luò)日志,病歷,軍事監(jiān)控,視頻和圖像檔案,及大型電子商務(wù)。什么是大數(shù)據(jù)2大數(shù)據(jù)定義數(shù)據(jù)基本知識(shí)大數(shù)據(jù)定義用4V描述大數(shù)據(jù)特征大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理。廣義上的數(shù)據(jù)和大數(shù)據(jù)里包括信息
————《大數(shù)據(jù)時(shí)代》
維克托·邁爾-舍恩伯格等大數(shù)據(jù)(BigData),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無(wú)法通過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊什么是大數(shù)據(jù)大數(shù)據(jù)定義數(shù)據(jù)基本知識(shí)大數(shù)據(jù)定義用4V描述大數(shù)據(jù)特征
LisaArthur在《大數(shù)據(jù)營(yíng)銷》一書中將大數(shù)據(jù)定義成紛繁雜亂的互動(dòng)的、應(yīng)用程序、信息和流程。她把大數(shù)據(jù)比喻為數(shù)據(jù)‘毛球’。
在一些企業(yè)中,混亂的數(shù)據(jù)中包含的信息,可能分布于市場(chǎng)營(yíng)銷部門、財(cái)務(wù)部門、銷售部門和客戶服務(wù)部門。而在另外一些公司,這些混亂的數(shù)據(jù)可能往往來(lái)自市場(chǎng)營(yíng)銷服務(wù)提供商、獨(dú)立的電子商務(wù)網(wǎng)站、未歸檔的呼叫中心的對(duì)話錄音,以及公司或合作伙伴的部門和部分網(wǎng)頁(yè)活動(dòng)數(shù)據(jù)日志。什么是大數(shù)據(jù)大數(shù)據(jù)定義數(shù)據(jù)基本知識(shí)大數(shù)據(jù)定義用4V描述大數(shù)據(jù)特征IBM公司麥肯錫全球研究所研究機(jī)構(gòu)Gartner“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來(lái)適應(yīng)海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低四大特征大數(shù)據(jù)具有“領(lǐng)悟數(shù)據(jù),提升見識(shí),洞察秋毫,驅(qū)動(dòng)優(yōu)化”四個(gè)內(nèi)涵,側(cè)重于大數(shù)據(jù)技術(shù)的應(yīng)用,強(qiáng)調(diào)大數(shù)據(jù)間相關(guān)性的發(fā)現(xiàn),其核心能力是“大數(shù)據(jù)中的價(jià)值發(fā)現(xiàn)和應(yīng)用”什么是大數(shù)據(jù)數(shù)據(jù)基本知識(shí)大數(shù)據(jù)定義用4V描述大數(shù)據(jù)特征
隨著云時(shí)代的來(lái)臨,大數(shù)據(jù)(Bigdata)也吸引了越來(lái)越多的關(guān)注。分析師團(tuán)隊(duì)認(rèn)為,大數(shù)據(jù)(Bigdata)通常用來(lái)形容一個(gè)公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫(kù)用于分析時(shí)會(huì)花費(fèi)過(guò)多時(shí)間和金錢。大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來(lái)向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。每天數(shù)以億計(jì)的數(shù)據(jù)產(chǎn)生著,云計(jì)算、云存儲(chǔ)的應(yīng)用,有效地將這種隱態(tài)資源轉(zhuǎn)化為可用資源,當(dāng)前這種資源無(wú)疑成為國(guó)家、組織和個(gè)人的最重要的財(cái)富。什么是大數(shù)據(jù)數(shù)據(jù)基本知識(shí)大數(shù)據(jù)定義用4V描述大數(shù)據(jù)特征1。大數(shù)據(jù)的4個(gè)特征數(shù)據(jù)體量巨大(Volume)數(shù)據(jù)類型繁多(Variety)價(jià)值密度低(value)處理速度快(Velocity)云計(jì)算從TB級(jí)別,躍升到PB級(jí)別;數(shù)據(jù)體量巨大。從TB級(jí)別,躍升到EB級(jí)別(1TB=1,024GB;1PB=1,024TB;1EB=1,024PB)網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等由通常的離線處理變?yōu)樵诰€處理,由在線事務(wù)處理(OLTP)變?yōu)樵诰€分析處理(OLAP)。數(shù)據(jù)是永遠(yuǎn)在線的,是隨時(shí)能調(diào)用和計(jì)算的價(jià)值密度低,商業(yè)價(jià)值高。以視頻為例,連續(xù)不間斷監(jiān)控過(guò)程中,可能有用的數(shù)據(jù)僅僅有一兩秒1.2.3大數(shù)據(jù)的特征Ref:BigDataFundamentalsconcepts,Drivers&TechniquesThomasErlVOLUMEOrganizationsandusersworld-wildcreatedover2.5EBsofDataofdayTheLibraryofcongresscurrentlyholdsmorethan300TBsofdata圖片來(lái)源:ThomasErl,WajidKhattakandPaulBuhler,BigDataFundamentals,Concepts,Drivers&Techniques,VelocityFromanenterprise’spointofview,thevelocityofdatatranslatesintotheamountoftimeittakesforthedatatobeprocessedonceitenterstheenterprise’sperimeter.
Copingwiththefastinflowofdatarequirestheenterprisetodesignhighlyelasticandavailabledataprocessingsolutionsandcorrespondingdatastoragecapabilities.
Ref:BigDataFundamentalsconcepts,Drivers&TechniquesThomasErlVarietyDatavarietyreferstothemultipleformatsandtypesofdatathatneedtobesupportedbyBigDatasolutions.Datavarietybringschallengesforenterprisesintermsofdataintegration,transformation,processing,andstorage.Examplesofhigh-varietyBigDatadatasetsincludestructured,textual,image,video,audio,XML,JSON,sensordataandmetadata.Ref:BigDataFundamentalsconcepts,Drivers&TechniquesThomasErlValueDefinition:Valueisdefinedastheusefulnessofdataforanenterprise.Influencefactor:DatathathashighveracityandcanbeanalyzedquicklyhasmorevaluetoabusinessRef:BigDataFundamentalsconcepts,Drivers&TechniquesThomasErl什么是大數(shù)據(jù)數(shù)據(jù)基本知識(shí)大數(shù)據(jù)定義用4V描述大數(shù)據(jù)特征2。大數(shù)據(jù)的三個(gè)維度
系統(tǒng)地認(rèn)知大數(shù)據(jù),必須要全面而細(xì)致的分解它,可以從理論、技術(shù)和實(shí)踐三個(gè)維度來(lái)展開,如圖表明大數(shù)據(jù)三個(gè)維度什么是大數(shù)據(jù)數(shù)據(jù)基本知識(shí)大數(shù)據(jù)定義用4V描述大數(shù)據(jù)特征3。大數(shù)據(jù)平臺(tái)及數(shù)據(jù)挖掘技術(shù)
大數(shù)據(jù)需要特殊的技術(shù),以有效地處理大量的容忍經(jīng)過(guò)時(shí)間內(nèi)的數(shù)據(jù)。適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、信息可視化、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫(kù)、云計(jì)算平臺(tái)、互聯(lián)網(wǎng)和可擴(kuò)展的存儲(chǔ)系統(tǒng)數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理:本書主要介紹了數(shù)據(jù)清洗、數(shù)據(jù)變換、數(shù)據(jù)集成這幾種常用方法外,除此之外,還有數(shù)據(jù)標(biāo)注、數(shù)據(jù)脫敏、數(shù)據(jù)歸約等。如下表所示為數(shù)據(jù)預(yù)處理的常用方法。數(shù)據(jù)采集&數(shù)據(jù)預(yù)處理數(shù)據(jù)挖掘數(shù)據(jù)可視化大數(shù)據(jù)類型重點(diǎn)難點(diǎn)數(shù)據(jù)分析數(shù)據(jù)處理平臺(tái)及語(yǔ)言數(shù)據(jù)挖掘的分類圖
傳統(tǒng)的數(shù)據(jù)挖掘分類算法數(shù)據(jù)采集&數(shù)據(jù)預(yù)處理數(shù)據(jù)挖掘數(shù)據(jù)可視化大數(shù)據(jù)類型重點(diǎn)難點(diǎn)數(shù)據(jù)采集&數(shù)據(jù)預(yù)處理數(shù)據(jù)挖掘大數(shù)據(jù)類型重點(diǎn)難點(diǎn)大數(shù)據(jù)廠商圖
大數(shù)據(jù)廠商行業(yè)分析圖譜1.3大數(shù)據(jù)結(jié)構(gòu)類型>>>大數(shù)據(jù)結(jié)構(gòu)類型1.大數(shù)據(jù)存儲(chǔ)容量大數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)小到以字節(jié)表示大到NB和DB級(jí)別。以210逐級(jí)增長(zhǎng)。下面表示的是數(shù)據(jù)由小到大的尺寸和存儲(chǔ)容量。最小的基本單位是bit,按順序給出所有單位:Bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。它們按照進(jìn)率1024(210)來(lái)計(jì)算:1KB(KiloByte)=210B1MB(MegaByte)=210KB1GB(GigaByte)=210MB=220KB=230B1TB(TeraByte)=210GB=220MB=230KB=240B1PB(PetaByte)=210TB=220GB=230MB=240B=250B1EB(ExaByte)=210PB=220TB=230GB=240MB=250KB=260B1ZB(ZettaByte)=210EB=220PB=230TB=240GB=250MB=260KB=270B1YB(YottaByte)=210ZB=220EB=230PB=240TB=250GB=260MB=270KB=280B1NB(NonaByte)=210YB=220ZB=230EB=240PB=250TB=260GB=270MB=280KB=290B1DB(DoggaByte)=210NB=220YB=230ZB=240EB=250PB=260TB=270GB=280MB=290KB=2100B大數(shù)據(jù)結(jié)構(gòu)類型2.大數(shù)據(jù)結(jié)構(gòu)特征數(shù)據(jù)的結(jié)構(gòu)化程度直接關(guān)系到處理數(shù)據(jù)的方法選擇。傳統(tǒng)的和經(jīng)典的數(shù)據(jù)是結(jié)構(gòu)化的,這些數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)中,采用相應(yīng)的數(shù)據(jù)庫(kù)技術(shù)完成查詢和管理需要。而半結(jié)構(gòu)和非結(jié)構(gòu)的數(shù)據(jù),就是今天網(wǎng)頁(yè)和社交媒體產(chǎn)生的大量音頻和視頻等數(shù)據(jù)。數(shù)據(jù)結(jié)構(gòu)類型說(shuō)明結(jié)構(gòu)化簡(jiǎn)單來(lái)說(shuō)就是數(shù)據(jù)庫(kù)。比如企業(yè)ERP等?;景ǜ咚俅鎯?chǔ)應(yīng)用需求、數(shù)據(jù)備份需求、數(shù)據(jù)共享需求以及數(shù)據(jù)容災(zāi)需求。半結(jié)構(gòu)化半結(jié)構(gòu)化數(shù)據(jù)具有一定的結(jié)構(gòu)性,比如存儲(chǔ)員工的簡(jiǎn)歷。有的員工的簡(jiǎn)歷很簡(jiǎn)單,比如只包括教育情況;有的員工的簡(jiǎn)歷卻很復(fù)雜,比如包括工作情況、婚姻情況等等。非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒(méi)有預(yù)定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫(kù)二維邏輯表來(lái)表現(xiàn)的數(shù)據(jù)。包括所有格式的辦公文檔等等。非結(jié)構(gòu)化數(shù)據(jù)其格式非常多樣大數(shù)據(jù)結(jié)構(gòu)類型3.數(shù)據(jù)的復(fù)雜性與多樣性(1)數(shù)據(jù)的復(fù)雜性多重?cái)?shù)據(jù)源通常意味著臟數(shù)據(jù),或者遵循著不同的內(nèi)部邏輯結(jié)構(gòu)的簡(jiǎn)單的多個(gè)數(shù)據(jù)集。為了確保數(shù)據(jù)源有統(tǒng)一的數(shù)據(jù)語(yǔ)言,數(shù)據(jù)必須被轉(zhuǎn)換或整合到一個(gè)中央資源庫(kù)。數(shù)據(jù)的復(fù)雜性表現(xiàn)為處理大數(shù)據(jù)或異構(gòu)數(shù)據(jù)(2)數(shù)據(jù)的多樣性文本一直是非結(jié)構(gòu)化數(shù)據(jù)的典型。早期的非結(jié)構(gòu)化數(shù)據(jù),在企業(yè)數(shù)據(jù)的語(yǔ)境里主要是文本,如電子郵件,文檔,健康/醫(yī)療記錄。隨著互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,又?jǐn)U展到網(wǎng)頁(yè)、社交媒體、感知數(shù)據(jù),涵蓋音頻、圖片、視頻、模擬信號(hào)等等,真正詮釋了數(shù)據(jù)的多樣性。從另一個(gè)維度上看,數(shù)據(jù)的多樣性又表現(xiàn)在數(shù)據(jù)來(lái)源和用途上。衛(wèi)生保健數(shù)據(jù)大致有藥理學(xué)科研數(shù)據(jù),臨床數(shù)據(jù),個(gè)人行為和情感數(shù)據(jù),就診/索賠記錄和開銷數(shù)據(jù)四類。大數(shù)據(jù)結(jié)構(gòu)類型數(shù)據(jù)的復(fù)雜性與多樣性如圖不斷增長(zhǎng)的數(shù)據(jù)多樣性與復(fù)雜性1.4大數(shù)據(jù)應(yīng)用>>>大數(shù)據(jù)時(shí)代1.4大數(shù)據(jù)應(yīng)用技術(shù)變革特征管理模式變革信息技術(shù)(IT)向數(shù)據(jù)技術(shù)(DT)的轉(zhuǎn)變
政府應(yīng)用舉例新聞?lì)悜?yīng)用“國(guó)務(wù)院APP”在上線之初就刷爆了朋友圈以及各大應(yīng)用平臺(tái),成為公眾與政府互動(dòng)交流的平臺(tái),滿足了用戶對(duì)于政治關(guān)注的需求,有效拉近了中央政府與普通民眾之間的關(guān)系。國(guó)家總理和普通民眾的層級(jí)阻隔不再受限,多數(shù)的民眾將這個(gè)APP當(dāng)成了一個(gè)必備軟件。大數(shù)據(jù)時(shí)代應(yīng)用技術(shù)變革特征管理模式變革信息技術(shù)(IT)向數(shù)據(jù)技術(shù)(DT)的轉(zhuǎn)變
應(yīng)用解析在一個(gè)移動(dòng)APP上了解和獲取這些信息,不再受限于時(shí)間與地點(diǎn),也從側(cè)面說(shuō)明了移動(dòng)互聯(lián)網(wǎng)行業(yè)的發(fā)展對(duì)于經(jīng)濟(jì)、政治以及國(guó)家的上層建筑都產(chǎn)生了重要的影響,帶動(dòng)了政府體制的進(jìn)步,政府也是需要擁有互聯(lián)網(wǎng)思維,與時(shí)俱進(jìn)。大數(shù)據(jù)應(yīng)用個(gè)人生活運(yùn)用企業(yè)應(yīng)用政府部門運(yùn)用1.4.1個(gè)人生活應(yīng)用“大數(shù)據(jù)”已經(jīng)在服務(wù)于普通百姓,通過(guò)它,企業(yè)可以了解市場(chǎng)行情,獲得更多收入;農(nóng)民可以了解明年種什么菜才能賺更多錢;農(nóng)民工可以知道哪里更需要工人,哪里待遇更高,哪里能租到房子。而伴隨著大數(shù)據(jù)技術(shù)的發(fā)展,人們的生活將會(huì)徹底改變。目前的數(shù)據(jù),都是在即時(shí)通訊過(guò)程中,包括電話、短信、微信、郵件、瀏覽網(wǎng)頁(yè)等,通過(guò)人的手和口產(chǎn)生。而隨著大數(shù)據(jù)技術(shù)與云計(jì)算、物聯(lián)網(wǎng)的進(jìn)一步融合,未來(lái)的數(shù)據(jù),將更多地來(lái)源于大量傳感器。大數(shù)據(jù)應(yīng)用個(gè)人生活運(yùn)用企業(yè)應(yīng)用政府部門運(yùn)用1.4.1個(gè)人生活運(yùn)用交通智能軟件獲取路段擁堵信息的途徑主要有三種:1.大家隨身攜帶的手機(jī),2.遍布大街小巷的監(jiān)控?cái)z像頭可以直接看到路段的擁堵情況,3.在很多城市的交通管理中應(yīng)用越來(lái)越普遍的小型無(wú)人駕駛直升機(jī)。大數(shù)據(jù)技術(shù)可以根據(jù)你曾經(jīng)買過(guò)的商品的價(jià)格,分析你的消費(fèi)水平,同時(shí)根據(jù)你最近的瀏覽和搜索,分析你當(dāng)下的需求,二者結(jié)合,進(jìn)行針對(duì)性非常強(qiáng)的推銷。現(xiàn)代醫(yī)學(xué)越來(lái)越依賴于具體數(shù)據(jù)的采集和判斷。醫(yī)學(xué)診斷正在演化為全人全程的信息跟蹤、預(yù)測(cè)預(yù)防和個(gè)性化治療。病人的“參與性”和“選擇權(quán)”的重要性,會(huì)愈加顯現(xiàn)。大數(shù)據(jù)應(yīng)用企業(yè)模式變革個(gè)人生活運(yùn)用企業(yè)應(yīng)用政府部門運(yùn)用德國(guó)提出工業(yè)4.0概念,“工業(yè)4.0”本質(zhì)上是通過(guò)信息物理系統(tǒng)(CyberPhysicalSystem)實(shí)現(xiàn)工廠的設(shè)備傳感和控制層的數(shù)據(jù)與企業(yè)信息系統(tǒng)融合,使得產(chǎn)生的大數(shù)據(jù)傳到云計(jì)算數(shù)據(jù)中心進(jìn)行存儲(chǔ)、分析,形成決策并反過(guò)來(lái)指導(dǎo)生產(chǎn)。大數(shù)據(jù)的作用不僅局限于此,它可以滲透到制造業(yè)的各個(gè)環(huán)節(jié)發(fā)揮作用,如產(chǎn)品設(shè)計(jì)、原料采購(gòu)、產(chǎn)品制造、倉(cāng)儲(chǔ)運(yùn)輸、訂單處理、批發(fā)經(jīng)營(yíng)和終端零售。1.4.2主題轉(zhuǎn)變HR陳國(guó)清教授人民大學(xué)講座企業(yè)管理方面的變革
企業(yè)管理方面變革內(nèi)容組織結(jié)構(gòu)大數(shù)據(jù)和互聯(lián)網(wǎng)等信息技術(shù)使組織管理的層次減少,范圍擴(kuò)大,決策速度加快,引發(fā)組織變革。人力大數(shù)據(jù)人才需求的劇增,人力資源管理方式的改變表明了這個(gè)時(shí)代的要求。流程依據(jù)于大數(shù)據(jù)的流程再造使生產(chǎn)運(yùn)作發(fā)生徹底的戲劇性的根本的改變,真正實(shí)現(xiàn)科學(xué)管理。制造
用數(shù)據(jù)可視化實(shí)現(xiàn)全過(guò)程的控制,使生產(chǎn)運(yùn)作過(guò)程做到實(shí)時(shí)在線控制,提高生產(chǎn)效率,減少資源浪費(fèi)。市場(chǎng)基于大數(shù)據(jù)分析的市場(chǎng)決策、產(chǎn)品決策,產(chǎn)品設(shè)計(jì)等把消費(fèi)者需求、供應(yīng)商與生產(chǎn)緊密聯(lián)系起來(lái),實(shí)現(xiàn)三者的無(wú)縫對(duì)接。大數(shù)據(jù)使市場(chǎng)的概念和范圍更加擴(kuò)大,B2C、M2C、C2M將從區(qū)域的范圍真正實(shí)現(xiàn)全球化、國(guó)際化??头韵M(fèi)者為中心的企業(yè)經(jīng)營(yíng)依據(jù)于大數(shù)據(jù)將更加趨于真實(shí)可行,個(gè)性化需求的實(shí)現(xiàn),消費(fèi)者參與的產(chǎn)品設(shè)計(jì)制造,從更深的層次實(shí)現(xiàn)著這一理念。表1-2大數(shù)據(jù)影響企業(yè)管理內(nèi)容大數(shù)據(jù)應(yīng)用企業(yè)應(yīng)用個(gè)人生活運(yùn)用企業(yè)應(yīng)用未來(lái)車間智能機(jī)器人的機(jī)械手可以進(jìn)行自動(dòng)化排產(chǎn)調(diào)度,工件、物料、刀具進(jìn)行自動(dòng)化裝卸調(diào)度,可以達(dá)到無(wú)人值守的全自動(dòng)化生產(chǎn)模式。如圖智能工廠。視覺(jué)識(shí)別可以自動(dòng)定位材料位置,更加精準(zhǔn)便捷。視覺(jué)識(shí)別搭配機(jī)械手可以進(jìn)行分揀,不同的數(shù)字、顏色可以分揀出來(lái),并且按順序排列,抓取速度是2秒。流程轉(zhuǎn)變—營(yíng)銷決策陳國(guó)清教授人民大學(xué)講座大數(shù)據(jù)應(yīng)用企業(yè)應(yīng)用個(gè)人生活運(yùn)用企業(yè)應(yīng)用大數(shù)據(jù)改善訂單處理方式大數(shù)據(jù)擊敗傳統(tǒng)倉(cāng)儲(chǔ)運(yùn)輸工業(yè)采購(gòu)變得更加精準(zhǔn)大數(shù)據(jù)讓產(chǎn)品設(shè)計(jì)更優(yōu)化企業(yè)通過(guò)大數(shù)據(jù)的預(yù)測(cè)結(jié)果,便可以得到潛在訂單的數(shù)量,然后直接進(jìn)入產(chǎn)品的設(shè)計(jì)和制造以及后續(xù)環(huán)節(jié)。企業(yè)用戶開始利用大數(shù)據(jù)技術(shù)來(lái)對(duì)銷售數(shù)據(jù)進(jìn)行大數(shù)據(jù)分析,提升企業(yè)利潤(rùn)由于大數(shù)據(jù)能夠精準(zhǔn)預(yù)測(cè)出個(gè)體消費(fèi)者的需求以及消費(fèi)者對(duì)于產(chǎn)品價(jià)格的期望值,企業(yè)在產(chǎn)品設(shè)計(jì)制造之后,可直接派送到消費(fèi)者手中大數(shù)據(jù)通過(guò)高度整合的方式,將相對(duì)獨(dú)的企業(yè)各部門信息匯集起來(lái),打破了原有的信息壁壘,實(shí)現(xiàn)了集約化管理借助大數(shù)據(jù)技術(shù),人們可以對(duì)原物料的品質(zhì)進(jìn)行監(jiān)控,發(fā)現(xiàn)潛在問(wèn)題立即做出預(yù)警,維持產(chǎn)品品質(zhì),大數(shù)據(jù)技術(shù)還能監(jiān)控并預(yù)測(cè)加工設(shè)備未來(lái)的故障幾率大數(shù)據(jù)時(shí)代數(shù)據(jù)資產(chǎn)化和決策智能化技術(shù)變革特征管理模式變革信息技術(shù)(IT)向數(shù)據(jù)技術(shù)(DT)的轉(zhuǎn)變?cè)诖髷?shù)據(jù)時(shí)代,數(shù)據(jù)滲透各個(gè)行業(yè),漸漸成為企業(yè)戰(zhàn)略資產(chǎn)。有些公司的數(shù)據(jù)相對(duì)于其他公司更多,使其擁有更多獲取數(shù)據(jù)潛在價(jià)值的可能(1)數(shù)據(jù)資產(chǎn)化企業(yè)戰(zhàn)略將從“業(yè)務(wù)驅(qū)動(dòng)”轉(zhuǎn)向“數(shù)據(jù)驅(qū)動(dòng)”。智能化決策是企業(yè)未來(lái)發(fā)展方向。在大數(shù)據(jù)時(shí)代,企業(yè)通過(guò)收集、分析大量?jī)?nèi)部和外部的數(shù)據(jù),獲取有價(jià)值的信息。通過(guò)挖掘這些信息,企業(yè)可以預(yù)測(cè)市場(chǎng)需求,進(jìn)行智能化決策分析,從而把握競(jìng)爭(zhēng)優(yōu)勢(shì)(2)決策智能化大數(shù)據(jù)將從數(shù)據(jù)資產(chǎn)化和決策智能化兩個(gè)方面推動(dòng)企業(yè)管理變革。大數(shù)據(jù)時(shí)代制定大數(shù)據(jù)戰(zhàn)略技術(shù)變革特征管理模式變革信息技術(shù)(IT)向數(shù)據(jù)技術(shù)(DT)的轉(zhuǎn)變(1)應(yīng)當(dāng)通過(guò)云平臺(tái)實(shí)現(xiàn)數(shù)據(jù)大集中,形成企業(yè)數(shù)據(jù)資產(chǎn)。通過(guò)云平臺(tái)實(shí)現(xiàn)集團(tuán)數(shù)據(jù)大集中,從而形成企業(yè)的數(shù)據(jù)資產(chǎn)。這是集團(tuán)企業(yè)利用大數(shù)據(jù)資源的重要基礎(chǔ)。(2)應(yīng)當(dāng)深度挖掘大數(shù)據(jù)的價(jià)值,推動(dòng)企業(yè)智能決策。企業(yè)應(yīng)當(dāng)重視對(duì)大數(shù)據(jù)價(jià)值的深入分析與挖掘,推動(dòng)企業(yè)決策機(jī)制從“業(yè)務(wù)驅(qū)動(dòng)”向“數(shù)據(jù)驅(qū)動(dòng)”轉(zhuǎn)變。案例調(diào)查:上海洋山港自動(dòng)化碼頭的大數(shù)據(jù)洋山港的國(guó)際中轉(zhuǎn)與水水中轉(zhuǎn)比例持續(xù)增長(zhǎng),總吞吐量連年創(chuàng)新高。而與之形成對(duì)比的是,上海港受制于泊位資源與設(shè)備資源的數(shù)量,無(wú)法從根本上滿足未來(lái)逐年增高的吞吐量預(yù)期。洋山四期自動(dòng)化碼頭共建設(shè)7個(gè)集裝箱泊位,集裝箱碼頭岸線總長(zhǎng)2350米,設(shè)計(jì)年通過(guò)能力初期為400萬(wàn)標(biāo)準(zhǔn)箱,遠(yuǎn)期為630萬(wàn)標(biāo)準(zhǔn)箱,將為上海港鞏固港口貨物吞吐能力世界第一地位,為加速躋身世界航運(yùn)中心前列提供新動(dòng)力。管理決策疫情分析權(quán)威發(fā)布美國(guó)約翰斯·霍普金斯大學(xué)實(shí)時(shí)公布的數(shù)據(jù)被各大媒體和機(jī)構(gòu)廣泛引用,其開發(fā)的新冠疫情交互式地圖網(wǎng)頁(yè)的日訪問(wèn)量從1月下旬的2億次增加到3月初的12億次。而圖表的創(chuàng)作者是這所大學(xué)兩名來(lái)自中國(guó)的博士生。董恩盛和杜鴻儒都是約翰斯·霍普金斯大學(xué)土木與系統(tǒng)工程系博士一年級(jí)學(xué)生。大數(shù)據(jù)時(shí)代的新術(shù)語(yǔ)數(shù)據(jù)洞見(DataInsights) 發(fā)現(xiàn)數(shù)據(jù)背后的信息、知識(shí)和智慧以及找到“被淹沒(méi)在海量數(shù)據(jù)中的未知數(shù)據(jù)”與數(shù)據(jù)挖掘不同的是,數(shù)據(jù)科學(xué)項(xiàng)目的成果可以直接用于決策支持總結(jié):變革的特征:外部介入技術(shù)增強(qiáng)使能創(chuàng)新數(shù)據(jù)科學(xué)的基礎(chǔ)理論
1.5數(shù)據(jù)科學(xué)和大數(shù)據(jù)技術(shù)數(shù)據(jù)科學(xué)和大數(shù)據(jù)技術(shù)數(shù)據(jù)科學(xué)目前大數(shù)據(jù)的工程技術(shù)研究已走在科學(xué)研究的前面。美國(guó)政府6個(gè)部門啟動(dòng)的大數(shù)據(jù)研究計(jì)劃中,國(guó)家科學(xué)基金會(huì)的研究?jī)?nèi)容提到要“形成一個(gè)包括數(shù)學(xué)、統(tǒng)計(jì)基礎(chǔ)和計(jì)算機(jī)算法的獨(dú)特學(xué)科”。
數(shù)據(jù)、信息和知識(shí)三者既有區(qū)別又有聯(lián)系:數(shù)據(jù)是信息的載體,是信息的原始記錄,包括數(shù)字、語(yǔ)言、文字、聲音、圖形、圖像等多種形態(tài);信息是經(jīng)過(guò)加工后的對(duì)某現(xiàn)象具有一定解釋力的數(shù)據(jù),或者說(shuō)是有價(jià)值的數(shù)據(jù);知識(shí)是信息的進(jìn)一步提升,是更加系統(tǒng)化、理論化的信息。&數(shù)據(jù)科學(xué)是以統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)可視化以及其他領(lǐng)域知識(shí)為理論基礎(chǔ),其主要研究?jī)?nèi)容包括數(shù)據(jù)科學(xué)基礎(chǔ)理論、數(shù)據(jù)預(yù)處理、數(shù)據(jù)計(jì)算和數(shù)據(jù)管理。大數(shù)據(jù)人才大數(shù)據(jù)技術(shù)1.5.1數(shù)據(jù)科學(xué)數(shù)據(jù)科學(xué)和大數(shù)據(jù)技術(shù)數(shù)據(jù)科學(xué)大數(shù)據(jù)技術(shù)包括,大數(shù)據(jù)采集及預(yù)處理、大數(shù)據(jù)分析、大數(shù)據(jù)可視化、Hadoop概論、HDFS和Common概論、MapReduce概論、NoSQL技術(shù)等。借助這些平臺(tái),大數(shù)據(jù)分析是在研究大量的數(shù)據(jù)的過(guò)程中尋找模式,相關(guān)性和其他有用的信息,可以幫助企業(yè)更好地適應(yīng)變化,并做出更明智的決策。大數(shù)據(jù)人才大數(shù)據(jù)技術(shù)1.5.2大數(shù)據(jù)技術(shù)與工具數(shù)據(jù)科學(xué)和大數(shù)據(jù)技術(shù)數(shù)據(jù)采集與處理、分析技術(shù)數(shù)據(jù)科學(xué)數(shù)據(jù)采集,又稱數(shù)據(jù)獲取,是利用一種裝置,從系統(tǒng)外部采集數(shù)據(jù)并輸入到系統(tǒng)內(nèi)部的一個(gè)接口。數(shù)據(jù)采集技術(shù)廣泛引用在各個(gè)領(lǐng)域。比如攝像頭,麥克風(fēng),都是數(shù)據(jù)采集工具。數(shù)據(jù)采集,還有一種解釋就是網(wǎng)站數(shù)據(jù)的采集。大數(shù)據(jù)人才大數(shù)據(jù)技術(shù)數(shù)據(jù)科學(xué)和大數(shù)據(jù)技術(shù)1。數(shù)據(jù)采集與處理、分析技術(shù)數(shù)據(jù)科學(xué)數(shù)據(jù)處理的基本目的是從大量的、雜亂無(wú)章的、難以理解的數(shù)據(jù)中抽取并推導(dǎo)出對(duì)于某些特定的人們來(lái)說(shuō)是有價(jià)值、有意義的數(shù)據(jù)。數(shù)據(jù)處理是系統(tǒng)工程和自動(dòng)控制的基本環(huán)節(jié)。數(shù)據(jù)處理貫穿于社會(huì)生產(chǎn)和社會(huì)生活的各個(gè)領(lǐng)域。數(shù)據(jù)處理技術(shù)的發(fā)展及其應(yīng)用的廣度和深度,極大地影響著人類社會(huì)發(fā)展的進(jìn)程。數(shù)據(jù)處理的過(guò)程大致分為數(shù)據(jù)的準(zhǔn)備、處理和輸出3個(gè)階段。大數(shù)據(jù)人才大數(shù)據(jù)技術(shù)數(shù)據(jù)科學(xué)和大數(shù)據(jù)技術(shù)2。數(shù)據(jù)可視化技術(shù)數(shù)據(jù)科學(xué)科學(xué)可視化(ScientificVisualization或ScientificVisualisation)是科學(xué)之中的一個(gè)跨學(xué)科研究與應(yīng)用領(lǐng)域,主要關(guān)注的是三維現(xiàn)象的可視化,如建筑學(xué)、氣象學(xué)、醫(yī)學(xué)或生物學(xué)方面的各種系統(tǒng)。重點(diǎn)在于對(duì)體、面以及光源等等的逼真渲染,或許甚至還包括某種動(dòng)態(tài)成分。就醫(yī)學(xué)數(shù)據(jù)(CT、MRI、PET等),常常聽說(shuō)的一條術(shù)語(yǔ)就是“醫(yī)學(xué)可視化”。
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年港口與航道工程師港口工程碼頭耐久性設(shè)計(jì)訓(xùn)練
- 2026屆廣東省揭陽(yáng)市產(chǎn)業(yè)園區(qū)中考語(yǔ)文最后一模試卷含解析
- 2026屆湖北省襄陽(yáng)市襄城區(qū)重點(diǎn)達(dá)標(biāo)名校中考二模物理試題含解析
- 四川省成都新都區(qū)七校聯(lián)考2026屆中考數(shù)學(xué)押題試卷含解析
- 2026屆湖北省鄂州梁子湖區(qū)四校聯(lián)考中考猜題英語(yǔ)試卷含答案
- 2025年中信銀行秋招試題及答案
- 2025年中國(guó)銀行真實(shí)面試題目及答案
- 山東省濰坊青州市2026屆中考英語(yǔ)考前最后一卷含答案
- 2025年長(zhǎng)沙銀行筆試題目及答案
- 2026屆江蘇省建湖縣中考二模數(shù)學(xué)試題含解析
- 學(xué)校食堂食品安全年度培訓(xùn)計(jì)劃(2025年)
- DB13-T1383-2011-二灰鋼渣混合料公路基層應(yīng)用技術(shù)指南-河北省
- 包裝車間質(zhì)量培訓(xùn)
- 施工方案-施工打圍方案
- ??抵腔酃さ亟鉀Q方案
- 2025年人力資源和社會(huì)保障局離職協(xié)議
- DB4403-T 67-2020 建設(shè)用地土壤污染風(fēng)險(xiǎn)篩選值和管制值
- 三年級(jí)脫式計(jì)算500題可直接打印
- 2024至2030年海釣抄網(wǎng)項(xiàng)目投資價(jià)值分析報(bào)告
- 專項(xiàng)24-正多邊形與圓-重難點(diǎn)題型
- 國(guó)家資格等級(jí)證書-驗(yàn)光員-2.視功能檢查評(píng)分表(助教學(xué)生填寫)
評(píng)論
0/150
提交評(píng)論