




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第3章大數(shù)據(jù)關鍵技術與應用3.1大數(shù)據(jù)技術總體框架3.2大數(shù)據(jù)存儲技術3.3大數(shù)據(jù)處理技術3.4大數(shù)據(jù)分析技術重點:大數(shù)據(jù)存儲技術大數(shù)據(jù)處理技術大數(shù)據(jù)分析技術本章重點云計算是新的商業(yè)模式。大數(shù)據(jù)的本質是應需求驅動的,大數(shù)據(jù)的應用最終使云計算模式落地。大數(shù)據(jù)來源于互聯(lián)網、企業(yè)系統(tǒng)和物聯(lián)網等信息系統(tǒng),經過大數(shù)據(jù)處理系統(tǒng)的分析挖掘,產生新的知識用以支撐決策或業(yè)務的自動智能化運轉。大數(shù)據(jù)對數(shù)據(jù)存儲、處理和分析三個環(huán)節(jié)影響較大,需要對技術架構和算法進行重構,是當前和未來一段時間大數(shù)據(jù)技術創(chuàng)新的焦點。3.1大數(shù)據(jù)技術總體框架3.1.1總體目標
業(yè)務環(huán)節(jié)業(yè)務需求技術實現(xiàn)產生大數(shù)據(jù)操作數(shù)據(jù)容量:每18個月翻一番數(shù)據(jù)類型:多于80%的數(shù)據(jù)來自于非機構化數(shù)據(jù)數(shù)據(jù)速度:數(shù)據(jù)來源不斷變化,數(shù)據(jù)快速流通采用一個統(tǒng)一的大數(shù)據(jù)處理方法,使得企業(yè)用戶能夠快速處理和加載海量數(shù)據(jù),能夠在統(tǒng)一平臺上對不同類型的數(shù)據(jù)進行處理和存儲聚集管理大數(shù)據(jù)的復雜性,需要分類、同步、聚合、集成、共享、轉換、剖析、遷移、壓縮、備份、保護、恢復、清洗、淘汰各種類型數(shù)據(jù)一個數(shù)據(jù)集成和管理平臺,集成各種工具和服務來管理異構存儲環(huán)境下的各類數(shù)據(jù)分析當前數(shù)據(jù)倉庫和數(shù)據(jù)挖掘擅長分析結構化的事后數(shù)據(jù),在大數(shù)據(jù)環(huán)境下要求能夠分析非結構化數(shù)據(jù),包括流文件,并能進行實時分析和預測建立一個實時預測分析解決方案,整合結構化的數(shù)據(jù)倉庫和非結構化的分析工具利用滿足不同的用戶對大數(shù)據(jù)的實時的多種訪問方式任何時間、任何地點、任何設備上的集中共享和協(xié)同需要理解大數(shù)據(jù)怎樣影響業(yè)務,怎樣轉化為行動對大數(shù)據(jù)影響業(yè)務和戰(zhàn)略進行建模,并利用技術來實現(xiàn)這些模型3.1.2架構設計原則
3.1.3總體架構的特點大數(shù)據(jù)技術架構具備集成性、架構先進性和實時性等特點。1.統(tǒng)一、開發(fā)、集成的大數(shù)據(jù)平臺可基于開源軟件實現(xiàn)Hadoop基礎工具的整合;能與關系型數(shù)據(jù)庫、數(shù)據(jù)倉庫通過JDBC/ODBC連接器進行連接;能支持地理分布的在線用戶和程序,并行執(zhí)行從查詢到戰(zhàn)略分析的請求;用戶友好的管理平臺,包括HDFS瀏覽器和類SQL查詢語言等;提供服務、存儲、調度和高級安全等企業(yè)級應用的功能。2.低成本的可擴展性支持大規(guī)??蓴U展性,到PB級數(shù)據(jù)源;支持極大的混合工具負載,各種數(shù)據(jù)類型包括任意層次的數(shù)據(jù)結構、圖像、日志等;節(jié)點間無共享(sharing-nothing)的集群數(shù)據(jù)庫體系結構;可編程和可擴展的應用服務器;簡單的配置、開發(fā)和管理;以線性成本擴展并提供一致的性能;標準的普通硬件。3.實時地分析執(zhí)行在聲明或發(fā)現(xiàn)數(shù)據(jù)結構之前裝載數(shù)據(jù);能以數(shù)據(jù)全載入的速度來準確更新數(shù)據(jù);可調度和執(zhí)行復雜的幾百個節(jié)點的工作流;在剛裝載的數(shù)據(jù)上,可實時執(zhí)行流分析查詢;能以大于每秒1GB的速率來分析數(shù)據(jù)。4.可靠性當處理節(jié)點失效時,自動恢復并保持流程連續(xù),不需要中斷操作。3.2.1大數(shù)據(jù)如何存儲3.2大數(shù)據(jù)存儲技術按照數(shù)據(jù)的結構不同,數(shù)據(jù)可以被分為結構化的大數(shù)據(jù)、非結構化的大數(shù)據(jù)和半結構化的大數(shù)據(jù)。1、結構化數(shù)據(jù)存儲結構化數(shù)據(jù)通常是人們所熟悉的數(shù)據(jù)庫中的數(shù)據(jù),它本身就是一種對現(xiàn)實已發(fā)生事項的關鍵要素進行抽取的有價信息。數(shù)據(jù)庫中積累的結構化數(shù)據(jù)越來越多,一些問題顯現(xiàn)出來,這些問題可以分為四類:1)歷史數(shù)據(jù)和當前數(shù)據(jù)都存在一個數(shù)據(jù)庫中,導致系統(tǒng)處理速度越來越慢;2)歷史數(shù)據(jù)與當前數(shù)據(jù)的期限如何界定;3)歷史數(shù)據(jù)應如何存儲;4)歷史數(shù)據(jù)的二次增值如何解決。3.2.1大數(shù)據(jù)如何存儲分布式數(shù)據(jù)庫系統(tǒng)是數(shù)據(jù)庫技術和網絡技術相結合的產物。它通常使用體積較小的計算機系統(tǒng),每臺計算機可單獨放在一個地方,每臺計算機中都有DBMS的一份完整的副本,并具有自己局部的數(shù)據(jù)庫。位于不同地點的許多計算機通過網絡互相連接,共同組成一個完整的。全局的大型數(shù)據(jù)庫。分布式數(shù)據(jù)庫系統(tǒng)具有以下主要特點:1)物理分布性:數(shù)據(jù)不是存儲在一個場地上,而是存儲在計算機網絡的多個場地上;2)邏輯整體性:數(shù)據(jù)物理分布在各個場地上,但邏輯上是一個整體,它們被所有的用戶(全局用戶)共享,并由一個主節(jié)點統(tǒng)一管理;3)具有靈活的體系結構,適應分布式的管理和控制機構;4)適當增加數(shù)據(jù)冗余度,系統(tǒng)的可靠性高,可用性好;5)可擴展性好,易于集成現(xiàn)有的系統(tǒng)。3.2.1大數(shù)據(jù)如何存儲2、非結構化數(shù)據(jù)存儲常見的非結構化數(shù)據(jù)包括文件、圖片、視頻、語音、郵件和聊天記錄等,和結構化數(shù)據(jù)相比,這些數(shù)據(jù)是未被抽象出有價值信息的數(shù)據(jù),需要經過二次加工才能得到其有價值信息。由于非結構化數(shù)據(jù)的生產不受格式約束、不受主題約束,人人隨時都可以根據(jù)自己的視角和觀點進行創(chuàng)作生產,所以數(shù)據(jù)量比結構化數(shù)據(jù)大。3.2.1大數(shù)據(jù)如何存儲由于非結構化數(shù)據(jù)具有形式多樣、體量大、來源廣、維度多、有價內容密度低、分析意義大等特點,所以要為了分析而存儲,而不是為了存儲而存儲,即存儲工作是分析的前置工作。當前針對非結構化數(shù)據(jù)的特點均采用分布式文件系統(tǒng)方式來存儲這些數(shù)據(jù)。分布式文件系統(tǒng)將數(shù)據(jù)存儲在物理上分散的多個存儲節(jié)點上,對這些節(jié)點的資源進行統(tǒng)一管理和分配,并向用戶提供文件系統(tǒng)訪問接口,主要解決本地文件系統(tǒng)在文件大小、文件數(shù)量、打開文件數(shù)等的限制問題。3.2.1大數(shù)據(jù)如何存儲分布式文件系統(tǒng)的數(shù)據(jù)存儲解決方案歸根結底是將大問題劃分為小問題。大量的文件均分布到多個數(shù)據(jù)服務器上后,每個數(shù)據(jù)庫服務器存儲的文件數(shù)量就少了。此外,還能將單個服務器桑存儲的文件數(shù)降到單機能解決的規(guī)模;對于很大的文件,可以將大文件劃分成多個相對較小的片段,存儲在多個數(shù)據(jù)服務器上。3.2.1大數(shù)據(jù)如何存儲3.2.1大數(shù)據(jù)如何存儲3.半結構化數(shù)據(jù)存儲半結構化數(shù)據(jù)是指數(shù)據(jù)中既有結構化數(shù)據(jù),也有非結構化數(shù)據(jù),比如,攝像頭回轉給后端的數(shù)據(jù)中有位置、時間等結構化數(shù)據(jù),還有圖片等非結構化數(shù)據(jù)。這些數(shù)據(jù)是以數(shù)據(jù)流的形式傳遞的,所以半結構化數(shù)據(jù)也叫流數(shù)據(jù)。對流數(shù)據(jù)進行處理的系統(tǒng)叫做數(shù)據(jù)流系統(tǒng)。數(shù)據(jù)流的特點是數(shù)據(jù)不是永久存儲在數(shù)據(jù)庫中的靜態(tài)數(shù)據(jù),而是瞬時處理的源源不斷的連續(xù)數(shù)據(jù)流。在大量的數(shù)據(jù)流應用系統(tǒng)中,數(shù)據(jù)流來自于地理上不同位置的數(shù)據(jù)源,非常適合分布式查詢處理。(2)知名標準化組織和協(xié)會積極開展云計算標準研制(3)新興標準化組織和協(xié)會有序推動云計算標準研制3.2.1大數(shù)據(jù)如何存儲大數(shù)據(jù)存儲對底層硬件架構和文件系統(tǒng)在性價比上的要求要大大高于傳統(tǒng)技術,同時要求能夠彈性擴展存儲容量。但以往網絡附著存儲系統(tǒng)(NAS)和存儲區(qū)域網絡(SAN)等體系,存儲和計算的物理設備分離,它們之間要通過網絡接口連接,這導致在進行數(shù)據(jù)密集型計算時I/O容易成為瓶頸。3.2.2大數(shù)據(jù)存儲問題對于大數(shù)據(jù)存儲,以下問題不能忽視。容量問題延遲問題安全問題成本問題數(shù)據(jù)的積累靈活性應用感知針對小用戶3.2.2大數(shù)據(jù)存儲問題3.3大數(shù)據(jù)處理技術3.3.1storm平臺Storm是由BackType開發(fā)的實時處理系統(tǒng),BackType現(xiàn)在已在Twitter麾下。Storm為分布式實時計算提供了一組通用原語,可被用于“流處理”之中,實時處理消息并更新數(shù)據(jù)庫。這是管理隊列及工作者集群的另一種方式。Storm也可被用于“連續(xù)計算”。在計算時就將結果以流的形式輸出給用戶。它還可被用于“分布式RPC”,以并行的方式運行昂貴的運算。Storm可以方便地在一個計算機集群中編寫與擴展復雜的實時計算,Storm保證每個消息都會得到處理,而且速度很快,在一個小集群中,每秒可以處理數(shù)以百萬計的消息。
Storm的主要特點簡單的編程模型可以使用各種編程語言容錯性水平擴展可靠的消息處理快速本地模式Storm的集群架構
Storm集群由一個主節(jié)點和多個工作節(jié)點組成:master節(jié)點和worker節(jié)點。master節(jié)點運行一個守護進程,叫Nimbus,類似Hadoop中的JobTracker。Nimbus負責在集群中分發(fā)代碼,分配任務,以及故障檢測。每個worker節(jié)點運行一個守護進程,叫Supervisor。Supervisor監(jiān)聽分配到該服務器的任務,開始和結束工作進程。每個worker進程執(zhí)行topology的一個子集;一個運行中的topology由許多分布在多臺機器上的worker進程組成。Nimbus和Supervisors之間是通過Zookeeper協(xié)調。此外,Nimbus和Supervisor是能快速失?。╢ail-fast)和無狀態(tài)的(stateless);所有的狀態(tài)都保存在Zookeeper或者在本地磁盤中。當Nimbus或者Supervisors出現(xiàn)問題重啟后會自動恢復,好像什么也沒發(fā)生過。這項設計使得Storm集群變得非常穩(wěn)定健壯。
Storm集群架構
Storm的缺點
1)編程門檻對普通用戶來說較高2)框架本身不提供持久化存儲3)框架不提供消息接入模塊4)StormUI功能過于簡單5)Bolt復用困難6)存在Nimbus單點失效問題7)Topology不支持動態(tài)部署3.4.1“大數(shù)據(jù)”分析特點及技術路線3.3大數(shù)據(jù)分析技術大數(shù)據(jù)分析具有五個特點:1)大數(shù)據(jù)分析應是可視化分析2)大數(shù)據(jù)分析的理論核心是數(shù)據(jù)挖掘算法3)大數(shù)據(jù)分析最重要的應用領域之一就是預測性分析4)大數(shù)據(jù)分析廣泛應用于網絡數(shù)據(jù)挖掘5)大數(shù)據(jù)分析離不開數(shù)據(jù)質量和數(shù)據(jù)管理2.大數(shù)據(jù)分析技術路線目前的大數(shù)據(jù)分析主要有兩條技術路線,一是憑借先驗知識人工建立數(shù)學模型來分析數(shù)據(jù),二是通過建立人工智能系統(tǒng),使用大量樣本數(shù)據(jù)進行訓練,讓機器代替人工獲得從數(shù)據(jù)中提取知識的能力。3.4.2“大數(shù)據(jù)”分析過程數(shù)據(jù)分析過程的主要活動由識別信息需求、收集數(shù)據(jù)、分析數(shù)據(jù)、評價并改進數(shù)據(jù)分析的有效性組成。3.4.3“大數(shù)據(jù)”分析方法數(shù)據(jù)分析是指用適當?shù)慕y(tǒng)計分析方法對收集來的大量數(shù)據(jù)進行分析,將它們加以匯總和理解并消化,以求最大化地開發(fā)數(shù)據(jù)的功能,發(fā)揮數(shù)據(jù)的作用。數(shù)據(jù)分析是為了提取有用信息和形成結論而對數(shù)據(jù)加以詳細研究和概括總結的過程。數(shù)據(jù)也稱觀測值,是實驗、測量、觀察、調查等的結果。數(shù)據(jù)分析中所處理的數(shù)據(jù)分為定性數(shù)據(jù)和定量數(shù)據(jù)。大數(shù)據(jù)分析的研究對象是大數(shù)據(jù),它側重于在海量數(shù)據(jù)中的分析挖掘出有用的信息。對應于大數(shù)據(jù)分析的兩條技術路線其分析方法可分為兩類:一是統(tǒng)計分析方法,另一個是數(shù)據(jù)挖掘方法。1.統(tǒng)計分析方法1)描述性統(tǒng)計分析2)回歸分析3)因子分析4)方差分析2.數(shù)據(jù)挖掘方法1)分類和預測2)關聯(lián)規(guī)則3)聚類3.統(tǒng)計分析和數(shù)據(jù)挖掘的聯(lián)系與區(qū)別1)統(tǒng)計分析和數(shù)據(jù)挖掘的聯(lián)系從兩者的理論來源來看,它們都源于統(tǒng)計理論基礎理論,因此它們的許多方法在很多情況下都是同根同源的。比如,概率論和隨機事件是統(tǒng)計學的核心理論之一,統(tǒng)計分析中的抽樣估計需要應用該理論,而在數(shù)據(jù)挖掘技術的貝葉斯分類中,就是這些統(tǒng)計理論的發(fā)展和延伸。2)統(tǒng)計分析和數(shù)據(jù)挖掘的區(qū)別統(tǒng)計分析的基礎之一是概率論,在對數(shù)據(jù)進行統(tǒng)計分析時,分析人員常常需要對數(shù)據(jù)分布和變量間的關系做假設,確定用什么概率函數(shù)來描述變量間的關系,以及如何檢驗參數(shù)的統(tǒng)計顯著性;但是在數(shù)據(jù)挖掘的應用中,分析人員不需要對數(shù)據(jù)分布做任何假設,數(shù)據(jù)挖掘的算法會自動尋找變量間的關系。因此,相對于海量、雜亂的數(shù)據(jù),數(shù)據(jù)挖掘技術有明顯的應用優(yōu)勢。3.5全球大數(shù)據(jù)公司盤點
IBM網址:/上線時間:2011年5月公司建址:美國紐約州阿蒙克市業(yè)務方向:主要面向大企業(yè)等市場亞馬遜網址:/上線時間:2009年公司地址:美國華盛頓州西雅圖業(yè)務方向:主要面向大企業(yè)等市場3.5全球大數(shù)據(jù)公司盤點
甲骨文網址:/上線時間:2010年公司地址:美國加利福尼亞州紅木灘業(yè)務方向:主要面向大企業(yè)等市場3.5全球大數(shù)據(jù)公司盤點
谷歌網址:/上線時間:2011年公司地址:美國加利福尼亞州山景城融資狀況:谷歌業(yè)務業(yè)務方向:面向各類企業(yè)市場3.5全球大數(shù)據(jù)公司盤點
微軟網址:/上線時間:2011年公司地址:美國華盛頓州雷德蒙市業(yè)務方向:面向各類企業(yè)3.5全球大數(shù)據(jù)公司盤點
EMC網址:/上線時間:不詳公司地址::美國馬薩諸塞州Hopkinton市業(yè)務方向:面向各類企業(yè)市場3.5全球大數(shù)據(jù)公司盤點
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年河南省周口市國家公務員公共基礎知識預測試題含答案
- 摩托漂移基礎知識培訓課件
- 擺鐘的工作原理
- 微機接口技術試題及答案
- 2025配偶間房產互贈協(xié)議書
- 2025年上海市房屋租賃代理合同標準版樣本
- 2025四川省房屋租賃合同模板
- 2025年春季部編版初中數(shù)學教學設計八年級下冊第1課時 正比例函數(shù)的概念
- 2025合同風險控制:融資租賃業(yè)務中咨詢服務合同糾紛
- 2025成都勞動合同書樣本
- 稅種知識培訓課件圖片
- 產品開發(fā)項目管理制度
- 液氧站安全管理制度
- 水洗泥項目可行性研究報告模板及范文
- 2025年廣東省康復產業(yè)藍皮書-前瞻產業(yè)研究院
- 2025至2030年中國中間相炭微球行業(yè)市場運行格局及產業(yè)需求研判報告
- 2025至2030年中國汽車空調過濾器行業(yè)市場現(xiàn)狀分析及前景戰(zhàn)略研判報告
- 2025年陜西、山西、寧夏、青海高考化學真題+解析(參考版)
- 【課件】《合并同類項》說課課件++2024-2025學年人教版數(shù)學七年級上冊
- 2021年12月大學英語四級考試真題及答案(第1套)
- 【課件】新高三啟動主題班會:啟航高三逐夢未來
評論
0/150
提交評論