




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第三章大數據技術3.1大數據的由來案例導讀——案例1:地震預測呼喚大數據每年,地震在全球范圍內導致超過1.3萬人死亡,500萬人受傷或財產受損,每年造成的經濟損失高達120億美元。多年以來,科學家們主要依靠對震頻的監(jiān)測來預測地震。盡管還有很多潛在的地震預警信號,如大氣條件的變化或大量蛇群的遷移,但基于這些信號做出的預測準確率太低,無法在現(xiàn)實中實施??茖W家們利用大數據技術對來自衛(wèi)星和氣象領域的數據進行統(tǒng)計分析,開啟了一種全新的地震預測方法。該項技術可以幫助人類最早能提前30天預測到全球主要地震多發(fā)國家即將發(fā)生的震級6級以上的大地震,精準度已經達到90%。曾經提前9天預測到了2015年3月3日在印尼發(fā)生的6.4級地震。案例1:地震預測呼喚大數據案例導讀——案例2:山東省淄博市高青縣:數字特產商城帶動“亮村共富”“以數智點亮鄉(xiāng)村,帶動產業(yè)發(fā)展,推動鄉(xiāng)村振興”,高青縣緊緊抓住用好農業(yè)數字時代重大機遇,立足農業(yè)資源稟賦和產業(yè)化優(yōu)勢,凝心聚力推進數字鄉(xiāng)村體系建設,以數字技術改造提升農業(yè)全鏈條、農村各領域和農民新生活,推動農業(yè)向規(guī)?;?、高端化、綠色化、智慧化轉型升級。高青縣以農業(yè)農村大數據平臺為基礎,服務經營主體和村民。利用大數據平臺,獲取經營主體信息、生產信息、種植環(huán)境信息、土地利用信息、農作物長勢信息以及農業(yè)投入品、農機使用等數據,對農業(yè)產業(yè)的整體情況做實時、動態(tài)分析,為經營主體提供適合農作物生長、適合市場需求的種植建議,運用現(xiàn)代科技幫農民把地種好、把農產品賣好。通過大數據分析,反映消費群體對優(yōu)質農產品的購買需求和購買能力以及喜歡的購買渠道和方式,讓生產者看到優(yōu)質農產品帶來的溢價和復購率,以市場和消費者認同的方式開展標準化生產,降低生產風險,提高產品價值,促進農業(yè)產業(yè)發(fā)展。案例2:山東省淄博市高青縣:數字特產商城帶動“亮村共富”案例導讀——案例2:山東省淄博市高青縣:數字特產商城帶動“亮村共富”“這個變化,對于江蘇農田算是利好。”近日,南京農業(yè)大學胡高教授團隊聯(lián)合全國測報體系在國際著名生態(tài)學期刊《全球變化生物學》(英文名《GlobalChangeBiology》)上發(fā)表研究論文,揭示全球變暖背景下,降水和風場條件的變化致使我國褐飛虱遷飛模式發(fā)生轉變,為遷飛害蟲的準確測報和科學防控提供了重要理論參考,為推動農業(yè)強國、助力鄉(xiāng)村全面振興、保障糧食安全做出積極貢獻。南京農業(yè)大學胡高教授團隊基于1978—2019年全國300多個站點的稻飛虱監(jiān)測數據和相關氣象資料,研究發(fā)現(xiàn),自2001年以來,影響我國夏季盛行氣流和降水時空分布的重要大氣環(huán)流系統(tǒng)西太平洋副熱帶高壓(簡稱副高)強度顯著增強、位置明顯西移。受此影響,我國長江以南地區(qū)夏季西南氣流顯著變弱、降水增加,江淮地區(qū)降水顯著減弱,不利于褐飛虱的遠距離遷飛,致使華南地區(qū)7月遷出褐飛虱的遷飛距離顯著變短,長江下游地區(qū)褐飛虱遷入量顯著下降。本次研究發(fā)現(xiàn),由于褐飛虱遷飛模式的轉變,長江下游不再成為褐飛虱7月份遷飛的主降區(qū)?!皩τ诮K包括南京來說,這個研究發(fā)現(xiàn)是好消息。對于害蟲的防控,依托完整的網絡系統(tǒng),這些年,江蘇的褐飛虱蟲害確實較少?!焙哒f。圖3-3為胡高教授團隊在稻田里做研究。案例3:南京高校“科技原創(chuàng)力”|追著害蟲“跑”,用大數據預測遷飛趨勢案例導讀——案例4:亞馬遜公司利用大數據預測消費者特征隨著互聯(lián)網的快速發(fā)展和數字經濟的日益繁榮,大數據和人工智能(AI)已經成為企業(yè)制定營銷策略的重要工具。亞馬遜作為全球領先的電子商務平臺,其營銷策略也緊密結合了大數據和AI技術,實現(xiàn)了精準的目標客戶定位和個性化的營銷推廣。根據消費者以往的搜索記錄和消費記錄等大數據,推算出消費者的消費偏好、經濟水平、消費習慣等,甚至可從瀏覽某件商品的時間推斷消費者對某類商品和品牌的青睞程度,進而分析消費者購買某種商品的可能性,當可能性大于某個標準時,亞馬遜公司就會自動發(fā)貨。為了提高預判發(fā)貨的準確性,降低物流成本,亞馬遜公司采取了一些措施。例如,剛上市的暢銷商品能吸引大量的消費者購買,往往會采用預判發(fā)貨;對于經常在亞馬遜網站購物且購買力較強的消費者,更加傾向于預判發(fā)貨。此外,還會根據消費者瀏覽商品的時間、購買商品的數量等推算其猶豫時間,對于猶豫時間較短的消費者,也會預判發(fā)貨。基于大數據的消費者行為分析和市場趨勢預測,亞馬遜可以為用戶提供個性化的推薦服務和定制化產品。例如,通過用戶的購物歷史和瀏覽行為,可以向用戶推薦相關的產品、服務和內容,提高用戶滿意度和忠誠度。案例4:亞馬遜公司利用大數據預測消費者特征3.1.1大數據是什么《華爾街日報》將大數據、智能化生產和無線網絡革命稱為引領未來繁榮的三大技術變革?!笆澜缃洕搲眻蟾嬷赋龃髷祿樾仑敻唬瑑r值堪比石油。因此,目前世界各國紛紛將開發(fā)利用大數據作為奪取新一輪競爭制高點的重要舉措。維基百科對大數據的定義簡單明了:大數據是指利用常用軟件工具捕獲、管理和處理數據所耗時間超過可容忍時間的數據集。也就是說,大數據是一個體量特別大、數據類別特別多的數據集,并且這樣的數據集無法用傳統(tǒng)數據庫工具對其內容進行抓取、管理和處理。Gartner的定義(3V定義)如下:大數據是大容量、高速度和多種類的信息資產,需要新的處理形式來實現(xiàn)增強的決策、洞察力發(fā)現(xiàn)和流程優(yōu)化。目前對于大數據沒有統(tǒng)一的定義,一般認為大數據(bigdata)指無法在一定時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。大數據泛指大規(guī)模、超大規(guī)模的數據集,因可從中挖掘出有價值的信息而備受關注,但利用傳統(tǒng)方法無法進行有效分析和處理。3.1.2大數據是怎么來的大數據概念起源于美國,是由思科、威睿、甲骨文、IBM等公司倡議發(fā)展起來的。當前,從IT技術到數據積累,都已經發(fā)生重大變化。“大數據”的名稱來自未來學家托夫勒所著的《第三次浪潮》。早在1980年,著名未來學家托夫勒在其所著的《第三次浪潮》中就熱情地將“大數據”稱頌為“第三次浪潮的華彩樂章”。《自然》雜志在2008年9月推出了名為“大數據”的封面專欄。從2009年開始,“大數據”才成為互聯(lián)網技術行業(yè)中的熱門詞匯。最早應用“大數據”的是麥肯錫(McKinsey)公司對“大數據”進行收集和分析的設想,他們發(fā)現(xiàn)各種網絡平臺記錄的個人海量信息具備潛在的商業(yè)價值,于是投入大量人力物力進行調研,在2011年6月發(fā)布了關于“大數據”的報告,該報告對“大數據”的影響、關鍵技術和應用領域等都進行了詳盡的分析。該公司在《大數據:創(chuàng)新、競爭和生產力的下一個前沿領域》報告中稱:“數據,已經滲透到當今每一個行業(yè)和業(yè)務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來?!丙溈襄a公司的報告得到了金融界的高度重視,而后逐漸受到了各行各業(yè)的關注。數據不再是社會生產的“副產物”,而是可被二次乃至多次加工的原料,從中可以探索更大的價值,數據變成了生產資料。大數據技術是以數據為本質的新一代革命性信息技術,在數據挖潛過程中,能夠帶動理念、模式、技術及應用實踐的創(chuàng)新。1.大數據概念的起源3.1.2大數據是怎么來的(1)信息科技進步人們通過社會網絡、互聯(lián)網、健康、金融、經濟、交通等活動過程所產生的各類數據,包括微博、病人醫(yī)療記錄、文字、圖形、視頻等信息,呈現(xiàn)出爆炸式增長的趨勢。(2)互聯(lián)網誕生物聯(lián)網發(fā)展、社交網絡發(fā)展以及智能終端誕生都成為促進數據爆炸式增長的因素,數據的增長大概遵循摩爾定律。摩爾定律即在信息技術更新?lián)Q代越來越快的情況下,集成電路上的晶體管數量增加一倍,性能提高一倍,價格降低一半。這是電子工業(yè)歷史上第一個被發(fā)現(xiàn)并得到公認的“定律”,它揭示了電子技術和計算機技術的飛速發(fā)展。如在醫(yī)療領域,各類數字設備、科學實驗與觀察所采集的數據,如攝像頭不斷產生的數字信號,醫(yī)療物聯(lián)網不斷產生的人的各項特征值,氣象業(yè)務系統(tǒng)采集設備所采集的海量數據等。(3)云計算技術的發(fā)展云計算一般由數量驚人的計算機群構成,例如谷歌云計算擁有的服務器就超過100萬臺,如圖3-7所示,路由器和交換機讓谷歌的數據中心之間進行對話,光纖網絡速度是平時家用網速的20萬倍,云計算讓普通人體驗每秒10萬億次的運算能力,如此強大的計算能力,可以模擬核爆炸,預測氣候變化和市場發(fā)展趨勢。2.大數據的來源3.1.3大數據的3V和5V特征3.1.2大數據是怎么來的1.Volume(數量)最初考慮到數據的容量,是指被大數據解決方案所處理的數據量大,并且在持續(xù)增長。數據容量大能夠影響數據的獨立存儲和處理需求,同時還能對數據準各、數據恢復、數據管理的操作產生影響。如今,存儲的數據數量正在急劇增長中,我們存儲所有事物,包括:環(huán)境數據、財務數據、醫(yī)療數據、監(jiān)控數據等。有關數據量的對話已從TB級別轉向PB級別,并且不可避免地會轉向ZB級別??墒?,隨著可供企業(yè)使用的數據量不斷增長,可處理、理解和分析的數據的比例卻不斷下降。2.Variety(種類、多樣性)數據多樣性指的是大數據解決方案需要支持多種不同格式、不同類型的數據。數據多樣性給企業(yè)帶來的挑戰(zhàn)包括數據聚合、數據交換、數據處理和數據存儲等。隨著傳感器、智能設備以及社交協(xié)作技術的激增,企業(yè)中的數據也變得更加復雜,因為它不僅包含傳統(tǒng)的關系型數據,還包含來自網頁、互聯(lián)網日志文件(包括單擊流數據)、搜索索引、社交媒體論壇、電子郵件、文檔、主動和被動系統(tǒng)的傳感器數據等原始、半結構化和非結構化數據。種類表示所有的數據類型。其中,爆發(fā)式增長的一些數據,如互聯(lián)網上的文本數據、位置信息、傳感器數據、視頻等,用企業(yè)中主流的關系型數據庫是很難存儲的,它們都屬于非結構化數據。當然,在這些數據中,有一些是過去就一直存在并保存下來的。和過去不同的是,除了存儲,還需要對這些大數據進行分析,并從中獲得有用的信息。例如監(jiān)控攝像機中的視頻數據。近年來,超市、便利店等零售企業(yè)幾乎都配備了監(jiān)控攝像機,最初目的是防范盜竊,但現(xiàn)在也出現(xiàn)了使用監(jiān)控攝像機的視頻數據來分析顧客購買行為的案例。3.1.2大數據是怎么來的3.Velocity(速度/速率)數據產生和更新的頻率,也是衡量大數據的一個重要特征。在大數據環(huán)境中,數據產生得很快,在極短的時間內就能聚集起大量的數據集。從企業(yè)的角度來說,數據的速率代表數據從進入企業(yè)邊緣到能夠馬上進行處理的時間。處理快速的數據輸入流,需要企業(yè)設計出彈性的數據處理方案,同時也需要強大的數據存儲能力。有效處理大數據需要在數據變化的過程中對它的數量和種類執(zhí)行分析,而不只是在它靜止后執(zhí)行分析。根據數據源的不同,速度不可能一直很快。例如,核磁共振掃描圖像不會像高流量Web服務器的日志條目生成速度那么快。例如一分鐘內能夠生成下列數據:35萬條推文、300小時的YouTube視頻、1.71億份電子郵件,以及330GB飛機引擎的傳感器數據。4.Veracity(真實和準確)IBM在3V的基礎上又歸納總結了第四個V——Veracity(真實和準確)。“只有真實而準確的數據才能讓對數據的管控和治理真正有意義。隨著社交數據、企業(yè)內容、交易與應用數據等新數據源的興起,傳統(tǒng)數據源的局限性被打破,企業(yè)愈發(fā)需要有效的信息治理以確保其真實性及安全性?!?.1.2大數據是怎么來的5.Value(價值)IDC(互聯(lián)網數據中心)說:“大數據是一個貌似不知道從哪里冒出來的大的動力。但是實際上,大數據并不是新生事物。然而,它確實正在進入主流,并得到重大關注,這是有原因的。廉價的存儲、傳感器和數據采集技術的快速發(fā)展、通過云和虛擬化存儲設施增加的信息鏈路,以及創(chuàng)新軟件和分析工具,正在驅動著大數據。大數據不是一個‘事物’,而是一個跨多個信息技術領域的動力/活動。大數據技術描述了新一代的技術和架構,其被設計用于:通過使用高速(Velocity)的采集、發(fā)現(xiàn)和/或分析,從超大容量(Volume)的多樣(Variety)數據中經濟地提取價值(Value)。3.2大數據處理(二維碼)3.2.1大數據處理的基本流程(1)數據采集數據采集(數據獲取)是大數據處理的最初任務,為大數據處理收集足夠的、未經加工的原始數據。數據的來源包括內部自有數據和外部他營數據。(2)數據清洗對海量數據進行分析時,需要把原始數據導入一個大型分布式的數據庫中,并且做一些簡單的清洗和預處理工作。(3)數據存儲在現(xiàn)代大數據處理中,海量數據的存儲是一門重要的學科,其研究的目標包括如何有效地解決物理存儲媒介的問題。(4)數據可視化數據可視化,是指依據圖形、圖像、計算機視覺以及用戶界面,通過對數據的表現(xiàn)形式進行可視化的解釋。(5)深度學習目前人工智能立足于神經網絡,進行深度學習,其算法是利用輸入的數據自行模擬和構建相應的模型結構。海量數據、高速并行運算、更優(yōu)化的算法,促成AI發(fā)展的突破。3.2.1大數據處理的基本流程大數據技術框架3.2.1大數據處理的基本流程大數據處理的基本步驟3.2.1大數據處理的基本流程大數據處理的金字塔模型3.2.2大數據處理工具和技術發(fā)展趨勢現(xiàn)有的大數據處理工具大多是對開源的Hadoop平臺進行改進并將其應用于各種場景。Hadoop完整生態(tài)系統(tǒng)中各子系統(tǒng)都有相應大數據處理的改進產品。(1)大數據處理工具目前,大數據相關的技術和工具非常多,它們成為大數據采集、存儲、處理和呈現(xiàn)的有力武器,給企業(yè)提供了更多的選擇。隨著大數據的不斷發(fā)展和研究,大數據各個環(huán)節(jié)的技術發(fā)展呈現(xiàn)出新的趨勢。(3)大數據技術發(fā)展趨勢云計算為大數據提供了可以彈性擴展、相對便宜的存儲空間和計算資源,使得中小企業(yè)也可以像亞馬遜一樣通過云計算來完成大數據分析。云計算IT資源龐大、分布較為廣泛,是異構系統(tǒng)較多的企業(yè)及時準確處理數據的有力方式,甚至是唯一的方式。(2)基于云的數據分析平臺3.3大數據的應用3.3大數據的應用3.3大數據的應用(1)商品零售大數據阿里巴巴公司根據淘寶網上中小企業(yè)的交易狀況篩選出財務健康和講究誠信的企業(yè),對它們發(fā)放無須擔保的貸款。(3)證監(jiān)會大數據通過建立相關的模型,設定一定的預警指標,即相關指標達到某個預警點時,監(jiān)控系統(tǒng)會自動報警。(2)消費大數據亞馬遜“預測式發(fā)貨”的新專利,可以通過對用戶數據的分析,在他們正式下單購物前,提前發(fā)出包裹。3.3大數據的應用3.3大數據的應用(4)金融大數據阿里“水文模型”會按小微企業(yè)類目、級別等統(tǒng)計商戶的相關“水文數據”。(6)制造業(yè)大數據當軟件“察覺”風扇速度、溫度、濕度或其他變量偏離規(guī)定數值時,它就會自動調節(jié)相應的機構。(5)金融服務大數據商所聯(lián)合中央氣象臺及相關金融機構、產業(yè)主體,積極推進該指數在保險和場外衍生品等方面的應用。3.3大數據的應用3.3大數據的應用(7)醫(yī)療大數據最新的百度靈醫(yī)智惠醫(yī)療大數據解決方案已幫助多家三甲醫(yī)院進行數據治理及分析,充分挖掘數據潛力(9)公安大數據大數據可以幫助警方定位最易受到不法分子侵擾的區(qū)域,創(chuàng)建一張犯罪高發(fā)地區(qū)熱點圖和時間表。(8)交通大數據用戶只需打開百度地圖,搜索目的地,選擇駕車模式規(guī)劃路線,點擊“未來出行”按鍵,即可查看不同時間段的預估通行時間。3.3大數據的應用3.3大數據的應用(10)文化傳媒大數據系統(tǒng)將用戶視頻點播的基礎數據如評分、播放、快進、時間等存儲在數據庫中,然后通過數據分析,推斷出用戶可能喜愛的影片,并為他提供定制化的推薦。(12)人體健康大數據可穿戴設備和智能
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 武漢科技職業(yè)學院《數字圖像處理(雙語)》2024-2025學年第一學期期末試卷
- 科爾沁藝術職業(yè)學院《道路橋梁軟件及應用》2024-2025學年第一學期期末試卷
- 蚌埠經濟技術職業(yè)學院《科學素養(yǎng)培育及提升》2024-2025學年第一學期期末試卷
- 貴州建設職業(yè)技術學院《光影材質表現(xiàn)》2024-2025學年第一學期期末試卷
- 湖南高速鐵路職業(yè)技術學院《FID技術》2024-2025學年第一學期期末試卷
- 2025年初中信息技術考試試題及答案解析
- 檔案管理員考試試卷及答案
- 2025年保育專業(yè)理論測試題及答案
- 國貿電工面試題目及答案
- 化工企業(yè)三級安全教育廠級培訓試題及答案
- mel04版修訂當前有效允許1個完全或部分丟失
- 工作場所空氣中粉塵測定
- 護理查房前庭大腺囊腫護理查房
- YD5121-2010 通信線路工程驗收規(guī)范
- JJF 1871-2020磁電式轉速傳感器校準規(guī)范
- GB/T 26825-2011FJ抗靜電防腐膠
- 人教版3-6年級單詞表
- 我國核電發(fā)展前景分析課件
- 水泥穩(wěn)定碎石基層試驗檢測技術共課件
- (完整版)幼兒識字卡片配圖:大全
- PCB常見不良品圖片及改善措施匯總
評論
0/150
提交評論