大數(shù)據(jù)生態(tài)系統(tǒng)科學圖譜組成及生態(tài)發(fā)展_第1頁
大數(shù)據(jù)生態(tài)系統(tǒng)科學圖譜組成及生態(tài)發(fā)展_第2頁
大數(shù)據(jù)生態(tài)系統(tǒng)科學圖譜組成及生態(tài)發(fā)展_第3頁
大數(shù)據(jù)生態(tài)系統(tǒng)科學圖譜組成及生態(tài)發(fā)展_第4頁
大數(shù)據(jù)生態(tài)系統(tǒng)科學圖譜組成及生態(tài)發(fā)展_第5頁
已閱讀5頁,還剩43頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數(shù)據(jù)生態(tài)系統(tǒng)科學圖譜組成及生態(tài)發(fā)展(一)大數(shù)據(jù)的生態(tài)發(fā)展在喜新厭舊的技術初創(chuàng)企業(yè)界,已有3年歷史“大數(shù)據(jù)”聽起來似乎已經過氣了。雖然Hadoop在2006年已經出來,但“大數(shù)據(jù)”這個概念大概是在2011到2014年左右才真正火起來的。也就是在這段時間里,至少是在媒體或者專家眼里,“大數(shù)據(jù)”成為了新的“金子”或者“石油”。然而,至少在我跟業(yè)界人士交談中,大家越來越感覺到這項技術已經在某種程度上陷入了停滯。2015年可能是數(shù)據(jù)領域的那些酷小子轉移興趣,開始沉迷于AI以及機器智能、深度學習等許多相關概念的年份。圖6.1:2016年大數(shù)據(jù)版圖拋開不可避免的炒作周期曲線態(tài)勢不管,我們的“大數(shù)據(jù)版圖”已經進入第4個年頭了,趁這個時候退一步來反思一下去年發(fā)生了什么,思考一下這個行業(yè)的未來會怎樣是很有意義的。大數(shù)據(jù)有趣的一點在于,它不再像當初經歷過那樣有可能成為炒作的題材了。經過炒作周期后仍能引起廣泛興趣的產品和服務往往那些大家能夠接觸、可以感知,或者與大眾相關聯(lián)的:比如移動應用、社交網絡、可穿戴、虛擬現(xiàn)實等。但大數(shù)據(jù)基本上就是管道設施的一種。當然,大數(shù)據(jù)為許多消費者或商業(yè)用戶體驗提供了動力,但它的核心是企業(yè)技術:數(shù)據(jù)庫、分析等,這些東西都是在后端運行的,沒幾個人能看得見。就像在那個世界工作的任何人都知道那樣,用一個晚上的時間就想適應企業(yè)端的新技術是不可能的。大數(shù)據(jù)現(xiàn)象在早期主要是受到了與一批骨干互聯(lián)網公司的共生關系的推動,這些公司既是核心大數(shù)據(jù)技術的重度用戶,同時也是這些技術的創(chuàng)造者。這些公司突然間面對著規(guī)模前所未有的龐大數(shù)據(jù)時,由于本身缺乏傳統(tǒng)的(昂貴的)基礎設施,也沒有辦法招募到一些最好的工程師,所以只好自己動手來開發(fā)所需的技術。后來隨著開源運動的迅速發(fā)展,一大批此類新技術開始共享到更廣的范圍。然后,一些互聯(lián)網大公司的工程師離職去創(chuàng)辦自己的大數(shù)據(jù)初創(chuàng)企業(yè)。其他的一些“數(shù)字原生”公司,包括嶄露頭角的獨角獸公司,也開始面臨著互聯(lián)網大公司的類似需求,由于它們自身也沒有傳統(tǒng)的基礎設施,所以自然就成為了那些大數(shù)據(jù)技術的早期采用者。而早期的成功又導致了更多的創(chuàng)業(yè)活動發(fā)生,并獲得了更多的VC資助,從而帶動了大數(shù)據(jù)的起勢??焖侔l(fā)展了幾年之后,現(xiàn)在我們面臨的是更加廣闊、但也更加棘手的機遇:讓中等規(guī)模到跨國公司級別的更大一批企業(yè)采用大數(shù)據(jù)技術。這些公司跟“數(shù)字原生”公司不一樣的是,他們沒有從零開始的有利條件。而且他們失去的會更多:這些公司絕大部分的現(xiàn)有技術基礎設施都是成功的。那些基礎設施當然未必是功能完備的,組織內部許多人也意識到對自己的遺留基礎設施進行現(xiàn)代化應該是早點好過晚點,但他們不會一夜間就把自己的關鍵業(yè)務取代掉。任何革命都需要過程、預算、項目管理、試點、局部部署以及完備的安全審計等。大企業(yè)對由年輕的初創(chuàng)企業(yè)來處理自己基礎設施的關鍵部分的謹慎是可以理解的。還有,令創(chuàng)業(yè)者感到絕望的是,許多企業(yè)仍頑固地拒絕把數(shù)據(jù)遷移到云端。(二)大數(shù)據(jù)生態(tài)系統(tǒng)的組建還需要理解的另一個關鍵是:大數(shù)據(jù)的成功組建不在于實現(xiàn)技術的某一方面,而是需要把一連串的技術、人和流程糅合到一起。你得捕捉數(shù)據(jù)、存儲數(shù)據(jù)、清洗數(shù)據(jù)、查詢數(shù)據(jù)、分析數(shù)據(jù)并對數(shù)據(jù)進行可視化。這些工作一部分可以由產品來完成,而有的則需要人來做。一切都需要無縫集成起來。最后,要想讓所有這一切發(fā)揮作用,整個公司從上到下都需要樹立以數(shù)據(jù)驅動的文化,這樣大數(shù)據(jù)才不僅僅是個“東西”,而且就是那個關鍵的“東西”。即有一堆艱苦的工作要做。所以,這就是在經過幾年引人矚目的初創(chuàng)企業(yè)如雨后春筍冒頭,VC投資頻登頭條后,我們開始步入大數(shù)據(jù)的部署期和早期成熟期的原因。更有前瞻性的大公司在2011到2013年間開始實驗大數(shù)據(jù)技術,推出了若干的Hadoop試點計劃或者嘗試一些點方案。他們招募了各種各樣此前并不存在的崗位。他們進行了各種努力,包括把全部數(shù)據(jù)都堆到一個數(shù)據(jù)容器,然后希望緊跟著就會發(fā)生奇跡。在逐步建設自己的內部能力,試驗了各種供應商,從試點計劃到生產中的局部部署,然后到現(xiàn)在爭論要不要全企業(yè)鋪開。許多情況下,他們正處在這樣一個重要的拐點上,即經過大數(shù)據(jù)基礎設施的數(shù)年建設后,能夠展示的成果還不多,至少在公司內部的商業(yè)用戶看來是這樣的。但是大量吃力不討好的工作已經做完了,現(xiàn)在開始進入到有影響力的應用部署階段了。只是從目前來看,這種建構在核心架構之上的應用數(shù)量還不成比例。接下來的一波大公司大多數(shù)時候對大數(shù)據(jù)技術是持觀望態(tài)度的,對于整個大數(shù)據(jù)方面的東西,他們還在心存一定程度困惑中觀望。直到最近,他們還在指望某個大型供應商會提供一個一站式的解決方案,不過現(xiàn)在看來這種情況近期內并不會出現(xiàn)。他們看待這個大數(shù)據(jù)版圖的態(tài)度是心懷恐懼,在想自己是不是真的需要跟這一堆看起來并沒有什么不同的初創(chuàng)企業(yè)合作,然后修補出各種解決方案。隨著該領域的創(chuàng)業(yè)活動持續(xù)進行以及資金的不斷流入,加上適度的少量退出,以及越來越活躍的技術巨頭,使得這個領域的公司日益增多,最后匯成了這幅2016版的大數(shù)據(jù)版圖。這張圖已經很擠了,而且還有很多都沒辦法列進去,但在基本趨勢方面,行動開始慢慢從左轉到右,從基礎設施層轉移到分析層乃至應用層,“大數(shù)據(jù)原生應用”已經在迅速冒頭—這多少符合了我們原先的一些預期。即便在數(shù)據(jù)庫的世界里,新興的廠家也越來越多。多到市場已經難以承受的地步,這里發(fā)生了很多令人興奮的事情,從圖形數(shù)據(jù)庫的成熟,到專門數(shù)據(jù)庫的推出,乃至于CockroachDB的出現(xiàn),數(shù)據(jù)倉庫也在演變。其實最近出現(xiàn)復興的AI很大程度上算是大數(shù)據(jù)的產物。深度學習背后的算法基本上是幾十年前就誕生了的,但直到最近能夠以足夠便宜、足夠快速地應用到大規(guī)模數(shù)據(jù)之后才發(fā)揮出了它的最大潛能。AI與大數(shù)據(jù)之間的關系如此緊密,以至于業(yè)界專家現(xiàn)在認為AI已經令人懊惱地“與大數(shù)據(jù)陷入了熱戀當中”。不過反過來,AI現(xiàn)在也在幫助大數(shù)據(jù)實現(xiàn)后者的承諾。分析對AI/機器學習越來越多的關注也符合大數(shù)據(jù)下一步演進的趨勢:現(xiàn)在數(shù)據(jù)我都有了,但究竟從中能得到什么樣的洞察呢?當然,這件事情可以讓數(shù)據(jù)科學家來解決,從一開始他們的角色就是實現(xiàn)機器學習,否則的話就得想出模型來發(fā)現(xiàn)數(shù)據(jù)的意義。但是機器智能現(xiàn)在正在逐漸發(fā)揮輔助數(shù)據(jù)科學家的作用—只需要倒騰數(shù)據(jù),新興的產品就能從中提煉出數(shù)學公式或者自動建立和推薦最有可能返回最佳結果的數(shù)據(jù)科學模型。一批新的AI公司提供的產品能夠自動識別像圖像這樣的復雜實體,或者提供強大的預測性分析。但不管怎樣,AI/機器學習絕不是大數(shù)據(jù)分析唯一值得關注的趨勢。大數(shù)據(jù)BI平臺的普遍成熟及其日益增強的實時能力也是一個令人興奮的趨勢。隨著一些核心基礎設施的挑戰(zhàn)得到解決,大數(shù)據(jù)應用層正在快速構建。在企業(yè)內部,已經出現(xiàn)了各種工具來幫助跨多個核心職能的企業(yè)用戶。比方說,銷售和營銷的大數(shù)據(jù)應用通過處理大規(guī)模的內外部數(shù)據(jù)來幫助找出哪位客戶可能會購買、續(xù)約或者流失,且速度越來越實時化??头脦椭鷤€性化服務。人力應用幫助找出如何吸引和挽留最好的員工等。專門的大數(shù)據(jù)應用幾乎在任何一個垂直行業(yè)都有出現(xiàn),從醫(yī)療保健到金融、時尚乃至于執(zhí)法。有兩個趨勢值得強調一下:首先,這些應用很多都是“大數(shù)據(jù)原生”的,本身都是依托在最新的大數(shù)據(jù)技術基礎上開發(fā)的,代表了一種客戶無須部署底層大數(shù)據(jù)技術即可利用大數(shù)據(jù)的有趣方式—因為那些底層技術已經是打包的,至少對于特定功能來說是這樣的。比方說,ActionIQ就是在Spark基礎上開發(fā)的,所以它的客戶能夠在營銷部門利用Spark的威力而不需要自己部署Spark,這種情況下是沒有“裝配線”的。其次,AI在應用層也有很強大的存在。比方說,在貓捉老鼠的安全領域中,AI被廣泛用來對付黑客,實時識別和對抗網絡攻擊。去年已經出現(xiàn)了一個AI驅動的數(shù)字助手行業(yè),支持從任務自動化到會議安排以及購物等幾乎一切事情。這些解決方案對AI的依賴程度不一,從幾乎100%自動化到“有人參與”等情況各不相同,但是可以明確的是,人的能力在AI幫助下得到了增強。(三)大數(shù)據(jù)生態(tài)系統(tǒng)的內涵大數(shù)據(jù)企業(yè)生態(tài)系統(tǒng)最早是由美國學者JamesMoore提出的,他借用生態(tài)學的概念來解釋企業(yè)組織及其與環(huán)境之間的關系。Moore,J.認為企業(yè)生態(tài)系統(tǒng)是指由相互作用的企業(yè)組織與個人所形成的經濟群體,包括生產商、銷售商、消費者、供應商、投資商、競爭者、互補者、企業(yè)所有者以及有關的政府。該概念表示企業(yè)生態(tài)系統(tǒng)是一個相對開放的系統(tǒng),這個系統(tǒng)中所有的組成要素相互影響、相互促進;同時,企業(yè)生態(tài)系統(tǒng)也會受到外部環(huán)境的制約和影響,企業(yè)生態(tài)系統(tǒng)在各種內外部力量的作用下得到演化和發(fā)展?!按髷?shù)據(jù)”背景下,企業(yè)生態(tài)系統(tǒng)和外部環(huán)境之間的邊界日趨模糊,信息共享和知識溢出已成為企業(yè)生態(tài)系統(tǒng)中各成員合作競爭與協(xié)同演化的主要方式之一。在這種競爭環(huán)境下,信息和知識成了企業(yè)經營管理中的重要生產要素,也是決定企業(yè)創(chuàng)新能力的關鍵。通過選擇和構建良好的企業(yè)生態(tài)系統(tǒng),從外界獲取有價值的數(shù)據(jù)和知識,是企業(yè)提高核心競爭力、獲取持續(xù)競爭優(yōu)勢的重要途徑。(四)大數(shù)據(jù)生態(tài)系統(tǒng)的重新審視6.4.1產業(yè)環(huán)境:行業(yè)融合與細分協(xié)同演化企業(yè)生態(tài)理論認為,包含眾多企業(yè)的企業(yè)生態(tài)系統(tǒng)與外部環(huán)境相互交流相互影響,企業(yè)生態(tài)系統(tǒng)不僅受到外部環(huán)境的制約,同時它也具備影響甚至改變環(huán)境的能力。隨著“大數(shù)據(jù)”時代的到來,企業(yè)生態(tài)系統(tǒng)的產業(yè)環(huán)境發(fā)生了革命性的變化,呈現(xiàn)出產業(yè)融合與細分協(xié)同演化格局。一方面,產業(yè)融合愈發(fā)明顯,以前認為不相關的行業(yè)通過“大數(shù)據(jù)”技術有了內在的關聯(lián),行業(yè)之間潛在的價值關聯(lián)有了新的表現(xiàn)形式。如傳統(tǒng)的零售企業(yè)開始進軍電子商務;物業(yè)管理公司通過對社區(qū)視頻數(shù)據(jù)分析能夠開展個性化的廣告業(yè)務;從事電子商務的阿里巴巴已涉及金融、物流、云計算等行業(yè)。因此,“大數(shù)據(jù)”的挖掘和應用促進了行業(yè)間的融合,也創(chuàng)新了企業(yè)的盈利模式。另一方面,“大數(shù)據(jù)”時代企業(yè)生態(tài)系統(tǒng)變得更加開放,競爭異常激烈,廣泛而清晰地對“大數(shù)據(jù)”進行挖掘和細分,找到企業(yè)在垂直領域的業(yè)務和應用,已經成為企業(yè)脫穎而出形成競爭優(yōu)勢的重要方式。如社交網絡的發(fā)展,誕生了一批專注開發(fā)導購應用程序的企業(yè),通過收集客戶社交數(shù)據(jù)挖掘其內在的商品偏好和需求,為相關的電子商務企業(yè)提供商品導購服務。例如,“大數(shù)據(jù)”也不再是企業(yè)生態(tài)系統(tǒng)中的大企業(yè)所獨占,中小企業(yè)也可以從“大數(shù)據(jù)”中挖掘有價值的信息,成為細分市場的核心資源,為自身的業(yè)務提供支持。因此,在“大數(shù)據(jù)”時代,企業(yè)生態(tài)系統(tǒng)面臨的產業(yè)環(huán)境精彩紛呈,這種產業(yè)環(huán)境的變化改變了企業(yè)對外部資源需求的內容和方式,創(chuàng)新了企業(yè)創(chuàng)造價值、傳遞價值的方式和路徑,模糊化了企業(yè)生態(tài)系統(tǒng)的資源邊界、市場邊界和契約邊界,企業(yè)生態(tài)系統(tǒng)必將形成以“大數(shù)據(jù)”為核心資源的業(yè)務融合與市場細分協(xié)同演化,重構其內部價值網絡和外部關系網絡。6.4.2運營模式:基于“大數(shù)據(jù)”的協(xié)同運作在“大數(shù)據(jù)”背景下,企業(yè)生態(tài)系統(tǒng)的協(xié)同合作更為緊密和精確,基于“大數(shù)據(jù)”資源構建以流程優(yōu)化和客戶訂單為導向的協(xié)同運作模式已成為企業(yè)生態(tài)系統(tǒng)的主要運營模式,基于“大數(shù)據(jù)”應用的協(xié)同運作主要表現(xiàn)為:協(xié)同設計。在產品的設計階段,加強伙伴間的合作與溝通,傾聽客戶的心聲、考慮產品對環(huán)境的影響是提高產品競爭優(yōu)勢的關鍵,這就需要企業(yè)生態(tài)系統(tǒng)的各成員共同參與進行協(xié)同設計。傳統(tǒng)的設計都是基于企業(yè)自身收集的歷史數(shù)據(jù)和靜態(tài)數(shù)據(jù),不能實時動態(tài)的把握客戶的需求變化?!按髷?shù)據(jù)”資源的開發(fā)和應用,為企業(yè)生態(tài)系統(tǒng)的協(xié)同設計提供了數(shù)據(jù)支撐和智力支持,企業(yè)通過構建基于“大數(shù)據(jù)”的協(xié)同產品設計平臺,實時獲取設計研發(fā)企業(yè)、生產制造企業(yè)、銷售企業(yè)等成員企業(yè)的反饋信息和知識溢出,為提高產品設計質量提供了智力支持。同時,“大數(shù)據(jù)”技術的應用,能實時捕捉客戶的需求數(shù)據(jù),針對每一個消費者進行完全個性化設計。例如,玩具行業(yè)巨頭樂高基于在線訂購的允許客戶組裝他們自己樂高套件的樂高工廠,對其所需的玩具進行自我設計,以實現(xiàn)客戶參與玩具的創(chuàng)造。協(xié)同生產。協(xié)同生產的本質就是企業(yè)在應用CAD、CAM、CAPP、ERP等管理信息系統(tǒng)的基礎上,將任務實時合理的安排給各成員企業(yè)和企業(yè)內部的各制造單元。這個過程難度最大的就是對來自企業(yè)內外部制造過程中多態(tài)的、異構的、實時數(shù)據(jù)的整合和應用,“大數(shù)據(jù)”技術開發(fā)和平臺應用為實現(xiàn)協(xié)同生產提供了便利。如以MapReduce和Hadoop為代表的非關系數(shù)據(jù)分析技術,可以直接對復雜異構的數(shù)據(jù)進行分析,避免了傳統(tǒng)數(shù)據(jù)庫耗費大量時間從不同來源抽取數(shù)據(jù)加以合并才能用于分析的復雜過程。通過應用這些“大數(shù)據(jù)”處理技術,企業(yè)實時收集處理供應商數(shù)據(jù)、客戶訂單數(shù)據(jù)、生產車間信息、競爭對手信息、外部市場需求等信息,協(xié)調原材料提供商、半成品生產企業(yè)、產品生產企業(yè)等合作伙伴的生產決策,優(yōu)化企業(yè)生態(tài)系統(tǒng)的流程,實現(xiàn)協(xié)同生產。協(xié)同庫存。傳統(tǒng)的企業(yè)庫存管理中,滿足客戶需求的同時又盡可能地降低庫存成本一直是企業(yè)需要破解的難題,“大數(shù)據(jù)”的開發(fā)和應用為解決這一難題提供了可能。企業(yè)生態(tài)系統(tǒng)中的合作伙伴,通過對客戶企業(yè)的實時交易數(shù)據(jù)、實時生產信息、消費信息等數(shù)據(jù)的分析,能提前預判客戶市場的需要并進行庫存補給和管理。例如,全球最大的零售企業(yè)沃爾瑪和寶潔公司,建立了基于衛(wèi)星分析的聯(lián)合庫存管理系統(tǒng),寶潔公司每天能對沃爾瑪銷售自己產品的實時數(shù)據(jù)進行分析,并根據(jù)分析結果預測和補充庫存,既保證了客戶的需要又降低了庫存成本。協(xié)同物流。物流運輸規(guī)劃的基石是數(shù)據(jù),“大數(shù)據(jù)”的特征為企業(yè)生態(tài)系統(tǒng)中各合作伙伴實施協(xié)同物流提供了天然優(yōu)勢。企業(yè)通過實時收集和分析供應鏈系統(tǒng)中原材料、半成品、產品的物流運輸信息,從供應鏈系統(tǒng)視角對各節(jié)點企業(yè)的倉儲選址、物流配送線路、逆向物流進行協(xié)調優(yōu)化,充分利用物流信息資源提高物流效率。如Teradata天睿公司通過建立了“大數(shù)據(jù)”分析系統(tǒng),通過獲取、整合、分析客戶企業(yè)、物流設備、物流運輸線路、天氣等的信息數(shù)據(jù),做到智能化的實時安排物流線路,實現(xiàn)整個合作伙伴的協(xié)同物流。因此,通過“大數(shù)據(jù)”的整合和分析,企業(yè)生態(tài)系統(tǒng)的合作伙伴能優(yōu)化企業(yè)內外部流程,提高產品質量,降低資源消耗,實現(xiàn)個性化定制生產的同時能更好地適應環(huán)境的變化,以實現(xiàn)協(xié)同運作。(五)大數(shù)據(jù)生態(tài)系統(tǒng)資源的多元化在“大數(shù)據(jù)”背景下,信息數(shù)據(jù)已經成為企業(yè)生態(tài)系統(tǒng)中核心資產,數(shù)據(jù)傳遞、信息共享已經成為企業(yè)生態(tài)系統(tǒng)中成員的重要合作途徑。由于“大數(shù)據(jù)”資源的動態(tài)配置和應用,企業(yè)生態(tài)系統(tǒng)的合作方式呈現(xiàn)出多元化,主要有:業(yè)務外包(Outsourcing)。以“大數(shù)據(jù)”為核心資源的運營體系中,“大數(shù)據(jù)”運行的基礎設施和技術開發(fā)具有投入成本大、風險高等特征;同時,“大數(shù)據(jù)”資源具有易復制、易傳播、價值流失快等特點,這就使得企業(yè)在“大數(shù)據(jù)”資源獲取和利用方面傾向選擇生態(tài)系統(tǒng)中合作伙伴的分享與合作,以實現(xiàn)企業(yè)生態(tài)系統(tǒng)中“大數(shù)據(jù)”資源的柔性配置和規(guī)模效率,因此,業(yè)務外包已經成為企業(yè)生態(tài)系統(tǒng)協(xié)同商務的主要形式之一,如IT設施外包、“大數(shù)據(jù)”軟件開發(fā)外包、數(shù)據(jù)管理外包等。眾包(Crowdsourcing)。眾包是指把傳統(tǒng)上由指定代理人(如雇員)完成的任務以公開選拔的形式外包給大量不特定的個人去做的行為。眾包模式的實質是對離散、零亂的資源的有效利用,深度挖掘“大數(shù)據(jù)”蘊含企業(yè)生態(tài)系統(tǒng)的集體智慧,為企業(yè)提供創(chuàng)意設計、生產規(guī)劃、市場推廣、策略評估等服務。如IT產業(yè),開源社區(qū)(openSourceCommunity)就是眾包的典型模式,各大IT巨頭都爭相采取這種模式構建自己的創(chuàng)新生態(tài)系統(tǒng)。許多世界性大公司也都建立了自己的網絡平臺或者借助眾包中介(CrowdsourcingIntermediates)以眾包方式解決技術、創(chuàng)意、設計等原來由企業(yè)內部流程和資源完成的活動。例如,加拿大礦產公司GoldCorp為解決RedLake礦區(qū)的礦脈定位問題,在網絡上公布了該礦區(qū)幾十年來全部的地質數(shù)據(jù),在短短幾周內收到大量網民的積極反饋,并根據(jù)網民建議從110個礦點中準確地發(fā)現(xiàn)了80多處礦藏。共同創(chuàng)造(Co-creation)。共同創(chuàng)造就是讓企業(yè)生態(tài)系統(tǒng)中各成員企業(yè)、消費者、投資商、競爭者、互補者、政府組織等主體共同參與產品的價值創(chuàng)造。從企業(yè)生態(tài)系統(tǒng)商務圈的視角看,實現(xiàn)共同創(chuàng)造的基本途徑就是企業(yè)整合來自多元系統(tǒng)的數(shù)據(jù),包括外部生態(tài)系統(tǒng)、外部供應商、消費者等獲取信息數(shù)據(jù)以共創(chuàng)產品。例如,玩具行業(yè)巨頭樂高基于在線訂購的允許客戶組裝他們自己樂高套件的樂高工廠,以實現(xiàn)客戶參與玩具的創(chuàng)造。(六)大數(shù)據(jù)生態(tài)系統(tǒng)的個性化精準細分當今市場的競爭日趨激烈,客戶需求高度個性化,產品的生命周期越來越短,傳統(tǒng)的企業(yè)數(shù)據(jù)主要來自客戶信息、產品、交易等結構化數(shù)據(jù),難以對客戶的潛在需求進行精確的預判和個性化的細分?!按髷?shù)據(jù)”技術的開發(fā)和應用,使得企業(yè)進行客戶市場決策所依賴的市場信息在數(shù)據(jù)量、數(shù)據(jù)結構、數(shù)據(jù)模態(tài)和時效上都發(fā)生了根本性的變化,能對客戶的行為、狀態(tài)、商務圈等非結構化的數(shù)據(jù)進行動態(tài)的監(jiān)控和實時挖掘,深刻洞察用戶消費動機和偏好。因此,這種“大數(shù)據(jù)”的變化引發(fā)了企業(yè)生態(tài)系統(tǒng)營銷環(huán)境的變革,讓企業(yè)在目標市場選擇和營銷管理決策時進行定量分析和提前預判,通過對其生態(tài)系統(tǒng)中客戶信息全面的分析和處理,就能實現(xiàn)精準營銷,降低營銷成本,提高營銷效果。(七)大數(shù)據(jù)生態(tài)系統(tǒng)的演化6.7.1“大數(shù)據(jù)”時代企業(yè)生態(tài)系統(tǒng)演化的內在機理企業(yè)生態(tài)系統(tǒng)是一個動態(tài)、復雜系統(tǒng),其演化過程表現(xiàn)出很強的自組織過程特征,根據(jù)耗散結構理論,系統(tǒng)產生自組織現(xiàn)象,形成耗散結構,必須滿足以下條件:開放及開放到一定程度、遠離平衡態(tài)、非線性相互作用和漲落。這些條件在企業(yè)生態(tài)系統(tǒng)的形成過程中均有著自己的作用,也是促使企業(yè)生態(tài)系統(tǒng)演化的內在條件和動力。在“大數(shù)據(jù)”背景下,企業(yè)生態(tài)系統(tǒng)這些自組織形成的條件顯得更加明顯和充分。企業(yè)生態(tài)系統(tǒng)的開放性及開放程度。企業(yè)生態(tài)系統(tǒng)不是封閉孤立的系統(tǒng),一方面,它必須不斷從周圍環(huán)境輸入維持其運行與發(fā)展所必需的能量、物質與信息;另一方面,它又必須將自身所產生的能量、物質或信息輸出給周圍環(huán)境,如產品提供、知識溢出、環(huán)境污染等。在“大數(shù)據(jù)”背景下,企業(yè)生態(tài)系統(tǒng)的開放性更加明顯,開放程度更高。表現(xiàn)為:①以互聯(lián)網、海量數(shù)據(jù)存儲、云計算等為代表的信息技術讓企業(yè)生態(tài)系統(tǒng)的成員從外界獲取產品、客戶、市場、競爭對手等方面的數(shù)據(jù)更加便利;②“大數(shù)據(jù)”的處理和應用,企業(yè)生態(tài)系統(tǒng)內部各合作伙伴之間的數(shù)據(jù)傳遞和信息共享更加頻繁,對企業(yè)決策的影響愈發(fā)明顯;③各企業(yè)生態(tài)系統(tǒng)之間的知識溢出更加豐富,合作與競爭呈現(xiàn)出多元化趨勢。因此,基于“大數(shù)據(jù)”的連接與融合,企業(yè)生態(tài)系統(tǒng)傳統(tǒng)的企業(yè)邊界、行業(yè)邊界愈發(fā)模糊,企業(yè)生態(tài)系統(tǒng)的開放性更加明顯,企業(yè)不僅要適應環(huán)境,參與開放系統(tǒng)的競爭,而且也具備了影響和改變環(huán)境的條件和能力。企業(yè)生態(tài)系統(tǒng)遠離平衡態(tài)。企業(yè)生態(tài)系統(tǒng)遠離平衡態(tài)意味著系統(tǒng)內部存在著物質轉換、能量流動、信息傳遞等各種活動狀態(tài),呈現(xiàn)出各種活動的交鋒與激烈碰撞,這種碰撞在企業(yè)生態(tài)系統(tǒng)中表現(xiàn)為遠離平衡態(tài)的企業(yè)間橫向整合和縱向應用,如行業(yè)競爭對手的消失以及潛在威脅者的加入、企業(yè)戰(zhàn)略聯(lián)盟的形成與瓦解、供應鏈中節(jié)點企業(yè)的退出與新合作伙伴的加入,客戶的維系與流失。企業(yè)生態(tài)系統(tǒng)內部的非線性相互作用。根據(jù)自組織理論,企業(yè)生態(tài)系統(tǒng)的自組織演化就是在其內部大量子系統(tǒng)以及企業(yè)和其他組織在既競爭又協(xié)同的非線性相互作用下發(fā)生、發(fā)展的。“大數(shù)據(jù)”背景下,企業(yè)生態(tài)系統(tǒng)的非線性作用一方面表現(xiàn)為企業(yè)間的競爭關系,各企業(yè)力爭通過對“大數(shù)據(jù)”的分析來獲取資源、技術、客戶,并采取保密和限制等措施防止自身的數(shù)據(jù)外泄和知識溢出,以使自身取得功能上的有利態(tài)勢與協(xié)商中的有利地位,從而加速了非平衡的競爭關系。另一方面,“大數(shù)據(jù)”技術促使企業(yè)生態(tài)系統(tǒng)內部進一步協(xié)同合作,以電子商務平臺以及中介網絡平臺的雙方或多方互動數(shù)據(jù),掌握了更精確更豐富的決策信息,對降低市場中供需雙方的信息不對稱、解決市場失效、提高企業(yè)利潤起著關鍵的作用;如供應鏈伙伴之間通過監(jiān)測、分析、共享各環(huán)節(jié)的數(shù)據(jù)實現(xiàn)聯(lián)合庫存和準時制造,提升了整個生態(tài)系統(tǒng)伙伴的競爭力。因此,“大數(shù)據(jù)”背景下,企業(yè)生態(tài)系統(tǒng)各要素之間表現(xiàn)為既競爭又合作的非線性作用,推動企業(yè)生態(tài)系統(tǒng)的優(yōu)化和動態(tài)發(fā)展。企業(yè)生態(tài)系統(tǒng)的漲落。漲落指系統(tǒng)參量在一個數(shù)值上下震蕩的現(xiàn)象,它是系統(tǒng)形成有序結構的原始動力,企業(yè)生態(tài)系統(tǒng)漲落的結果是使偏離平衡態(tài)的系統(tǒng)恢復到原來的狀態(tài),或者使處于某一臨界點上的系統(tǒng)達到一種新的穩(wěn)定狀態(tài),呈現(xiàn)出原有狀態(tài)所不具備的新功能,實現(xiàn)企業(yè)生態(tài)系統(tǒng)的升級與進化?!按髷?shù)據(jù)”背景下,企業(yè)生態(tài)系統(tǒng)的各成員表現(xiàn)得更為動態(tài)和不確定性,其結構也更具脆弱性,以知識為核心要素的技術創(chuàng)新對企業(yè)生態(tài)系統(tǒng)漲落的沖擊力更大。因此,有價值的數(shù)據(jù)是企業(yè)制定戰(zhàn)略決策、技術創(chuàng)新、挖掘顧客需求的指南針,也是改變企業(yè)生態(tài)系統(tǒng)的有序結構、形成企業(yè)生態(tài)系統(tǒng)耗散結構的觸發(fā)器,從而促使企業(yè)生態(tài)系統(tǒng)偏離原有的穩(wěn)定狀態(tài),進入新的穩(wěn)定狀態(tài)。6.7.2“大數(shù)據(jù)”時代企業(yè)生態(tài)系統(tǒng)演化的外部機制上面基于自組織理論分析了“大數(shù)據(jù)”時代企業(yè)生態(tài)系統(tǒng)演化的內在機理,這是決定企業(yè)生態(tài)系統(tǒng)演化的方向和狀態(tài),但各組織在企業(yè)生態(tài)系統(tǒng)演化的過程中還得經過環(huán)境的選擇,只有適應環(huán)境并得以健康發(fā)展的企業(yè)生態(tài)系統(tǒng)才是真正的演化,所以,環(huán)境選擇成為企業(yè)生態(tài)系統(tǒng)演化的外部機制。在“大數(shù)據(jù)”背景下,企業(yè)生態(tài)系統(tǒng)面對的環(huán)境選擇更為復雜,外部環(huán)境可能是企業(yè)生態(tài)系統(tǒng)的穩(wěn)定有序演化的助推器,也可能是破壞和干擾企業(yè)生態(tài)系統(tǒng)有序運行的導火線。外部環(huán)境的選擇主要包括三個方面:第一,企業(yè)生態(tài)系統(tǒng)之間的復雜競爭關系,企業(yè)生態(tài)系統(tǒng)之間基于數(shù)據(jù)情報的市場爭奪、技術競爭和產品較量更為直接和激烈;另一方面,被“大數(shù)據(jù)”信息包圍的企業(yè)生態(tài)系統(tǒng)開放程度更高、界限更為模糊,企業(yè)生態(tài)系統(tǒng)之間呈現(xiàn)出協(xié)同、融合等狀態(tài),如企業(yè)生態(tài)系統(tǒng)之間的知識溢出、技術創(chuàng)新呈現(xiàn)出相互學習、相互促進。這種基于“大數(shù)據(jù)”的連接與融合,會突破傳統(tǒng)的企業(yè)生態(tài)系統(tǒng)邊界,引發(fā)基于“大數(shù)據(jù)”的產業(yè)鏈延伸和行業(yè)變革。第二,“大數(shù)據(jù)”背景下,社會、經濟、文化等環(huán)境因素的改變,包括客戶需求和消費習慣呈現(xiàn)出完全的個性化和多樣化、“大數(shù)據(jù)”技術引導的政府政策的設計和選擇、企業(yè)生態(tài)文化融合性等方面都會直接沖擊到企業(yè)生態(tài)系統(tǒng)演化的速度和效果。第三,自然界因素,如企業(yè)生態(tài)系統(tǒng)生存發(fā)展過程中所需的自然資源、物質介質等自然界的因素。因此,“大數(shù)據(jù)”的處理和應用,企業(yè)不僅能適應環(huán)境,參與開放系統(tǒng)的競爭,而且也具備了影響和改變環(huán)境的條件和能力。在企業(yè)生態(tài)系統(tǒng)自組織的內部動力和外部環(huán)境相互作用下,會進行方向性的戰(zhàn)略選擇,實現(xiàn)整個企業(yè)生態(tài)系統(tǒng)的優(yōu)化和升級。(八)大數(shù)據(jù)生態(tài)系統(tǒng)的構建策略在“大數(shù)據(jù)”時代,遵循企業(yè)生態(tài)系統(tǒng)的特征和演化規(guī)律,建構良好的企業(yè)生態(tài)系統(tǒng)是企業(yè)獲取持續(xù)競爭優(yōu)勢的關鍵。6.8.1構筑以“大數(shù)據(jù)”為核心資源的企業(yè)生態(tài)系統(tǒng)商業(yè)模式“大數(shù)據(jù)”技術的發(fā)展為信息的分離提供了平臺和工具,通過對“大數(shù)據(jù)”資源的分類整理和重新聚合,能夠形成新的信息和資源。對“大數(shù)據(jù)”資源規(guī)模經濟和范圍經濟的追求促使了以“大數(shù)據(jù)”為中心的價值鏈延伸,通過數(shù)據(jù)挖掘、分享、價值傳遞,必將引起企業(yè)生態(tài)系統(tǒng)的價值主張、業(yè)務流程、盈利模式、價值網絡等商業(yè)模式要素的改變,形成企業(yè)生態(tài)系統(tǒng)新的商業(yè)模式。例如,淘寶網在運行的過程中采集和存儲了海量的交易數(shù)據(jù),并構建了自己高性能的云存儲系統(tǒng)OceanBase,該云存儲系統(tǒng)形成了面向進駐商家的多項數(shù)據(jù)產品,不僅能為商品企業(yè)、淘寶賣家、交易中介、消費者提供各類優(yōu)化工具和數(shù)據(jù)服務;同時,利用OceanBase開源還可以為非淘寶的其他電子商務網站提供數(shù)據(jù)產品服務,為各類網站及社區(qū)提供電子商務解決方案,徹底完成了從交易平臺到為整個生態(tài)系統(tǒng)提供商務服務的角色轉變,創(chuàng)新了以“大數(shù)據(jù)”為核心資源的商業(yè)模式。6.8.2暢通企業(yè)生態(tài)系統(tǒng)的數(shù)據(jù)交流渠道“大數(shù)據(jù)”具有多樣化、數(shù)據(jù)量大、生產的和處理的速度快等特征,一般無法在可容忍的時間內用傳統(tǒng)IT技術和軟硬件工具對其進行感知、獲取、管理和服務。因此,建立在“大數(shù)據(jù)”基礎的企業(yè)生態(tài)系統(tǒng)必須打造先進的基礎設施,構建良好的數(shù)據(jù)處理和知識共享環(huán)境,暢通企業(yè)生態(tài)系統(tǒng)的數(shù)據(jù)交流渠道。這主要包括:①加大對計算機基礎設施建設的投入,建設高效的企業(yè)生態(tài)系統(tǒng)網絡、服務器處理和存儲系統(tǒng)、云計算平臺等硬件系統(tǒng),提高處理數(shù)據(jù)的效率;②促進數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫系統(tǒng)的建設,建立對非結構化數(shù)據(jù)、非數(shù)值型數(shù)據(jù)進行有效管理的數(shù)據(jù)存儲系統(tǒng);③開發(fā)科學的數(shù)據(jù)挖掘系統(tǒng),建立良好的數(shù)據(jù)收集、處理、挖掘、決策支持等軟件系統(tǒng);④要結合企業(yè)生態(tài)系統(tǒng)的實際應用開辟數(shù)據(jù)交流與共享的渠道,如電子社區(qū)、企業(yè)生態(tài)系統(tǒng)內部網、供應鏈協(xié)同知識管理系統(tǒng)等。通過構建良好的數(shù)據(jù)處理和知識共享系統(tǒng),就能形成“大數(shù)據(jù)”核心資產,提高“大數(shù)據(jù)”的傳遞和應用效益。6.8.3創(chuàng)新以“大數(shù)據(jù)”為基礎的關鍵業(yè)務和活動流程“大數(shù)據(jù)”背景下,企業(yè)生態(tài)系統(tǒng)的主體、資源、結構、價值、邊界網絡等要素進行不斷的動態(tài)演化和重構,創(chuàng)新以“大數(shù)據(jù)”為基礎的關鍵業(yè)務和活動流程是企業(yè)生態(tài)系統(tǒng)獲取競爭優(yōu)勢的動力源泉。創(chuàng)新以“大數(shù)據(jù)”為基礎的關鍵業(yè)務和活動流程主要包括:①基于“大數(shù)據(jù)”的流程優(yōu)化,提高業(yè)務流程的處理效率。如物流企業(yè)通過對合作伙伴多維“大數(shù)據(jù)”的分析,找出企業(yè)物流配送的最優(yōu)運輸模式和路線,提高物流配送效率;②應用“大數(shù)據(jù)”作為企業(yè)活動的關鍵資源,創(chuàng)新企業(yè)生態(tài)系統(tǒng)的價值活動。如玩具制造企業(yè),通過挖掘企業(yè)生態(tài)系統(tǒng)中合作伙伴的交易數(shù)據(jù)、客戶購買行為數(shù)據(jù)、產品質量數(shù)據(jù)等關鍵資源,改進產品的設計和性能,創(chuàng)造企業(yè)新的價值增長點;③以“大數(shù)據(jù)”活動取代企業(yè)傳統(tǒng)的業(yè)務和流程,形成企業(yè)生態(tài)系統(tǒng)新的經營方式和合作模式。如沃爾瑪和寶潔公司,通過對商業(yè)數(shù)據(jù)的分析形成聯(lián)合庫存管理,改變了傳統(tǒng)的庫存管理的業(yè)務類型和活動流程。6.8.4構建精確的客戶關系管理系統(tǒng)當今經濟已進入買方市場,實時的、動態(tài)的、個性化的客戶需求愈發(fā)難以預測,并成為企業(yè)生態(tài)系統(tǒng)中最不確定的因素。現(xiàn)有的企業(yè)CRM其數(shù)據(jù)主要來自客戶、產品、交易等結構化數(shù)據(jù),對客戶的行為、狀態(tài)、商務圈等非結構化的數(shù)據(jù)還不能動態(tài)的實時挖掘和處理,難以對客戶的潛在需求進行精確的預判和定位。在大數(shù)據(jù)背景下,數(shù)據(jù)量成倍增長,數(shù)據(jù)的類型也不斷地豐富,網頁、文件、日志,新的數(shù)據(jù)存儲形式不斷地興起,因此,如何構建先進的CRM,對客戶的信息進行全面的分析和處理,是企業(yè)決勝市場的關鍵。6.8.5培育以“大數(shù)據(jù)”處理和應用為中心的企業(yè)生態(tài)系統(tǒng)文化企業(yè)從海量雜亂無章的“大數(shù)據(jù)”里要挖掘出對企業(yè)決策有參考價值的數(shù)據(jù),需要經歷發(fā)現(xiàn)、提取、加工、創(chuàng)新等一系列復雜過程,同時需要企業(yè)生態(tài)系統(tǒng)全體成員參與數(shù)據(jù)的管理和控制,形成以數(shù)據(jù)為支持的決策導向。這就需要完善企業(yè)生態(tài)系統(tǒng)的數(shù)據(jù)處理制度,形成重視數(shù)據(jù)處理與應用的企業(yè)生態(tài)系統(tǒng)文化,主要措施包括:①建立數(shù)據(jù)收集和與處理的制度文化,包括數(shù)據(jù)收集、存儲制度、數(shù)據(jù)傳遞、共享制度、保障數(shù)據(jù)安全制度等;②建立起企業(yè)員工對數(shù)據(jù)處理和應用的理念,通過員工技能培訓、學習、討論、考核等方式深化企業(yè)員工對數(shù)據(jù)開發(fā)和應用的意識,讓企業(yè)生態(tài)系統(tǒng)全體成員普遍接受以數(shù)據(jù)應用和核心的工作方式;③在企業(yè)生態(tài)系統(tǒng)成員之間建立行之有效的知識激勵機制,包括知識明晰機制、知識績效機制、知識獎懲機制,以形成特有的、規(guī)?;?、不斷創(chuàng)新的知識資產和核心生產要素,培育重視“大數(shù)據(jù)”處理和應用的企業(yè)生態(tài)系統(tǒng)文化。(九)大數(shù)據(jù)分析系統(tǒng)架構之探討6.9.1Hadoop生態(tài)圈Hadoop是Apache軟件基金會所開發(fā)的并行計算框架與分布式文件系統(tǒng)。最核心的模塊包括HadoopCommon、HDFS與MapReduce。HDFS是Hadoop分布式文件系統(tǒng)(HadoopDistributedFileSystem)的縮寫,為分布式計算存儲提供了底層支持。采用Java語言開發(fā),可以部署在多種普通的廉價機器上,以集群處理數(shù)量積達到大型主機處理性能。HDFS采用master/slave架構。一個HDFS集群包含一個單獨的NameNode和多個DataNode。NameNode作為master服務,它負責管理文件系統(tǒng)的命名空間和客戶端對文件的訪問。NameNode會保存文件系統(tǒng)的具體信息,包括文件信息、文件被分割成具體block塊的信息、以及每一個block塊歸屬的DataNode的信息。對于整個集群來說,HDFS通過NameNode對用戶提供了一個單一的命名空間。DataNode作為slave服務,在集群中可以存在多個。通常每一個DataNode都對應于一個物理節(jié)點。DataNode負責管理節(jié)點上它們擁有的存儲,它將存儲劃分為多個block塊,管理block塊信息,同時周期性的將其所有的block塊信息發(fā)送給NameNode。在Hadoop的系統(tǒng)中,會有一臺master,主要負責NameNode的工作以及JobTracker的工作。JobTracker的主要職責就是啟動、跟蹤和調度各個Slave的任務執(zhí)行。還會有多臺slave,每一臺slave通常具有DataNode的功能并負責TaskTracker的工作。TaskTracker根據(jù)應用要求來結合本地數(shù)據(jù)執(zhí)行Map任務以及Reduce任務。MapReduce用于大規(guī)模數(shù)據(jù)集群分布式運算。任務的分解(Map)與結果的匯總(Reduce)是其主要思想。Map就是將一個任務分解成多個任務,Reduce就是將分解后多任務分別處理,并將結果匯總為最終結果。 HBase是基于HDFS存儲的一個分布式的、面向列的開源數(shù)據(jù)庫。它是ApacheHadoop在HDFS基礎上提供的一個類Bigatable。 是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng)??梢赃@么理解,在HDFS上,我們看到的是一些非結構,零散的文件數(shù)據(jù),透過HBase可以將這些零散的、非結構文件數(shù)據(jù)結構化。從而可以進行一些高層次的操作,例如建表、增加、刪除、更改、查找等,與傳統(tǒng)的數(shù)據(jù)庫不同的是HBase采用的是列式存儲而不是行式存儲。Hive是建立在Hadoop上的數(shù)據(jù)倉庫基礎構架。它提供了一系列的工具,可以用來進行數(shù)據(jù)提取轉化加載(ETL),這是一種可以存儲、查詢和分析存儲在Hadoop中的大規(guī)模數(shù)據(jù)的機制。Hive定義了簡單的類SQL查詢語言,稱為HQL,它允許熟悉SQL的用戶查詢數(shù)據(jù)。同時,這個語言也允許熟悉MapReduce開發(fā)者的開發(fā)自定義的mapper和reducer來處理內建的mapper和reducer無法完成的復雜的分析工作。Hive構建在基于靜態(tài)批處理的Hadoop之上,Hadoop通常都有較高的延遲并且在作業(yè)提交和調度的時候需要大量的開銷。因此,Hive并不能夠在大規(guī)模數(shù)據(jù)集上實現(xiàn)低延遲快速的查詢,例如,Hive在幾百MB的數(shù)據(jù)集上執(zhí)行查詢一般有分鐘級的時間延遲。因此,Hive并不適合那些需要低延遲的應用,例如,聯(lián)機事務處理(OLTP)。Hive查詢操作過程嚴格遵守HadoopMapReduce的作業(yè)執(zhí)行模型,Hive將用戶的HiveQL語句通過解釋器轉換為MapReduce作業(yè)提交到Hadoop集群上,Hadoop監(jiān)控作業(yè)執(zhí)行過程,然后返回作業(yè)執(zhí)行結果給用戶。Hive并非為聯(lián)機事務處理而設計,Hive并不提供實時的查詢和基于行級的數(shù)據(jù)更新操作。Hive的最佳使用場合是大數(shù)據(jù)集的批處理作業(yè),例如,網絡日志分析。\o"ApachePig"ApachePig是一個基于Hadoop的大規(guī)模數(shù)據(jù)分析工具,它提供的SQL-LIKE語言叫PigLatin,該語言的編譯器會把類SQL的數(shù)據(jù)分析請求轉換為一系列經過優(yōu)化處理的MapReduce運算。Impala是Cloudera公司主導開發(fā)的新型查詢系統(tǒng),它提供SQL語義,能夠查詢存儲在Hadoop的HDFS和HBase中的PB級大數(shù)據(jù)。已有的Hive系統(tǒng)雖然也提供了SQL語義,但是由于Hive底層執(zhí)行使用的是MapReduce引擎,仍然是一個批處理過程,難以滿足查詢的交互性;相比之下,Impala的最大特點就是快速。Flume是Cloudera提供的一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng),F(xiàn)lume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時,F(xiàn)lume提供對數(shù)據(jù)進行簡單處理,并寫到各種數(shù)據(jù)接受方(可定制)的能力。Sqoop是一個用來將Hadoop和關系型數(shù)據(jù)庫中的數(shù)據(jù)相互轉移的工具,可以將一個關系型數(shù)據(jù)庫中數(shù)據(jù)導入Hadoop的HDFS中,也可以將HDFS中數(shù)據(jù)導入關系型數(shù)據(jù)庫中。 Chukwa是一個開源的用于監(jiān)控大型分布式系統(tǒng)的數(shù)據(jù)收集系統(tǒng),它可以將各種各樣類型的數(shù)據(jù)收集成適合Hadoop處理的文件保存在HDFS中供Hadoop進行各種MapReduce操作。 \o"ApacheMahout"Apache

Mahout是基于Hadoop的機器學習和數(shù)據(jù)挖掘的一個分布式框架。Mahout用MapReduce實現(xiàn)了部分數(shù)據(jù)挖掘算法,解決了并行挖掘的問題。Hama是一個基于HDFS的BSP(BulkSynchronousParallel)并行計算框架,Hama可用于包括圖、矩陣和網絡算法在內的大規(guī)模、大數(shù)據(jù)計算。6.9.2Spark生態(tài)圈 Spark是基于內存分布式的計算框架。spark立足于內存計算,從多迭代批量處理出發(fā),兼收并蓄數(shù)據(jù)倉庫、流處理和圖計算等多種計算范式,是罕見的全能選手。Spark啟用了內存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負載。Spark是在Scala語言中實現(xiàn)的,它將Scala用作其應用程序框架,而Scala的語言特點也鑄就了大部分Spark的成功。與Hadoop不同,Spark和Scala能夠緊密集成,其中的Scala可以像操作本地集合對象一樣輕松地操作分布式數(shù)據(jù)集。盡管創(chuàng)建Spark是為了支持分布式數(shù)據(jù)集上的迭代作業(yè),但是實際上它是對Hadoop的補充,可以在Hadoop文件系統(tǒng)中并行運行。通過名為Mesos的第三方集群框架可以支持此行為。雖然Spark與Hadoop有相似之處,但它提供了具有有用差異的一個新的集群計算框架。首先,Spark是為集群計算中的特定類型的工作負載而設計,即那些在并行操作之間重用工作數(shù)據(jù)集(比如機器學習算法)的工作負載。為了優(yōu)化這些類型的工作負載,Spark引進了內存集群計算的概念,可在內存集群計算中將數(shù)據(jù)集緩存在內存中,以縮短訪問延遲。Spark還引進了名為彈性分布式數(shù)據(jù)集(RDD)的抽象。RDD是分布在一組節(jié)點中的只讀對象集合。這些集合是彈性的,如果數(shù)據(jù)集一部分丟失,則可以對它們進行重建。重建部分數(shù)據(jù)集的過程依賴于容錯機制,該機制可以維護“血統(tǒng)”(即充許基于數(shù)據(jù)衍生過程重建部分數(shù)據(jù)集的信息)。RDD被表示為一個Scala對象,并且可以從文件中創(chuàng)建它;一個并行化的切片(遍布于節(jié)點之間);另一個RDD的轉換形式;并且最終會徹底改變現(xiàn)有RDD的持久性,比如請求緩存在內存中。Spark中的應用程序稱為驅動程序,這些驅動程序可實現(xiàn)在單一節(jié)點上執(zhí)行的操作或在一組節(jié)點上并行執(zhí)行的操作。與Hadoop類似,Spark支持單節(jié)點集群或多節(jié)點集群。對于多節(jié)點操作,Spark依賴于Mesos集群管理器。Mesos為分布式應用程序的資源共享和隔離提供了一個有效平臺。該設置充許Spark與Hadoop共存于節(jié)點的一個共享池中。

GraphX是基于Spark的圖處理和圖并行計算API。GraphX定義了一個新的概念:彈性分布式屬性圖,一個每個頂點和邊都帶有屬性的定向多重圖;并引入了三種核心RDD:Vertices、Edges、Triplets;還開放了一組基本操作(如subgraph,joinVertices,andmapReduceTriplets),并且在不斷的擴展圖形算法和圖形構建工具來簡化圖分析工作。Tachyon是一個分布式內存文件系統(tǒng),可以在集群里以訪問內存的速度來訪問存在tachyon里的文件。把Tachyon是架構在最底層的分布式文件存儲和上層的各種計算框架之間的一種中間件。主要職責是將那些不需要落地到DFS里的文件,落地到分布式內存文件系統(tǒng)中,來達到共享內存,從而提高效率。同時可以減少內存冗余,GC時間等。Tachyon的架構是傳統(tǒng)的Master—slave架構,這里和Hadoop類似,TachyonMaster里WorkflowManager是Master進程,因為是為了防止單點問題,通過Zookeeper做了HA,可以部署多臺StandbyMaster。Slave是由WorkerDaemon和Ramdisk構成。這里個人理解只有WorkerDaemon是基于JVM的,Ramdisk是一個offheapmemory。Master和Worker直接的通訊協(xié)議是Thrift。Mesosmaster是一個分布式集群資源調度器,采用某種策略將某個slave上的空閑資源分配給某一個framework,各種framework通過自己的調度器向Mesosmaster注冊,以接入到Mesos中;而Mesosslave主要功能是匯報任務的狀態(tài)和啟動各個framework的executor。Yarn是一個實現(xiàn)分布式集群資源管理和調度的框架。Yarn調度器根據(jù)容量,隊列等限制條件(如每個隊列分配一定的資源,最多執(zhí)行一定數(shù)量的作業(yè)等),將系統(tǒng)中的資源分配給各個正在運行的應用。這里的調度器是一個“純調度器”,因為它不再負責監(jiān)控或者跟蹤應用的執(zhí)行狀態(tài)等,此外,他也不負責重新啟動因應用執(zhí)行失敗或者硬件故障而產生的失敗任務。調度器僅根據(jù)各個應用的資源需求進行調度,這是通過抽象概念“資源容器”完成的,資源容器(ResourceContainer)將內存,CPU,磁盤,網絡等資源封裝在一起,從而限定每個任務使用的資源量。BlinkDB是一個很有意思的交互式查詢系統(tǒng),就像一個蹺蹺板,用戶需要在查詢精度和查詢時間上做一權衡;如果用戶想更快地獲取查詢結果,那么將犧牲查詢結果的精度;同樣的,用戶如果想獲取更高精度的查詢結果,就需要犧牲查詢響應時間。用戶可以在查詢的時候定義一個失誤邊界。三、結構化數(shù)據(jù)生態(tài)圈:DBSync數(shù)據(jù)庫同步備份工具是一款異構數(shù)據(jù)庫之間同步的工具,支持市面上大多數(shù)主流數(shù)據(jù)庫,主要有:SqlServer、ORACLE、DB2、SybaseAccess,該軟件提供的ODBC的同步功能,可以間接實現(xiàn)對MYSQL、SYBASE、INTERBASE等其他數(shù)據(jù)庫的支持。DBSync可以實現(xiàn)計劃、增量、兩表記錄一致等方式的同步操作,利用該軟件,可以實現(xiàn)企業(yè)內部應用系統(tǒng)數(shù)據(jù)的互通互聯(lián)。該軟件性能穩(wěn)定,能提供7*24小時不間斷同步的支持,具備單表千萬級記錄甚至更多記錄的同步能力。該軟件的專業(yè)版提供局域網或企業(yè)內部網之間數(shù)據(jù)庫的同步(數(shù)據(jù)庫都具備獨立的IP);企業(yè)版則提供集團在世界范圍內的各分支機構的數(shù)據(jù)庫同步。聯(lián)機分析處理(OLAP)系統(tǒng)是數(shù)據(jù)倉庫系統(tǒng)最主要的應用,專門設計用于支持復雜的分析操作,側重對決策人員和高層管理人員的決策支持,可以根據(jù)分析人員的要求快速、靈活地進行大數(shù)據(jù)量的復雜查詢處理,并且以一種直觀而易懂的形式將查詢結果提供給決策人員,以便他們準確掌握企業(yè)(公司)的經營狀況,了解對象的需求,制定正確的方案。HANA是一個軟硬件結合體,提供高性能的數(shù)據(jù)查詢功能,用戶可以直接對大量實時業(yè)務數(shù)據(jù)進行查詢和分析,而不需要對業(yè)務數(shù)據(jù)進行建模、聚合等。這些多種多樣的數(shù)據(jù)集操作類型,給給開發(fā)上層應用的用戶提供了方便。各個處理節(jié)點之間的通信模型不再像Hadoop那樣就是唯一的DataShuffle一種模式。用戶可以命名,物化,控制中間結果的存儲、分區(qū)等??梢哉f編程模型比Hadoop更靈活。在討論Hadoop系統(tǒng)架構之前,首先,我們應該明確一件事,Hadoop是做什么用的,簡單的說,Hadoop就是一個基于大量數(shù)據(jù)進行計算的一個平臺,它的計算的核心就是MapReduce,也就是去繁從簡,剔除無用數(shù)據(jù)把有用的留下。HDFS是它的存儲組件,也是它計算最直接的數(shù)據(jù)源。我們的目的就是,首先,將原始的數(shù)據(jù),如數(shù)據(jù)庫中數(shù)據(jù)或日志文件數(shù)據(jù)提取并按一定格式寫入Hadoop計算的數(shù)據(jù)中心——HDFS,然后再通過一系列的計算算法,計算出有用的數(shù)據(jù),再將小量的結果數(shù)據(jù)存入到結果數(shù)據(jù)庫中。同樣的,對于數(shù)據(jù)源,同樣有關系型數(shù)據(jù)庫,非關系型數(shù)據(jù)庫,以及日志文件等。對于數(shù)據(jù)庫的數(shù)據(jù),由于已經有規(guī)范的物理存儲,我們就無需將其再次存入HDFS,可以

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論