智慧旅游大數(shù)據(jù)集成平臺-方案建議書_第1頁
智慧旅游大數(shù)據(jù)集成平臺-方案建議書_第2頁
智慧旅游大數(shù)據(jù)集成平臺-方案建議書_第3頁
智慧旅游大數(shù)據(jù)集成平臺-方案建議書_第4頁
智慧旅游大數(shù)據(jù)集成平臺-方案建議書_第5頁
已閱讀5頁,還剩80頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

智慧旅游大數(shù)據(jù)集成平臺方案建議書PAGE3PAGE3目錄1.項目建設(shè)背景 42.旅游大數(shù)據(jù)集成平臺 3112.1.旅游大數(shù)據(jù)集成平臺概述 3112.1.1.建設(shè)背景 3112.1.2.大數(shù)據(jù)云平臺現(xiàn)狀 3112.2.平臺指導(dǎo)思想 3132.2.1.平臺設(shè)計的指導(dǎo)思想 3132.2.2.平臺選擇的指導(dǎo)思想 3142.2.3.平臺應(yīng)用的指導(dǎo)思想 3142.3.總體解決方案 3162.3.1.總平臺旅游大數(shù)據(jù)的存儲解決方案 3182.3.2.總平臺旅游大數(shù)據(jù)的計算解決方案 3192.3.3.總平臺旅游大數(shù)據(jù)的文件傳輸解決方案 3212.4.平臺總體設(shè)計 3242.4.1.Hadoop云平臺的總設(shè)計原則 3242.4.2.Hadoop云平臺架構(gòu) 3252.4.3.平臺的基礎(chǔ)架構(gòu)設(shè)計 3262.4.4.高用性設(shè)計 3342.4.5.業(yè)務(wù)分析平臺 3352.4.6.數(shù)據(jù)管理平臺 3372.4.7.數(shù)據(jù)訪問平臺 3422.4.8.數(shù)據(jù)管制和集成平臺 3522.4.9.運營平臺 3532.5.平臺功能 3512.5.1.總體要求 3512.5.2.平臺業(yè)務(wù)功能 3512.5.3.平臺技術(shù)功能 360項目建設(shè)背景智慧旅游來源于“智慧地球(SmarterPlanet)”及其在中國實踐的“智慧城市(SmarterCities)”。2008年國際商用機器公司(InternationalBusinessMachine,IBM)首先提出了“智慧地球”概念,指出智慧地球的核心是以一種更智慧的方法通過利用新一代信息技術(shù)來改變政府、公司和人們相互交互的方式,以便提高交互的明確性、效率、靈活性和響應(yīng)速度。由此,“智慧的城市”、“智慧的企業(yè)”與“智慧的行業(yè)”等概念應(yīng)運而生。全世界的企業(yè)和政府都對“智慧”產(chǎn)生了自己的認識和理解。旅游業(yè)是高關(guān)聯(lián)度、高綜合拉動性的產(chǎn)業(yè)。它是集交通、旅行社、景區(qū)景點、飯店賓館、餐飲、商業(yè)、娛樂、金融投資、房地產(chǎn)等產(chǎn)業(yè)為一體的產(chǎn)業(yè)群??紤]智慧的旅游公共服務(wù)平臺的建設(shè),就必須對滿足當(dāng)前及未來游客,經(jīng)營者,市場管理者的綜合需求,從引導(dǎo)和打造更加智慧的的產(chǎn)業(yè)鏈角度,以創(chuàng)新的國家級智慧旅游公共服務(wù)平臺這種形式為整個生態(tài)體系進行服務(wù)。獲得國內(nèi)領(lǐng)域的良好實踐后,未來可以考慮向全球提供服務(wù)和體系的輸出。本項目旨在建立旅游行業(yè)的一體化信息服務(wù)平臺,通過構(gòu)建游客服務(wù)網(wǎng)站平臺、智慧旅游景區(qū)(點)信息亭及智慧旅游智能終端應(yīng)用等工具,實現(xiàn)針對游客的旅游信息服務(wù)和旅游體驗表達,服務(wù)游客結(jié)伴出行、緊急救助等業(yè)務(wù)需求。系統(tǒng)按照SoLoCoMo(Social-Local-Communication-Mobile,社交-本地-溝通-移動)模式構(gòu)建,全面提升游客旅游體驗與旅行品質(zhì)。通過游客服務(wù)網(wǎng)站平臺(So),實現(xiàn)游客出行前信息檢索、結(jié)伴出游、輔助游客完成票務(wù)預(yù)訂等;通過智慧旅游信息亭(Lo)和智能終端(Mo)的交互應(yīng)用,實現(xiàn)智能導(dǎo)覽、緊急求助、旅游感受發(fā)布等,并通過位置服務(wù)等功能,實現(xiàn)同伴位置檢索及網(wǎng)上互動;利用Wiki方式,發(fā)動游客參與,嚴格審核,維護針對景區(qū)(點)的唯一、權(quán)威的旅行攻略信息,滿足游客行程規(guī)劃及旅行過程中的旅游輔助需要。最后,構(gòu)建涵蓋旅游政府主管部門、旅游景區(qū)、旅游服務(wù)機構(gòu)和游客的溝通(Co)體系讓游客與管理者、經(jīng)營者可以隨時互動,并實現(xiàn)與目前廣泛使用的通用微薄平臺的互連與同步,為旅游活動相關(guān)主體提供網(wǎng)上信息發(fā)布與在線交互的實時聯(lián)動平臺。

PAGE317PAGE317旅游大數(shù)據(jù)集成平臺旅游大數(shù)據(jù)集成平臺概述建設(shè)背景旅游大數(shù)據(jù)的產(chǎn)生:眾所周知,隨著信息社會的快速發(fā)展,信息量以爆發(fā)式的速度增長。這些數(shù)據(jù)的特征表現(xiàn)為數(shù)據(jù)量大,一般為TB級或PB級甚至更大。數(shù)據(jù)類型多,可以是結(jié)構(gòu)化的表單、半結(jié)構(gòu)化的文本、視頻、圖像、語音、及非結(jié)構(gòu)話的文件。而全國旅游數(shù)據(jù)也是異常巨大,形成了旅游大數(shù)據(jù),而面對龐大而復(fù)雜的信息體系,我們把整個大數(shù)據(jù)分成了兩個層次,第一個層次是基礎(chǔ)數(shù)據(jù),包括所有的景區(qū)信息、地圖、POI、景區(qū)周邊環(huán)境信息等等。第二個層次就是應(yīng)用和交易數(shù)據(jù),以游客所產(chǎn)生的數(shù)據(jù)為主。目前的大數(shù)據(jù)應(yīng)用主要是從第二個層次做延伸,也僅僅體現(xiàn)在在線旅游中,包括做得比較好的百度的旅游數(shù)據(jù)預(yù)測系統(tǒng)與螞蜂窩游客點評數(shù)據(jù)等等,它們大都從監(jiān)管和營銷的角度出發(fā)。但是我認為目前市場上沒有一種產(chǎn)品能真正滿足游客的游中體驗,而其實游客才是真正實現(xiàn)智慧旅游的核心價值。而且從游客體驗的吃、住、行、游、購、娛六大要素來看,中國人的旅游方式是以景區(qū)為原點延伸的,景區(qū)基礎(chǔ)數(shù)據(jù)的應(yīng)用應(yīng)該是游客體驗中最重要的一環(huán),但是目前所有的導(dǎo)航服務(wù)系統(tǒng)都是針對陸路交通的,景區(qū)內(nèi)基礎(chǔ)信息是一個盲點,更談不上基于此基礎(chǔ)數(shù)據(jù)的景區(qū)內(nèi)導(dǎo)航、語音播報、LBS定點等產(chǎn)品的研發(fā)了。旅游大數(shù)據(jù)的挑戰(zhàn):如何對這些數(shù)據(jù)進行高效存儲,如何對這些數(shù)據(jù)進行分析和處理,以獲取更多有價值的信息。旅游大數(shù)據(jù)集成平臺應(yīng)運而生。因此,通過整合國家智慧旅游公共服務(wù)平臺、交通、氣象、酒店、餐飲、旅行社等相關(guān)數(shù)據(jù),并結(jié)合旅游管理和目的地促銷活動中產(chǎn)生的所有數(shù)據(jù)形成國家旅游大數(shù)據(jù)集成平臺。通過對數(shù)據(jù)篩選、分析,提供如旅游行業(yè)發(fā)展動態(tài)、服務(wù)模式、旅游者偏好等的數(shù)據(jù)分析報告,為國家旅游決策提供數(shù)據(jù)支撐。大數(shù)據(jù)云平臺現(xiàn)狀目前,隨著云計算的高速發(fā)展,Hadoop及Hadoop的生態(tài)圈逐漸壯大,但真正商用且成熟的Hadoop云平臺架構(gòu)卻非常少。本方案結(jié)合國內(nèi)的大數(shù)據(jù)應(yīng)用巨頭百度、阿里巴巴、騰訊,即“BAT”的Hadoop云平臺同時,也結(jié)合并學(xué)習(xí)國外的大數(shù)據(jù)巨頭Hadoop應(yīng)用發(fā)布商Cloudera,Hortonworks,MapR,即“CHM”的Hadoop商用云平臺,利用ApacheHadoop開源的力量,推出一套穩(wěn)定、商用、高效、成熟、開源、易開發(fā),易擴展的大規(guī)模hadoop云平臺——HDP(HadoopDataPlatform),以滿足全國的旅游數(shù)據(jù)的采集、存儲、分析和發(fā)掘和應(yīng)用。平臺指導(dǎo)思想服務(wù)滿意率主要考核供應(yīng)商在服務(wù)期限內(nèi)服務(wù)內(nèi)外部客戶的滿意度。包括投訴接通率、報告及時性兩個方面。投訴接通率是公共服務(wù)可信的重要保障。投訴接通率是投訴接通次數(shù)(包括電話、網(wǎng)站響應(yīng))/投訴總次數(shù)。報告及時性是對國家旅游局要求的相關(guān)服務(wù)的響應(yīng)時間,計算方法為報告按時提交次數(shù)/報告總次數(shù)。這需要投訴方面的大數(shù)據(jù)有快速的分析和處理,需要設(shè)計Hadoop云架構(gòu)中的storm、hbase、hive的應(yīng)用和優(yōu)化。下面主要從平臺的設(shè)計、選擇和應(yīng)用來進行思想指導(dǎo)。平臺設(shè)計的指導(dǎo)思想因為大數(shù)據(jù)是由分布存儲在集群節(jié)點中多個單節(jié)點的磁盤空間中,能被進行分布式處理的數(shù)據(jù)構(gòu)成的一個數(shù)據(jù)總體。大數(shù)據(jù)的規(guī)??梢噪S點節(jié)點數(shù)量的不斷增加而不斷擴大。旅游大數(shù)據(jù)集成平臺的設(shè)計目標:可以存儲海量數(shù)據(jù)可以進行高速處理可以快速開發(fā)出并行服務(wù)可以運行在廉價機器搭建的集群上所以,我們選擇Hadoop。因為Hadoop是一個能夠分布式存儲大數(shù)據(jù),并且能對大數(shù)據(jù)進行分布式處理的軟件框架。主要由HDFS和MapReduce組成。它主要有以下幾個優(yōu)點:高可靠性:Hadoop按位存儲和處理數(shù)據(jù)的能力值得人們信賴。高擴展性:Hadoop是在可用的計算機集簇間分配數(shù)據(jù)并完成計算任務(wù)的,這些集簇可以方便地擴展到數(shù)以千計的節(jié)點中。高效性:Hadoop能在各節(jié)點之間動態(tài)地移動數(shù)據(jù),并保證各個節(jié)點的動態(tài)平衡,因為其處理速度非常快。高容錯性:Hadoop能夠保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務(wù)重新分配。低成本:Hadoop可以運行在廉價服務(wù)器上管理海量數(shù)據(jù),降低了成本。由Apache基金會所開發(fā),純Java編寫的開源系統(tǒng)。平臺選擇的指導(dǎo)思想平臺應(yīng)用的指導(dǎo)思想智慧旅游是旅游業(yè)發(fā)展到現(xiàn)階段出現(xiàn)的一種旅游新形態(tài),是旅游業(yè)與科技創(chuàng)新融合發(fā)展的典范,是旅游業(yè)未來發(fā)展的趨勢。智慧旅游發(fā)展的直接受益者將是旅游者,它將使旅游者享受到更多的智慧旅游服務(wù)。比如游客通過手機、IPAD等工具,到網(wǎng)上查詢觀光信息、網(wǎng)上訂票,還可以訂制私人旅游線路,合理安排個人日程,最大化地利用旅游時間??傮w解決方案總體的解決方案是采用成熟、商用、穩(wěn)定的Hadoop云平臺—HDP,核心技術(shù)主要是Hadoop與其生態(tài)系統(tǒng)的整個云技術(shù)家族。本平臺架構(gòu)包括數(shù)據(jù)訪問、數(shù)據(jù)管制與集成和數(shù)據(jù)監(jiān)控模塊,平臺提供了豐富的大數(shù)據(jù)接口,為國家旅游各大平臺提供大數(shù)據(jù)的支撐,比如:旅游公共信息發(fā)布及資訊平臺,中國旅游產(chǎn)業(yè)運行監(jiān)管平臺,全國各景區(qū)門票預(yù)約與客流預(yù)警平臺,多語種的旅游形象推廣平臺等。詳細如下如所示:圖10-1Hadoop云平臺總解決方案圖國家旅游數(shù)據(jù)最重要的是數(shù)據(jù)分析,通過HDP,可以得到如下的分析:圖10-2數(shù)據(jù)分析方案圖數(shù)據(jù)分析結(jié)果快速形成圖表:圖10-3數(shù)據(jù)分析展示圖旅游大數(shù)據(jù)分析平臺需要從各個景點的系統(tǒng)傳輸大量的非結(jié)構(gòu)化數(shù)據(jù)文件,我們的文件傳輸解決方案是:320320圖10-4旅游大數(shù)據(jù)文件數(shù)據(jù)傳輸圖總平臺旅游大數(shù)據(jù)的存儲解決方案存儲方案核心技術(shù)其存儲的核心技術(shù)解決方案是:HBASE(數(shù)據(jù)庫的首選技術(shù))HDFS(文件存儲首選技術(shù))方案核心技術(shù)介紹?HDFS:HadoopDistributedFileSystem,簡稱HDFS,是一個分布式文件系統(tǒng).HDFS有著高容錯性(fault-tolerant)的特點,并且設(shè)計用來部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(highthroughput)來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(largedataset)的應(yīng)用程序。?HBASE:HBase–HadoopDatabase,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),利用HBase技術(shù)可在廉價PCServer上搭建起大規(guī)模結(jié)構(gòu)化存儲集群。方案設(shè)計圖圖10-5總平臺旅游大數(shù)據(jù)的存儲解決方案圖總平臺旅游大數(shù)據(jù)的計算解決方案其分析的核心技術(shù)解決方案是:?高性能并行計算引擎:MapReduce2.0(離線)、Spark(內(nèi)存)、Storm(實時)、Tez(底層)MapReduce2.0的介紹MapReduce2.0或者MRv2具有與MRv1相同的編程模型,唯一不同的是運行時環(huán)境。MRv2是在MRv1基礎(chǔ)上經(jīng)加工之后,運行于資源管理框架YARN之上的MRv1,它不再由JobTracker和TaskTracker組成,而是變?yōu)橐粋€作業(yè)控制進程ApplicationMaster,且ApplicationMaster僅負責(zé)一個作業(yè)的管理,至于資源的管理,則由YARN完成。簡而言之,MRv1是一個獨立的離線計算框架,而MRv2則是運行于YARN之上的MRv1。Spark的介紹Spark基于mapreduce算法實現(xiàn)的分布式計算,擁有Hadoop、MapReduce所具有的優(yōu)點;但不同于MapReduce的是Job中間輸出和結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機器學(xué)習(xí)等需要迭代的map、reduce的算法。Storm的介紹Storm是一個免費開源、分布式、高容錯的實時計算系統(tǒng)。Storm令持續(xù)不斷的流計算變得容易,彌補了Hadoop批處理所不能滿足的實時要求。Storm經(jīng)常用于在實時分析、在線機器學(xué)習(xí)、持續(xù)計算、分布式遠程調(diào)用和ETL等領(lǐng)域。Storm的部署管理非常簡單,而且,在同類的流式計算工具,Storm的性能也是非常出眾的。Tez的介紹Tez是基于HadoopYarn之上的DAG(有向無環(huán)圖,DirectedAcyclicGraph)計算框架。它把Map/Reduce過程拆分成若干個子過程,同時可以把多個Map/Reduce任務(wù)組合成一個較大的DAG任務(wù),減少了Map/Reduce之間的文件存儲。同時合理組合其子過程,也可以減少任務(wù)的運行時間。方案設(shè)計圖Storm:MapReduce也不適合進行流式計算、實時分析,比如廣告點擊計算等,而Storm則更擅長這種計算、它在實時性要遠遠好于MapReduce計算框架。Tez:運行在YARN之上支持DAG作業(yè)的計算框架,并且更底層,對pig,hive等的支持比較高。圖10-6總平臺旅游大數(shù)據(jù)的計算解決方案圖總平臺旅游大數(shù)據(jù)的文件傳輸解決方案文件傳輸解決方案“數(shù)據(jù)通”(FastFileTransfer:FFT)提供文件網(wǎng)關(guān),核心傳輸工具,安全認證,傳輸監(jiān)控等功能,為企業(yè)提供一個統(tǒng)一,安全,高效的傳輸平臺。方案功能介紹FFT具有內(nèi)置的完整安全性功能,包括連接節(jié)點安全驗證,傳輸中數(shù)據(jù)加密以及數(shù)據(jù)完整性驗證。FFT具有出色的帶寬控制功能,提供了有保障的傳輸時間,充分利用了可用帶寬,同時讓其他網(wǎng)絡(luò)流量可公平使用帶寬。FFT擁有靈活開放的架構(gòu),支持在所有主要的操作系統(tǒng)直接的跨平臺傳輸,提供開放的可擴展的軟件開發(fā)包,API接口,能夠方便的將“數(shù)據(jù)通”的技術(shù)和產(chǎn)品無縫集成到現(xiàn)有的應(yīng)用程序和工作流程管理平臺中。傳輸架構(gòu)設(shè)計各地方景點都會用FFTP2PServer將各地數(shù)據(jù)上傳到旅游大數(shù)據(jù)平臺,FFTConsole監(jiān)控所FFT服務(wù)器的運行。此外還可以考慮HA架構(gòu)保證服務(wù)的不間斷性。圖10-7傳輸架構(gòu)設(shè)計圖平臺總體設(shè)計Hadoop云平臺的總設(shè)計原則Hadoop云平臺作為大數(shù)據(jù)的分布式的計算平臺,必須具備分布式系統(tǒng)設(shè)計的重要且必須的設(shè)計原則,本平臺嚴格根據(jù)以下分布式系統(tǒng)的設(shè)計原則進行設(shè)計:HighReliability高可靠性HighScalabilty 高可擴展性HighRobustness高魯棒性HighAvailabity 高可用性高可靠性高可擴展性高魯棒性Federation是簡單魯棒的設(shè)計,由于聯(lián)盟中各個Namenode之間是相互獨立的。大部分改變是在Datanode、Config和Tools,而Namenode本身的改動非常少,這樣Namenode原先的魯棒性不會受到影響。比分布式的Namenode簡單,雖然這種實現(xiàn)的擴展性比起真正的分布式的Namenode要小些,但是可以迅速滿足需求。另外一個原因是Federation良好的向后兼容性,已有的單Namenode的部署配置不需要任何改變就可以繼續(xù)工作。因此Federation(聯(lián)盟)是未來可選的方案之一。在Federation架構(gòu)中可以無縫的支持目前單Namenode架構(gòu)中的配置。高可用性hadoop2.0的HA機制有兩個namenode,一個是activenamenode,狀態(tài)是active;另外一個是standbynamenode,狀態(tài)是standby。兩者的狀態(tài)是可以切換的,但不能同時兩個都是active狀態(tài),最多只有1個是active狀態(tài)。只有activenamenode提供對外的服務(wù),standbynamenode是不對外服務(wù)的。activenamenode和standbynamenode之間通過NFS或者JN(journalnode,QJM方式)來同步數(shù)據(jù)。Hadoop云平臺架構(gòu)圖10-8Hadoop云平臺架構(gòu)圖平臺的基礎(chǔ)架構(gòu)設(shè)計智慧旅游公共服務(wù)平臺需要云計算基礎(chǔ)架構(gòu)為了快速構(gòu)建以上各種平臺以滿足業(yè)務(wù)功能的建設(shè),運營和擴張,更好的支撐智慧旅游業(yè)務(wù)的經(jīng)營,需要高等級基礎(chǔ)架構(gòu)平臺進行支撐。根據(jù)旅游行業(yè)的特點,我們建議采用云化的基礎(chǔ)架構(gòu)進行支撐。同時,采用雙活/多活架構(gòu)來滿足業(yè)務(wù)連續(xù)性和客戶體驗的要求。旅游產(chǎn)業(yè)自身是綜合性服務(wù)產(chǎn)業(yè),同時旅游產(chǎn)業(yè)與其他產(chǎn)業(yè)的正在不斷的深度融合,這就要求要求智慧旅游的基礎(chǔ)架構(gòu)平臺要能與未來城市與社會服務(wù)的對接能力要能夠支撐未來5~10年的發(fā)展需求,根據(jù)最佳實踐,按需建設(shè)的業(yè)務(wù)需要云化的基礎(chǔ)架構(gòu)。旅游行業(yè)具有季節(jié)性、周期性,作為行業(yè)平臺,需要按需擴展的計算能力進行支撐,這就必須采用先進的云化建設(shè)模式來滿足業(yè)務(wù)高峰期的處理能力。旅游行業(yè)的客戶體驗具有跨地域特點,同時考慮途體驗和地域體驗,需要平臺能夠為整個過程提供一致的漫游體驗。因此,需要考慮在全國進行業(yè)務(wù)能力的建設(shè),初期計劃使用雙活的數(shù)據(jù)中心設(shè)計來滿足南北大區(qū)客戶的需求。同時,我們也應(yīng)充分考慮未來旅游業(yè)務(wù)模式的不斷創(chuàng)新的必然性。智慧旅游提供核心基礎(chǔ)架構(gòu)整體設(shè)計智慧旅游基礎(chǔ)架構(gòu)平臺的整體架構(gòu)設(shè)計:圖10-9智慧旅游基礎(chǔ)架構(gòu)平臺的整體架構(gòu)設(shè)計圖在初期建設(shè)中,采用南-北雙活的數(shù)據(jù)中心結(jié)構(gòu)來滿足整個中國的業(yè)務(wù)需求:圖10-10南-北雙活的數(shù)據(jù)中心結(jié)構(gòu)圖技術(shù)構(gòu)架模式上,采用以POD為建設(shè)單位的標準化建設(shè)機制:數(shù)據(jù)中心站點內(nèi)的部署結(jié)構(gòu)多活數(shù)據(jù)中心的整體網(wǎng)絡(luò)架構(gòu)實現(xiàn):圖10-11多活數(shù)據(jù)中心的整體網(wǎng)絡(luò)架構(gòu)在數(shù)據(jù)中心的內(nèi)部,根據(jù)業(yè)務(wù)要求,需要劃分如下邏輯區(qū)域:測試區(qū)核心生產(chǎn)區(qū)域DMZ區(qū)域管理區(qū)域存儲區(qū)域合理的邏輯分區(qū)保證了業(yè)務(wù)的有序開展數(shù)據(jù)中心外的部署結(jié)構(gòu)CDN內(nèi)容加速網(wǎng)絡(luò)的建設(shè)也是保證海量客戶體驗的基礎(chǔ),擬在初期建設(shè)階段完成后,在后續(xù)階段完成國內(nèi)CDN節(jié)點的部署。圖10-12CDN內(nèi)容加速網(wǎng)絡(luò)圖CDN服務(wù)以多媒體視頻為例:圖10-13CDN服務(wù)以多媒體視頻圖考慮國外訪問的需求,在國內(nèi)CDN網(wǎng)絡(luò)建成后,將前端業(yè)務(wù)平臺擴展到國外。同時完成與國際平臺(B2B對接,O2O平臺對接,支付平臺與渠道對接,其他行業(yè)應(yīng)用平臺對接)的整合。擬采用Softlayer平臺完成國外的平臺承載能力。整體運維方案圖10-14整體運維圖安全架構(gòu)設(shè)計在云環(huán)境下,安全管控將發(fā)生如下變化:圖10-15安全架構(gòu)設(shè)計圖其中,“基于云的服務(wù)與管理”指智慧旅游公共云提供的公共云安全服務(wù)。本項目將進行適當(dāng)評估這些云服務(wù)的必要性,并進行整合分析。具體而言,將在如下層面實現(xiàn)安全:PAGE344PAGE344業(yè)務(wù)連續(xù)性的設(shè)計可以預(yù)見,智慧旅游公共服務(wù)平臺將在未來融入中國社會的重要信息化支撐體系,其信息系統(tǒng)的安全將會直接影響到國民經(jīng)濟的正常運行,直接關(guān)系到社會穩(wěn)定和群眾生活。我國信息安全的防護能力較弱,安全保障水平不高,就信息化平臺來說,建立統(tǒng)一的災(zāi)難恢復(fù)和業(yè)務(wù)連續(xù)性管理機制,信息安全和災(zāi)難恢復(fù)工作是必須考慮的需求。智慧旅游公共服務(wù)平臺采用雙活/多活的基礎(chǔ)架構(gòu)設(shè)計,在建設(shè)時,充分考慮了業(yè)務(wù)連續(xù)性的設(shè)計。在業(yè)務(wù)連續(xù)和容災(zāi)備份建設(shè)中,以下幾個概念非常重要,它們也是衡量業(yè)務(wù)持續(xù)以及容災(zāi)備份需求的指標?;謴?fù)時間目標(RTO)恢復(fù)時間目標(RecoveryTimeObjective,簡稱RTO)是指信息系統(tǒng)突發(fā)事件發(fā)生后,從信息系統(tǒng)故障導(dǎo)致業(yè)務(wù)停頓時刻開始,到信息系統(tǒng)恢復(fù)至可支持各部門運作、業(yè)務(wù)恢復(fù)運營之時,此兩點之間的時間段稱為RTO。一般而言,RTO時間越短,即意味要求在更短的時間內(nèi)恢復(fù)業(yè)務(wù)至可使用狀態(tài)。雖然從管理的角度而言,RTO時間越短越好,但是,這同時也意味著更多成本的投入。RTO目標的確定可以用下圖來說明:圖10-16RTO指標恢復(fù)點目標(RPO)與RTO目標不同,RPO目標的確定不是依賴于企業(yè)業(yè)務(wù)規(guī)模,而是取決于企業(yè)業(yè)務(wù)的性質(zhì)和業(yè)務(wù)操作對數(shù)據(jù)的依賴程度。因此,RPO目標對相同行業(yè)的企業(yè)而言會有些接近,而對于不同行業(yè)的企業(yè)來說仍可能會有較大差距。業(yè)務(wù)連續(xù)性的需求業(yè)務(wù)連續(xù)性有如下的建設(shè)需求考慮資源整合和架構(gòu)優(yōu)化,逐步按照生產(chǎn)、查詢、公共服務(wù)、交換等多種專業(yè)分區(qū)管理,形成南北中心一體化基礎(chǔ)架構(gòu)和運維支持專業(yè)體系;防范可能的不同級別的災(zāi)難的發(fā)生(設(shè)備、機房、區(qū)域性等)成為目前風(fēng)險防范的重點;需要制定成體系的、規(guī)范的災(zāi)難恢復(fù)制度和計劃;需要建設(shè)規(guī)范的、有清晰責(zé)任定義的災(zāi)難恢復(fù)管理組織;災(zāi)備機制需要針對核心生產(chǎn)進行有計劃的演練,以確保災(zāi)備中心的真實可用。業(yè)務(wù)連續(xù)性的模式設(shè)計1.災(zāi)備工作模式常見的災(zāi)備工作模式主要有兩種,即主備模式和雙活模式;主備模式是災(zāi)備中心處于備份接管狀態(tài),不對外提供服務(wù);雙活模式是災(zāi)備中心承擔(dān)對外服務(wù)功能,通常需要遠程集群處理技術(shù)支持。本次項目建設(shè)的模式的雙活模式。該模式在系統(tǒng)建設(shè)開始時同步考慮災(zāi)備的實現(xiàn),即北方生產(chǎn)中心對客戶提供服務(wù)的同時,南方生產(chǎn)中心同時為客戶提供服務(wù)。系統(tǒng)具有如下特點:完全杜絕數(shù)據(jù)中心災(zāi)難、網(wǎng)絡(luò)故障對生產(chǎn)的停頓影響,無需通常意義上的 災(zāi)難切換過程在計劃內(nèi)維護的場景下:“”對數(shù)中的大劃維護以正工時完成由最的術(shù) 資源支持2.運行管理模式ECC7*24統(tǒng)一日常運行維護,對一個中心的維護必須考慮到對另外一個中心的影 響涉及到多中心并行中心運作的其他運維工作,需要統(tǒng)一的組織架構(gòu)以方 便溝通提高效率需要便捷有效的溝通平臺支持協(xié)調(diào)工作,IM是一個成熟可行的方式,溝 通平臺本身也需要雙中心冗余高用性設(shè)計HDFS的HA功能通過配置Active/Standby兩個NameNodes實現(xiàn)在集群中對NameNode的熱備來解決單點故障問題。HDFSHA的解決方案可謂百花齊放,LinuxHA,VMwareFT,sharedNAS+NFS,BookKeeper,QJM/QuorumJournalManager,BackupNode等等。目前普遍采用的是sharedNAS+NFS,因為簡單易用,但是需要提供一個HA的共享存儲設(shè)備。而社區(qū)版已經(jīng)把基于QJM/QuorumJournalManager的方案merge到trunk了。高可擴展性是來自于hadoop的存儲方案HDFS,現(xiàn)在急需大規(guī)模的部署和應(yīng)用的商用方案。在大規(guī)模部署中,熟練使用CM和Ambari是必須且首要的選擇。而在CM與Ambari中只有Ambari是Apache的頂級開源項目,所以選擇Ambari來管理并設(shè)計。圖10-17Hadoop云平臺運行監(jiān)控圖業(yè)務(wù)分析平臺作為業(yè)務(wù)分析和決策支持的手段分為四種:標準報表、主題分析、在線分析、數(shù)據(jù)挖掘。1.標準報表標準報表是決策支持平臺的核心功能,可以綜合日常醫(yī)療衛(wèi)生報表序列。2.主題分析主題是在較高層次上將組織信息系統(tǒng)中的數(shù)據(jù)進行綜合、歸類和分析利用的一個抽象概念,每一個主題基本對應(yīng)一個宏觀的分析領(lǐng)域。在邏輯意義上,它是對應(yīng)組織中某一宏觀分析領(lǐng)域所涉及的分析對象。面向主題的數(shù)據(jù)組織方式,就是在較高層次上對分析對象數(shù)據(jù)的一個完整并且一致的描述,能刻畫各個分析對象所涉及的企業(yè)各項數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系。所謂較高層次是相對面向應(yīng)用的數(shù)據(jù)組織方式而言的,是指按照主題進行數(shù)據(jù)組織的方式具有更高的數(shù)據(jù)抽象級別。與傳統(tǒng)數(shù)據(jù)庫面向應(yīng)用進行數(shù)據(jù)組織的特點相對應(yīng),數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題進行組織的。3.聯(lián)機分析聯(lián)機分析處理(OLAP)是使分析人員、管理人員或執(zhí)行人員能夠從多角度對信息進行快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù)。OLAP的目標是滿"維"“維”是人們觀察客觀世界的角度,是一種高層次的類型劃分?!熬S”一般包含著層次關(guān)系,這種層次關(guān)系有時會相當(dāng)復(fù)雜。通過把一個實體的多項重要的屬性定義為多個維,使用戶能對不同維度上的數(shù)據(jù)進行比較。因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。OLAP的基本多維分析操作有鉆取、切片和切塊、以及旋轉(zhuǎn)等。鉆取是改變維的層次,變換分析的粒度。它包括向上鉆取和向下鉆取。向上鉆取是在某一維上將低層次的細節(jié)數(shù)據(jù)概括到高層次的匯總數(shù)據(jù),或者減少維數(shù);而向下鉆取則相反,它從匯總數(shù)據(jù)深入到細節(jié)數(shù)據(jù)進行觀察或增加新維。切片和切塊是在一部分維上選定值后,關(guān)心度量數(shù)據(jù)在剩余維上的分布。如果剩余的維只有兩個,則是切片;如果有三個,則是切塊。旋轉(zhuǎn)是變換維的方向,即在表格中重新安排維的放置(例如行列互換)。OLAP有多種實現(xiàn)方法,根據(jù)存儲數(shù)據(jù)的方式不同可以分為關(guān)系OLAP(ROLAP)、多維OLAP(MOLAP)、混合OLAP(HOLAP)。ROLAPOLAP,將多維數(shù)據(jù)庫的多維結(jié)構(gòu)劃分為兩類表:一類是事實表,用來存儲數(shù)據(jù)和維關(guān)鍵字;另一類是維表,即對每個維至少使用一個表來存放維的層次、成員類別等形成了星型模式。,,,雪花模式MOLAPOLAP實現(xiàn)(MultidimensionalOLAP)。以多維數(shù)據(jù)組織方式為核心,也就是說,MOLAP使用多維數(shù)組存儲數(shù)據(jù)。多維數(shù)據(jù)在存儲中將形成"立方塊(Cube)"的結(jié)構(gòu),在MOLAP中對"立方塊"的"旋轉(zhuǎn)"、"切塊"、"切片"是產(chǎn)生多維數(shù)據(jù)報表的主要技術(shù)。HOLAP表示基于混合數(shù)據(jù)組織的OLAP實現(xiàn)(HybridOLAP)。如低層是關(guān)系型的,高層是多維矩陣型的。這種方式具有更好的靈活性。4.數(shù)據(jù)挖掘數(shù)據(jù)挖掘是根據(jù)企業(yè)的既定業(yè)務(wù)目標和存在的問題,對大量的業(yè)務(wù)數(shù)據(jù)進行探索,揭示隱藏其中的規(guī)律,并將其模型化,指導(dǎo)并應(yīng)用于實際的企業(yè)經(jīng)營中。數(shù)據(jù)挖掘與OLAP分析、預(yù)定義報表和即席查詢等有很大的區(qū)別。后三者通常是用戶對所關(guān)心的業(yè)務(wù)指標,按照已知的角度進行分析;而前者則是在業(yè)務(wù)問題和目標明確,但考察的角度不清楚時,對數(shù)據(jù)進行探索,揭示隱藏其中的規(guī)律性,進而將其模型化。不同的實際問題所采用的數(shù)據(jù)挖掘方法有所不同,有的問題甚至需要結(jié)合多種方法共同進行解決。數(shù)據(jù)挖掘的方法一般分為預(yù)測型和描述型。具體而言,本系統(tǒng)要求數(shù)據(jù)挖掘應(yīng)用能支持以下各類方法:預(yù)測型(Predictive)方法通常包含以下幾種:分類(Classification)/(DecisionTree)(Regression)(TimeSeries)描述型(Descriptive)方法通常包含以下幾種:(AssociationAnalysis)(SequentialAnalysis)(Clustering)數(shù)據(jù)管理平臺主要的組件是HDFS和YARN。HDFS的介紹Hadoop分布式文件系統(tǒng)(HDFS)是運行在通用硬件上的分布式文件系統(tǒng)。HDFS提供了一個高度容錯性和高吞吐量的海量數(shù)據(jù)存儲解決方案。HDFS已經(jīng)在各種大型在線服務(wù)和大型存儲系統(tǒng)中得到廣泛應(yīng)用,已經(jīng)成為海量數(shù)據(jù)存儲的事實標準。隨著信息系統(tǒng)的快速發(fā)展,海量的信息需要可靠存儲的同時,還能被大量的使用者快速地訪問。傳統(tǒng)的存儲方案已經(jīng)從構(gòu)架上越來越難以適應(yīng)近幾年來的信息系統(tǒng)業(yè)務(wù)的飛速發(fā)展,成為了業(yè)務(wù)發(fā)展的瓶頸和障礙。HDFS通過一個高效的分布式算法,將數(shù)據(jù)的訪問和存儲分布在大量服務(wù)器之中,在可靠地多備份存儲的同時還能將訪問分布在集群中的各個服務(wù)器之上,是傳統(tǒng)存儲構(gòu)架的一個顛覆性的發(fā)展。HDFS可以提供以下特性:YARN的介紹YARN是下一代MapReduce,即MRv2,是在第一代MapReduce基礎(chǔ)上演變而來的,主要是為了解決原始Hadoop擴展性較差,不支持多計算框架而提出的。它完全不同于HadoopMapReduce,所有代碼全部重寫而成。整個平臺由ResourceManager(master,功能是資源分配)和NodeManager組成(slave,功能是節(jié)點管理)。較于HadoopMapReduce,其最大特點是將JobTracker拆分成ResourceManager和ApplicationMaster,其中ResourceManager是全局的資源管理器,僅負責(zé)資源分配(由于ResourceManager功能簡單,所以不會嚴重制約系統(tǒng)的擴展性),而ApplicationMaster對應(yīng)一個具體的application(如Hadoopjob,SparkJob等),主要負責(zé)application的資源申請,啟動各個任務(wù)和運行狀態(tài)監(jiān)控(沒有調(diào)度功能)。所以YARN,作為資源統(tǒng)一管理和調(diào)度平臺,具有以下的特點資源統(tǒng)一管理和調(diào)度平臺應(yīng)該提供一個全局的資源管理器。所有接入的框架要先向該全局資源管理器申請資源,申請成功之后,再由框架自身的調(diào)度器決定資源交由哪個任務(wù)使用,也就是說,整個大的系統(tǒng)是個雙層調(diào)度器,第一層是統(tǒng)一管理和調(diào)度平臺提供的,另外一層是框架自身的調(diào)度器?,F(xiàn)有的分布式計算框架都會將系統(tǒng)擴展性作為一個非常重要的設(shè)計目標,比如Hadoop,好的擴展性意味著系統(tǒng)能夠隨著業(yè)務(wù)的擴展線性擴展。資源統(tǒng)一管理和調(diào)度平臺融入多種計算框架后,不應(yīng)該破壞這種特性,也就是說,統(tǒng)一管理和調(diào)度平臺不應(yīng)該成為制約框架進行水平擴展。同擴展性類似,容錯性也是當(dāng)前分布式計算框架的一個重要設(shè)計目標,統(tǒng)一管理和調(diào)度平臺在保持原有框架的容錯特性基礎(chǔ)上,自己本身也應(yīng)具有良好的容錯性。如果采用靜態(tài)資源分配,也就是每個計算框架分配一個集群,往往由于作業(yè)自身的特點或者作業(yè)提交頻率等原因,集群利用率很低。當(dāng)將各種框架部署到同一個大的集群中,進行統(tǒng)一管理和調(diào)度后,由于各種作業(yè)交錯且作業(yè)提交頻率大幅度升高,則為資源利用率的提升增加了機會。非結(jié)構(gòu)化大數(shù)據(jù)管理及內(nèi)容分析平臺圖10-18非結(jié)構(gòu)大數(shù)據(jù)管理及分析平臺圖非結(jié)構(gòu)化大數(shù)據(jù)管理及分析平臺由以下幾個主要功能模塊組成:統(tǒng)一的非結(jié)構(gòu)化數(shù)據(jù)管理模塊,內(nèi)容分析模塊,報表/BI的連接及數(shù)據(jù)導(dǎo)出模塊。非結(jié)構(gòu)化內(nèi)容管理模塊景點非結(jié)構(gòu)化數(shù)據(jù)的快速管理。分別針對各個景點的資料,可以對接收景點大數(shù)據(jù)信息的進行模版化的快速創(chuàng)建。如下圖,可以針對北京故宮景點,直接指定景點模版創(chuàng)建。圖10-19景點模板圖通過模版創(chuàng)建的分類管理,可以針對不同景點,旅游局不同業(yè)務(wù)部門,快速建立對應(yīng)的團隊管理空間。如下兩個示例:杭州西湖景區(qū)的內(nèi)容管理和模版保持一致。圖10-20模板創(chuàng)建圖同時,在不同景點管理空間內(nèi),景點的管理員可以自己進行更詳細的管理。如下圖:故宮特色的展覽資料管理等。圖10-21景點資料管理圖帶有索引信息的非結(jié)構(gòu)化數(shù)據(jù)的管理。如下圖,保存非結(jié)構(gòu)化數(shù)據(jù)的時候,保留適當(dāng)?shù)脑獢?shù)據(jù)索引信息,方便信息的快速查詢。圖10-22信息查詢圖針對視頻資料的管理,除了在原始文件的管理基礎(chǔ)上,還利用大數(shù)據(jù)平臺,進行各種編碼的轉(zhuǎn)換,適應(yīng)在不同的終端上,景點的宣傳播放。內(nèi)容管理平臺內(nèi)置的詳細的安全權(quán)限管理,達到不同景點,不同的部門間權(quán)限可控。圖10-23權(quán)限管理圖統(tǒng)一的內(nèi)容管理平臺具備不同存儲設(shè)備的管理功能。如下,針對傳統(tǒng)的存儲,和HDFS的分布式存儲,可以通過存儲策略直接進行管理。內(nèi)容分析功能

圖10-24非結(jié)構(gòu)化數(shù)據(jù)存儲圖大數(shù)據(jù)內(nèi)容分析功能模塊,主要區(qū)分文本內(nèi)容和音視頻內(nèi)容兩類。針對文本內(nèi)容,可以通過針對外部網(wǎng)站的爬蟲,和內(nèi)部非結(jié)構(gòu)化統(tǒng)一管理平臺爬蟲,進行數(shù)據(jù)的統(tǒng)一爬取,同時進行統(tǒng)一的分析。分析的結(jié)果,不但可以直接通過分析界面進行展示,更可以導(dǎo)出到報表系統(tǒng)中,結(jié)合數(shù)據(jù)倉庫的結(jié)構(gòu)化數(shù)據(jù),進行統(tǒng)一的報表和業(yè)務(wù)價值挖掘。內(nèi)容分析可以從時間序列的維度進行總結(jié),如下圖:在不同的時間段,同樣的內(nèi)容是不一樣的。例如通過分析各個旅游景點照片網(wǎng)上的發(fā)帖量,旅游攻略的閱讀量等信息,通過以下的圖片,可以直觀的得到哪些月份會是游客高峰。340340圖10-25游客高峰統(tǒng)計圖還可以根據(jù)相應(yīng)的參數(shù),制定一些數(shù)據(jù)共識,對數(shù)據(jù)分析結(jié)果進行數(shù)學(xué)偏差的糾正。圖10-26數(shù)據(jù)分析結(jié)果圖對各緯度信息的趨勢進行評估:PAGE354PAGE354圖10-27數(shù)據(jù)趨勢圖通過自動識別的地理位置信息,進行分析。如下圖:各個城市的旅游游記的發(fā)表數(shù)量:圖10-28地理位置信息分析圖熱點抽取,可以根據(jù)某個景點的所有非結(jié)構(gòu)化數(shù)據(jù),進行大數(shù)據(jù)分析,得到景點的各種環(huán)境信息。如下圖:圖10-29景點的各種環(huán)境信息圖通過各種大數(shù)據(jù)的集中,可以分析某個景點的游客的消費喜好,例如下圖:從游客的游記和相關(guān)的內(nèi)容資料中,抽取各種金融機構(gòu)的關(guān)聯(lián)關(guān)系,可以看出,游客更喜歡國內(nèi)的阿里巴巴和京東。在景點的門票銷售,促銷方案,就可以在這些網(wǎng)站上進行推廣。圖10-30非結(jié)構(gòu)化數(shù)據(jù)分析結(jié)果圖數(shù)據(jù)訪問平臺主要的組件是\hHive|\hTez|\hPig|\hStorm|\hSpark|\hHBase|\hAccumulo|\hSolrHive的介紹Hive是一種建立在Hadoop之上的數(shù)據(jù)倉庫架構(gòu)。它提供了:(ETL)的工具。HadoopHive的基本特點是它采用HDFS進行數(shù)據(jù)存儲并利用Map/Reduce框架進行數(shù)據(jù)操作。所以從本質(zhì)上來說,Hive就是個編譯器,它把用戶的操作(查詢或者ETL)變換成Map/Reduce任務(wù),利用Map/Reduce框架執(zhí)行這些任務(wù)以對HDFS上的海量數(shù)據(jù)進行處理。Hive被設(shè)計成一種批處理系統(tǒng)。它利用Map/Reduce框架來處理數(shù)據(jù)。因此,它在Map/Reduce任務(wù)提交和調(diào)度上有比較高的開銷。即使對于小數(shù)據(jù)集(幾百兆)來說,延遲也是分鐘級的。但其最大的優(yōu)點是延遲相對于數(shù)據(jù)集大小是線性增加的。Hive定義了一種簡單的類SQL查詢語言HiveQL,讓熟悉SQL的用戶可以非常容易的進行查詢。與此同時,HiveQL也允許熟悉Map/Reduce框架的程序員在查詢中插入自定義的mapper和reducer腳本以擴展Hive內(nèi)嵌的功能,完成更復(fù)雜的分析。Tez的介紹Tez是Apache最新開源的支持DAG作業(yè)的計算框架,它直接源于MapReduce框架,核心思想是將Map和Reduce兩個操作進一步拆分,即Map被拆分成Input、Processor、Sort、Merge和Output,Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等,這樣,這些分解后的元操作可以任意靈活組合,產(chǎn)生新的操作,這些操作經(jīng)過一些控制程序組裝后,可形成一個大的DAG作業(yè)??偨Y(jié)起來,Tez有以下特點:Apache)YARNHive/Pig等)Pig的介紹Pig是一個基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺,它提供的SQL-LIKE語言叫PigLatin,該語言的編譯器會把類SQL的數(shù)據(jù)分析請求轉(zhuǎn)換為一系列經(jīng)過優(yōu)化處理的MapReduce運算。Pig為復(fù)雜的海量數(shù)據(jù)并行計算提供了一個簡單的操作和編程接口。Pig自己實現(xiàn)的一套框架對輸入、輸出的人機交互部分的實現(xiàn),就是PigLatin。Zebra是Pig與HDFS/Hadoop的中間層、Zebra是MapReduce作業(yè)編寫的客戶端,Zerbra用結(jié)構(gòu)化的語言實現(xiàn)了對hadoop物理存儲元數(shù)據(jù)的管理也是對Hadoop的數(shù)據(jù)抽象層,在Zebra中有2個核心的類TableStore(寫)/TableLoad(讀)對Hadoop上的數(shù)據(jù)進行操作。Pig中的Streaming主要分為4個組件:1.PigLatin2.邏輯層(LogicalLayer)物理層(PhysicalLayer)4.Streaming具體實現(xiàn)(Implementation),Streaming會創(chuàng)建一個Map/Reduce作業(yè),并把它發(fā)送給合適的集群,同時監(jiān)視這個作業(yè)的在集群環(huán)境中的整個執(zhí)行過程。MapReduce在每臺機器上進行分布式計算的框架(算法)。HDFS最終存儲數(shù)據(jù)的部分。Storm的介紹Storm是一個開源的分布式實時計算系統(tǒng),可以簡單、可靠的處理大量的數(shù)據(jù)流。Storm有很多使用場景:如實時分析,在線機器學(xué)習(xí),持續(xù)計算,分布式RPC,ETL等等。Storm支持水平擴展,具有高容錯性,保證每個消息都會得到處理,而且處理速度很快(在一個小集群中,每個結(jié)點每秒可以處理數(shù)以百萬計的消息)。Storm的部署和運維都很便捷,而且更為重要的是可以使用任意編程語言來開發(fā)應(yīng)用。Storm有如下特點:在Storm集群中真正運行topology的主要有三個實體:工作進程、線程和任務(wù)。Storm集群中的每臺機器上都可以運行多個工作進程,每個工作進程又可創(chuàng)建多個線程,每個線程可以執(zhí)行多個任務(wù),任務(wù)是真正進行數(shù)據(jù)處理的實體,我們開發(fā)的spout、bolt就是作為一個或者多個任務(wù)的方式執(zhí)行的。因此,計算任務(wù)在多個線程、進程和服務(wù)器之間并行進行,支持靈活的水平擴展。Storm可以保證spout發(fā)出的每條消息都能被“完全處理”,這也是直接區(qū)別于其他實時系統(tǒng)的地方,如S4。請注意,spout發(fā)出的消息后續(xù)可能會觸發(fā)產(chǎn)生成千上萬條消息,可以形象的理解為一棵消跟蹤消息樹中的每個消息,而是采用了一些特殊的策略,它把消息樹當(dāng)作一個整體來跟蹤,對消息樹中所有消息的唯一id進行異或計算,通過是否為零來判定spout發(fā)出的消息是否被“完全處理”,這極大的節(jié)約了內(nèi)存和簡化了判定邏輯,后面會對這種機制進行詳細介紹。這種模式,每發(fā)送一個消息,都會同步發(fā)送一個ack/fail,對于網(wǎng)絡(luò)的帶寬會有一定的消耗,如果對于可靠性要求不高,可通過使用不同的emit接口關(guān)閉該模式。上面所說的,Storm保證了每個消息至少被處理一次,但是對于有些計算場合,會嚴格要求每個消息只被處理一次,幸而Storm的0.7.0引入了事務(wù)性拓撲,解決了這個問題,后面會有詳述。如果在消息處理過程中出了一些異常,Storm會重新安排這個出問題的處理單元。Storm保證一個處理單元永遠運行(除非你顯式殺掉這個處理單元)。當(dāng)然,如果處理單元中存儲了中間狀態(tài),那么當(dāng)處理單元重新被Storm啟動的時候,需要應(yīng)用自己處理中間狀態(tài)的恢復(fù)。除了用java實現(xiàn)spout和bolt,你還可以使用任何你熟悉的編程語言來完成這項工作,這一切得益于Storm所謂的多語言協(xié)議。多語言協(xié)議是Storm內(nèi)部的一種特殊協(xié)議,允許spout或者bolt使用標準輸入和標準輸出來進行消息傳遞,傳遞的消息為單行文本或者是json編碼的多行。Storm支持多語言編程主要是通過ShellBolt,ShellSpout和ShellProcess這些類來實現(xiàn)的,這些類都實現(xiàn)了IBolt和ISpout接口,以及讓shell通過java的ProcessBuilder類來執(zhí)行腳本或者程序的協(xié)議。Storm有一種“本地模式”,也就是在進程中模擬一個Storm集群的所有功能,以本地模式運行topology跟在集群上運行topology類似,這對于我們開發(fā)和測試來說非常有用。高效用ZeroMQ作為底層消息隊列,保證消息能快速被處理Spark的介紹Spark是一個基于內(nèi)存計算的開源集群計算系統(tǒng),目的是更快速的進行數(shù)據(jù)分析。Spark由加州伯克利大學(xué)AMP實驗室Matei為主的小團隊使用Scala開發(fā)開發(fā),其核心部分的代碼只有63個Scala文件,非常輕量級。Spark提供了與Hadoop相似的開源集群計算環(huán)境,但基于內(nèi)存和迭代優(yōu)化的設(shè)計,Spark在某些工作負載表現(xiàn)更優(yōu)秀。處理過程中磁盤的讀寫,大幅度的降低了所需時間。Spark依賴SparkStreaming對數(shù)據(jù)進行實時的處理,當(dāng)然在YARN之后Hadoop也可以借助其他的工具進行流式計算。對于SparkStreaming,Cloudera的評價是:簡單:輕量級且具備功能強大的API,SparksStreaming允許你快速開發(fā)流應(yīng)用程序。容錯:不像其他的流解決方案,比如Storm,無需額外的代碼和配置,SparkStreaming就可以做大量的恢復(fù)和交付工作。集成:為流處理和批處理重用了同樣的代碼,甚至可以將流數(shù)據(jù)保存到歷史數(shù)據(jù)中。Hbase的介紹HBase是一個構(gòu)建在HDFS上的分布式列存儲系統(tǒng);是基于GoogleBigTable模型開發(fā)的,典型的key/value系統(tǒng);是ApacheHadoop生態(tài)系統(tǒng)中的重要一員,主要用于海量結(jié)構(gòu)化數(shù)據(jù)存儲;從邏輯上講,HBase將數(shù)據(jù)按照表、行和列進行存儲。與hadoop一樣,Hbase目標主要依靠橫向擴展,通過不斷增加廉價的商用服務(wù)器,來增加計算和存儲能力。Hbase表的特點無模式:每行都有一個可排序的主鍵和任意多的列,列可以根據(jù)需要動態(tài)的增加,同一張表中不同的行可以有截然不同的列;\hAccumulo的介紹ApacheAccumulo是一個可靠的、可伸縮的、高性能的排序分布式的Key-Value存儲解決方案,基于單元訪問控制以及可定制的服務(wù)器端處理。使用GoogleBigTable設(shè)計思路,基于ApacheHadoop、Zookeeper和Thrift構(gòu)建。\hSolr的介紹Solr是一個擁有象WebService一樣接口的獨立運行的搜索服務(wù)器。你將能夠通過HTTP協(xié)議以XML格式將文檔放入搜索服務(wù)器(這個過程叫做索引),你能夠通過HTTP協(xié)議的GET來查詢搜索服務(wù)器并且得到XML格式的結(jié)果。Solr的特性包括:(XMLHTTP)HTML管理界面SolrXML數(shù)據(jù)管制和集成平臺Falcon的介紹Falcon提供了一個用于治理和編排Hadoop內(nèi)部和周邊數(shù)據(jù)流的數(shù)據(jù)處理框架。該框架為獲取和處理數(shù)據(jù)集、復(fù)制與保留數(shù)據(jù)集、重新定向位于非Hadoop擴展中的數(shù)據(jù)集、維護審核跟蹤與沿襲提供了關(guān)鍵性的管控框架。Sqoop的介紹Sqoop是一個用來將Hadoop和關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)相互轉(zhuǎn)移的工具,可以將一個關(guān)系型數(shù)據(jù)庫(例如:MySQL,Oracle,Postgres等)中的數(shù)據(jù)導(dǎo)進到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)進到關(guān)系型數(shù)據(jù)庫中。Oozie的介紹Oozie是一個基于工作流引擎的開源框架,是由Cloudera公司貢獻給Apache的,它能夠提供對HadoopMapReduce和PigJobs的任務(wù)調(diào)度與協(xié)調(diào)。Oozie需要部署到JavaServlet容器中運行。Oozie工作流定義,同JBossjBPM提供的jPDL一樣,也提供了類似的流程定義語言hPDL,通過XML文件格式來實現(xiàn)流程的定義。對于工作流系統(tǒng),一般都會有很多不同功能的節(jié)點,比如分支、并發(fā)、匯合等等,Oozie也有類似的一些概念,不做過多解釋,更多信息可以參考相關(guān)文檔。Oozie定義了控制流節(jié)點(ControlFlowNodes)和動作節(jié)點(ActionNodes),其中控制流節(jié)點定義了流程的開始和結(jié)束,以及控制流程的執(zhí)行路徑(ExecutionPath),如decision、fork、join等;而動作節(jié)點包括Hadoopmap-reduce、Hadoop文件系統(tǒng)、Pig、SSH、HTTP、eMail和Oozie子流程Flume的介紹Flume是Cloudera公司的一款高性能、高可能的分布式日志收集系統(tǒng)。支持在系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時,Flume提供對數(shù)據(jù)進行簡單處理,并寫到各種數(shù)據(jù)接受方(可定制)的能力。具有以下特性:也是scribe采用的策略,當(dāng)數(shù)據(jù)接收方crash時,將數(shù)據(jù)寫到本地,待恢復(fù)后,繼續(xù)發(fā)送),Besteffort(數(shù)據(jù)發(fā)送到接收方后,不會進行確認)。Flume采用了三層架構(gòu),分別為agent,collector和storage,每一層均可以水平擴展。其中,所有agent和collector由master統(tǒng)一管理,這使得系統(tǒng)容易監(jiān)控和維護,且master允許有多個(使用ZooKeeper進行管理和負載均衡),這就避免了單點故障問題。用戶可以根據(jù)需要添加自己的agent,collector或者storage。此外,Flume自帶了很多組件,包括各種agent(file,syslog等),collector和storage(file,HDFS等)運營平臺運營平臺主要的組件是Ambari和ZookeeperAmbari的介紹ApacheAmbari是一種基于Web的工具,支持ApacheHadoop集群的供應(yīng)、管理和監(jiān)控。Ambari目前已支持大多數(shù)Hadoop組件,包括HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等。ApacheAmbari支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等的集中管理。也是5個頂級hadoop管理工具之一。350350Ambari主要取得了以下成績:通過一步一步的安裝向?qū)Ш喕思汗?yīng)。預(yù)先配置好關(guān)鍵的運維指標(metrics),可以直接查看HadoopCore(HDFS和MapReduce)及相關(guān)項目(如HBase、Hive和HCatalog)是否健康。支持作業(yè)與任務(wù)執(zhí)行的可視化與分析,能夠更好地查看依賴和性能。通過一個完整的RESTfulAPI把監(jiān)控信息暴露出來,集成了現(xiàn)有的運維工具。用戶界面非常直觀,用戶可以輕松有效地查看信息并控制集群。Ambari使用Ganglia收集度量指標,用Nagios支持系統(tǒng)報警,當(dāng)需要引起管理員的關(guān)注時(比如,節(jié)點停機或磁盤剩余空間不足等問題),系統(tǒng)將向其發(fā)送郵件。此外,Ambari能夠安裝安全的(基于Kerberos)Hadoop集群,以此實現(xiàn)了對Hadoop安全的支持,提供了基于角色的用戶認證、授權(quán)和審計功能,并為用戶管理集成了LDAP和ActiveDirectory。Zookeeper的介紹Zookeeper分布式服務(wù)框架是ApacheHadoop的一個子項目,它主要是用來解決分布式應(yīng)用中經(jīng)常遇到的一些數(shù)據(jù)管理問題,如:統(tǒng)一命名服務(wù)、狀態(tài)同步服務(wù)、集群管理、分布式應(yīng)用配置項的管理等。本文將從使用者角度詳細介紹Zookeeper的安裝和配置文件中各個配置項的意義,以及分析Zookeeper的典型的應(yīng)用場景(配置文件的管理、集群管理、同步鎖、Leader選舉、隊列管理等),用Java實現(xiàn)它們并給出示例代碼。平臺功能總體要求穩(wěn)定、商用、高效、成熟、開源、易開發(fā),易擴展的大規(guī)模hadoop云平臺,為國家旅游相關(guān)的大數(shù)據(jù)進行統(tǒng)一的存儲、分析、挖掘和應(yīng)用。平臺業(yè)務(wù)功能旅游統(tǒng)計是旅游發(fā)展變化的“晴雨表”,具有“牽一發(fā)而動全身”的作用。旅游統(tǒng)計是旅游宏觀決策的前提和條件。旅游產(chǎn)業(yè)的發(fā)展,宏觀決策的可行性和現(xiàn)實性都離不開旅游統(tǒng)計數(shù)據(jù)來實證。旅游業(yè)是信息密集型產(chǎn)業(yè),旅游信息是聯(lián)系旅游產(chǎn)業(yè)各要素的紐帶。旅游信息的采集是旅游信息工作的首要環(huán)節(jié),是進行旅游信息化建設(shè)的基礎(chǔ)和核心。旅游信息數(shù)量龐大,種類繁多,形式多樣,時效性強,傳遞渠道多,涉及范圍廣,更新速度快,必須建立一套科學(xué)合理有效的旅游信息采集長效機制才能保障旅游信息的準確、及時、完整和實用。目前的統(tǒng)計主要涉及以下幾個方面:????旅游企業(yè)的基礎(chǔ)信息分析統(tǒng)計針對于旅游企業(yè)的基礎(chǔ)信息進行分析統(tǒng)計,包括:景區(qū)基礎(chǔ)設(shè)施統(tǒng)計:景區(qū)等級、占地面積、景點基本情況、人員本情況、運營基本情況以及景區(qū)官方方基本情況等。酒店餐飲企業(yè)基礎(chǔ)信息統(tǒng)計:客房數(shù)量、包廂數(shù)量、基礎(chǔ)服務(wù)設(shè)施情況、特色菜品情況、接待情況以及運營情況等。其他旅游企業(yè)基礎(chǔ)信息統(tǒng)計:人員信息、工資福利情況、基礎(chǔ)設(shè)施建設(shè)情況、年審情況等相關(guān)內(nèi)容。旅游從業(yè)人員統(tǒng)計系統(tǒng)將專職帶團導(dǎo)游、景區(qū)導(dǎo)游、旅游行業(yè)專家以及其他旅游行業(yè)相關(guān)從業(yè)人員的專業(yè)技能信息進行專項性統(tǒng)計,從而形成針對旅游行業(yè)人才信息的統(tǒng)計報表內(nèi)容。其中主要包括:人員年齡、人員性別、教育水平、專業(yè)培訓(xùn)歷史記錄、獎勵及處罰記錄、帶團及工作履歷、專業(yè)技能、專業(yè)領(lǐng)域以及游客評價等多個方面進行分析統(tǒng)計。行業(yè)營運信息統(tǒng)計基于系統(tǒng)各類行業(yè)運營信息、各企業(yè)上報信息,主要對各涉旅機構(gòu)、企業(yè)的經(jīng)營收入情況以及游客接待情況進行統(tǒng)計分析。同時可在指定時間段、企業(yè)范圍進行定制型報表查詢。綜合經(jīng)營收入統(tǒng)計針對市轄所有景區(qū)、酒店、餐飲以及其他相關(guān)旅游企業(yè)在一定時間或條件下的經(jīng)營收入情況進行分析統(tǒng)計。主要包括:景區(qū)門票收入、客房收入、餐飲收入以及商品銷售收入等內(nèi)容進行統(tǒng)計分析。綜合游客接待情況統(tǒng)計針對市轄所有景區(qū)、酒店的游客接待情況進行統(tǒng)計分析,主要包括:游客客源地、游客年齡組成、游客性別組成、酒店住入游客數(shù)量、客房入住率等多方面進行統(tǒng)計分析。景區(qū)流量統(tǒng)計主要統(tǒng)計內(nèi)容包括:景區(qū)級別、指定時間段內(nèi)游客流量、來源旅行社、游客歸屬地、帶團導(dǎo)游等相關(guān)內(nèi)容。飯店出租率統(tǒng)計針對于市轄的各類涉旅接待酒店、飯店客房出租率進行統(tǒng)計分析,其主要數(shù)據(jù)來源為旅行社行程計劃中所涉及的酒店住宿安排信息以及酒店日常報送信息進行匯總,從而形成實時的酒店客房出租情況的動態(tài)統(tǒng)計。主要統(tǒng)計內(nèi)容包括:酒店類型、酒店級別、客房類型、空閑客房間數(shù)、出租客房間數(shù)、客房出租率、入住游客來源旅行社、帶團導(dǎo)游、客房價格、游客來源等相關(guān)內(nèi)容。自駕游車輛統(tǒng)計通過景區(qū)、酒店以及相關(guān)企業(yè)在系統(tǒng)內(nèi)進行自駕游車輛信息的日常報送,以及結(jié)合交通服務(wù)機構(gòu)的數(shù)據(jù),全面的將旅游自駕車輛的信息進行統(tǒng)計分析,從而形成有關(guān)各景區(qū)、目的地自駕游車輛的實時情況。主要內(nèi)容包括:車輛類型、車輛來源地、逗留時間等內(nèi)容。節(jié)慶期間專項統(tǒng)計系統(tǒng)將通過定制指定時間段、所轄旅游企業(yè)機構(gòu)的方式,對于專題節(jié)慶期間的各類游客接待、經(jīng)營收入、客房出租以及商品銷售情況進行統(tǒng)計,從而能夠是旅游局管理部門相關(guān)人員及時了解到重要節(jié)慶期間的旅游行業(yè)運營情況。主要內(nèi)容包括:景區(qū)游客接待情況:景區(qū)級別、游客流量、來源旅行社、游客歸屬地、帶團導(dǎo)游。酒店客房出租情況:酒店類型、酒店級別、客房類型、空閑客房間數(shù)、出租客房間數(shù)、客房出租率、入住游客來源旅行社、帶團導(dǎo)游、客房價格、游客來源。自駕游車輛統(tǒng)計:車輛類型、車輛來源地、逗留時間??驮吹亟y(tǒng)計系統(tǒng)將針對入境游客的科院所在地進行分析,從而形成全面的游客客源地統(tǒng)計分析數(shù)據(jù),以便于旅游局管理部門管理人員以及企業(yè)經(jīng)營者能夠全面了解客源發(fā)布情況。主要內(nèi)容包括:游客所在地地區(qū)、客源比例、入境天數(shù)、接待旅行社以及帶團大有等相關(guān)信息。游客行為監(jiān)測統(tǒng)計系統(tǒng)將各類統(tǒng)計信息、業(yè)務(wù)信息以及上報信息進行綜合性分析工作,為旅游行業(yè)企業(yè)提供科學(xué)的游客行為監(jiān)控統(tǒng)計,通過游客在參團后的一系列行動,分析不同游客的喜好。例如可通過系統(tǒng)獲取到:“客源地為北京的45-55歲的男性游客,絕大多數(shù)入住4星以上賓館,以及希望瀏覽山水類景區(qū),同時平均旅游行程為3天,旅游消費在2000元以上。旅游景區(qū)峰值預(yù)警旅游企業(yè)用戶權(quán)限管理為相關(guān)旅游行業(yè)企業(yè)進行權(quán)限、角色管理,通過由系統(tǒng)統(tǒng)一分配的各企業(yè)管理員角色根據(jù)企業(yè)實際情況進行二次分配多個不同的用戶角色以及權(quán)限,使得企業(yè)內(nèi)各類用戶均可以登錄使用系統(tǒng)相關(guān)功能。旅游局管理部門管理人員權(quán)限管理旅游局管理部門領(lǐng)導(dǎo)為旅游局管理部門各級領(lǐng)導(dǎo)提供各類旅游行業(yè)數(shù)據(jù)的統(tǒng)計分析、電子合同、電子行程計劃等行業(yè)數(shù)據(jù)的查詢等相關(guān)功能。旅游局管理部門管理人員為旅游局管理部門管理人員提供旅游行業(yè)數(shù)據(jù)的統(tǒng)計分析、電子合同、電子行程計劃查詢、業(yè)務(wù)審批等相關(guān)功能?,F(xiàn)場執(zhí)法檢查人員為旅游局管理部門現(xiàn)場執(zhí)法檢查人員提供電子行程計劃查詢、電子合同查詢以及現(xiàn)場執(zhí)法檢查操作等相關(guān)功能。旅游企業(yè)管理人員權(quán)限管理旅行社企業(yè)用戶,主要分為管理員、旅行社計調(diào)、旅行社門市人員、旅行社專職導(dǎo)游以及旅行旅行社社業(yè)務(wù)主管等多種類型。其中:旅行社管理員:主要負責(zé)旅行社內(nèi)部賬號、權(quán)限分配,以及旅行社基礎(chǔ)信息管理、人員信息管理等業(yè)務(wù)管理功能。旅行社計調(diào)人員:主要負責(zé)旅行社線路管理、行程計劃管理、電子合同管理、導(dǎo)游招聘以及現(xiàn)場管理等行程管理功能。旅行社門市人員:主要負責(zé)線路報名、散客管理、游客及供應(yīng)商信息管理等線路拼團、銷售業(yè)務(wù)的管理功能。旅行社業(yè)務(wù)主管人員:主要負責(zé)各類業(yè)務(wù)數(shù)據(jù)報表、旅游局管理部門信息上報、業(yè)務(wù)審批等業(yè)務(wù)管理管理功能。旅行社專職導(dǎo)游人員:主要負責(zé)旅游線路帶團工作,使用手機客戶端進行各類業(yè)務(wù)處理,主要包括,行程查詢、供應(yīng)商查詢、個人信息管理以及散客管理等功能。酒店賓館企業(yè)系統(tǒng)為各類旅游服務(wù)酒店、住宿機構(gòu)提供企業(yè)管理員以及業(yè)務(wù)管理人員角色等多種用戶類型。其中:企業(yè)管理員:主要負責(zé)企業(yè)內(nèi)部賬號及角色管理、酒店基礎(chǔ)信息管理、房型、酒店配套設(shè)施等輔助信息管理維護功能。酒店業(yè)務(wù)管理人員:主要負責(zé)旅游局管理部門信息上報、行程確認、酒店客房入住報表統(tǒng)計以及房型動態(tài)信息管理。景區(qū)景點為各類旅游景區(qū)以及相關(guān)企業(yè)機構(gòu)提供景區(qū)管理員以及景區(qū)業(yè)務(wù)管理人員角色等多種用戶類型。其中:景區(qū)管理員:主要負責(zé)景區(qū)內(nèi)部各類人員賬號、景區(qū)基礎(chǔ)信息管理、景區(qū)附屬服務(wù)設(shè)施信息管理以及景點信息管理。景區(qū)業(yè)務(wù)管理員:主要負責(zé)旅游局管理部門信息上報、行程確認以及景區(qū)接待情況數(shù)據(jù)統(tǒng)計等相關(guān)工作。旅游車輛服務(wù)企業(yè)為各類旅游車船服務(wù)企業(yè)提供企業(yè)基礎(chǔ)信息管理員角色以及企業(yè)業(yè)務(wù)信息管理員等多種用戶角色。其中:車船公司管理員:主要負責(zé)企業(yè)內(nèi)部各類人員賬號、基礎(chǔ)信息管理以及車輛船舶信息管理。景區(qū)業(yè)務(wù)管理員:主要負責(zé)旅游局管理部門信息上報、行程確認以及車輛船舶使用情況數(shù)據(jù)統(tǒng)計等相關(guān)工作。其他旅游服務(wù)企業(yè)為各類旅游服務(wù)企業(yè)、機構(gòu)提供企業(yè)管理員以及業(yè)務(wù)管理員角色,相關(guān)其他企業(yè)包括:休閑演藝場所:農(nóng)家樂、酒吧、KTV等游客特色服務(wù):漂流竹筏、特色旅游項目等;公共服務(wù)機構(gòu):游客集散中心、導(dǎo)游服務(wù)中心等。平臺技術(shù)功能業(yè)務(wù)分析商務(wù)智能平臺軟件能平臺軟件嚴密有效的安全性機制能有效保證企業(yè)數(shù)據(jù)的安全,為真正的企業(yè)級應(yīng)用打下良好的基礎(chǔ)。元數(shù)據(jù)管理商務(wù)智能平臺軟件具有一致,統(tǒng)一的元數(shù)據(jù)管理,同時在元數(shù)據(jù)層具有完備的安全性控制。能夠為整個企業(yè)提供一致的數(shù)據(jù)視圖。由管理員或高級用戶定義元數(shù)據(jù)模型,管理種類繁多的字段、表連接、視圖等等對象,并且元數(shù)據(jù)可以貫穿整個商務(wù)智能平臺軟件應(yīng)用始終,便于最終用戶探查細節(jié)數(shù)據(jù)。能夠平滑的適應(yīng)從簡單到復(fù)雜的應(yīng)用環(huán)境。開放的數(shù)據(jù)訪問用戶可以訪問各種數(shù)據(jù)源,基于這些數(shù)據(jù)源制作報表,報表制作純?yōu)g覽器方式:商務(wù)智能平臺軟件采用的是純?yōu)g覽器方式,整個系統(tǒng)中最終用戶的使用界面為真正的零安裝、零維護。多數(shù)據(jù)源:商務(wù)智能平臺軟件可以同時連接多數(shù)據(jù)源,甚至異構(gòu)數(shù)據(jù)源,一個報表中可以分頁設(shè)計,每頁都可以進行多查詢,每個查詢可以連接多個數(shù)據(jù)源。從而使系統(tǒng)能夠很好的應(yīng)用在復(fù)雜環(huán)境中。報表制作的方便性:商務(wù)智能平臺軟件在純?yōu)g覽器界面中,提供了基于鼠標拖拽的強大的格式定義能力,其優(yōu)異的XML可視化報表定義方式,可以使用戶非常方便的控制報表中內(nèi)容的精確布局,也可以很方便的制作中國特色的非平衡報表。只需要做簡單的操作就可以完成穿透鉆取,級聯(lián)提示等功能。使得最終用戶可以自己制作個性化的報表,IT部門從煩雜重復(fù)勞動中解脫出來,將精力集中在如何利用數(shù)據(jù)。報表內(nèi)容:商務(wù)智能平臺軟件可以將包括聲音,視頻,圖形,表格,文字,關(guān)系行數(shù)據(jù)庫內(nèi)容,OLAP等任何有用的信息集成在報表中,同時這些內(nèi)容還可以和查詢相關(guān)聯(lián),使報表的內(nèi)容聲色并茂,內(nèi)容飽滿,充實。OLAP和關(guān)系型數(shù)據(jù)源制作報表支持在圖形等內(nèi)容上進行鉆取支持在報表制作過程中使用MDX可直接制作非平衡報表,比如將不同維度或字段的內(nèi)容在同一行或列展現(xiàn)在報表制作過程中進行查詢的連接,交并補關(guān)系設(shè)置更為方便支持儀表盤功能支持地圖報表,并提供例子可在圖形中添加基本線,標注等,比如表達式的結(jié)果,平均,最大最小,標準偏差等穿透鉆取:商務(wù)智能平臺軟件的各個模塊能夠緊密集成,能夠迅速有效地傳遞數(shù)據(jù)流和安全性信息,用戶可以從一個主題鉆取到另一個主題,其獨特的分析后的查詢,使用戶能夠通過OLAP分析再穿透鉆取到相關(guān)的明細數(shù)據(jù),適應(yīng)了用戶的分析和使用習(xí)慣,從而能從業(yè)務(wù)上層次上跟蹤發(fā)生了什么問題和為什么發(fā)生了這樣的問題。高級報表功能:360360報表發(fā)布商務(wù)智能平臺軟件中,所有數(shù)據(jù)立方體、報表、圖表、分析,查詢等等對象都可以發(fā)布到統(tǒng)一的信息門戶中,做到信息集中,為使用者的訪問增加便捷。Web的分析功能分析開發(fā)模塊,提供純?yōu)g覽器的高級分析功能。API商務(wù)智能平臺軟件作為一個企業(yè)級的端對端的解決方案,產(chǎn)品本身已經(jīng)提供了全面完備的功能。同時商務(wù)智能平臺軟件也完全開放API供企業(yè)內(nèi)部不同應(yīng)用系統(tǒng)的集成和根據(jù)用戶需求所作的二次開發(fā)負載均衡商務(wù)智能平臺軟件產(chǎn)品是為企業(yè)級應(yīng)用精心設(shè)計的,具有良好的可擴展性能,其服務(wù)器本身就具有智能的負載均衡功能,能根據(jù)實際使用情況對各個的模塊進行負載,滿足企業(yè)級大用戶數(shù)并發(fā)訪問的要求,需要加入一臺新的服務(wù)器,通過簡單的注冊就能加入到整個擴展環(huán)境中參與負載;并且支持NT和UNIX混和環(huán)境的負載均衡,能最大限度的利用現(xiàn)有資源保護已有投資。事件生命周期管理事件開發(fā)環(huán)境,通過他可以在影響業(yè)務(wù)的事件發(fā)生時對用戶進行自動的提醒,你可以通過客戶端對事件的條件進行定義,設(shè)置處理事件的任務(wù)。從而為系統(tǒng)提供全面的監(jiān)控,對用戶進行及時提醒。PAGE371PAGE371預(yù)測分析平臺軟件快速直觀地創(chuàng)建強大的預(yù)測模型您的組織可能已經(jīng)在數(shù)據(jù)庫、報告、企業(yè)資源規(guī)劃(ERP)、業(yè)務(wù)分析、在線分析處理(OLAP)及其他技術(shù)方面投入了大量資金,協(xié)助您管理業(yè)務(wù)。您可以利用商務(wù)智能預(yù)測分析軟件軟件直接訪問存儲在不同的操作系統(tǒng)中的大量數(shù)據(jù),創(chuàng)建強大的預(yù)測模型—并且無需編程,即可在圖形界面中形象直觀地完成此操作?,F(xiàn)已推出兩個版本的商務(wù)智能預(yù)測分析軟件軟件支持分析需求。商務(wù)智能預(yù)測分析軟件專業(yè)版包括利用結(jié)構(gòu)化數(shù)據(jù)所需的所有工具—在CRM系統(tǒng)中跟蹤記錄的行為和交互、人口分布特征、購買行為及銷售數(shù)據(jù)。商務(wù)智能預(yù)測分析軟件高級版引入了強大的文本挖掘工作臺,擴展了商務(wù)智能預(yù)測分析軟件專業(yè)版的功能,這種工作臺能夠從文本數(shù)據(jù)或“非結(jié)構(gòu)化”數(shù)據(jù)中提取關(guān)鍵概念、觀點和關(guān)系,并將它們轉(zhuǎn)換為結(jié)構(gòu)化格式,從而使預(yù)測模型更加精確。加速整個數(shù)據(jù)挖掘流程商務(wù)智能預(yù)測分析軟件軟件開創(chuàng)性的圖形界面使企業(yè)專業(yè)分析師輕松地專注于解決問題,而無需花費時間編寫程序。工作時,交互式“數(shù)據(jù)流”直觀映射數(shù)據(jù)挖掘流程,用戶能夠隨時與信息互動,更加快速放心地開發(fā)模型。商務(wù)智能預(yù)測分析軟件軟件減輕了分析師的非生產(chǎn)性技術(shù)負擔(dān),使他們得以專心解答業(yè)務(wù)問題。商務(wù)智能預(yù)測分析軟件軟件通過向數(shù)據(jù)挖掘流程的每一步添加支持文檔,支持分析數(shù)據(jù)重復(fù)使用。此外,它還能夠以各種方式充分利用部署能力,確保數(shù)據(jù)挖掘人員、分析師及其他業(yè)務(wù)用戶能夠相互協(xié)助完成項目,解決各種各樣的嚴峻挑戰(zhàn)。數(shù)據(jù)挖掘人員通過圖形界面訪問整套先進的分析功能,包括最先進的運算法則、自動化的數(shù)據(jù)準備工具,以及豐富的交互可視化功能。這些省時技術(shù)可實現(xiàn)更大的有效性和準確性,降低日常開銷。商務(wù)智能預(yù)測分析軟件軟件可為跨行業(yè)數(shù)據(jù)挖掘標準流程(StandardProcessforDataMining,CRISP-DM)提供明確的支持,這種行業(yè)標準方法可確保利用數(shù)據(jù)挖掘技術(shù)得到及時可靠的結(jié)果。通過自動化更加迅速地獲取結(jié)果自動化建模功能使軟件能夠識別最適于解決您的問題的各項技術(shù)。這種功能可幫助您一步快速創(chuàng)建最佳模型。您可以選擇特定的模型,也可以結(jié)合使用多種預(yù)測技術(shù)生成模型,以便準確地預(yù)測結(jié)果。采用自動化的數(shù)據(jù)準備功能,使分析師不必花費大量時間驗證和準備分析數(shù)據(jù)。由于幾乎80%的數(shù)據(jù)挖掘工作時間通常耗費在此類任務(wù)上,而商務(wù)智能預(yù)測分析軟件軟件能夠自動完成這一流程,分析師便能集中精力完成主要工作—解決業(yè)務(wù)問題。利用所有數(shù)據(jù)最大限度地獲取洞察您可以利用商務(wù)智能預(yù)測分析軟件軟件獲取更深入的洞察和更準確的預(yù)測,這是因為您可以利用所有數(shù)據(jù)資產(chǎn)創(chuàng)建客戶或涉眾的完整視圖。商務(wù)智能預(yù)測分析軟件軟件可在多種平臺上利用多種數(shù)據(jù)庫、電子表格和平面文件,因此您可以充分利用所有數(shù)據(jù),獲取更好的業(yè)務(wù)成果。這就大大提高了組織解決復(fù)雜業(yè)務(wù)問題的能力。您還能從以各種語言記錄的文本數(shù)據(jù)或“非結(jié)構(gòu)化”數(shù)據(jù)中提取關(guān)鍵性概念、觀點和關(guān)系。商務(wù)智能預(yù)測分析軟件高級版提供全面的數(shù)據(jù)挖掘功能和完全整合的文本分析工作臺,輕松地將文檔、電子郵件、博客、RSS訂閱源等文本數(shù)據(jù)源中的自由文本數(shù)據(jù)納入分析。這樣有助于您了解概念、態(tài)度、人員、組織和事件之間的關(guān)系,并將這些洞察整合到模型。商務(wù)智能預(yù)測分析軟件可與其他數(shù)據(jù)挖掘工具技術(shù)全面整合,使組織能夠充分利用現(xiàn)有投資,輕松地實現(xiàn)更多價值。數(shù)據(jù)挖掘工具?DataCollection系列調(diào)查研究軟件,可將態(tài)度數(shù)據(jù)納入預(yù)測模型,為您提供可以深入分析客戶的豐富資料來源。此外,Statistics界面可從商務(wù)智能預(yù)測分析軟件軟件直接訪問,因此您無需離開數(shù)據(jù)挖掘工作臺,便能夠執(zhí)行數(shù)據(jù)準備和處理、統(tǒng)計測試和報告工作。將預(yù)測整合到整個企業(yè)中商務(wù)智能預(yù)測分析軟件軟件使您能夠利用各種標準編程接口,輕松地將預(yù)測功能部署到業(yè)務(wù)流程中,從而同時支持實時分析和批量分析流程。您還可利用其他服務(wù)管理模型性能,實現(xiàn)分析流程自動化。這些服務(wù)可節(jié)省時間,并確保持續(xù)更新模型及模型的準確性。可通過數(shù)據(jù)挖掘工具添加創(chuàng)新性分析管理、流程自動化及部署功能,將預(yù)測模型轉(zhuǎn)換為企業(yè)信息資產(chǎn)。這種最佳的分析平臺可提供可靠的可擴展基礎(chǔ)設(shè)施,提供關(guān)鍵業(yè)務(wù)流程預(yù)測和建議。實現(xiàn)顯著的可擴展性和開放性商務(wù)智能預(yù)測分析軟件軟件的開放式架構(gòu)使您能夠使用數(shù)據(jù)、部署模型、預(yù)測和了解決策者及自動化的操作系統(tǒng),包括:呼叫中心工作人員,協(xié)助他們提供更多客戶樂于接受的產(chǎn)品或服務(wù)—提高營收,而不會大幅增加成本其他面向客戶的工作人員,以便他們能夠向現(xiàn)有客戶進行向上銷售和交叉銷售,留住那些可能會流失的客戶—提高客戶群的收益率網(wǎng)站,讓客戶更加輕松地搜尋和購買他們想要的產(chǎn)品,從而增加這一渠道的盈利能力商務(wù)智能預(yù)測分析軟件軟件能充分利用IT基礎(chǔ)架構(gòu),因此無需添加新硬件,即可利用現(xiàn)有的數(shù)據(jù)庫內(nèi)提供的數(shù)據(jù)挖掘運算法則,在幾分鐘內(nèi)為多條記錄評分。中小型企業(yè)將會發(fā)現(xiàn),

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論