




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)與應(yīng)用
二Ο一三年七月二十四日何寶宏工業(yè)和信息化部電信研究院
大數(shù)據(jù)與應(yīng)用
何寶宏什么是大數(shù)據(jù)2無(wú)法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的大量而復(fù)雜的數(shù)據(jù)集合
——維基百科數(shù)量大、獲取速度快或形態(tài)多樣的數(shù)據(jù),難以用傳統(tǒng)關(guān)系型數(shù)據(jù)分析方法進(jìn)行有效分析,或者需要大規(guī)模的水平擴(kuò)展才能高效處理 ——美國(guó)NIST體量大、快速和多樣化的信息資產(chǎn),需用高效率和創(chuàng)新型的信息技術(shù)加以處理,以提高發(fā)現(xiàn)洞察、做出決策和優(yōu)化流程的能力 ——Gartner公司什么是大數(shù)據(jù)2無(wú)法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行抓取主要內(nèi)容大數(shù)據(jù)的“熱”大數(shù)據(jù)的“大”大數(shù)據(jù)的“數(shù)”大數(shù)據(jù)的顛覆性大數(shù)據(jù)的隱私保護(hù)大數(shù)據(jù)的實(shí)踐3主要內(nèi)容大數(shù)據(jù)的“熱”3大數(shù)據(jù)引發(fā)全球高度重視2022/12/102000年以來(lái),搜索、廣告和電商利用大數(shù)據(jù)獲得豐厚回報(bào)2011年麥肯錫總結(jié)大數(shù)據(jù)現(xiàn)象并發(fā)布報(bào)告,點(diǎn)燃大數(shù)據(jù)熱潮2012年初世界經(jīng)濟(jì)論壇討論大數(shù)據(jù)一題引起政商界高度關(guān)注2012年,美國(guó)、英國(guó)、日本等政府積極開(kāi)放數(shù)據(jù),并資助大數(shù)據(jù)研發(fā)IBM、沃爾瑪?shù)葌鹘y(tǒng)企業(yè)大規(guī)模并購(gòu)大數(shù)據(jù)公司,進(jìn)軍大數(shù)據(jù)領(lǐng)域大數(shù)據(jù)=戰(zhàn)略資源共識(shí)互聯(lián)網(wǎng)咨詢(xún)公司IT和其他行業(yè)經(jīng)濟(jì)界政府大數(shù)據(jù)引發(fā)全球高度重視2022/12/82000年以來(lái),搜索大數(shù)據(jù)的產(chǎn)業(yè)熱據(jù)Wikibon公司測(cè)算,2011年全球大數(shù)據(jù)產(chǎn)值已經(jīng)達(dá)到51億美元。預(yù)計(jì)到2017年將達(dá)到534億美元,年均增速達(dá)到58%,是同期IT產(chǎn)業(yè)增速的7倍來(lái)源:Wikibon公司,2012年大數(shù)據(jù)的產(chǎn)業(yè)熱據(jù)Wikibon公司測(cè)算,2011年全球大數(shù)據(jù)大數(shù)據(jù)的投融資熱6大數(shù)據(jù)的投融資熱6以數(shù)據(jù)為中心的時(shí)代ICT產(chǎn)業(yè)發(fā)展周期大數(shù)據(jù)以數(shù)據(jù)為中心的時(shí)代ICT產(chǎn)業(yè)發(fā)展周期大數(shù)據(jù)主要內(nèi)容大數(shù)據(jù)的“熱”大數(shù)據(jù)的“大”大數(shù)據(jù)的“數(shù)”大數(shù)據(jù)的顛覆性大數(shù)據(jù)的隱私保護(hù)大數(shù)據(jù)的實(shí)踐8主要內(nèi)容大數(shù)據(jù)的“熱”8“信息化”浪潮13語(yǔ)言印刷術(shù)互聯(lián)網(wǎng)文字保存與傳承口耳相傳大范圍傳播與持久保存距今5000年前距今10萬(wàn)年前公元1000年公元2000年硅介質(zhì)數(shù)字化網(wǎng)絡(luò)化古登堡印刷術(shù)發(fā)明后,50年書(shū)籍增加了800萬(wàn)冊(cè),增長(zhǎng)1倍,是之前西方數(shù)據(jù)量的總和“信息化”浪潮13語(yǔ)言印刷術(shù)互聯(lián)網(wǎng)文字保存與傳承口耳相傳大范史上的大數(shù)據(jù):政府最先遇到10稅收!約前2200年大禹“平水土分九州數(shù)萬(wàn)民”公元2年,漢書(shū).地理志:全國(guó)103個(gè)郡國(guó),人口是59,594,978人1909年,秦政府頒布調(diào)查戶(hù)口章程1086年,英國(guó)《末日審判書(shū)》人口、土地、財(cái)產(chǎn)登記古羅馬,每5年一次美國(guó)憲法規(guī)定10年一次人口普查1880年統(tǒng)計(jì)用了8年,預(yù)計(jì)1890年要13年穿孔卡片制表機(jī)的發(fā)明,要1年史上的大數(shù)據(jù):政府最先遇到10稅收!約前2200年大禹“平水史上的大數(shù)據(jù):天文學(xué)制造了數(shù)據(jù)大爆炸11第谷人肉的“大數(shù)據(jù)”資源開(kāi)普勒突破性的“處理”算法伽利略工具的“大數(shù)據(jù)”資源牛頓劃時(shí)代先進(jìn)的理論史上的大數(shù)據(jù):天文學(xué)制造了數(shù)據(jù)大爆炸11第谷開(kāi)普勒伽利略牛頓數(shù)據(jù)量的增速12全球數(shù)據(jù)量預(yù)測(cè)(單位ZB)1980以來(lái),每40個(gè)月翻一番數(shù)據(jù)量增速,是GDP增速的4倍數(shù)據(jù)處理能力,是GDP增速的9倍2000年人類(lèi)信息75%是模擬數(shù)據(jù),2007年是6%,現(xiàn)在1%?數(shù)據(jù)量的增速12全球數(shù)據(jù)量預(yù)測(cè)(單位ZB)1980以來(lái),每4計(jì)算能力的加速13計(jì)算能力的加速134V/3V:只是在說(shuō)“大”!144V/3V:只是在說(shuō)“大”!14“大”是相對(duì)的2012年的“大”從幾個(gè)TB(1TB=1,024GB)到多個(gè)PBGoogle,1000PB2013年的“大”數(shù)PB(1PB=1,024TB)百度1000PBHadoop開(kāi)源模仿GoogleMapReduce,2003年的技術(shù)Google
Dremel2012年,新的編程框架15不同企業(yè),大的概念不同“大”是相對(duì)的2012年的“大”15不同企業(yè),大的概念不同引爆此輪大數(shù)據(jù)的原因2022/12/10194619611970199020002003200820131960年代,數(shù)據(jù)與應(yīng)用分離,數(shù)據(jù)庫(kù)技術(shù)蓬勃發(fā)展,但重視事務(wù)處理2000年后,互聯(lián)網(wǎng)公司開(kāi)啟數(shù)據(jù)分析挖掘新時(shí)代1946年,電腦誕生,數(shù)據(jù)與應(yīng)用緊密捆綁在文件中,彼此不分1990年代,提出數(shù)據(jù)分析挖掘數(shù)據(jù)耦合時(shí)代數(shù)據(jù)分析時(shí)代數(shù)據(jù)庫(kù)時(shí)代大數(shù)據(jù)時(shí)代從流程電子化到數(shù)據(jù)資產(chǎn)化1)數(shù)據(jù)更加豐富,有分析價(jià)值,從TB到PB2)分析工具更加強(qiáng)大,成本夠低,MapReduce3)互聯(lián)網(wǎng)商業(yè)上的成功,引起重視,麥肯錫報(bào)告引爆此輪大數(shù)據(jù)的原因2022/12/819461961197主要內(nèi)容大數(shù)據(jù)的“熱”大數(shù)據(jù)的“大”大數(shù)據(jù)的“數(shù)”大數(shù)據(jù)的顛覆性大數(shù)據(jù)的隱私保護(hù)大數(shù)據(jù)的實(shí)踐17主要內(nèi)容大數(shù)據(jù)的“熱”17數(shù)據(jù)的內(nèi)涵可被量化、分析和再使用的信息通常是測(cè)量獲得的可用圖形圖像可視化模擬數(shù)據(jù)和數(shù)字?jǐn)?shù)據(jù)是最底層的抽象?18知識(shí)信息數(shù)據(jù)數(shù)據(jù)的內(nèi)涵可被量化、分析和再使用的信息18知識(shí)信息數(shù)據(jù)史上數(shù)據(jù)理論的重大突破19復(fù)式記賬法:商業(yè)、貿(mào)易、金融等的基礎(chǔ)
市場(chǎng)經(jīng)濟(jì)復(fù)式記賬法伽利略:實(shí)驗(yàn)科學(xué)牛頓:物理世界數(shù)學(xué)化量子力學(xué):從宏觀到微觀
物理學(xué)圖靈:讓通用自動(dòng)計(jì)算成為可能
計(jì)算機(jī)香農(nóng):信息論
通信史上數(shù)據(jù)理論的重大突破19復(fù)式記賬法:商業(yè)、貿(mào)易、金融等的基不斷量化的宇宙Web1.0被動(dòng)Web2.0主動(dòng)碎片移動(dòng)互聯(lián)網(wǎng)隨時(shí)隨地云計(jì)算全部20人口天體長(zhǎng)度重量面積體積時(shí)間空間顏色電流電壓聲音圖像社會(huì)關(guān)系輻射能量信息不斷量化的宇宙Web1.0Web2.0移動(dòng)互聯(lián)網(wǎng)云計(jì)算20人上帝是數(shù)學(xué)家嗎?21大數(shù)據(jù)物理世界精神世界量化量化哲學(xué)宗教上帝是數(shù)學(xué)家嗎?21大數(shù)據(jù)物理世界精神世界量化量化哲學(xué)宗教主要內(nèi)容大數(shù)據(jù)的“熱”大數(shù)據(jù)的“大”大數(shù)據(jù)的“數(shù)”大數(shù)據(jù)的顛覆性大數(shù)據(jù)與隱私保護(hù)大數(shù)據(jù)的實(shí)踐22主要內(nèi)容大數(shù)據(jù)的“熱”22思維的三大轉(zhuǎn)變23相關(guān)關(guān)系紛繁復(fù)雜全體數(shù)據(jù)思維的三大轉(zhuǎn)變23相關(guān)關(guān)系紛繁復(fù)雜全體數(shù)據(jù)從樣本到總體統(tǒng)計(jì)學(xué)的理論基礎(chǔ)用盡可能少的數(shù)據(jù),證實(shí)盡可能大的事實(shí)樣本分析精確性隨著隨機(jī)性的增加而大幅提高精確性不樣本空間數(shù)量的增加關(guān)系不大樣本分析的缺陷絕對(duì)的隨機(jī)性不適合考察子類(lèi)別事先設(shè)計(jì)好的問(wèn)題24從樣本到總體統(tǒng)計(jì)學(xué)的理論基礎(chǔ)24從樣本到總體:信不信由你“樣本”的統(tǒng)計(jì),2003-2012年房?jī)r(jià):全國(guó)143%,北京256%收入:上漲180%CPI:中國(guó)漲幅34%,美國(guó)36%“總體”的大數(shù)據(jù)貨幣發(fā)行量:+500%,超過(guò)美國(guó),占全球50%GDP增長(zhǎng)4倍,CPI應(yīng)是100%漲幅!股市:“上浮零”淘寶TCPI指數(shù):6.9%全國(guó)工業(yè)用電量指數(shù):4.7%25從樣本到總體:信不信由你“樣本”的統(tǒng)計(jì),2003-2012年從精確到效率:用概率說(shuō)話大量信息和精確性,存在矛盾錯(cuò)誤數(shù)據(jù)的混入,不準(zhǔn)確性關(guān)系數(shù)據(jù)庫(kù)是數(shù)據(jù)稀缺時(shí)代設(shè)計(jì)的“電信化”是短缺經(jīng)濟(jì)的產(chǎn)物算法的進(jìn)步快于芯片,大數(shù)據(jù)優(yōu)于算法用簡(jiǎn)單算法替代小數(shù)據(jù)的精確算法簡(jiǎn)單算法+海量數(shù)據(jù)?26從精確到效率:用概率說(shuō)話大量信息和精確性,存在矛盾26從精確到效率:自然語(yǔ)言處理的發(fā)展史27飛鳥(niǎo)派新派要讓機(jī)器翻譯或語(yǔ)音識(shí)別,就需要先讓機(jī)器理解自然語(yǔ)言從基于規(guī)則到對(duì)大數(shù)據(jù)的統(tǒng)計(jì)數(shù)據(jù)比算法更重要反例:中國(guó)的英語(yǔ)教學(xué)正例:TCPI,大眾點(diǎn)評(píng),Google翻譯從精確到效率:自然語(yǔ)言處理的發(fā)展史27飛鳥(niǎo)派新派要讓機(jī)器翻譯從因果到相關(guān):Why—>Related哲學(xué)爭(zhēng)論:因果關(guān)系存在嗎?如果是,人的自由意志存在嗎?機(jī)器會(huì)告訴是什么,而不是為什么語(yǔ)義網(wǎng)絡(luò)人工智能人類(lèi)認(rèn)知水平相關(guān)“丁蟹效應(yīng)”凡是播出由鄭少秋主演的電視劇,恒生指數(shù)或A股已有32個(gè)明顯下跌巧合?自我實(shí)現(xiàn)?大數(shù)據(jù)分析?28從因果到相關(guān):Why—>Related哲學(xué)爭(zhēng)論:因果關(guān)系存在手機(jī)會(huì)致癌,相關(guān)嗎?對(duì)比丹麥1990-2007年所有手機(jī)數(shù)據(jù)庫(kù)(358403人)10729個(gè)中樞神經(jīng)系統(tǒng)腫瘤患者數(shù)據(jù)庫(kù)研究目的是否手機(jī)使用者更容易致癌?是否通話時(shí)間長(zhǎng)更容易會(huì)致癌?結(jié)論:沒(méi)有關(guān)系29手機(jī)會(huì)致癌,相關(guān)嗎?對(duì)比丹麥1990-2007年所有手機(jī)數(shù)據(jù)大數(shù)據(jù)讓社會(huì)學(xué)成為科學(xué)?30人類(lèi)的行為是隨機(jī)的,不可預(yù)測(cè)的人的行為是小概率事件,人類(lèi)需要的是隨機(jī)的智慧人類(lèi)工作娛樂(lè)等活動(dòng)具有間歇性,總是在長(zhǎng)時(shí)間休息后突然爆發(fā),然后沉寂人類(lèi)93%的行為是可預(yù)測(cè)的自然界人類(lèi)世界,符合冪律大數(shù)據(jù)讓社會(huì)學(xué)成為科學(xué)?30人類(lèi)的行為是隨機(jī)的,不可預(yù)測(cè)的人假如人類(lèi)的行為可以預(yù)測(cè)…31認(rèn)知大自然農(nóng)耕文明定居生活階級(jí)社會(huì)認(rèn)知物理世界工業(yè)文明資本主義毀了自然認(rèn)知信息世界XX文明?信息革命毀了時(shí)間?認(rèn)知人類(lèi)行為技術(shù)生物?毀“三觀”?假如人類(lèi)的行為可以預(yù)測(cè)…31認(rèn)知大自然農(nóng)耕文明定居生活階級(jí)社大數(shù)據(jù),經(jīng)過(guò)1000年的發(fā)展后…32烏龜殼前14-11世紀(jì)
普通CD20-50年磁盤(pán)3-4年磁帶30年《妙法蓮花經(jīng)》南北朝羊皮圣經(jīng)4世紀(jì)
壁畫(huà)1.1萬(wàn)年前U盤(pán)8-10年如何保存如何打開(kāi)如何檢索如何甄別大數(shù)據(jù),經(jīng)過(guò)1000年的發(fā)展后…32烏龜殼普通CD磁盤(pán)磁帶《永恒的忘記…33將隱私的討論,擴(kuò)展到時(shí)間維度對(duì)于人類(lèi)而言,遺忘一直是常態(tài),記憶才是例外,而現(xiàn)在記憶卻成了常態(tài)大數(shù)據(jù)將所有人置于數(shù)字圓形監(jiān)獄的中央永恒的忘記…33將隱私的討論,擴(kuò)展到時(shí)間維度主要內(nèi)容大數(shù)據(jù)的“熱”大數(shù)據(jù)的“大”大數(shù)據(jù)的“數(shù)”大數(shù)據(jù)的顛覆性大數(shù)據(jù)的隱私保護(hù)大數(shù)據(jù)的實(shí)踐34主要內(nèi)容大數(shù)據(jù)的“熱”34大數(shù)據(jù)是一種新資源你不可能再造Google,Facebook,騰訊百度阿里
你在讀書(shū),書(shū)在讀你35農(nóng)業(yè)社會(huì)土地人口工業(yè)時(shí)代資本技術(shù),機(jī)器,能源信息時(shí)代用戶(hù)數(shù)據(jù)可被消費(fèi),但沒(méi)法被耗盡可被創(chuàng)造,而不會(huì)被銷(xiāo)毀,除非丟失或遺忘大數(shù)據(jù)消耗的是注意力每“滴”數(shù)據(jù)的價(jià)值不同疊加效應(yīng)不是加法的,而是指數(shù)的大數(shù)據(jù)是一種新資源你不可能再造Google,Faceboo多國(guó)政府的戰(zhàn)略36國(guó)家/地區(qū)時(shí)間內(nèi)容美國(guó)2012年3月啟動(dòng)由聯(lián)邦政府六個(gè)部門(mén)組織的大數(shù)據(jù)研究計(jì)劃,投資兩億美元,力圖鞏固領(lǐng)先地位歐盟2012年9月聯(lián)合歐洲整體力量,制定大數(shù)據(jù)戰(zhàn)略,作為歐盟Horizon2020戰(zhàn)略一部分,加速追趕英國(guó)2013年1月英國(guó)把大數(shù)據(jù)作為八大關(guān)鍵技術(shù)領(lǐng)域之一,計(jì)劃兩年內(nèi)向大數(shù)據(jù)關(guān)鍵技術(shù)投入1.89億英鎊,搶占先機(jī)日本2012年7月《面向2020年的ICT綜合戰(zhàn)略》將“通過(guò)大數(shù)據(jù)應(yīng)用促進(jìn)社會(huì)發(fā)展經(jīng)濟(jì)增長(zhǎng)”作為五大重點(diǎn)之一,并提出活力數(shù)據(jù)戰(zhàn)略,提升日本競(jìng)爭(zhēng)力澳大利亞2013年3月發(fā)布大數(shù)據(jù)戰(zhàn)略報(bào)告,宣布將于2013年7月前完成政府大數(shù)據(jù)制定,促進(jìn)大數(shù)據(jù)在政府中的應(yīng)用多國(guó)政府的戰(zhàn)略36國(guó)家/地區(qū)時(shí)間內(nèi)容美國(guó)2012年3月啟動(dòng)由美國(guó)政府大數(shù)據(jù)計(jì)劃2012年3月29日,奧巴馬政府宣布“大數(shù)據(jù)的研究和發(fā)展計(jì)劃(BigDataResearchandDevelopmentInitiative)”。首批共有包括美國(guó)科學(xué)基金會(huì)、衛(wèi)生福利部/國(guó)家衛(wèi)生研究所、能源部、國(guó)防部、國(guó)防部高級(jí)研究計(jì)劃局、地質(zhì)調(diào)查局等六個(gè)聯(lián)邦政府的部門(mén)和機(jī)構(gòu)宣布新的2億美元的投資。共同提高從大量數(shù)字?jǐn)?shù)據(jù)中訪問(wèn)、組織、收集發(fā)現(xiàn)信息的工具和技術(shù)水平;擴(kuò)大大數(shù)據(jù)技術(shù)開(kāi)發(fā)和應(yīng)用所需人才的供給;了解更多正在進(jìn)行的聯(lián)邦政府的計(jì)劃,解決由大數(shù)據(jù)帶來(lái)的機(jī)遇和挑戰(zhàn);計(jì)劃與工業(yè)界、大學(xué)研究界、非營(yíng)利性機(jī)構(gòu)與管理者一起利用大數(shù)據(jù)所創(chuàng)造的機(jī)會(huì)。國(guó)防部XDATA計(jì)劃:旨在開(kāi)發(fā)用于分析大量的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的計(jì)算技術(shù)和軟件工具。能源部HPSS:是對(duì)磁盤(pán)和磁帶系統(tǒng)上PB級(jí)數(shù)據(jù)進(jìn)行管理的數(shù)據(jù)管理軟件。衛(wèi)生福利部生物傳感2.0:是第一個(gè)考慮到區(qū)域和國(guó)家協(xié)調(diào)的情況下,通過(guò)互操作的網(wǎng)絡(luò)系統(tǒng)對(duì)公眾健康意識(shí)的可行性分析的系統(tǒng)。美國(guó)政府大數(shù)據(jù)計(jì)劃2012年3月29日,奧巴馬政府宣布“大數(shù)開(kāi)放政府?dāng)?shù)據(jù)聯(lián)盟截止2012年12月,美國(guó)的“開(kāi)放政府計(jì)劃”共有54個(gè)國(guó)家加入了由美國(guó)發(fā)起的“開(kāi)放政府計(jì)劃”。網(wǎng)站D公開(kāi)的數(shù)據(jù)類(lèi)別(不涉及隱私和國(guó)家安全)超過(guò)400項(xiàng),且數(shù)量仍在增加。智利、愛(ài)沙尼亞、以色列、意大利、約旦、秘魯、羅馬尼亞、西班牙等國(guó)家建立了網(wǎng)站,向公民公布各類(lèi)公共數(shù)據(jù),包括犯罪統(tǒng)計(jì)數(shù)字以及政黨資金、地方財(cái)政預(yù)算和政府采購(gòu)數(shù)據(jù)。開(kāi)放政府?dāng)?shù)據(jù)聯(lián)盟截止2012年12月,美國(guó)的“開(kāi)放政府計(jì)劃”加入“開(kāi)放政府聯(lián)盟”的門(mén)檻39財(cái)政透明能及時(shí)公開(kāi)政府財(cái)政預(yù)算和支出的信息和文件信息自由有專(zhuān)門(mén)的法律保證公民獲取政府信息和數(shù)據(jù)的權(quán)力財(cái)產(chǎn)公開(kāi)有專(zhuān)門(mén)的制度規(guī)定如何公開(kāi)高級(jí)政府官員的收入和財(cái)產(chǎn)公民參與允許公民參與公共政策的制定、保護(hù)民權(quán)加入“開(kāi)放政府聯(lián)盟”的門(mén)檻39財(cái)政透明能及時(shí)公開(kāi)政府財(cái)政預(yù)算大數(shù)據(jù)對(duì)技術(shù)的顛覆與組合40大數(shù)據(jù)對(duì)技術(shù)的顛覆與組合40大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)庫(kù)41采集環(huán)節(jié)存儲(chǔ)環(huán)節(jié)分析環(huán)節(jié)應(yīng)用環(huán)節(jié)傳統(tǒng)數(shù)據(jù)分析大數(shù)據(jù)分析擴(kuò)展到傳感、互聯(lián)網(wǎng)、交易等多來(lái)源多類(lèi)型數(shù)據(jù)來(lái)源單一,以?xún)?nèi)部結(jié)構(gòu)化數(shù)據(jù)為主主要是面向結(jié)構(gòu)化數(shù)據(jù)和事務(wù)處理的關(guān)系型數(shù)據(jù)庫(kù)擴(kuò)展到面向非結(jié)構(gòu)化數(shù)據(jù)和分析處理的非關(guān)系型數(shù)據(jù)庫(kù)依賴(lài)高性能計(jì)算機(jī),主要利用統(tǒng)計(jì)和機(jī)器學(xué)習(xí)算法需用分布式并行計(jì)算,Scaleout
能力,以機(jī)器學(xué)習(xí)算法為主局限在金融、保險(xiǎn)、零售、電信等少數(shù)領(lǐng)域,以決策支撐為主有望滲透到政府、醫(yī)療、交通等各個(gè)領(lǐng)域,嵌入到業(yè)務(wù)流程中來(lái)源廣,3V非結(jié)構(gòu)化和面向分析為主分布式并行架構(gòu)結(jié)合機(jī)器學(xué)習(xí)算法更廣的領(lǐng)域,更深入的嵌入業(yè)務(wù)流大數(shù)據(jù)系統(tǒng)的特點(diǎn)大數(shù)據(jù)資源大數(shù)據(jù)工具大數(shù)據(jù)理念大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)庫(kù)41采集環(huán)節(jié)存儲(chǔ)環(huán)節(jié)分析環(huán)節(jié)應(yīng)用環(huán)節(jié)傳統(tǒng)數(shù)大數(shù)據(jù)&云計(jì)算42大數(shù)據(jù)&云計(jì)算42“嵌入式”的大數(shù)據(jù)61目前大數(shù)據(jù)的應(yīng)用的主要形態(tài)是“嵌入式”的,即內(nèi)嵌在信息化平臺(tái)中,高度差異化。相應(yīng)的技術(shù)、解決方案和服務(wù)是IT和云計(jì)算的一部分,還未形成獨(dú)立產(chǎn)業(yè)。“嵌入式”的大數(shù)據(jù)61目前大數(shù)據(jù)的應(yīng)用的主要形態(tài)是“嵌入式”主要內(nèi)容大數(shù)據(jù)的“熱”大數(shù)據(jù)的“大”大數(shù)據(jù)的“數(shù)”大數(shù)據(jù)的顛覆性大數(shù)據(jù)的隱私保護(hù)大數(shù)據(jù)的實(shí)踐44主要內(nèi)容大數(shù)據(jù)的“熱”44隱私保護(hù)的歷史變遷4519世紀(jì),住宅為重心20世紀(jì),人為重心21世紀(jì),數(shù)據(jù)為重心個(gè)人控制、編輯、管理和刪除關(guān)于他們自己的信息,并決定何時(shí)何地、一何種方式公開(kāi)這種信息的權(quán)利。隱私保護(hù)的歷史變遷4519世紀(jì),20世紀(jì),21世紀(jì),個(gè)人控制傳統(tǒng)隱私保護(hù)的“三板斧”就像印刷業(yè)的發(fā)展促成了保護(hù)言論自由的立法,大數(shù)據(jù)也需要新的法律46告知與許可匿名模糊法傳統(tǒng)隱私保護(hù)的“三板斧”就像印刷業(yè)的發(fā)展促成了保護(hù)言論自由的棱鏡門(mén)與大數(shù)據(jù)47是運(yùn)營(yíng)商在云計(jì)算與大數(shù)據(jù)方面一個(gè)戰(zhàn)略性機(jī)遇棱鏡門(mén)與大數(shù)據(jù)47是運(yùn)營(yíng)商在云計(jì)算與大數(shù)據(jù)方面忘記的權(quán)力:數(shù)字遺忘48大數(shù)據(jù)使得網(wǎng)絡(luò)匿名變成數(shù)學(xué)上不可能的事你沒(méi)有隱私,忘了這事吧20年前,“性別+郵編+出生年月日”,識(shí)別出87%的人大數(shù)據(jù)時(shí)代,通過(guò)分析用戶(hù)4個(gè)曾經(jīng)到過(guò)的位置點(diǎn),就可以識(shí)別出95%的用戶(hù)“你不能在擁有100%安全的情況下,同時(shí)擁有100%隱私和100%便利”-奧巴馬,2013.6忘記的權(quán)力:數(shù)字遺忘48大數(shù)據(jù)使得網(wǎng)絡(luò)匿名變成數(shù)學(xué)上不可能的解除個(gè)人信息的價(jià)值:從收集到使用世界經(jīng)濟(jì)論壇沒(méi)有壞數(shù)據(jù),只有對(duì)數(shù)據(jù)的不合理使用49大型機(jī),《公平信用報(bào)告法》互聯(lián)網(wǎng)大數(shù)據(jù)所有數(shù)據(jù)的收集都應(yīng)該通過(guò)密碼所有對(duì)于數(shù)據(jù)的使用都應(yīng)該登記對(duì)于那些違反規(guī)定的人要采取處罰措施解除個(gè)人信息的價(jià)值:從收集到使用世界經(jīng)濟(jì)論壇49大型機(jī),互聯(lián)主要內(nèi)容大數(shù)據(jù)的“熱”大數(shù)據(jù)的“大”大數(shù)據(jù)的“數(shù)”大數(shù)據(jù)的顛覆性大數(shù)據(jù)的隱私保護(hù)大數(shù)據(jù)的實(shí)踐50主要內(nèi)容大數(shù)據(jù)的“熱”50互聯(lián)網(wǎng)企業(yè)引領(lǐng)全球大數(shù)據(jù)應(yīng)用51大數(shù)據(jù)關(guān)鍵技術(shù)與產(chǎn)業(yè)研究第51頁(yè)互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)快速產(chǎn)生的各類(lèi)數(shù)據(jù)用戶(hù)行為數(shù)據(jù)系統(tǒng)日志數(shù)據(jù)……網(wǎng)頁(yè)數(shù)據(jù)用戶(hù)交易數(shù)據(jù)互聯(lián)網(wǎng)企業(yè)大數(shù)據(jù)應(yīng)用場(chǎng)景互聯(lián)網(wǎng)企業(yè)大數(shù)據(jù)應(yīng)用基本特點(diǎn)滿(mǎn)意度分析定向廣告提升服務(wù)質(zhì)量社會(huì)服務(wù)個(gè)性化推薦其它……如Twitter對(duì)提到產(chǎn)品的文本進(jìn)行搜集并按規(guī)則打分,得到客戶(hù)對(duì)產(chǎn)品的滿(mǎn)意度評(píng)價(jià)如Facebook對(duì)用戶(hù)基本屬性、行為習(xí)慣和興趣等進(jìn)行語(yǔ)義分析,為廣告商提供基于數(shù)據(jù)挖掘的自助式廣告下單服務(wù)系統(tǒng)如亞馬遜利用大數(shù)據(jù)技術(shù)為用戶(hù)提供社會(huì)化推薦、廣播式個(gè)性化推薦等服務(wù),加快了產(chǎn)品傳播的速度如Facebook對(duì)大量用戶(hù)產(chǎn)品使用狀況的數(shù)據(jù)進(jìn)行分析,優(yōu)化產(chǎn)品設(shè)計(jì)及服務(wù),改善用戶(hù)的使用體驗(yàn)如谷歌基于用戶(hù)搜索數(shù)據(jù)推出的產(chǎn)品谷歌流感趨勢(shì),可以迅速、準(zhǔn)確的對(duì)流感進(jìn)行預(yù)報(bào)定向廣告和個(gè)性化推薦簡(jiǎn)單的大數(shù)據(jù)應(yīng)用已在互聯(lián)網(wǎng)領(lǐng)域廣泛開(kāi)展,且大部分企業(yè)具備自行實(shí)施應(yīng)用的技術(shù)能力掌握有大量用戶(hù)行為數(shù)據(jù)的互聯(lián)網(wǎng)巨頭可以較好提供社會(huì)化服務(wù)互聯(lián)網(wǎng)企業(yè)引領(lǐng)全球大數(shù)據(jù)應(yīng)用51大數(shù)據(jù)關(guān)鍵技術(shù)與產(chǎn)業(yè)研究第5淘寶案例5210億商品、交易額過(guò)萬(wàn)億每天30億瀏覽、數(shù)千萬(wàn)交易集群規(guī)模3000臺(tái),每年擴(kuò)大50%50PB數(shù)據(jù)交易數(shù)據(jù)用戶(hù)數(shù)據(jù)商品數(shù)據(jù)社交數(shù)據(jù)數(shù)據(jù):系統(tǒng):我要買(mǎi)關(guān)鍵詞搜索語(yǔ)音搜索語(yǔ)音理解關(guān)鍵詞匹配挑選物品索引數(shù)據(jù)評(píng)論/交易商家信譽(yù)用戶(hù)行為數(shù)據(jù)商戶(hù)行為數(shù)據(jù)購(gòu)買(mǎi)推薦其他你歷史數(shù)據(jù)買(mǎi)家服務(wù)行業(yè)分析店鋪基礎(chǔ)經(jīng)營(yíng)分析商品優(yōu)化分析買(mǎi)家分析營(yíng)銷(xiāo)效果分析售后/運(yùn)營(yíng)支撐分析需求挖掘訂單分析供應(yīng)鏈分析信用評(píng)估賣(mài)什么怎么賣(mài)賣(mài)給誰(shuí)我要進(jìn)貨我要貸款買(mǎi)家服務(wù)衍生服務(wù):金融、保險(xiǎn)…搜索、電商、廣告、SNS等數(shù)據(jù)驅(qū)動(dòng)的互聯(lián)網(wǎng)服務(wù)取得巨大成功,激發(fā)了大數(shù)據(jù)應(yīng)用的想象力!淘寶案例5210億商品、交易額過(guò)萬(wàn)億集群規(guī)模3000臺(tái),每年其它行業(yè)普遍仍在探索…53零售業(yè)沃爾瑪零售數(shù)據(jù)商業(yè)智能分析系統(tǒng),可以了解到全球4000多家門(mén)店每天的銷(xiāo)售情況并輔助制定銷(xiāo)售策略。美國(guó)DNAnexus為醫(yī)療機(jī)構(gòu)和用戶(hù)提供了基因數(shù)據(jù)的管理、分析和可視化能力。醫(yī)療能源能源機(jī)構(gòu)Vestas綜合考慮溫度、降水、風(fēng)速、濕度、氣壓等因素,確定鋒利渦輪機(jī)的最佳安置地。制造業(yè)日本小松公司根據(jù)挖掘機(jī)工作情況進(jìn)行大數(shù)據(jù)分析,判斷下一年度的市場(chǎng)需求。金融美國(guó)征信所Equifax對(duì)海量信息進(jìn)行交叉分析,推出70余項(xiàng)新服務(wù)。其它:農(nóng)業(yè)、氣象……傳統(tǒng)行業(yè)傳統(tǒng)行業(yè)大數(shù)據(jù)應(yīng)用基本特點(diǎn)數(shù)據(jù)源主要來(lái)自企業(yè)內(nèi)部、類(lèi)型較少、實(shí)時(shí)要求較低企業(yè)逐漸重視大數(shù)據(jù),但當(dāng)前應(yīng)用相對(duì)簡(jiǎn)單,處于探索階段掌握大數(shù)據(jù)技術(shù)的企業(yè)較少,主要由ICT企業(yè)提供技術(shù)支持電信運(yùn)營(yíng)西班牙電信“智慧足跡”產(chǎn)品可提供基于位置的大數(shù)據(jù)分析?;ヂ?lián)網(wǎng)與傳統(tǒng)行業(yè)融合創(chuàng)新大數(shù)據(jù)應(yīng)用和產(chǎn)品金融與互聯(lián)網(wǎng)融合交通與互聯(lián)網(wǎng)融合阿里小貸:基于對(duì)用戶(hù)交易行為的大數(shù)據(jù)分析,為阿里面向中小企業(yè)實(shí)施信用貸款提供支撐德國(guó)電信利用大數(shù)據(jù)技術(shù)實(shí)施德國(guó)政府的無(wú)擁塞交通研究項(xiàng)目其它:……互聯(lián)網(wǎng)與傳統(tǒng)產(chǎn)業(yè)不斷融合,將催生新的大數(shù)據(jù)創(chuàng)新機(jī)會(huì)融合創(chuàng)新的大數(shù)據(jù)應(yīng)用案例目前較少,應(yīng)用處于起步階段。融合發(fā)展能夠?qū)⒒ヂ?lián)網(wǎng)的在線、數(shù)據(jù)快速積累和獲取等優(yōu)勢(shì)帶至傳統(tǒng)行業(yè),為實(shí)體經(jīng)濟(jì)發(fā)展帶來(lái)新的突破,將是未來(lái)大數(shù)據(jù)發(fā)展的重要方向。其它行業(yè)普遍仍在探索…53零售業(yè)沃爾瑪零售數(shù)據(jù)商業(yè)智能分析系我國(guó)大數(shù)據(jù)的挑戰(zhàn):來(lái)源和開(kāi)放我國(guó)數(shù)字化的數(shù)據(jù)資源總量遠(yuǎn)遠(yuǎn)低于美歐,每年新增數(shù)據(jù)量?jī)H為美國(guó)的7%,歐洲的12%全球2010年新增數(shù)據(jù)量分布我國(guó)已有數(shù)據(jù)資源還存在標(biāo)準(zhǔn)化、準(zhǔn)確性、完整性低,利用價(jià)值不高我國(guó)政府、企業(yè)和行業(yè)信息系統(tǒng)建設(shè)缺少統(tǒng)一規(guī)劃和標(biāo)準(zhǔn),形成眾多“信息孤島”,數(shù)據(jù)跨部門(mén)整合與開(kāi)放程度低54我國(guó)大數(shù)據(jù)的挑戰(zhàn):來(lái)源和開(kāi)放我國(guó)數(shù)字化的數(shù)據(jù)資源總量遠(yuǎn)遠(yuǎn)低于國(guó)外電信運(yùn)營(yíng)商大數(shù)據(jù)應(yīng)用模式551、對(duì)內(nèi):優(yōu)化自身業(yè)務(wù)不易獲得用戶(hù)互聯(lián)網(wǎng)或其他行業(yè)某一維度的深度行為信息用戶(hù)行為的全維度信息:訪問(wèn)記錄、位置用戶(hù)身份的錨點(diǎn):用戶(hù)身份、用戶(hù)賬戶(hù)優(yōu)勢(shì)資源應(yīng)用模式劣勢(shì)資源應(yīng)用模式智能管道:基于用戶(hù)、業(yè)務(wù)及流量分級(jí)的多維管控機(jī)制。精準(zhǔn)的客戶(hù)分析及營(yíng)銷(xiāo):離網(wǎng)預(yù)警、套餐適配、廣告精準(zhǔn)投放等。大多數(shù)電信運(yùn)營(yíng)商已踐行。4、對(duì)外:出售加工數(shù)據(jù)智慧城市:利用位置和軌跡信息服務(wù)社會(huì),為智慧城市提供海量數(shù)據(jù)預(yù)測(cè)服務(wù)。人口流量模型、城市人口流量等。例:西班牙電信、中國(guó)電信、中國(guó)移動(dòng)等為其他行業(yè)提供API或加工后的用戶(hù)行為特征信息。例:Verizon推出的PrecisionMarketInsights,包括位置和Web瀏覽信息在內(nèi)的用戶(hù)分組信息,并非用戶(hù)原始信息,然后賣(mài)給體育場(chǎng)館、商場(chǎng)等需要做營(yíng)銷(xiāo)的公司。如太陽(yáng)隊(duì)就用它來(lái)了解觀眾賽后是否更有意愿光顧比賽的贊助商。2、對(duì)外:應(yīng)用于社會(huì)服務(wù)基本應(yīng)用最新應(yīng)用3、對(duì)外:與互聯(lián)網(wǎng)合作與互聯(lián)網(wǎng)企業(yè)合作,引入用戶(hù)的深度行為信息。例:Orange與Facebook合作推出PartyCall,F(xiàn)acebook賬號(hào)與電話號(hào)碼綁定,將Facebook的開(kāi)放社交圖譜引入電信。案例較多少數(shù)應(yīng)用對(duì)外共享數(shù)據(jù)資源是趨勢(shì)
電信運(yùn)營(yíng)商經(jīng)歷了從封閉到嘗試合作,再到重新審視自身數(shù)據(jù)資源,提供更高級(jí)合作模式的過(guò)程。國(guó)外電信運(yùn)營(yíng)商大數(shù)據(jù)應(yīng)用模式551、對(duì)內(nèi):優(yōu)化自身業(yè)務(wù)不易獲中國(guó)運(yùn)營(yíng)商的大數(shù)據(jù)實(shí)踐2022/12/10大云、經(jīng)分、網(wǎng)管、飛信等自主研發(fā)大云分布式計(jì)算平臺(tái)經(jīng)營(yíng)分析、網(wǎng)管中逐步引入大數(shù)據(jù)技術(shù)結(jié)合飛信等互聯(lián)網(wǎng)業(yè)務(wù)推動(dòng)大數(shù)據(jù)應(yīng)用構(gòu)建數(shù)據(jù)共享服務(wù)體系深度數(shù)據(jù)挖掘?qū)?shù)據(jù)分析結(jié)果引入到應(yīng)用開(kāi)發(fā)支撐自有業(yè)務(wù)發(fā)展離網(wǎng)預(yù)警、綜合網(wǎng)管等等
數(shù)據(jù)源:在傳統(tǒng)BI基礎(chǔ)上疊加非結(jié)構(gòu)化數(shù)據(jù)
閉環(huán)應(yīng)用:將數(shù)據(jù)分析結(jié)果應(yīng)用到客戶(hù)挽留等流程
反饋修正:通過(guò)感知應(yīng)用效果,不斷糾正分析模型建立數(shù)據(jù)分析平臺(tái),從而實(shí)現(xiàn)營(yíng)銷(xiāo)服務(wù)向“大數(shù)據(jù)、超細(xì)分、微營(yíng)銷(xiāo)”轉(zhuǎn)型以“移動(dòng)用戶(hù)上網(wǎng)記錄查詢(xún)和分析系統(tǒng)”和“移動(dòng)用戶(hù)IP地址溯源和日志留存系統(tǒng)”、“3G基站輔助規(guī)劃系統(tǒng)”、“移動(dòng)用戶(hù)NET取號(hào)系統(tǒng)”為基礎(chǔ)以移動(dòng)互聯(lián)網(wǎng)流量監(jiān)測(cè)分析平臺(tái)為切入點(diǎn)日志、地址、基站等中國(guó)運(yùn)營(yíng)商的大數(shù)據(jù)實(shí)踐2022/12/8大云、經(jīng)分、網(wǎng)管、飛電信運(yùn)營(yíng)商的大數(shù)據(jù)核心資產(chǎn)57不易獲得用戶(hù)互聯(lián)網(wǎng)或其他行業(yè)某一維度的深度行為信息電信運(yùn)營(yíng)商互聯(lián)網(wǎng)運(yùn)營(yíng)商用戶(hù)行為的全維度信息用戶(hù)身份的錨點(diǎn)VS用戶(hù)身份:電話號(hào)碼、姓名、職業(yè)等用戶(hù)賬戶(hù):語(yǔ)音、數(shù)據(jù)流量賬戶(hù)信息用戶(hù)訪問(wèn)記錄:消費(fèi)、社交、游戲等用戶(hù)位置:LBS去了淘寶,買(mǎi)了什么?不知道,需對(duì)數(shù)據(jù)包進(jìn)行深度分析,VPN網(wǎng)絡(luò)更不易精確到某一用戶(hù)。用戶(hù)上網(wǎng)某一維度的深度行為信息淘寶:用戶(hù)消費(fèi)行為的深度信息。騰訊:用戶(hù)社交行為的深度信息。不易獲得用戶(hù)行為的全維度信息淘寶:無(wú)法獲得用戶(hù)消費(fèi)以外的行為信息。阿里入股新浪微博的原因之一。什么時(shí)間,什么地點(diǎn),訪問(wèn)了什么網(wǎng)站不易獲得用戶(hù)的真實(shí)身份特征互聯(lián)網(wǎng)注冊(cè)信息多為虛擬ID,少數(shù)為實(shí)名注冊(cè)。電信運(yùn)營(yíng)商的大數(shù)據(jù)核心資產(chǎn)57不易獲得用戶(hù)互聯(lián)網(wǎng)或其他行業(yè)某2022/12/10運(yùn)營(yíng)商的大數(shù)據(jù)定位技術(shù)的使用者資源的提供者服務(wù)的運(yùn)營(yíng)者2022/12/8運(yùn)營(yíng)商的大數(shù)據(jù)定位技術(shù)的使用者資源的提供者互聯(lián)網(wǎng)精神59開(kāi)放共享合作謝謝互聯(lián)網(wǎng)精神59開(kāi)放共享合作謝謝
大數(shù)據(jù)與應(yīng)用
二Ο一三年七月二十四日何寶宏工業(yè)和信息化部電信研究院
大數(shù)據(jù)與應(yīng)用
何寶宏什么是大數(shù)據(jù)61無(wú)法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的大量而復(fù)雜的數(shù)據(jù)集合
——維基百科數(shù)量大、獲取速度快或形態(tài)多樣的數(shù)據(jù),難以用傳統(tǒng)關(guān)系型數(shù)據(jù)分析方法進(jìn)行有效分析,或者需要大規(guī)模的水平擴(kuò)展才能高效處理 ——美國(guó)NIST體量大、快速和多樣化的信息資產(chǎn),需用高效率和創(chuàng)新型的信息技術(shù)加以處理,以提高發(fā)現(xiàn)洞察、做出決策和優(yōu)化流程的能力 ——Gartner公司什么是大數(shù)據(jù)2無(wú)法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行抓取主要內(nèi)容大數(shù)據(jù)的“熱”大數(shù)據(jù)的“大”大數(shù)據(jù)的“數(shù)”大數(shù)據(jù)的顛覆性大數(shù)據(jù)的隱私保護(hù)大數(shù)據(jù)的實(shí)踐62主要內(nèi)容大數(shù)據(jù)的“熱”3大數(shù)據(jù)引發(fā)全球高度重視2022/12/102000年以來(lái),搜索、廣告和電商利用大數(shù)據(jù)獲得豐厚回報(bào)2011年麥肯錫總結(jié)大數(shù)據(jù)現(xiàn)象并發(fā)布報(bào)告,點(diǎn)燃大數(shù)據(jù)熱潮2012年初世界經(jīng)濟(jì)論壇討論大數(shù)據(jù)一題引起政商界高度關(guān)注2012年,美國(guó)、英國(guó)、日本等政府積極開(kāi)放數(shù)據(jù),并資助大數(shù)據(jù)研發(fā)IBM、沃爾瑪?shù)葌鹘y(tǒng)企業(yè)大規(guī)模并購(gòu)大數(shù)據(jù)公司,進(jìn)軍大數(shù)據(jù)領(lǐng)域大數(shù)據(jù)=戰(zhàn)略資源共識(shí)互聯(lián)網(wǎng)咨詢(xún)公司IT和其他行業(yè)經(jīng)濟(jì)界政府大數(shù)據(jù)引發(fā)全球高度重視2022/12/82000年以來(lái),搜索大數(shù)據(jù)的產(chǎn)業(yè)熱據(jù)Wikibon公司測(cè)算,2011年全球大數(shù)據(jù)產(chǎn)值已經(jīng)達(dá)到51億美元。預(yù)計(jì)到2017年將達(dá)到534億美元,年均增速達(dá)到58%,是同期IT產(chǎn)業(yè)增速的7倍來(lái)源:Wikibon公司,2012年大數(shù)據(jù)的產(chǎn)業(yè)熱據(jù)Wikibon公司測(cè)算,2011年全球大數(shù)據(jù)大數(shù)據(jù)的投融資熱65大數(shù)據(jù)的投融資熱6以數(shù)據(jù)為中心的時(shí)代ICT產(chǎn)業(yè)發(fā)展周期大數(shù)據(jù)以數(shù)據(jù)為中心的時(shí)代ICT產(chǎn)業(yè)發(fā)展周期大數(shù)據(jù)主要內(nèi)容大數(shù)據(jù)的“熱”大數(shù)據(jù)的“大”大數(shù)據(jù)的“數(shù)”大數(shù)據(jù)的顛覆性大數(shù)據(jù)的隱私保護(hù)大數(shù)據(jù)的實(shí)踐67主要內(nèi)容大數(shù)據(jù)的“熱”8“信息化”浪潮13語(yǔ)言印刷術(shù)互聯(lián)網(wǎng)文字保存與傳承口耳相傳大范圍傳播與持久保存距今5000年前距今10萬(wàn)年前公元1000年公元2000年硅介質(zhì)數(shù)字化網(wǎng)絡(luò)化古登堡印刷術(shù)發(fā)明后,50年書(shū)籍增加了800萬(wàn)冊(cè),增長(zhǎng)1倍,是之前西方數(shù)據(jù)量的總和“信息化”浪潮13語(yǔ)言印刷術(shù)互聯(lián)網(wǎng)文字保存與傳承口耳相傳大范史上的大數(shù)據(jù):政府最先遇到69稅收!約前2200年大禹“平水土分九州數(shù)萬(wàn)民”公元2年,漢書(shū).地理志:全國(guó)103個(gè)郡國(guó),人口是59,594,978人1909年,秦政府頒布調(diào)查戶(hù)口章程1086年,英國(guó)《末日審判書(shū)》人口、土地、財(cái)產(chǎn)登記古羅馬,每5年一次美國(guó)憲法規(guī)定10年一次人口普查1880年統(tǒng)計(jì)用了8年,預(yù)計(jì)1890年要13年穿孔卡片制表機(jī)的發(fā)明,要1年史上的大數(shù)據(jù):政府最先遇到10稅收!約前2200年大禹“平水史上的大數(shù)據(jù):天文學(xué)制造了數(shù)據(jù)大爆炸70第谷人肉的“大數(shù)據(jù)”資源開(kāi)普勒突破性的“處理”算法伽利略工具的“大數(shù)據(jù)”資源牛頓劃時(shí)代先進(jìn)的理論史上的大數(shù)據(jù):天文學(xué)制造了數(shù)據(jù)大爆炸11第谷開(kāi)普勒伽利略牛頓數(shù)據(jù)量的增速71全球數(shù)據(jù)量預(yù)測(cè)(單位ZB)1980以來(lái),每40個(gè)月翻一番數(shù)據(jù)量增速,是GDP增速的4倍數(shù)據(jù)處理能力,是GDP增速的9倍2000年人類(lèi)信息75%是模擬數(shù)據(jù),2007年是6%,現(xiàn)在1%?數(shù)據(jù)量的增速12全球數(shù)據(jù)量預(yù)測(cè)(單位ZB)1980以來(lái),每4計(jì)算能力的加速72計(jì)算能力的加速134V/3V:只是在說(shuō)“大”!734V/3V:只是在說(shuō)“大”!14“大”是相對(duì)的2012年的“大”從幾個(gè)TB(1TB=1,024GB)到多個(gè)PBGoogle,1000PB2013年的“大”數(shù)PB(1PB=1,024TB)百度1000PBHadoop開(kāi)源模仿GoogleMapReduce,2003年的技術(shù)Google
Dremel2012年,新的編程框架74不同企業(yè),大的概念不同“大”是相對(duì)的2012年的“大”15不同企業(yè),大的概念不同引爆此輪大數(shù)據(jù)的原因2022/12/10194619611970199020002003200820131960年代,數(shù)據(jù)與應(yīng)用分離,數(shù)據(jù)庫(kù)技術(shù)蓬勃發(fā)展,但重視事務(wù)處理2000年后,互聯(lián)網(wǎng)公司開(kāi)啟數(shù)據(jù)分析挖掘新時(shí)代1946年,電腦誕生,數(shù)據(jù)與應(yīng)用緊密捆綁在文件中,彼此不分1990年代,提出數(shù)據(jù)分析挖掘數(shù)據(jù)耦合時(shí)代數(shù)據(jù)分析時(shí)代數(shù)據(jù)庫(kù)時(shí)代大數(shù)據(jù)時(shí)代從流程電子化到數(shù)據(jù)資產(chǎn)化1)數(shù)據(jù)更加豐富,有分析價(jià)值,從TB到PB2)分析工具更加強(qiáng)大,成本夠低,MapReduce3)互聯(lián)網(wǎng)商業(yè)上的成功,引起重視,麥肯錫報(bào)告引爆此輪大數(shù)據(jù)的原因2022/12/819461961197主要內(nèi)容大數(shù)據(jù)的“熱”大數(shù)據(jù)的“大”大數(shù)據(jù)的“數(shù)”大數(shù)據(jù)的顛覆性大數(shù)據(jù)的隱私保護(hù)大數(shù)據(jù)的實(shí)踐76主要內(nèi)容大數(shù)據(jù)的“熱”17數(shù)據(jù)的內(nèi)涵可被量化、分析和再使用的信息通常是測(cè)量獲得的可用圖形圖像可視化模擬數(shù)據(jù)和數(shù)字?jǐn)?shù)據(jù)是最底層的抽象?77知識(shí)信息數(shù)據(jù)數(shù)據(jù)的內(nèi)涵可被量化、分析和再使用的信息18知識(shí)信息數(shù)據(jù)史上數(shù)據(jù)理論的重大突破78復(fù)式記賬法:商業(yè)、貿(mào)易、金融等的基礎(chǔ)
市場(chǎng)經(jīng)濟(jì)復(fù)式記賬法伽利略:實(shí)驗(yàn)科學(xué)牛頓:物理世界數(shù)學(xué)化量子力學(xué):從宏觀到微觀
物理學(xué)圖靈:讓通用自動(dòng)計(jì)算成為可能
計(jì)算機(jī)香農(nóng):信息論
通信史上數(shù)據(jù)理論的重大突破19復(fù)式記賬法:商業(yè)、貿(mào)易、金融等的基不斷量化的宇宙Web1.0被動(dòng)Web2.0主動(dòng)碎片移動(dòng)互聯(lián)網(wǎng)隨時(shí)隨地云計(jì)算全部79人口天體長(zhǎng)度重量面積體積時(shí)間空間顏色電流電壓聲音圖像社會(huì)關(guān)系輻射能量信息不斷量化的宇宙Web1.0Web2.0移動(dòng)互聯(lián)網(wǎng)云計(jì)算20人上帝是數(shù)學(xué)家嗎?80大數(shù)據(jù)物理世界精神世界量化量化哲學(xué)宗教上帝是數(shù)學(xué)家嗎?21大數(shù)據(jù)物理世界精神世界量化量化哲學(xué)宗教主要內(nèi)容大數(shù)據(jù)的“熱”大數(shù)據(jù)的“大”大數(shù)據(jù)的“數(shù)”大數(shù)據(jù)的顛覆性大數(shù)據(jù)與隱私保護(hù)大數(shù)據(jù)的實(shí)踐81主要內(nèi)容大數(shù)據(jù)的“熱”22思維的三大轉(zhuǎn)變82相關(guān)關(guān)系紛繁復(fù)雜全體數(shù)據(jù)思維的三大轉(zhuǎn)變23相關(guān)關(guān)系紛繁復(fù)雜全體數(shù)據(jù)從樣本到總體統(tǒng)計(jì)學(xué)的理論基礎(chǔ)用盡可能少的數(shù)據(jù),證實(shí)盡可能大的事實(shí)樣本分析精確性隨著隨機(jī)性的增加而大幅提高精確性不樣本空間數(shù)量的增加關(guān)系不大樣本分析的缺陷絕對(duì)的隨機(jī)性不適合考察子類(lèi)別事先設(shè)計(jì)好的問(wèn)題83從樣本到總體統(tǒng)計(jì)學(xué)的理論基礎(chǔ)24從樣本到總體:信不信由你“樣本”的統(tǒng)計(jì),2003-2012年房?jī)r(jià):全國(guó)143%,北京256%收入:上漲180%CPI:中國(guó)漲幅34%,美國(guó)36%“總體”的大數(shù)據(jù)貨幣發(fā)行量:+500%,超過(guò)美國(guó),占全球50%GDP增長(zhǎng)4倍,CPI應(yīng)是100%漲幅!股市:“上浮零”淘寶TCPI指數(shù):6.9%全國(guó)工業(yè)用電量指數(shù):4.7%84從樣本到總體:信不信由你“樣本”的統(tǒng)計(jì),2003-2012年從精確到效率:用概率說(shuō)話大量信息和精確性,存在矛盾錯(cuò)誤數(shù)據(jù)的混入,不準(zhǔn)確性關(guān)系數(shù)據(jù)庫(kù)是數(shù)據(jù)稀缺時(shí)代設(shè)計(jì)的“電信化”是短缺經(jīng)濟(jì)的產(chǎn)物算法的進(jìn)步快于芯片,大數(shù)據(jù)優(yōu)于算法用簡(jiǎn)單算法替代小數(shù)據(jù)的精確算法簡(jiǎn)單算法+海量數(shù)據(jù)?85從精確到效率:用概率說(shuō)話大量信息和精確性,存在矛盾26從精確到效率:自然語(yǔ)言處理的發(fā)展史86飛鳥(niǎo)派新派要讓機(jī)器翻譯或語(yǔ)音識(shí)別,就需要先讓機(jī)器理解自然語(yǔ)言從基于規(guī)則到對(duì)大數(shù)據(jù)的統(tǒng)計(jì)數(shù)據(jù)比算法更重要反例:中國(guó)的英語(yǔ)教學(xué)正例:TCPI,大眾點(diǎn)評(píng),Google翻譯從精確到效率:自然語(yǔ)言處理的發(fā)展史27飛鳥(niǎo)派新派要讓機(jī)器翻譯從因果到相關(guān):Why—>Related哲學(xué)爭(zhēng)論:因果關(guān)系存在嗎?如果是,人的自由意志存在嗎?機(jī)器會(huì)告訴是什么,而不是為什么語(yǔ)義網(wǎng)絡(luò)人工智能人類(lèi)認(rèn)知水平相關(guān)“丁蟹效應(yīng)”凡是播出由鄭少秋主演的電視劇,恒生指數(shù)或A股已有32個(gè)明顯下跌巧合?自我實(shí)現(xiàn)?大數(shù)據(jù)分析?87從因果到相關(guān):Why—>Related哲學(xué)爭(zhēng)論:因果關(guān)系存在手機(jī)會(huì)致癌,相關(guān)嗎?對(duì)比丹麥1990-2007年所有手機(jī)數(shù)據(jù)庫(kù)(358403人)10729個(gè)中樞神經(jīng)系統(tǒng)腫瘤患者數(shù)據(jù)庫(kù)研究目的是否手機(jī)使用者更容易致癌?是否通話時(shí)間長(zhǎng)更容易會(huì)致癌?結(jié)論:沒(méi)有關(guān)系88手機(jī)會(huì)致癌,相關(guān)嗎?對(duì)比丹麥1990-2007年所有手機(jī)數(shù)據(jù)大數(shù)據(jù)讓社會(huì)學(xué)成為科學(xué)?89人類(lèi)的行為是隨機(jī)的,不可預(yù)測(cè)的人的行為是小概率事件,人類(lèi)需要的是隨機(jī)的智慧人類(lèi)工作娛樂(lè)等活動(dòng)具有間歇性,總是在長(zhǎng)時(shí)間休息后突然爆發(fā),然后沉寂人類(lèi)93%的行為是可預(yù)測(cè)的自然界人類(lèi)世界,符合冪律大數(shù)據(jù)讓社會(huì)學(xué)成為科學(xué)?30人類(lèi)的行為是隨機(jī)的,不可預(yù)測(cè)的人假如人類(lèi)的行為可以預(yù)測(cè)…90認(rèn)知大自然農(nóng)耕文明定居生活階級(jí)社會(huì)認(rèn)知物理世界工業(yè)文明資本主義毀了自然認(rèn)知信息世界XX文明?信息革命毀了時(shí)間?認(rèn)知人類(lèi)行為技術(shù)生物?毀“三觀”?假如人類(lèi)的行為可以預(yù)測(cè)…31認(rèn)知大自然農(nóng)耕文明定居生活階級(jí)社大數(shù)據(jù),經(jīng)過(guò)1000年的發(fā)展后…91烏龜殼前14-11世紀(jì)
普通CD20-50年磁盤(pán)3-4年磁帶30年《妙法蓮花經(jīng)》南北朝羊皮圣經(jīng)4世紀(jì)
壁畫(huà)1.1萬(wàn)年前U盤(pán)8-10年如何保存如何打開(kāi)如何檢索如何甄別大數(shù)據(jù),經(jīng)過(guò)1000年的發(fā)展后…32烏龜殼普通CD磁盤(pán)磁帶《永恒的忘記…92將隱私的討論,擴(kuò)展到時(shí)間維度對(duì)于人類(lèi)而言,遺忘一直是常態(tài),記憶才是例外,而現(xiàn)在記憶卻成了常態(tài)大數(shù)據(jù)將所有人置于數(shù)字圓形監(jiān)獄的中央永恒的忘記…33將隱私的討論,擴(kuò)展到時(shí)間維度主要內(nèi)容大數(shù)據(jù)的“熱”大數(shù)據(jù)的“大”大數(shù)據(jù)的“數(shù)”大數(shù)據(jù)的顛覆性大數(shù)據(jù)的隱私保護(hù)大數(shù)據(jù)的實(shí)踐93主要內(nèi)容大數(shù)據(jù)的“熱”34大數(shù)據(jù)是一種新資源你不可能再造Google,Facebook,騰訊百度阿里
你在讀書(shū),書(shū)在讀你94農(nóng)業(yè)社會(huì)土地人口工業(yè)時(shí)代資本技術(shù),機(jī)器,能源信息時(shí)代用戶(hù)數(shù)據(jù)可被消費(fèi),但沒(méi)法被耗盡可被創(chuàng)造,而不會(huì)被銷(xiāo)毀,除非丟失或遺忘大數(shù)據(jù)消耗的是注意力每“滴”數(shù)據(jù)的價(jià)值不同疊加效應(yīng)不是加法的,而是指數(shù)的大數(shù)據(jù)是一種新資源你不可能再造Google,Faceboo多國(guó)政府的戰(zhàn)略95國(guó)家/地區(qū)時(shí)間內(nèi)容美國(guó)2012年3月啟動(dòng)由聯(lián)邦政府六個(gè)部門(mén)組織的大數(shù)據(jù)研究計(jì)劃,投資兩億美元,力圖鞏固領(lǐng)先地位歐盟2012年9月聯(lián)合歐洲整體力量,制定大數(shù)據(jù)戰(zhàn)略,作為歐盟Horizon2020戰(zhàn)略一部分,加速追趕英國(guó)2013年1月英國(guó)把大數(shù)據(jù)作為八大關(guān)鍵技術(shù)領(lǐng)域之一,計(jì)劃兩年內(nèi)向大數(shù)據(jù)關(guān)鍵技術(shù)投入1.89億英鎊,搶占先機(jī)日本2012年7月《面向2020年的ICT綜合戰(zhàn)略》將“通過(guò)大數(shù)據(jù)應(yīng)用促進(jìn)社會(huì)發(fā)展經(jīng)濟(jì)增長(zhǎng)”作為五大重點(diǎn)之一,并提出活力數(shù)據(jù)戰(zhàn)略,提升日本競(jìng)爭(zhēng)力澳大利亞2013年3月發(fā)布大數(shù)據(jù)戰(zhàn)略報(bào)告,宣布將于2013年7月前完成政府大數(shù)據(jù)制定,促進(jìn)大數(shù)據(jù)在政府中的應(yīng)用多國(guó)政府的戰(zhàn)略36國(guó)家/地區(qū)時(shí)間內(nèi)容美國(guó)2012年3月啟動(dòng)由美國(guó)政府大數(shù)據(jù)計(jì)劃2012年3月29日,奧巴馬政府宣布“大數(shù)據(jù)的研究和發(fā)展計(jì)劃(BigDataResearchandDevelopmentInitiative)”。首批共有包括美國(guó)科學(xué)基金會(huì)、衛(wèi)生福利部/國(guó)家衛(wèi)生研究所、能源部、國(guó)防部、國(guó)防部高級(jí)研究計(jì)劃局、地質(zhì)調(diào)查局等六個(gè)聯(lián)邦政府的部門(mén)和機(jī)構(gòu)宣布新的2億美元的投資。共同提高從大量數(shù)字?jǐn)?shù)據(jù)中訪問(wèn)、組織、收集發(fā)現(xiàn)信息的工具和技術(shù)水平;擴(kuò)大大數(shù)據(jù)技術(shù)開(kāi)發(fā)和應(yīng)用所需人才的供給;了解更多正在進(jìn)行的聯(lián)邦政府的計(jì)劃,解決由大數(shù)據(jù)帶來(lái)的機(jī)遇和挑戰(zhàn);計(jì)劃與工業(yè)界、大學(xué)研究界、非營(yíng)利性機(jī)構(gòu)與管理者一起利用大數(shù)據(jù)所創(chuàng)造的機(jī)會(huì)。國(guó)防部XDATA計(jì)劃:旨在開(kāi)發(fā)用于分析大量的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的計(jì)算技術(shù)和軟件工具。能源部HPSS:是對(duì)磁盤(pán)和磁帶系統(tǒng)上PB級(jí)數(shù)據(jù)進(jìn)行管理的數(shù)據(jù)管理軟件。衛(wèi)生福利部生物傳感2.0:是第一個(gè)考慮到區(qū)域和國(guó)家協(xié)調(diào)的情況下,通過(guò)互操作的網(wǎng)絡(luò)系統(tǒng)對(duì)公眾健康意識(shí)的可行性分析的系統(tǒng)。美國(guó)政府大數(shù)據(jù)計(jì)劃2012年3月29日,奧巴馬政府宣布“大數(shù)開(kāi)放政府?dāng)?shù)據(jù)聯(lián)盟截止2012年12月,美國(guó)的“開(kāi)放政府計(jì)劃”共有54個(gè)國(guó)家加入了由美國(guó)發(fā)起的“開(kāi)放政府計(jì)劃”。網(wǎng)站D公開(kāi)的數(shù)據(jù)類(lèi)別(不涉及隱私和國(guó)家安全)超過(guò)400項(xiàng),且數(shù)量仍在增加。智利、愛(ài)沙尼亞、以色列、意大利、約旦、秘魯、羅馬尼亞、西班牙等國(guó)家建立了網(wǎng)站,向公民公布各類(lèi)公共數(shù)據(jù),包括犯罪統(tǒng)計(jì)數(shù)字以及政黨資金、地方財(cái)政預(yù)算和政府采購(gòu)數(shù)據(jù)。開(kāi)放政府?dāng)?shù)據(jù)聯(lián)盟截止2012年12月,美國(guó)的“開(kāi)放政府計(jì)劃”加入“開(kāi)放政府聯(lián)盟”的門(mén)檻98財(cái)政透明能及時(shí)公開(kāi)政府財(cái)政預(yù)算和支出的信息和文件信息自由有專(zhuān)門(mén)的法律保證公民獲取政府信息和數(shù)據(jù)的權(quán)力財(cái)產(chǎn)公開(kāi)有專(zhuān)門(mén)的制度規(guī)定如何公開(kāi)高級(jí)政府官員的收入和財(cái)產(chǎn)公民參與允許公民參與公共政策的制定、保護(hù)民權(quán)加入“開(kāi)放政府聯(lián)盟”的門(mén)檻39財(cái)政透明能及時(shí)公開(kāi)政府財(cái)政預(yù)算大數(shù)據(jù)對(duì)技術(shù)的顛覆與組合99大數(shù)據(jù)對(duì)技術(shù)的顛覆與組合40大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)庫(kù)100采集環(huán)節(jié)存儲(chǔ)環(huán)節(jié)分析環(huán)節(jié)應(yīng)用環(huán)節(jié)傳統(tǒng)數(shù)據(jù)分析大數(shù)據(jù)分析擴(kuò)展到傳感、互聯(lián)網(wǎng)、交易等多來(lái)源多類(lèi)型數(shù)據(jù)來(lái)源單一,以?xún)?nèi)部結(jié)構(gòu)化數(shù)據(jù)為主主要是面向結(jié)構(gòu)化數(shù)據(jù)和事務(wù)處理的關(guān)系型數(shù)據(jù)庫(kù)擴(kuò)展到面向非結(jié)構(gòu)化數(shù)據(jù)和分析處理的非關(guān)系型數(shù)據(jù)庫(kù)依賴(lài)高性能計(jì)算機(jī),主要利用統(tǒng)計(jì)和機(jī)器學(xué)習(xí)算法需用分布式并行計(jì)算,Scaleout
能力,以機(jī)器學(xué)習(xí)算法為主局限在金融、保險(xiǎn)、零售、電信等少數(shù)領(lǐng)域,以決策支撐為主有望滲透到政府、醫(yī)療、交通等各個(gè)領(lǐng)域,嵌入到業(yè)務(wù)流程中來(lái)源廣,3V非結(jié)構(gòu)化和面向分析為主分布式并行架構(gòu)結(jié)合機(jī)器學(xué)習(xí)算法更廣的領(lǐng)域,更深入的嵌入業(yè)務(wù)流大數(shù)據(jù)系統(tǒng)的特點(diǎn)大數(shù)據(jù)資源大數(shù)據(jù)工具大數(shù)據(jù)理念大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)庫(kù)41采集環(huán)節(jié)存儲(chǔ)環(huán)節(jié)分析環(huán)節(jié)應(yīng)用環(huán)節(jié)傳統(tǒng)數(shù)大數(shù)據(jù)&云計(jì)算101大數(shù)據(jù)&云計(jì)算42“嵌入式”的大數(shù)據(jù)61目前大數(shù)據(jù)的應(yīng)用的主要形態(tài)是“嵌入式”的,即內(nèi)嵌在信息化平臺(tái)中,高度差異化。相應(yīng)的技術(shù)、解決方案和服務(wù)是IT和云計(jì)算的一部分,還未形成獨(dú)立產(chǎn)業(yè)?!扒度胧健钡拇髷?shù)據(jù)61目前大數(shù)據(jù)的應(yīng)用的主要形態(tài)是“嵌入式”主要內(nèi)容大數(shù)據(jù)的“熱”大數(shù)據(jù)的“大”大數(shù)據(jù)的“數(shù)”大數(shù)據(jù)的顛覆性大數(shù)據(jù)的隱私保護(hù)大數(shù)據(jù)的實(shí)踐103主要內(nèi)容大數(shù)據(jù)的“熱”44隱私保護(hù)的歷史變遷10419世紀(jì),住宅為重心20世紀(jì),人為重心21世紀(jì),數(shù)據(jù)為重心個(gè)人控制、編輯、管理和刪除關(guān)于他們自己的信息,并決定何時(shí)何地、一何種方式公開(kāi)這種信息的權(quán)利。隱私保護(hù)的歷史變遷4519世紀(jì),20世紀(jì),21世紀(jì),個(gè)人控制傳統(tǒng)隱私保護(hù)的“三板斧”就像印刷業(yè)的發(fā)展促成了保護(hù)言論自由的立法,大數(shù)據(jù)也需要新的法律105告知與許可匿名模糊法傳統(tǒng)隱私保護(hù)的“三板斧”就像印刷業(yè)的發(fā)展促成了保護(hù)言論自由的棱鏡門(mén)與大數(shù)據(jù)106是運(yùn)營(yíng)商在云計(jì)算與大數(shù)據(jù)方面一個(gè)戰(zhàn)略性機(jī)遇棱鏡門(mén)與大數(shù)據(jù)47是運(yùn)營(yíng)商在云計(jì)算與大數(shù)據(jù)方面忘記的權(quán)力:數(shù)字遺忘107大數(shù)據(jù)使得網(wǎng)絡(luò)匿名變成數(shù)學(xué)上不可能的事你沒(méi)有隱私,忘了這事吧20年前,“性別+郵編+出生年月日”,識(shí)別出87%的人大數(shù)據(jù)時(shí)代,通過(guò)分析用戶(hù)4個(gè)曾經(jīng)到過(guò)的位置點(diǎn),就可以識(shí)別出95%的用戶(hù)“你不能在擁有100%安全的情況下,同時(shí)擁有100%隱私和100%便利”-奧巴馬,2013.6忘記的權(quán)力:數(shù)字遺忘48大數(shù)據(jù)使得網(wǎng)絡(luò)匿名變成數(shù)學(xué)上不可能的解除個(gè)人信息的價(jià)值:從收集到使用世界經(jīng)濟(jì)論壇沒(méi)有壞數(shù)據(jù),只有對(duì)數(shù)據(jù)的不合理使用108大型機(jī),《公平信用報(bào)告法》互聯(lián)網(wǎng)大數(shù)據(jù)所有數(shù)據(jù)的收集都應(yīng)該通過(guò)密碼所有對(duì)于數(shù)據(jù)的使用都應(yīng)該登記對(duì)于那些違反規(guī)定的人要采取處罰措施解除個(gè)人信息的價(jià)值:從收集到使用世界經(jīng)濟(jì)論壇49大型機(jī),互聯(lián)主要內(nèi)容大數(shù)據(jù)的“熱”大數(shù)據(jù)的“大”大數(shù)據(jù)的“數(shù)”大數(shù)據(jù)的顛覆性大數(shù)據(jù)的隱私保護(hù)大數(shù)據(jù)的實(shí)踐109主要內(nèi)容大數(shù)據(jù)的“熱”50互聯(lián)網(wǎng)企業(yè)引領(lǐng)全球大數(shù)據(jù)應(yīng)用110大數(shù)據(jù)關(guān)鍵技術(shù)與產(chǎn)業(yè)研究第110頁(yè)互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)快速產(chǎn)生的各類(lèi)數(shù)據(jù)用戶(hù)行為數(shù)據(jù)系統(tǒng)日志數(shù)據(jù)……網(wǎng)頁(yè)數(shù)據(jù)用戶(hù)交易數(shù)據(jù)互聯(lián)網(wǎng)企業(yè)大數(shù)據(jù)應(yīng)用場(chǎng)景互聯(lián)網(wǎng)企業(yè)大數(shù)據(jù)應(yīng)用基本特點(diǎn)滿(mǎn)意度分析定向廣告提升服務(wù)質(zhì)量社會(huì)服務(wù)個(gè)性化推薦其它……如Twitter對(duì)提到產(chǎn)品的文本進(jìn)行搜集并按規(guī)則打分,得到客戶(hù)對(duì)產(chǎn)品的滿(mǎn)意度評(píng)價(jià)如Facebook對(duì)用戶(hù)基本屬性、行為習(xí)慣和興趣等進(jìn)行語(yǔ)義分析,為廣告商提供基于數(shù)據(jù)挖掘的自助式廣告下單服務(wù)系統(tǒng)如亞馬遜利用大數(shù)據(jù)技術(shù)為用戶(hù)提供社會(huì)化推薦、廣播式個(gè)性化推薦等服務(wù),加快了產(chǎn)品傳播的速度如Facebook對(duì)大量用戶(hù)產(chǎn)品使用狀況的數(shù)據(jù)進(jìn)行分析,優(yōu)化產(chǎn)品設(shè)計(jì)及服務(wù),改善用戶(hù)的使用體驗(yàn)如谷歌基于用戶(hù)搜索數(shù)據(jù)推出的產(chǎn)品谷歌流感趨勢(shì),可以迅速、準(zhǔn)確的對(duì)流感進(jìn)行預(yù)報(bào)定向廣告和個(gè)性化推薦簡(jiǎn)單的大數(shù)據(jù)應(yīng)用已在互聯(lián)網(wǎng)領(lǐng)域廣泛開(kāi)展,且大部分企業(yè)具備自行實(shí)施應(yīng)用的技術(shù)能力掌握有大量用戶(hù)行為數(shù)據(jù)的互聯(lián)網(wǎng)巨頭可以較好提供社會(huì)化服務(wù)互聯(lián)網(wǎng)企業(yè)引領(lǐng)全球大數(shù)據(jù)應(yīng)用51大數(shù)據(jù)關(guān)鍵技術(shù)與產(chǎn)業(yè)研究第5淘寶案例11110億商品、交易額過(guò)萬(wàn)億每天30億瀏覽、數(shù)千萬(wàn)交易集群規(guī)模3000臺(tái),每年擴(kuò)大50%50PB數(shù)據(jù)交易數(shù)據(jù)用戶(hù)數(shù)據(jù)商品數(shù)據(jù)社交數(shù)據(jù)數(shù)據(jù):系統(tǒng):我要買(mǎi)關(guān)鍵詞搜索語(yǔ)音搜索語(yǔ)音理解關(guān)鍵詞匹配挑選物品索引數(shù)據(jù)評(píng)論/交易商家信譽(yù)用戶(hù)行為數(shù)據(jù)商戶(hù)行為數(shù)據(jù)購(gòu)買(mǎi)推薦其他你歷史數(shù)據(jù)買(mǎi)家服務(wù)行業(yè)分析店鋪基礎(chǔ)經(jīng)營(yíng)分析商品優(yōu)化分析買(mǎi)家分析營(yíng)銷(xiāo)效果分析售后/運(yùn)營(yíng)支撐分析需求挖掘訂單分析供應(yīng)鏈分析信用評(píng)估賣(mài)什么怎么賣(mài)賣(mài)給誰(shuí)我要進(jìn)貨我要貸款買(mǎi)家服務(wù)衍生服務(wù):金融、保險(xiǎn)…搜索、電商、廣告、SNS等數(shù)據(jù)驅(qū)動(dòng)的互聯(lián)網(wǎng)服務(wù)取得巨大成功,激發(fā)了大數(shù)據(jù)應(yīng)用的想象力!淘寶案例5210億商品、交易額過(guò)萬(wàn)億集群規(guī)模3000臺(tái),每年其它行業(yè)普遍仍在探索…112零售業(yè)沃爾瑪零售數(shù)據(jù)商業(yè)智能分析系統(tǒng),可以了解到全球4000多家門(mén)店每天的銷(xiāo)售情況并輔助制定銷(xiāo)售策略。美國(guó)DNAnexus為醫(yī)療機(jī)構(gòu)和用戶(hù)提供了基因數(shù)據(jù)的管理、分析和可視化能力。醫(yī)療能源能源機(jī)構(gòu)Vestas綜合考慮溫度、降水、風(fēng)速、濕度、氣壓等因素,確定鋒利渦輪機(jī)的最佳安置地。制造業(yè)日本小松公司根據(jù)挖掘機(jī)工作情況進(jìn)行大數(shù)據(jù)分析,判斷下一年度的市場(chǎng)需求。金融美國(guó)征信所Equifax對(duì)海量信息進(jìn)行交叉分析,推出70余項(xiàng)新服務(wù)。其它:農(nóng)業(yè)、氣象……傳統(tǒng)行業(yè)傳統(tǒng)行業(yè)大數(shù)據(jù)應(yīng)用基本特點(diǎn)數(shù)據(jù)源主要來(lái)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)藥控制釋放技術(shù)
- 2026屆重慶化學(xué)高三上期中檢測(cè)試題含解析
- 心肌灌注檢查報(bào)告解讀
- 五度標(biāo)記法講解
- 通脹消減法案解讀
- 細(xì)胞呼吸方式研究
- 青年班個(gè)人匯報(bào)
- 企業(yè)讀書(shū)日活動(dòng)
- 醫(yī)院感染暴發(fā)應(yīng)急處置預(yù)案
- 胸腔閉式引流管置管護(hù)理規(guī)范
- 施工現(xiàn)場(chǎng)危險(xiǎn)源管理制度
- 【圖文】個(gè)人簡(jiǎn)歷模板大全-可直接下載使用
- 2025廣西百色工業(yè)和信息化委員會(huì)事業(yè)單位招聘擬聘高頻重點(diǎn)模擬試卷提升(共500題附帶答案詳解)
- 跨境運(yùn)輸問(wèn)題應(yīng)急預(yù)案
- 預(yù)包裝食品采購(gòu)合同樣本6篇
- 2025年美術(shù)作品授權(quán)合同協(xié)議
- 《上市公司再融資》課件
- 構(gòu)建學(xué)校與家庭共育的信息化平臺(tái)研究
- 2025年下派掛職干部工作總結(jié)范例(三篇)
- 文化創(chuàng)意產(chǎn)業(yè)IP開(kāi)發(fā)與授權(quán)經(jīng)營(yíng)策略規(guī)劃方案
- 《腹股溝疝》課件
評(píng)論
0/150
提交評(píng)論