




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1從物聯(lián)網(wǎng)到信息物理系統(tǒng)2從抽樣數(shù)據(jù)到大數(shù)據(jù)3從大數(shù)據(jù)到人工智能4大數(shù)據(jù)與流數(shù)據(jù)——從一個(gè)例子開(kāi)始5實(shí)際應(yīng)用場(chǎng)景信息社會(huì)的基礎(chǔ)電信網(wǎng)絡(luò)2G(程控交換)下一代網(wǎng)絡(luò)3G(軟交換)IMS/FMC互聯(lián)網(wǎng)IPv4下一代互聯(lián)網(wǎng)IPv6Web2.0移動(dòng)互聯(lián)網(wǎng)云計(jì)算I云P云S云下下一代網(wǎng)絡(luò)3.9G(LTE)4G(LTE-A)5GLTE:LongTermEvolution(長(zhǎng)期演進(jìn))LTE-A:LTE-Advanced(LTE技術(shù)后續(xù)演進(jìn))IMS:IPMultimediaSubsystem(IP多媒體子系統(tǒng))FMC:Fixed-MobileConvergence(固網(wǎng)移動(dòng)融合)IOT:InternetofThingsRFID:RadioFrequencyIdentification個(gè)人電腦臺(tái)式機(jī)筆記本平板大型機(jī)小型機(jī)PC服務(wù)器傳感網(wǎng)RFID(射頻識(shí)別)現(xiàn)場(chǎng)總線M2M物聯(lián)網(wǎng)(IoT)產(chǎn)業(yè)互聯(lián)網(wǎng)人工智能車(chē)聯(lián)網(wǎng)(IoV)工業(yè)4.03IoT與CPS物聯(lián)網(wǎng)
IoT:InternetofThings側(cè)重于機(jī)器之間的
通信過(guò)程通過(guò)網(wǎng)絡(luò)設(shè)施實(shí)現(xiàn)
廣域或大范圍的人
與物、物與物之間
信息交換信息物理系統(tǒng)
CPS:CyberPhysicalSystems通過(guò)3C技術(shù)的有機(jī)融合與深度協(xié)作,實(shí)現(xiàn)對(duì)物的實(shí)時(shí)、動(dòng)態(tài)的信息控制與信息服務(wù)強(qiáng)調(diào)與物理世界交互的感知與反饋控制過(guò)程,通過(guò)計(jì)算進(jìn)程和物理進(jìn)程相互影響
實(shí)現(xiàn)信息空間與物理空間
的密切互動(dòng)信息采集傳輸匯集分析處理存儲(chǔ)應(yīng)用感知組網(wǎng)數(shù)據(jù)挖掘反饋控制施效計(jì)算(Computation)通信(Communication)控制(Control)大規(guī)模數(shù)據(jù)
如何使用1從物聯(lián)網(wǎng)到信息物理系統(tǒng)2從抽樣數(shù)據(jù)到大數(shù)據(jù)3從大數(shù)據(jù)到人工智能4大數(shù)據(jù)與流數(shù)據(jù)——從一個(gè)例子開(kāi)始5實(shí)際應(yīng)用場(chǎng)景5從小規(guī)模數(shù)據(jù)到大規(guī)模數(shù)據(jù)應(yīng)用平臺(tái)服務(wù)G-T級(jí)T-P級(jí)大規(guī)?;ヂ?lián)網(wǎng)/物聯(lián)網(wǎng)服務(wù)6從小規(guī)模數(shù)據(jù)到大規(guī)模數(shù)據(jù)規(guī)模大用戶(hù)多總量大分布廣變化快種類(lèi)雜數(shù)據(jù)源多樣數(shù)據(jù)類(lèi)型多樣數(shù)據(jù)結(jié)構(gòu)多樣價(jià)值密度低數(shù)據(jù)高冗余數(shù)據(jù)特征不明顯數(shù)據(jù)信息量低用戶(hù)強(qiáng)交互性數(shù)據(jù)具有傳播性傳播行為復(fù)雜大數(shù)據(jù)的4V特征大數(shù)據(jù)的意義揭示宏觀變化規(guī)律發(fā)現(xiàn)不同事物間的關(guān)聯(lián)關(guān)系規(guī)模大少量數(shù)據(jù)無(wú)價(jià)值抽取目標(biāo)對(duì)象的特征百度通過(guò)4億用戶(hù)分析提供個(gè)性化搜索服務(wù)2008年谷歌通過(guò)龐大搜索數(shù)據(jù)訓(xùn)練4.5億個(gè)數(shù)學(xué)模型,提前幾周預(yù)測(cè)出H1N1流感的爆發(fā)和傳播2008年阿里巴巴提前8-9個(gè)月預(yù)測(cè)出金融危機(jī)短時(shí)變化無(wú)規(guī)律單一來(lái)源無(wú)特征7從抽樣數(shù)據(jù)到全量數(shù)據(jù)從抽樣到全樣大數(shù)據(jù)數(shù)量大,數(shù)據(jù)統(tǒng)計(jì)特征分布不均勻,傳統(tǒng)采樣方法不適用從精確到非精確大數(shù)據(jù)下精確性不再是絕對(duì)追求目標(biāo),需對(duì)宏觀趨勢(shì)給出快速預(yù)測(cè)從因果到關(guān)聯(lián)僅需知其然,無(wú)需知其所以然,用于“發(fā)現(xiàn)事實(shí)、預(yù)測(cè)未來(lái)”傳統(tǒng)數(shù)據(jù)處理:抽樣數(shù)據(jù)精確結(jié)果準(zhǔn)確建模SELECT…FROM…WHERE…ORDERBYSUM(…)GROUPBY…Google流感預(yù)測(cè)采用搜索數(shù)據(jù)取代抽樣百度地圖給出的交通擁堵?tīng)顟B(tài)及變化趨勢(shì)沃爾瑪啤酒尿布商業(yè)案例數(shù)據(jù)價(jià)值密度低數(shù)據(jù)變化快數(shù)據(jù)種類(lèi)雜8Inexact近似性Incremental增量性Inductive歸納性9舉個(gè)例子從你的新聞,到我的新聞只有讓人看到的才是新聞新聞的生產(chǎn)新聞的推送10舉個(gè)例子內(nèi)容數(shù)據(jù)內(nèi)容獲取內(nèi)容推薦新聞內(nèi)容相關(guān)性知識(shí)行為數(shù)據(jù)行為獲取行為相似性知識(shí)1從物聯(lián)網(wǎng)到信息物理系統(tǒng)2從抽樣數(shù)據(jù)到大數(shù)據(jù)3從大數(shù)據(jù)到人工智能4大數(shù)據(jù)與流數(shù)據(jù)——從一個(gè)例子開(kāi)始5實(shí)際應(yīng)用場(chǎng)景面向大數(shù)據(jù)的數(shù)據(jù)挖掘方法挖掘任務(wù)分類(lèi)預(yù)測(cè)(Predication):用歷史預(yù)測(cè)未來(lái)描述(Description):了解數(shù)據(jù)中潛在的規(guī)律挖掘?qū)ο髨?chǎng)景面向多源、非結(jié)構(gòu)化數(shù)據(jù)面向流式數(shù)據(jù),時(shí)空數(shù)據(jù)挖掘方法分類(lèi)分析聚類(lèi)分析關(guān)聯(lián)分析搜索分析Incremental增量性Inductive歸納性Inexact近似性12分類(lèi)通過(guò)學(xué)習(xí)得到目標(biāo)函數(shù)(分類(lèi)模型)將屬性集X映射到預(yù)定義的類(lèi)歸納和推論的過(guò)程分類(lèi)模型決策樹(shù)分類(lèi)法基于規(guī)則的分類(lèi)法神經(jīng)網(wǎng)絡(luò)(ANN:
ArtificialNeuralNetwork)支持向量機(jī)(SVM:
SupportVectorMachines)貝葉斯分類(lèi)法分類(lèi)(Classification)13聚類(lèi)(Cluster)聚類(lèi)類(lèi)型劃分聚類(lèi)層次聚類(lèi)——?jiǎng)澐志垲?lèi)的序列模糊聚類(lèi)完全/部分聚類(lèi)聚類(lèi)算法K均值(K-Means)K近鄰(KNN:k-NearestNeighbor)凝聚的層次聚類(lèi)DBSCAN14k-means:非監(jiān)督學(xué)習(xí)KNN:監(jiān)督學(xué)習(xí)分類(lèi)和聚類(lèi)的區(qū)別聚類(lèi):最大化簇內(nèi)的相似性、最小化簇間相似性類(lèi)中的對(duì)象具有很高相似性,與其他類(lèi)中的對(duì)象很不相似分類(lèi):最大化對(duì)象與類(lèi)的相似性類(lèi)中的對(duì)象與類(lèi)具有很高相似性,但類(lèi)中的對(duì)象不一定具有很高相似性15關(guān)聯(lián)(Association)反映一個(gè)事件和其他事件之間依賴(lài)或關(guān)聯(lián)的知識(shí)如果兩項(xiàng)或多項(xiàng)屬性之間存在關(guān)聯(lián),那么其中一項(xiàng)的屬性值就可以依據(jù)其他屬性值進(jìn)行預(yù)測(cè)相關(guān)性分析Apriori算法/FP-growth算法(FrequentPatternTree)(頻繁項(xiàng))皮爾遜相關(guān)系數(shù)(Pearsoncorrelationcoefficient)(線性相關(guān))主成分分析(PrincipalComponentAnalysis)(多個(gè)變量間相關(guān)性)回歸分析線性回歸(LinearRegression)(因變量連續(xù),回歸線的性質(zhì)是線性的)邏輯回歸(LogisticRegression)(因變量屬于二元類(lèi)型)關(guān)聯(lián)規(guī)則的例子:{尿布}{啤酒}
{牛奶,面包}{雞蛋,蛋糕}
{啤酒,面包}{牛奶}TID項(xiàng)集1面包,牛奶2面包,尿布,啤酒,雞蛋3牛奶,尿布,啤酒,可樂(lè)4面包,牛奶,尿布,啤酒5面包,牛奶,尿布,可樂(lè)16搜索最優(yōu)化算法動(dòng)態(tài)規(guī)劃(DynamicProgramming)常用于求解以時(shí)間劃分階段的動(dòng)態(tài)過(guò)程的優(yōu)化問(wèn)題,如最短路徑梯度下降法(SteepestDescent)常用于機(jī)器學(xué)習(xí)和人工智能當(dāng)中用來(lái)遞歸性地逼近最小偏差模型蒙特卡洛樹(shù)搜索(MonteCarloTreeSearch)大數(shù)定律,隨機(jī)搜索足夠多的點(diǎn)啟發(fā)式算法(heuristicalgorithm)模擬退火法(SimulatedAnnealing)基于蒙特卡洛進(jìn)行串行搜索優(yōu)化遺傳算法(GeneticAlgorithm)基于生物進(jìn)化和遺傳進(jìn)行全局最優(yōu)化蟻群算法(AntColonyAlgorithm)強(qiáng)化學(xué)習(xí)功能的全局性并行優(yōu)化算法17淺層學(xué)習(xí)(ShallowLearning)BP神經(jīng)網(wǎng)絡(luò)存在的問(wèn)題神經(jīng)網(wǎng)絡(luò)容易過(guò)擬合,參數(shù)比較難調(diào)訓(xùn)練速度比較慢,在層次比較少(小于等于3)的情況下效果并不比其它方法更優(yōu)改進(jìn)方法支撐向量機(jī)(SVM)Boosting最大熵方法(LR:LogisticRegression邏輯回歸)等共同特點(diǎn)基本上可以看成帶有一層隱層節(jié)點(diǎn)(如SVM、Boosting),或沒(méi)有隱層節(jié)點(diǎn)(如LR)局限性有限樣本和計(jì)算單元情況下對(duì)復(fù)雜函數(shù)的表示能力有限針對(duì)復(fù)雜分類(lèi)問(wèn)題其泛化能力受到一定制約18深度學(xué)習(xí)(DeepLearning)提出2006年,加拿大多倫多大學(xué)教授GeoffreyHinton和他的學(xué)生RuslanSalakhutdinov提出一種基于無(wú)監(jiān)督特征學(xué)習(xí)和特征層次結(jié)構(gòu)的學(xué)習(xí)方法特點(diǎn)采用多隱層的人工神經(jīng)網(wǎng)絡(luò)——深度神經(jīng)網(wǎng)絡(luò)(多層的好處是可以用較少的參數(shù)表示復(fù)雜的函數(shù))可通過(guò)學(xué)習(xí)一種深層非線性網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)復(fù)雜函數(shù)逼近,表征輸入數(shù)據(jù)分布式表示通過(guò)“逐層初始化”(Layer-wisePre-training)來(lái)克服訓(xùn)練上的難度(通過(guò)無(wú)監(jiān)督學(xué)習(xí))本質(zhì)“深度模型”是手段“特征學(xué)習(xí)”是目的通過(guò)構(gòu)建具有很多隱層的機(jī)器學(xué)習(xí)模型和海量的訓(xùn)練數(shù)據(jù),來(lái)學(xué)習(xí)更有用的特征19人工神經(jīng)網(wǎng)絡(luò)的第三次興起20從淺層學(xué)習(xí)向深度學(xué)習(xí)演進(jìn)大數(shù)據(jù)算力1從物聯(lián)網(wǎng)到信息物理系統(tǒng)2從抽樣數(shù)據(jù)到大數(shù)據(jù)3從大數(shù)據(jù)到人工智能4大數(shù)據(jù)與流數(shù)據(jù)——從一個(gè)例子開(kāi)始5實(shí)際應(yīng)用場(chǎng)景一個(gè)例子一些實(shí)際問(wèn)題判斷特定IP是不是第一次訪問(wèn)網(wǎng)站?訪問(wèn)了多少次?數(shù)據(jù)庫(kù)高速緩存網(wǎng)站高速緩存Web服務(wù)MySQL數(shù)據(jù)庫(kù)Redis緩存瀏覽器查詢(xún)緩存查詢(xún)結(jié)果數(shù)據(jù)庫(kù)查詢(xún)變長(zhǎng)數(shù)據(jù)內(nèi)容——哈希哈希(Hash)把任意長(zhǎng)度輸入通過(guò)Hash算法變換成固定長(zhǎng)度輸出代表算法:MD5,SHA128,SHA256(32/128/256Bytes)一般是壓縮映射,不可逆映射挑戰(zhàn)如果實(shí)際數(shù)據(jù)需求遠(yuǎn)遠(yuǎn)超過(guò)內(nèi)存大小?如:200,000,000量級(jí)32bit整數(shù):200,000,000×4Bytes≈763MBytesMD5數(shù)字字串:200,000,000×16Bytes≈3GBytesMD5文本字串:200,000,000×32Bytes≈6GBytes0230c58281e3661b854e6f480e703d60f7173baa68212ee5fc06db4099f76454687b4aec753c2727cf66ed15d9f4eedf哈希映射?/c/7qvDJ5HbryS快速查詢(xún)——哈希表哈希表(HashMap)利用線性表存儲(chǔ)集合元素利用Hash函數(shù)計(jì)算元素對(duì)應(yīng)的地址Entry,并在對(duì)應(yīng)的區(qū)域存儲(chǔ)該元素實(shí)際查找通過(guò)先hash計(jì)算Entry,再匹配元素是否相同(哈希值匹配)優(yōu)勢(shì)解決沖突查找復(fù)雜(拉鏈法等)準(zhǔn)確率100%問(wèn)題填充稀疏為避免沖突,填充率50%均衡空間與效率——布隆過(guò)濾器布隆過(guò)濾器BF(BloomFilter)1970年BurtonBloom在論文《Space/timetrade-offsinhashcodingwitherrors》中提出核心思想用一系列隨機(jī)映射函數(shù)解決一個(gè)映射函數(shù)的沖突問(wèn)題用一個(gè)很長(zhǎng)的二進(jìn)制向量來(lái)解決存儲(chǔ)空間爆炸問(wèn)題準(zhǔn)確率換空間思想延伸優(yōu)點(diǎn)空間效率和查詢(xún)時(shí)間都遠(yuǎn)超過(guò)一般的算法缺點(diǎn)有一定的誤識(shí)別率,刪除困難應(yīng)用用于檢索一個(gè)元素是否在一個(gè)集合中布隆過(guò)濾器設(shè)計(jì)思想用一個(gè)很長(zhǎng)的二進(jìn)制向量來(lái)解決存儲(chǔ)空間爆炸問(wèn)題用一個(gè)包含m位的二進(jìn)制位數(shù)組存儲(chǔ)——BITMAP12345678mHashData1Data2m-1m-2m-3m-4m-5m-6m-7BITMAP00010000000000000000100000000000如果沖突怎么辦?Data30000100000000000布隆過(guò)濾器設(shè)計(jì)思想用一系列隨機(jī)映射函數(shù)解決一個(gè)映射函數(shù)的沖突問(wèn)題K個(gè)相互獨(dú)立的哈希函數(shù)映射到{1,…,m}的范圍12345678mH1H2H3HkData10001001001000100m-1m-2m-3m-4m-5m-6m-7Data20001001000010010BITMAP布隆過(guò)濾器的使用使用判斷數(shù)據(jù)y是否在集合S={x1,x2,…,xn}中存在計(jì)算y的k個(gè)哈希函數(shù)的取值判斷BITMAP相應(yīng)的位置取值是否為1280110111001110110BITMAPH1H2H3HkData3Data40110布隆過(guò)濾器的問(wèn)題存在誤報(bào)哈希函數(shù)存在沖突BITMAP中的每一位是k個(gè)哈希函數(shù)映射結(jié)果的疊加290111111001110111BITMAPH1H2H3HkData1Data2Data3假陽(yáng)性FP(FalsePositive)
計(jì)數(shù)型布隆過(guò)濾器BF/SBF(StandardBloomFilter)m長(zhǎng)BITMAP的每一個(gè)槽位只有1位,只能表示[0,1],代表“有”或“無(wú)”缺點(diǎn):無(wú)法刪除數(shù)據(jù)計(jì)數(shù)型布隆過(guò)濾器CBF(CountingBloomFilter)將m長(zhǎng)BITMAP的每一個(gè)槽位修改為多位,形成COUNTER_MAP,如3位,則可以表示[0,1,…,7]優(yōu)點(diǎn):可以刪除數(shù)據(jù)插入數(shù)據(jù)時(shí),Counter自增;刪除數(shù)據(jù)時(shí),Counter自減流數(shù)據(jù)最重要的特點(diǎn)31數(shù)據(jù)的持續(xù)抵達(dá)數(shù)據(jù)的高基數(shù)數(shù)據(jù)的特征變化
1從物聯(lián)網(wǎng)到信息物理系統(tǒng)2從抽樣數(shù)據(jù)到大數(shù)據(jù)3從大數(shù)據(jù)到人工智能4大數(shù)據(jù)與流數(shù)據(jù)——從一個(gè)例子開(kāi)始5實(shí)際應(yīng)用場(chǎng)景行為學(xué)習(xí):基于用戶(hù)通信記錄(含:主被叫、通話時(shí)間、通話頻度、通話行為、特殊號(hào)碼類(lèi)型等)進(jìn)行無(wú)監(jiān)督和有監(jiān)督的學(xué)習(xí),建立行為特征模式分類(lèi)器訓(xùn)練:基于行為特征模式,訓(xùn)練電信詐騙鑒別分類(lèi)器電信詐騙識(shí)別:通話記錄進(jìn)入分類(lèi)器,識(shí)別潛在的電信詐騙風(fēng)險(xiǎn)號(hào)碼結(jié)合通信記錄的電信詐騙鑒別33基于移動(dòng)軌跡大數(shù)據(jù)的模式挖掘發(fā)現(xiàn)移動(dòng)對(duì)象在一定時(shí)空約束下共同行使所形成的行
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025廣西南寧隆安縣南圩鎮(zhèn)楊灣衛(wèi)生院醫(yī)學(xué)影像專(zhuān)業(yè)招聘1人考前自測(cè)高頻考點(diǎn)模擬試題附答案詳解(突破訓(xùn)練)
- 2025湖南郴州資興市公開(kāi)招聘醫(yī)療衛(wèi)生類(lèi)專(zhuān)業(yè)技術(shù)人員28人考前自測(cè)高頻考點(diǎn)模擬試題附答案詳解(模擬題)
- 山東省濰坊市2024-2025學(xué)年高一下學(xué)期期末質(zhì)量監(jiān)測(cè)地理試題(解析版)
- 山東省菏澤市2024-2025學(xué)年高一下學(xué)期期末考試地理試題(解析版)
- 內(nèi)蒙古鄂爾多斯市西四旗2023-2024學(xué)年高一下學(xué)期期中聯(lián)考地理試卷(解析版)
- 動(dòng)物界中的團(tuán)結(jié)力量童話寓言故事(5篇)
- 2025年吉林省省直事業(yè)單位公開(kāi)招聘工作人員(1號(hào))(186人)模擬試卷及1套參考答案詳解
- 老年健康養(yǎng)老服務(wù)信用承諾書(shū)(6篇)
- 2025湖北恩施州恩施市福牛物業(yè)有限公司招聘恩施市金滿園農(nóng)業(yè)發(fā)展有限公司工作人員人員考前自測(cè)高頻考點(diǎn)模擬試題及參考答案詳解1套
- 2025廣西北部灣大學(xué)招聘高層次人才53人模擬試卷及答案詳解(名師系列)
- 防止返貧動(dòng)態(tài)監(jiān)測(cè)和幫扶工作手冊(cè)2022版
- 胃癌的影像學(xué)診斷
- 新疆維吾爾自治區(qū)國(guó)家級(jí)公益林管護(hù)辦法
- 唐山曹妃甸大宗物料長(zhǎng)距離輸送綜合管廊工程海域使用論證報(bào)告書(shū)
- JJF 1915-2021傾角儀校準(zhǔn)規(guī)范
- GB/T 8017-2012石油產(chǎn)品蒸氣壓的測(cè)定雷德法
- GB/T 20633.2-2011承載印制電路板用涂料(敷形涂料)第2部分:試驗(yàn)方法
- 零星工程維修合同
- DB37-T 4328-2021 建筑消防設(shè)施維護(hù)保養(yǎng)技術(shù)規(guī)程
- 防盜門(mén)安裝施工方案50173
- 航空器緊固件安裝及保險(xiǎn)課件
評(píng)論
0/150
提交評(píng)論