大數(shù)據(jù)分析方法及應(yīng)用-基于Python實(shí)現(xiàn) 課件 第1-4章 大數(shù)據(jù)分析概述 - 大數(shù)據(jù)可視化分析_第1頁
大數(shù)據(jù)分析方法及應(yīng)用-基于Python實(shí)現(xiàn) 課件 第1-4章 大數(shù)據(jù)分析概述 - 大數(shù)據(jù)可視化分析_第2頁
大數(shù)據(jù)分析方法及應(yīng)用-基于Python實(shí)現(xiàn) 課件 第1-4章 大數(shù)據(jù)分析概述 - 大數(shù)據(jù)可視化分析_第3頁
大數(shù)據(jù)分析方法及應(yīng)用-基于Python實(shí)現(xiàn) 課件 第1-4章 大數(shù)據(jù)分析概述 - 大數(shù)據(jù)可視化分析_第4頁
大數(shù)據(jù)分析方法及應(yīng)用-基于Python實(shí)現(xiàn) 課件 第1-4章 大數(shù)據(jù)分析概述 - 大數(shù)據(jù)可視化分析_第5頁
已閱讀5頁,還剩417頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第1章大數(shù)據(jù)分析概述第1章大數(shù)據(jù)分析概述1.1大數(shù)據(jù)介紹1.2大數(shù)據(jù)關(guān)鍵技術(shù)1.3大數(shù)據(jù)分析在不同領(lǐng)域的應(yīng)用1.4Python介紹1.5本章小結(jié)1.1大數(shù)據(jù)介紹1.1大數(shù)據(jù)介紹1.1.1大數(shù)據(jù)概念1.1.2大數(shù)據(jù)的五個(gè)“V”1.1.3大數(shù)據(jù)的處理方法1.1.1大數(shù)據(jù)概念大數(shù)據(jù)是指那些無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合。1.1大數(shù)據(jù)介紹1.1.2大數(shù)據(jù)的五個(gè)“V”1.Volume(數(shù)據(jù)量大)2.Velocity(數(shù)據(jù)速度快)3.Variety(數(shù)據(jù)多樣性)4.Veracity(數(shù)據(jù)真實(shí)性)5.Value(數(shù)據(jù)價(jià)值密度低)1.1大數(shù)據(jù)介紹1.Volume(數(shù)據(jù)量大)大數(shù)據(jù)的第一個(gè)關(guān)鍵特征是數(shù)據(jù)量的巨大,今天,眾多行業(yè)的大數(shù)據(jù)已達(dá)到TB(Trillionbyte,太字節(jié))的數(shù)量級,更高的數(shù)量單位還有PB(Petabyte,拍字節(jié))、EB(Exabyte,艾字節(jié))、ZB(Zettabyte,澤字節(jié))和YB(Yottabyte,堯字節(jié))為單位。1.1大數(shù)據(jù)介紹2.Velocity(數(shù)據(jù)速度快)在大數(shù)據(jù)背景下,數(shù)據(jù)產(chǎn)生的速度非???。數(shù)據(jù)的快速增長在各個(gè)領(lǐng)域都呈現(xiàn)出爆發(fā)式的態(tài)勢。1.1大數(shù)據(jù)介紹3.Variety(數(shù)據(jù)多樣性)大數(shù)據(jù)的另一個(gè)特征是數(shù)據(jù)來源和類型的日益增多。數(shù)據(jù)類型不再局限于傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),各種半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)不斷涌現(xiàn)。1.1大數(shù)據(jù)介紹4.Veracity(數(shù)據(jù)真實(shí)性)數(shù)據(jù)真實(shí)性是在處理和分析大數(shù)據(jù)時(shí)必須考慮的重要因素。它涵蓋了數(shù)據(jù)的準(zhǔn)確性、完整性和可信度。由于大數(shù)據(jù)的多樣性和來源的廣泛性,其中可能存在噪音、錯(cuò)誤、重復(fù)項(xiàng)和惡意篡改等問題。因此,在分析大數(shù)據(jù)之前,需要先對數(shù)據(jù)集進(jìn)行預(yù)處理,檢測出不一致的數(shù)據(jù),剔除虛假數(shù)據(jù),以保證分析和預(yù)測結(jié)果的準(zhǔn)確性和有效性。1.1大數(shù)據(jù)介紹5.Value(數(shù)據(jù)價(jià)值密度低)在互聯(lián)網(wǎng)和物聯(lián)網(wǎng)廣泛應(yīng)用的背景下,產(chǎn)生了新的挑戰(zhàn),那就是是信息量龐大但價(jià)值密度較低。1.1大數(shù)據(jù)介紹1.1.3大數(shù)據(jù)的處理方法1.分布式存儲(chǔ)2.數(shù)據(jù)預(yù)處理3.流數(shù)據(jù)實(shí)時(shí)處理1.1大數(shù)據(jù)介紹1.分布式存儲(chǔ)大數(shù)據(jù)需要分布式存儲(chǔ)技術(shù),如分布式文件系統(tǒng)和分布式數(shù)據(jù)庫,來處理海量數(shù)據(jù)的存儲(chǔ)需求。分布式存儲(chǔ)系統(tǒng)將數(shù)據(jù)分散存儲(chǔ)在多個(gè)節(jié)點(diǎn)上,實(shí)現(xiàn)了數(shù)據(jù)的高可靠性、高擴(kuò)展性和高性能。同時(shí),通過數(shù)據(jù)融合技術(shù),可以將來自不同來源的數(shù)據(jù)進(jìn)行整合,實(shí)現(xiàn)多信息源數(shù)據(jù)的統(tǒng)一管理和處理。1.1大數(shù)據(jù)介紹2.數(shù)據(jù)預(yù)處理大數(shù)據(jù)的多源和多樣性可能導(dǎo)致數(shù)據(jù)質(zhì)量問題,如數(shù)據(jù)不一致、不準(zhǔn)確和不完整。這些問題對數(shù)據(jù)的可用性帶來負(fù)面影響,甚至可能導(dǎo)致嚴(yán)重后果。為了提升數(shù)據(jù)分析結(jié)果的準(zhǔn)確性和可靠性,需要采用數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換等預(yù)處理技術(shù)來改善數(shù)據(jù)質(zhì)量。1.1大數(shù)據(jù)介紹3.流數(shù)據(jù)實(shí)時(shí)處理傳統(tǒng)數(shù)據(jù)主要采用批處理的方式進(jìn)行處理,即將數(shù)據(jù)完整存儲(chǔ)后再進(jìn)行一次性的讀取和分析,因此具有較高的延時(shí)。傳統(tǒng)的“先存儲(chǔ)后處理”的模式已經(jīng)不適用于流式數(shù)據(jù)的處理需求。1.1大數(shù)據(jù)介紹1.2大數(shù)據(jù)關(guān)鍵技術(shù)1.2大數(shù)據(jù)關(guān)鍵技術(shù)數(shù)據(jù)的處理過程1.2.1數(shù)據(jù)采集1.2.2數(shù)據(jù)預(yù)處理1.2.3數(shù)據(jù)存儲(chǔ)與管理1.2.4數(shù)據(jù)分析與挖掘1.2.5數(shù)據(jù)展現(xiàn)與可視化大數(shù)據(jù)處理的關(guān)鍵技術(shù)大數(shù)據(jù)的處理過程涉及一系列關(guān)鍵技術(shù),包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲(chǔ)與管理、數(shù)據(jù)分析與挖掘、以及數(shù)據(jù)的展現(xiàn)與可視化。1.2大數(shù)據(jù)關(guān)鍵技術(shù)圖1-1大數(shù)據(jù)處理流程1.2大數(shù)據(jù)關(guān)鍵技術(shù)1.2.1數(shù)據(jù)采集數(shù)據(jù)采集是大數(shù)據(jù)處理流程最基礎(chǔ)的一步,是通過RFID射頻、傳感器、社交網(wǎng)絡(luò)和移動(dòng)互聯(lián)網(wǎng)等渠道獲取各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化海量數(shù)據(jù)的過程。數(shù)據(jù)采集用的感知和采集手段主要有如下幾種:1.2大數(shù)據(jù)關(guān)鍵技術(shù)1.2.1數(shù)據(jù)采集1.系統(tǒng)日志2.網(wǎng)絡(luò)數(shù)據(jù)采集系統(tǒng)3.傳感器采集4.一些特定的數(shù)據(jù)采集方法1.2大數(shù)據(jù)關(guān)鍵技術(shù)1.系統(tǒng)日志在數(shù)字設(shè)備運(yùn)行過程中,幾乎所有設(shè)備都會(huì)將與自身運(yùn)行相關(guān)的信息記錄到日志文件中。這些日志數(shù)據(jù)包含了豐富的信息,具有極高的實(shí)用價(jià)值。1.2大數(shù)據(jù)關(guān)鍵技術(shù)2.網(wǎng)絡(luò)數(shù)據(jù)采集系統(tǒng)網(wǎng)絡(luò)數(shù)據(jù)采集系統(tǒng)綜合運(yùn)用了諸如網(wǎng)絡(luò)爬蟲、分詞系統(tǒng)、任務(wù)與索引系統(tǒng)等先進(jìn)技術(shù)。能夠從互聯(lián)網(wǎng)中提取非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),為互聯(lián)網(wǎng)輿情監(jiān)控、用戶行為分析、網(wǎng)絡(luò)社會(huì)學(xué)等領(lǐng)域的研究提供重要的數(shù)據(jù)基礎(chǔ)。1.2大數(shù)據(jù)關(guān)鍵技術(shù)3.傳感器采集隨著物聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,以及可穿戴設(shè)備、無人駕駛、醫(yī)療健康監(jiān)測、工業(yè)控制、智能家居、智能交通控制等應(yīng)用的廣泛普及,攜帶傳感器的智能設(shè)備將愈發(fā)普及,從而產(chǎn)生前所未有的海量數(shù)據(jù)。1.2大數(shù)據(jù)關(guān)鍵技術(shù)4.一些特定的數(shù)據(jù)采集方法例如:在科學(xué)實(shí)驗(yàn)領(lǐng)域,研究人員可以借助專門的工具和技術(shù),如磁光譜儀、射電望遠(yuǎn)鏡等,來獲取實(shí)驗(yàn)數(shù)據(jù)。這些高級儀器的運(yùn)用不僅為科學(xué)研究提供了更為精確和詳盡的數(shù)據(jù)支持,也拓展了數(shù)據(jù)采集的廣度和深度。1.2大數(shù)據(jù)關(guān)鍵技術(shù)1.2.2數(shù)據(jù)預(yù)處理1.為什么要進(jìn)行數(shù)據(jù)預(yù)處理2.數(shù)據(jù)預(yù)處理的四個(gè)階段1.2大數(shù)據(jù)關(guān)鍵技術(shù)1.為什么要進(jìn)行數(shù)據(jù)預(yù)處理現(xiàn)實(shí)中數(shù)據(jù)來源多樣,數(shù)據(jù)種類和結(jié)構(gòu)復(fù)雜,難以直接分析,同時(shí)可能存在結(jié)構(gòu)不一致或不完整的情況。所以在數(shù)據(jù)存儲(chǔ)之前通常需要對數(shù)據(jù)進(jìn)行預(yù)處理,以監(jiān)督和改善數(shù)據(jù)質(zhì)量,確保后續(xù)分析挖掘結(jié)果的有效性。1.2大數(shù)據(jù)關(guān)鍵技術(shù)2.數(shù)據(jù)預(yù)處理的四個(gè)階段預(yù)處理主要包括四個(gè)階段:數(shù)據(jù)清洗(DataCleaning,DC);數(shù)據(jù)集成(DataIntegration,DI);數(shù)據(jù)轉(zhuǎn)換(DataTransformation,DT);數(shù)據(jù)規(guī)約(DataReduction,DR)。1.2大數(shù)據(jù)關(guān)鍵技術(shù)1.2.3數(shù)據(jù)存儲(chǔ)與管理大數(shù)據(jù)存儲(chǔ)通常采用分布式存儲(chǔ)技術(shù),將數(shù)據(jù)分布在由多個(gè)存儲(chǔ)節(jié)點(diǎn)構(gòu)成的集群上,并通過冗余存儲(chǔ)的方式來保障數(shù)據(jù)的可靠性。分布式存儲(chǔ)系統(tǒng)主要分為兩種類型:1.2大數(shù)據(jù)關(guān)鍵技術(shù)1.2.3數(shù)據(jù)存儲(chǔ)與管理分布式文件系統(tǒng)分布式數(shù)據(jù)庫系統(tǒng)1.2大數(shù)據(jù)關(guān)鍵技術(shù)分布式文件系統(tǒng)分布式文件系統(tǒng)是大數(shù)據(jù)存儲(chǔ)管理中最基礎(chǔ)、最核心的組成部分,它構(gòu)建了數(shù)據(jù)的物理存儲(chǔ)架構(gòu)。目前廣泛應(yīng)用的分布式文件系統(tǒng)包括Hadoop分布式文件系統(tǒng)(HDFS)、Google分布式文件系統(tǒng)(GFS,已發(fā)展為Colossus系統(tǒng))、淘寶文件系統(tǒng)(TFS)等。這些系統(tǒng)為大數(shù)據(jù)的存儲(chǔ)和管理提供了可靠的基礎(chǔ)架構(gòu),支持?jǐn)?shù)據(jù)的分布式存儲(chǔ)和高效訪問,滿足了現(xiàn)代大數(shù)據(jù)處理的需求。1.2大數(shù)據(jù)關(guān)鍵技術(shù)分布式數(shù)據(jù)庫系統(tǒng)分布式數(shù)據(jù)庫常構(gòu)建在分布式文件系統(tǒng)之上,用于實(shí)現(xiàn)數(shù)據(jù)的存儲(chǔ)管理和快速查詢。數(shù)據(jù)庫主要分為傳統(tǒng)的關(guān)系型數(shù)據(jù)庫、非關(guān)系型數(shù)據(jù)庫(NoSQL)和新型數(shù)據(jù)庫(NewSQL)。1.2大數(shù)據(jù)關(guān)鍵技術(shù)1.2.4數(shù)據(jù)分析與挖掘數(shù)據(jù)分析與挖掘是大數(shù)據(jù)技術(shù)領(lǐng)域中至關(guān)重要的組成部分,也是展現(xiàn)大數(shù)據(jù)價(jià)值的關(guān)鍵環(huán)節(jié)。通過數(shù)據(jù)分析,人們能夠發(fā)現(xiàn)大量數(shù)據(jù)背后的潛在規(guī)律,提取出有用信息,這對于制定國家發(fā)展計(jì)劃、理解客戶商業(yè)需求、預(yù)測企業(yè)市場趨勢具有重要指導(dǎo)意義。1.2大數(shù)據(jù)關(guān)鍵技術(shù)1.2.4數(shù)據(jù)分析與挖掘傳統(tǒng)的數(shù)據(jù)分析方法新興的數(shù)據(jù)分析方法1.2大數(shù)據(jù)關(guān)鍵技術(shù)傳統(tǒng)的數(shù)據(jù)分析方法1.統(tǒng)計(jì)分析2.機(jī)器學(xué)習(xí)3.數(shù)據(jù)挖掘1.2大數(shù)據(jù)關(guān)鍵技術(shù)1.統(tǒng)計(jì)分析統(tǒng)計(jì)分析以概率論為基礎(chǔ),通過對大量隨機(jī)數(shù)據(jù)進(jìn)行收集、整理和建模,推斷其中存在的統(tǒng)計(jì)規(guī)律性。1.2大數(shù)據(jù)關(guān)鍵技術(shù)2.機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)作為人工智能的核心研究領(lǐng)域之一,致力于讓計(jì)算機(jī)模擬人類學(xué)習(xí)行為,自動(dòng)獲取新知識(shí)和技能,并通過經(jīng)驗(yàn)知識(shí)提升自身性能。1.2大數(shù)據(jù)關(guān)鍵技術(shù)3.數(shù)據(jù)挖掘數(shù)據(jù)挖掘是從大量的、不完全的、帶噪聲、模糊、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取潛在有用的信息和知識(shí)的過程,這些信息常常是人們事先不知道的。1.2大數(shù)據(jù)關(guān)鍵技術(shù)新興的數(shù)據(jù)分析方法并行數(shù)據(jù)挖掘?qū)崟r(shí)挖掘和流式挖掘1.2大數(shù)據(jù)關(guān)鍵技術(shù)并行數(shù)據(jù)挖掘傳統(tǒng)的數(shù)據(jù)分析處理通常采用串行計(jì)算模式,然而在處理海量數(shù)據(jù)時(shí),這種方式往往效率不高,難以滿足實(shí)際應(yīng)用的需求。近年來,隨著并行計(jì)算技術(shù)的成熟和云計(jì)算平臺(tái)的發(fā)展,數(shù)據(jù)挖掘與并行計(jì)算相結(jié)合形成了并行數(shù)據(jù)挖掘。通過利用多個(gè)節(jié)點(diǎn)并行進(jìn)行挖掘任務(wù),系統(tǒng)的運(yùn)行速度和處理效率得到顯著提升。1.2大數(shù)據(jù)關(guān)鍵技術(shù)實(shí)時(shí)挖掘和流式挖掘在大數(shù)據(jù)環(huán)境下,對流式數(shù)據(jù)處理的需求不斷增長,實(shí)時(shí)挖掘和流式挖掘因其具有實(shí)時(shí)性和高效性而成為數(shù)據(jù)挖掘領(lǐng)域的新研究熱點(diǎn)。這些技術(shù)的發(fā)展和應(yīng)用為實(shí)時(shí)數(shù)據(jù)分析和決策提供了重要支持,推動(dòng)了數(shù)據(jù)挖掘領(lǐng)域的進(jìn)步和創(chuàng)新。1.2大數(shù)據(jù)關(guān)鍵技術(shù)1.2.5數(shù)據(jù)展現(xiàn)與可視化為什么要讓數(shù)據(jù)可視化傳統(tǒng)的數(shù)據(jù)可視化技術(shù)大數(shù)據(jù)的數(shù)據(jù)可視化技術(shù)1.2大數(shù)據(jù)關(guān)鍵技術(shù)為什么要讓數(shù)據(jù)可視化數(shù)據(jù)分析挖掘的結(jié)果應(yīng)以生動(dòng)直觀的方式展示,能使用戶能理解和應(yīng)用數(shù)據(jù),為生產(chǎn)、運(yùn)營、規(guī)劃提供決策支持??梢暬墙忉審?fù)雜數(shù)據(jù)、理解復(fù)雜現(xiàn)象的重要手段。通過數(shù)據(jù)可視化,用戶能更直觀地理解數(shù)據(jù)的模式、趨勢和關(guān)聯(lián),從而更迅速、準(zhǔn)確地做出決策和發(fā)現(xiàn)洞察。1.2大數(shù)據(jù)關(guān)鍵技術(shù)傳統(tǒng)的數(shù)據(jù)可視化技術(shù)傳統(tǒng)的數(shù)據(jù)可視化技術(shù)主要通過簡單的圖表、圖形展示數(shù)據(jù)分析結(jié)果,如Excel圖表。這種方法適用于小規(guī)模數(shù)據(jù)集,但無法滿足海量、復(fù)雜、高維數(shù)據(jù)的可視化需求。1.2大數(shù)據(jù)關(guān)鍵技術(shù)大數(shù)據(jù)的數(shù)據(jù)可視化技術(shù)大數(shù)據(jù)的數(shù)據(jù)可視化技術(shù)利用圖表、地圖、儀表盤等視覺化手段,將海量、復(fù)雜的數(shù)據(jù)呈現(xiàn)為直觀、易理解的圖形化形式。1.2大數(shù)據(jù)關(guān)鍵技術(shù)1.3大數(shù)據(jù)分析在不同領(lǐng)域的應(yīng)用1.3大數(shù)據(jù)分析在不同領(lǐng)域的應(yīng)用1.3.1商業(yè)與市場營銷1.3.2醫(yī)療與健康1.3.3金融與保險(xiǎn)1.3.4社交網(wǎng)絡(luò)與媒體1.3.1商業(yè)與市場營銷大數(shù)據(jù)為商業(yè)與市場營銷提供了更深入的洞察和決策支持,幫助企業(yè)更好地適應(yīng)變化的市場環(huán)境并實(shí)現(xiàn)商業(yè)增長。1.3大數(shù)據(jù)分析在不同領(lǐng)域的...1.3.2醫(yī)療與健康大數(shù)據(jù)的應(yīng)用可以提升醫(yī)療決策的科學(xué)性和個(gè)體化,促進(jìn)健康管理和疾病防控,為人們的健康提供更加全面和有效的支持。1.3大數(shù)據(jù)分析在不同領(lǐng)域的...1.3.3金融與保險(xiǎn)大數(shù)據(jù)的應(yīng)用可以提升金融業(yè)務(wù)的風(fēng)險(xiǎn)管控能力、產(chǎn)品創(chuàng)新能力和客戶服務(wù)水平,為金融機(jī)構(gòu)和保險(xiǎn)公司帶來更多商業(yè)機(jī)會(huì)和競爭優(yōu)勢。1.3大數(shù)據(jù)分析在不同領(lǐng)域的...1.3.4社交網(wǎng)絡(luò)與媒體大數(shù)據(jù)的應(yīng)用可以為社交網(wǎng)絡(luò)和媒體提供更深入的洞察和決策支持,幫助他們更好地滿足用戶需求、增強(qiáng)用戶參與度,并實(shí)現(xiàn)更好的營銷和傳播效果。1.3大數(shù)據(jù)分析在不同領(lǐng)域的...1.4Python介紹1.4Python介紹Python語言簡介Python語言的特點(diǎn)Python語言開發(fā)環(huán)境的搭建Python語言簡介Python是一種面向?qū)ο蟮慕忉屝陀?jì)算機(jī)程序設(shè)計(jì)語言,由荷蘭人GuidovanRossum于1989年發(fā)明。Python可以應(yīng)用于多種領(lǐng)域,包括Web開發(fā)、數(shù)據(jù)分析、人工智能、科學(xué)計(jì)算等。Python具有豐富的庫和框架,使得開發(fā)者能夠快速開發(fā)各種類型的應(yīng)用程序。1.4Python介紹Python語言的特點(diǎn)1.簡潔易讀Python的語法簡潔清晰,使得代碼易于閱讀和理解,同時(shí)也有助于提高開發(fā)效率。2.多樣化的應(yīng)用領(lǐng)域Python可用于開發(fā)Web應(yīng)用、桌面應(yīng)用、游戲開發(fā)、數(shù)據(jù)分析、人工智能等各種領(lǐng)域。3.庫和框架豐富Python擁有大量的第三方庫和框架,如Django、Flask、NumPy、Pandas、TensorFlow等,可以幫助開發(fā)者加快開發(fā)進(jìn)程,提高效率。4.社區(qū)支持和資源豐富Python擁有龐大的開發(fā)者社區(qū),開發(fā)者可以在社區(qū)中分享經(jīng)驗(yàn)、尋求幫助,還可以使用眾多的開源資源和工具。1.4Python介紹Python語言開發(fā)環(huán)境的搭建1.4.1安裝Python解釋器1.4.2安裝PyCharm1.4.3安裝Anaconda1.4Python介紹1.4.2安裝PyCharmPyCharm是一款由JetBrains開發(fā)的集成開發(fā)環(huán)境(IDE),專門用于Python編程語言的開發(fā)。它提供了豐富的功能,包括代碼編輯、調(diào)試、版本控制、代碼分析、測試等等,旨在提高Python開發(fā)者的生產(chǎn)力。1.4Python介紹1.4.3安裝AnacondaAnaconda是一個(gè)用于科學(xué)計(jì)算和數(shù)據(jù)科學(xué)的開源發(fā)行版,它為數(shù)據(jù)分析、機(jī)器學(xué)習(xí)和科學(xué)計(jì)算提供了豐富的工具、庫和環(huán)境。Anaconda發(fā)行版中包含了Python解釋器,以及一些常用的Python編輯器(如JupyterNotebook、Spyder等),讓用戶可以方便地進(jìn)行編程和數(shù)據(jù)分析工作。此外,Anaconda還預(yù)裝了許多常用的科學(xué)計(jì)算庫,如NumPy、Pandas、Matplotlib、scikit-learn等,這些庫提供了豐富的功能和工具,幫助用戶進(jìn)行數(shù)據(jù)處理、可視化和機(jī)器學(xué)習(xí)任務(wù)。1.4Python介紹1.5本章小結(jié)本章主要介紹了大數(shù)據(jù)的概念、關(guān)鍵技術(shù)以及其在不同領(lǐng)域的應(yīng)用,同時(shí)也對Python進(jìn)行了簡要介紹和安裝說明。在大數(shù)據(jù)介紹部分,了解了大數(shù)據(jù)的概念和五個(gè)“V”,以及大數(shù)據(jù)的處理方法。在大數(shù)據(jù)關(guān)鍵技術(shù)部分,闡述了數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲(chǔ)與管理、數(shù)據(jù)分析與挖掘以及數(shù)據(jù)展現(xiàn)與可視化的重要性。此外,還介紹了大數(shù)據(jù)分析在商業(yè)與市場營銷、醫(yī)療與健康、金融與保險(xiǎn)、社交網(wǎng)絡(luò)與媒體等領(lǐng)域的應(yīng)用。最后,對Python進(jìn)行了簡要介紹,并提供了安裝PyCharm和Anaconda的說明,以幫助讀者開始使用Python進(jìn)行大數(shù)據(jù)分析。通過本章的學(xué)習(xí),讀者可以對大數(shù)據(jù)的概念、技術(shù)和應(yīng)用有一個(gè)全面的了解,同時(shí)也具備了使用Python進(jìn)行大數(shù)據(jù)分析的基礎(chǔ)知識(shí)和工具。第2章Python大數(shù)據(jù)分析基礎(chǔ)第2章Python大數(shù)據(jù)分析基礎(chǔ)2.1Python基礎(chǔ)語法2.2程序控制結(jié)構(gòu)2.3組合數(shù)據(jù)類型2.4函數(shù)2.5面向?qū)ο蟪绦蛟O(shè)計(jì)2.6Python數(shù)據(jù)分析工具2.7本章小結(jié)2.1Python基礎(chǔ)語法2.1Python基礎(chǔ)語法2.1.1關(guān)鍵字和標(biāo)識(shí)符2.1.2常量與變量2.1.3基本數(shù)據(jù)類型2.1.4運(yùn)算符和表達(dá)式2.1.1關(guān)鍵字和標(biāo)識(shí)符關(guān)鍵字標(biāo)識(shí)符2.1Python基礎(chǔ)語法什么是關(guān)鍵字在Python語法中,關(guān)鍵字是被編程語言保留用于特定目的的單詞或標(biāo)識(shí)符,不能用作變量名或函數(shù)名。2.1Python基礎(chǔ)語法表2-1關(guān)鍵字及其用途表2.1Python基礎(chǔ)語法標(biāo)識(shí)符標(biāo)識(shí)符是由程序員定義的名稱,用于標(biāo)識(shí)變量、函數(shù)、類等實(shí)體。標(biāo)識(shí)符可以由字母(大小寫均可)、數(shù)字和下劃線組成,但不能以數(shù)字開頭。標(biāo)識(shí)符對大小寫敏感,大寫字母和小寫字母被視為不同的標(biāo)識(shí)符。標(biāo)識(shí)符不能是關(guān)鍵字。2.1Python基礎(chǔ)語法【例2-1】2.1Python基礎(chǔ)語法2.1.2常量與變量1.常量2.變量2.1Python基礎(chǔ)語法1.常量常量是指在程序運(yùn)行過程中不會(huì)改變的量。一般分為字面常量和符號(hào)常量。2.1Python基礎(chǔ)語法1.常量字面常量符號(hào)常量【例2-2】常量示例2.1Python基礎(chǔ)語法字面常量如-5、3.1415926、’zhangsan’、0等。2.1Python基礎(chǔ)語法符號(hào)常量符號(hào)常量是在程序中代表固定值或特定含義的符號(hào)或標(biāo)識(shí)符,通常使用全大寫字母或下劃線來表示符號(hào)常量,符號(hào)常量的值在程序運(yùn)行過程中不能被修改,因此常用于表示不會(huì)變化的常量值,例如數(shù)學(xué)常數(shù)或程序中的固定參數(shù)等。2.1Python基礎(chǔ)語法【例2-2】常量示例2.1Python基礎(chǔ)語法2.變量變量在程序中充當(dāng)著存儲(chǔ)和表示數(shù)據(jù)值的角色,就如同容器一樣。每個(gè)變量都有一個(gè)獨(dú)一無二的名稱,通過這個(gè)名稱可以訪問和操作變量中存儲(chǔ)的數(shù)據(jù)。在Python中,變量的賦值是動(dòng)態(tài)的,不需要提前聲明類型,而是根據(jù)所賦的值自動(dòng)確定其數(shù)據(jù)類型。2.1Python基礎(chǔ)語法2.變量變量的命名與賦值【例2-3】變量賦值示例【例2-4】變量多次賦值示例2.1Python基礎(chǔ)語法變量的命名與賦值在Python中,變量名需要遵循標(biāo)識(shí)符的命名規(guī)則,變量在使用之前必須進(jìn)行初始化賦值,否則會(huì)導(dǎo)致錯(cuò)誤。賦值操作使用等號(hào)“=”來表示,將右邊的值賦給左邊的變量,從而為變量指定特定的數(shù)據(jù)內(nèi)容。變量的作用就是為數(shù)據(jù)在內(nèi)存中分配一個(gè)名稱,方便程序?qū)?shù)據(jù)的存儲(chǔ)和處理。2.1Python基礎(chǔ)語法【例2-3】變量賦值示例2.1Python基礎(chǔ)語法【例2-4】變量多次賦值示例2.1Python基礎(chǔ)語法2.1.3基本數(shù)據(jù)類型1.整數(shù)(int)2.浮點(diǎn)數(shù)(float)3.字符串(str)4.布爾值(bool)5.NoneType(None)2.1Python基礎(chǔ)語法1.整數(shù)(int)用于表示整數(shù),可以是正數(shù)、負(fù)數(shù)或零,例如:-5、0、100。2.1Python基礎(chǔ)語法2.浮點(diǎn)數(shù)(float)用于表示帶有小數(shù)點(diǎn)的數(shù)值,例如:3.14、-0.001、2.0,也可以是科學(xué)技術(shù)法表示形式3.5e3或3.5E3。2.1Python基礎(chǔ)語法3.字符串(str)用于表示文本數(shù)據(jù),可以使用單引號(hào)或雙引號(hào)括起來,例如:"Hello,World!"、'Python'。2.1Python基礎(chǔ)語法4.布爾值(bool)用于表示邏輯值,只有兩個(gè)取值:True和False。用于條件判斷和邏輯運(yùn)算。2.1Python基礎(chǔ)語法5.NoneType(None)表示空值或缺失值,常用于初始化變量或作為函數(shù)的返回值。2.1Python基礎(chǔ)語法2.1.4運(yùn)算符和表達(dá)式表2-2運(yùn)算符及含義表達(dá)式表2-3運(yùn)算符的優(yōu)先級2.1Python基礎(chǔ)語法表2-2運(yùn)算符及含義2.1Python基礎(chǔ)語法表達(dá)式表達(dá)式是由運(yùn)算符和操作數(shù)組成的組合,可以對數(shù)據(jù)進(jìn)行計(jì)算和操作。在Python中,表達(dá)式可以包括變量、常量、運(yùn)算符,以及函數(shù)的調(diào)用等。2.1Python基礎(chǔ)語法表達(dá)式【例2-5】表達(dá)式示例2.1Python基礎(chǔ)語法【例2-5】表達(dá)式示例2.1Python基礎(chǔ)語法表2-3運(yùn)算符的優(yōu)先級2.1Python基礎(chǔ)語法2.2程序控制結(jié)構(gòu)2.2程序控制結(jié)構(gòu)2.2.1順序結(jié)構(gòu)2.2.2分支結(jié)構(gòu)2.2.3循環(huán)結(jié)構(gòu)2.2.4跳轉(zhuǎn)語句2.2.1順序結(jié)構(gòu)【例2-6】順序程序示例2.2程序控制結(jié)構(gòu)【例2-6】順序程序示例2.2程序控制結(jié)構(gòu)2.2.2分支結(jié)構(gòu)1.單分支結(jié)構(gòu)(if語句)2.雙分支結(jié)構(gòu)(if-else語句)3.多分支選擇結(jié)構(gòu)(if-elif-else語句)4.分支嵌套2.2程序控制結(jié)構(gòu)1.單分支結(jié)構(gòu)(if語句)語法【例2-7】單分支程序示例2.2程序控制結(jié)構(gòu)語法2.2程序控制結(jié)構(gòu)【例2-7】單分支程序示例2.2程序控制結(jié)構(gòu)2.雙分支結(jié)構(gòu)(if-else語句)語法【例2-8】雙分支程序示例2.2程序控制結(jié)構(gòu)語法2.2程序控制結(jié)構(gòu)【例2-8】雙分支程序示例2.2程序控制結(jié)構(gòu)3.多分支選擇結(jié)構(gòu)(if-elif-else語句)語法【例2-9】多分支選擇示例2.2程序控制結(jié)構(gòu)語法2.2程序控制結(jié)構(gòu)【例2-9】多分支選擇示例2.2程序控制結(jié)構(gòu)4.分支嵌套語法【例2-10】分支嵌套示例2.2程序控制結(jié)構(gòu)語法2.2程序控制結(jié)構(gòu)【例2-10】分支嵌套示例2.2程序控制結(jié)構(gòu)2.2.3循環(huán)結(jié)構(gòu)1.for循環(huán)2.while循環(huán)2.2程序控制結(jié)構(gòu)1.for循環(huán)語法【例2-11】for循環(huán)示例2.2程序控制結(jié)構(gòu)語法2.2程序控制結(jié)構(gòu)【例2-11】for循環(huán)示例2.2程序控制結(jié)構(gòu)2.while循環(huán)語法【例2-12】while循環(huán)示例2.2程序控制結(jié)構(gòu)語法2.2程序控制結(jié)構(gòu)【例2-12】while循環(huán)示例2.2程序控制結(jié)構(gòu)2.2.4跳轉(zhuǎn)語句1.break語句2.continue語句3.pass語句2.2程序控制結(jié)構(gòu)1.break語句break語句用于提前跳出for循環(huán)或while循環(huán),即使循環(huán)條件仍然為真。通常需要在循環(huán)中檢測到某個(gè)條件時(shí)立即退出循環(huán)時(shí)使用。2.2程序控制結(jié)構(gòu)1.break語句【例2-13】break語句示例2.2程序控制結(jié)構(gòu)【例2-13】break語句示例2.2程序控制結(jié)構(gòu)2.continue語句continue用于終止當(dāng)前循環(huán)的迭代,并跳到下一次循環(huán)的迭代。2.2程序控制結(jié)構(gòu)2.continue語句【例2-14】continue語句示例2.2程序控制結(jié)構(gòu)【例2-14】continue語句示例2.2程序控制結(jié)構(gòu)3.pass語句pass語句用作占位符,不做任何操作,僅用于保持程序結(jié)構(gòu)的完整性。2.2程序控制結(jié)構(gòu)3.pass語句【例2-15】pass語句示例2.2程序控制結(jié)構(gòu)【例2-15】pass語句示例2.2程序控制結(jié)構(gòu)2.3組合數(shù)據(jù)類型2.3組合數(shù)據(jù)類型2.3.1列表2.3.2元組2.3.3字典2.3.4集合2.3.1列表Python中的列表是一種有序的、可變的、可重復(fù)的數(shù)據(jù)類型。它是一種容器,可以在其中存儲(chǔ)任意類型的數(shù)據(jù),包括數(shù)字、字符串、列表等??梢詫⒘斜硐胂蟪梢粋€(gè)有序的項(xiàng)目清單。2.3組合數(shù)據(jù)類型2.3.1列表1.創(chuàng)建列表2.列表索引3.列表的常見操作2.3組合數(shù)據(jù)類型1.創(chuàng)建列表可以使用方括號(hào)[]并用逗號(hào)分隔每個(gè)元素來創(chuàng)建列表;可以使用list()構(gòu)造函數(shù)來創(chuàng)建列表使用range()函數(shù)來創(chuàng)建列表2.3組合數(shù)據(jù)類型1.創(chuàng)建列表【例2-16】創(chuàng)建列表示例2.3組合數(shù)據(jù)類型【例2-16】創(chuàng)建列表示例2.3組合數(shù)據(jù)類型2.列表索引列表有兩種索引方式,即正向索引和逆向索引。正向索引是從左到右的索引方式,從0開始,索引值依次遞增;而逆向索引則是從右到左的索引方式,從-1開始,索引值依次遞減。2.3組合數(shù)據(jù)類型2.列表索引【例2-17】列表索引訪問示例【例2-18】列表切片索引訪問示例2.3組合數(shù)據(jù)類型【例2-17】列表索引訪問示例2.3組合數(shù)據(jù)類型【例2-18】列表切片索引訪問示例2.3組合數(shù)據(jù)類型3.列表的常見操作列表是可變的,可以添加、刪除、修改列表中的元素,也可以使用一些內(nèi)置的方法來實(shí)現(xiàn)這些操作。比如,append()方法用于在列表末尾添加一個(gè)元素,pop()方法用于刪除列表中的某個(gè)元素。2.3組合數(shù)據(jù)類型3.列表的常見操作表2-4常見的列表操作2.3組合數(shù)據(jù)類型表2-4常見的列表操作2.3組合數(shù)據(jù)類型2.3.2元組在Python中,元組是另一種常見的組合數(shù)據(jù)類型。與列表類似,元組也是一種有序的數(shù)據(jù)集合,可以包含不同類型的數(shù)據(jù),例如數(shù)字、字符串、列表等。但與列表不同的是,元組是不可變的,即創(chuàng)建后不可修改。2.3組合數(shù)據(jù)類型2.3.2元組1.創(chuàng)建元組2.元組的常見操作元組的適用場合2.3組合數(shù)據(jù)類型1.創(chuàng)建元組利用逗號(hào)分隔元素創(chuàng)建元組利用()括起來的數(shù)據(jù)序列創(chuàng)建元組利用tuple()構(gòu)造函數(shù)創(chuàng)建元組直接利用()創(chuàng)建空元組2.3組合數(shù)據(jù)類型1.創(chuàng)建元組【例2-19】創(chuàng)建元組示例2.3組合數(shù)據(jù)類型【例2-19】創(chuàng)建元組示例2.3組合數(shù)據(jù)類型2.元組的常見操作元組中的每個(gè)元素與列表元素相同,也有兩種索引方式,即正向索引和逆向索引,通過索引可以訪問元組中的元素。例如,my_tuple_1[0]表示元組中的第一個(gè)元素,即1。由于元組是不可變的數(shù)據(jù)結(jié)構(gòu),這意味著元組一旦創(chuàng)建后,其內(nèi)容不可更改。盡管元組不支持修改、添加或刪除元素,但仍然可以進(jìn)行一些操作,例如訪問元素、切片、拼接等。2.3組合數(shù)據(jù)類型2.元組的常見操作【例2-20】元組的常見操作示例2.3組合數(shù)據(jù)類型【例2-20】元組的常見操作示例2.3組合數(shù)據(jù)類型元組的適用場合1.創(chuàng)建一個(gè)不可變的數(shù)據(jù)集合時(shí),例如存儲(chǔ)一些常量值或配置信息。2.將一組值作為一個(gè)單獨(dú)的實(shí)體傳遞給函數(shù),因?yàn)樵M是不可變的,所以可以防止在函數(shù)內(nèi)部對其進(jìn)行修改。2.3組合數(shù)據(jù)類型2.3.3字典在Python中,字典是一種非常常見和有用的數(shù)據(jù)類型,用于存儲(chǔ)鍵值對(key-valuepairs)。它是一個(gè)可變的、無序的集合,其中每個(gè)元素由一個(gè)鍵和對應(yīng)的值組成。2.3組合數(shù)據(jù)類型2.3.3字典1.創(chuàng)建字典2.字典的常見操作2.3組合數(shù)據(jù)類型1.創(chuàng)建字典使用花括號(hào){}并用冒號(hào):分隔鍵值對來創(chuàng)建字典使用dict()構(gòu)造函數(shù)和關(guān)鍵字參數(shù)創(chuàng)建字典使用dict()構(gòu)造函數(shù)和鍵值對元組列表創(chuàng)建字典使用推導(dǎo)式創(chuàng)建字典利用{}創(chuàng)建空字典2.3組合數(shù)據(jù)類型1.創(chuàng)建字典【例2-21】創(chuàng)建字典示例2.3組合數(shù)據(jù)類型2.字典的常見操作字典中的元素沒有固定的順序,所以并不能使用索引來訪問字典中的元素。而是通過鍵來獲取對應(yīng)的值。字典是可變的,所以可以添加、刪除、修改字典中的元素,可以使用一些內(nèi)置的方法來實(shí)現(xiàn)這些操作。2.3組合數(shù)據(jù)類型2.字典的常見操作【例2-22】字典常見操作示例2.3組合數(shù)據(jù)類型2.3.4集合在Python中,集合是一種無序、不重復(fù)的數(shù)據(jù)類型,用于存儲(chǔ)唯一的元素。它類似于數(shù)學(xué)上的集合概念,可以進(jìn)行交集、并集、差集等常見的集合操作。創(chuàng)建一個(gè)集合可以使用大括號(hào){},并用逗號(hào)分隔每個(gè)元素。2.3組合數(shù)據(jù)類型2.3.4集合1.創(chuàng)建集合2.集合的常見操作2.3組合數(shù)據(jù)類型1.創(chuàng)建集合使用大括號(hào)和逗號(hào)分隔的元素創(chuàng)建集合;使用set()構(gòu)造函數(shù)和列表創(chuàng)建集合;使用set()構(gòu)造函數(shù)和字符串創(chuàng)建集合;使用set()創(chuàng)建空集合;2.3組合數(shù)據(jù)類型1.創(chuàng)建集合【例2-23】創(chuàng)建集合示例【例2-24】創(chuàng)建集合示例22.3組合數(shù)據(jù)類型【例2-23】創(chuàng)建集合示例2.3組合數(shù)據(jù)類型【例2-24】創(chuàng)建集合示例22.3組合數(shù)據(jù)類型2.集合的常見操作Python的集合類型支持豐富的操作,包括添加元素、移除元素、檢查元素是否存在,并且支持?jǐn)?shù)學(xué)上的集合運(yùn)算,如交集(`&`)、并集(`|`)、差集(`-`)等。這些集合操作使得集合類型在處理唯一元素并進(jìn)行集合運(yùn)算時(shí)非常實(shí)用。集合類型是一種無序且元素唯一的數(shù)據(jù)結(jié)構(gòu),在處理數(shù)據(jù)去重、關(guān)系運(yùn)算等方面具有很強(qiáng)的實(shí)用性。2.3組合數(shù)據(jù)類型2.集合的常見操作【例2-25】集合常見操作示例2.3組合數(shù)據(jù)類型【例2-25】集合常見操作示例2.3組合數(shù)據(jù)類型2.4函數(shù)2.4函數(shù)2.4.1函數(shù)的定義2.4.2函數(shù)的參數(shù)2.4.3函數(shù)的作用域2.4.4遞歸函數(shù)2.4.1函數(shù)的定義在Python中,函數(shù)使用def關(guān)鍵字進(jìn)行定義。函數(shù)定義的一般語法格式如下:deffunction_name(parameters):"""函數(shù)文檔字符串(可選)"""#函數(shù)體,實(shí)現(xiàn)函數(shù)的功能statement1statement2...returnexpression#可選2.4函數(shù)其中:1.def關(guān)鍵字用于定義函數(shù)。2.function_name是函數(shù)的名稱,滿足標(biāo)識(shí)符的命名規(guī)則命名。3.parameters是函數(shù)的參數(shù)列表,可以為空或包含多個(gè)由逗號(hào)分隔的參數(shù)。4.函數(shù)體中的多個(gè)語句statement1、statement2......是函數(shù)的具體實(shí)現(xiàn),構(gòu)成了函數(shù)的函數(shù)體,用于完成特定的功能。5.return語句可選,用于返回函數(shù)的結(jié)果,結(jié)束函數(shù)的執(zhí)行,并將結(jié)果傳遞給調(diào)用者。2.4.1函數(shù)的定義【例2-26】簡單的函數(shù)定義示例2.4函數(shù)【例2-26】簡單的函數(shù)定義示例2.4函數(shù)2.4.2函數(shù)的參數(shù)在Python中,函數(shù)的參數(shù)是傳遞給函數(shù)的值或變量。參數(shù)允許將數(shù)據(jù)傳遞給函數(shù),以便在函數(shù)內(nèi)部進(jìn)行操作。2.4函數(shù)Python中的函數(shù)參數(shù)類型Python中的函數(shù)參數(shù)可以分為四種類型:位置參數(shù)、關(guān)鍵字參數(shù)、默認(rèn)參數(shù)和可變參數(shù)。2.4函數(shù)Python中的函數(shù)參數(shù)類型1.位置參數(shù)2.關(guān)鍵字參數(shù)3.默認(rèn)參數(shù)4.可變參數(shù)2.4函數(shù)1.位置參數(shù)【例2-27】位置參數(shù)示例2.4函數(shù)【例2-27】位置參數(shù)示例2.4函數(shù)2.關(guān)鍵字參數(shù)【例2-28】關(guān)鍵字參數(shù)示例2.4函數(shù)【例2-28】關(guān)鍵字參數(shù)示例2.4函數(shù)3.默認(rèn)參數(shù)【例2-29】默認(rèn)參數(shù)示例2.4函數(shù)【例2-29】默認(rèn)參數(shù)示例2.4函數(shù)4.可變參數(shù)【例2-30】可變參數(shù)示例2.4函數(shù)【例2-30】可變參數(shù)示例2.4函數(shù)2.4.3函數(shù)的作用域在Python中,函數(shù)的作用域是指變量的可訪問性或可見性范圍。Python中有兩種類型的作用域:全局作用域和局部作用域。2.4函數(shù)2.4.3函數(shù)的作用域1.全局作用域2.局部作用域3.嵌套作用域2.4函數(shù)1.全局作用域在函數(shù)之外定義的變量具有全局作用域,這意味著它們可以在整個(gè)程序中被訪問和使用。另外,還可以在函數(shù)內(nèi)部使用global關(guān)鍵字來訪問和修改全局作用域的變量。2.4函數(shù)【例2-31】全局作用域示例12.4函數(shù)【例2-32】全局作用域示例22.4函數(shù)為了使全局變量可以在函數(shù)內(nèi)部能夠被修改,可使用關(guān)鍵字global聲明一2.4函數(shù)2.局部作用域在函數(shù)內(nèi)部定義的變量具有局部作用域,它們只能在其函數(shù)內(nèi)部訪問和使用。2.4函數(shù)【例2-33】局部作用域示例2.4函數(shù)若把上述代碼中的最后一行注釋刪除,則運(yùn)行報(bào)錯(cuò)2.4函數(shù)3.嵌套作用域嵌套作用域指的是在函數(shù)內(nèi)部定義函數(shù),內(nèi)部函數(shù)可以訪問外部函數(shù)的變量。2.4函數(shù)【例2-34】嵌套作用域示例12.4函數(shù)【例2-35】嵌套作用域示例22.4函數(shù)【例2-36】嵌套作用域示例32.4函數(shù)2.4.4遞歸函數(shù)在Python中,遞歸函數(shù)是指在函數(shù)定義中調(diào)用函數(shù)自身的一種特殊方式。遞歸是一種解決問題的方法,通過將問題分解為更小的、與原始問題類似的子問題來解決問題。2.4函數(shù)【例2-37】遞歸函數(shù)示例2.4函數(shù)遞歸函數(shù)使用情境1.問題可以通過將其分解為較小版本的相同問題來解決。2.函數(shù)調(diào)用自身的次數(shù)可以被減少,以便最終達(dá)到基本情況。注意,在編寫遞歸函數(shù)時(shí),需要小心處理遞歸深度的問題,因?yàn)槿绻f歸層級過深,可能會(huì)導(dǎo)致棧溢出(StackOverflow)。為了避免這種情況,可以考慮使用循環(huán)來替代遞歸,因?yàn)檠h(huán)不會(huì)增加調(diào)用棧的深度。2.4函數(shù)2.5面向?qū)ο蟪绦蛟O(shè)計(jì)2.5面向?qū)ο蟪绦蛟O(shè)計(jì)2.5.1Python中的面向?qū)ο?.5.2成員可見性2.5.4方法2.5.5類的繼承2.5.1Python中的面向?qū)ο笤赑ython中,面向?qū)ο缶幊蹋∣bject-OrientedProgramming,OOP)是一種基于對象的編程范式,它的核心概念是類(Class)和對象(Object)。通過面向?qū)ο缶幊蹋梢詫?shù)據(jù)和對數(shù)據(jù)的操作封裝到對象中,從而實(shí)現(xiàn)代碼的組織、復(fù)用和抽象。2.5面向?qū)ο蟪绦蛟O(shè)計(jì)2.5.1Python中的面向?qū)ο?.類(Class)2.對象(Object)3.封裝4.繼承5.多態(tài)2.5面向?qū)ο蟪绦蛟O(shè)計(jì)1.類(Class)類是對象的模板,用于描述具有相同屬性和行為的對象的集合。類定義了對象的屬性和方法。2.5面向?qū)ο蟪绦蛟O(shè)計(jì)1.類(Class)【例2-38】類定義示例2.5面向?qū)ο蟪绦蛟O(shè)計(jì)【例2-38】類定義示例classDog:def__init__(self,name,age):=nameself.age=agedefbark(self):print(f"{}isbarking!")2.5面向?qū)ο蟪绦蛟O(shè)計(jì)2.對象(Object)對象是類的實(shí)例,具有類定義的屬性和行為??梢酝ㄟ^實(shí)例化類來創(chuàng)建對象。2.5面向?qū)ο蟪绦蛟O(shè)計(jì)2.對象(Object)【例2-39】創(chuàng)建對象示例2.5面向?qū)ο蟪绦蛟O(shè)計(jì)【例2-39】創(chuàng)建對象示例my_dog=Dog("Buddy",3)print(my_)my_dog.bark()2.5面向?qū)ο蟪绦蛟O(shè)計(jì)3.封裝封裝是指將數(shù)據(jù)(屬性)和操作數(shù)據(jù)的方法(行為)封裝到對象中,對象對外界隱藏內(nèi)部狀態(tài),并通過暴露的接口提供訪問和操作數(shù)據(jù)的方式。2.5面向?qū)ο蟪绦蛟O(shè)計(jì)4.繼承繼承是一種機(jī)制,允許一個(gè)類(子類)從另一個(gè)類(父類)繼承屬性和方法。子類可以擁有父類的屬性和方法,并可以添加自己的屬性和方法。2.5面向?qū)ο蟪绦蛟O(shè)計(jì)4.繼承【例2-40】繼承示例2.5面向?qū)ο蟪绦蛟O(shè)計(jì)【例2-40】繼承示例classPuppy(Dog):defwag(self):print(f"{}iswaggingitstail!")2.5面向?qū)ο蟪绦蛟O(shè)計(jì)5.多態(tài)多態(tài)是一種概念,允許不同類的對象對相同的消息作出響應(yīng),即不同對象可以用相同的方式進(jìn)行操作。這樣可以提高靈活性和可擴(kuò)展性。2.5面向?qū)ο蟪绦蛟O(shè)計(jì)2.5.2成員可見性成員可見性是通過屬性和方法名稱的命名規(guī)則來約束的。Python并沒有像一些其他編程語言(如Java或C++)那樣提供嚴(yán)格的訪問控制修飾符,例如public、private或protected。2.5面向?qū)ο蟪绦蛟O(shè)計(jì)2.5.2成員可見性1.公有成員2.私有成員3.受保護(hù)成員2.5面向?qū)ο蟪绦蛟O(shè)計(jì)1.公有成員在Python中,公有成員是指可以在類的內(nèi)部和外部訪問的成員,不需要通過特殊的方式來訪問。公有成員可以包括公有屬性和公有方法。2.5面向?qū)ο蟪绦蛟O(shè)計(jì)1.公有成員(1)公有屬性的定義(2)公有方法的定義2.5面向?qū)ο蟪绦蛟O(shè)計(jì)(1)公有屬性的定義在類的內(nèi)部,直接在方法中使用self關(guān)鍵字定義屬性即可。在類的外部,可以通過實(shí)例對象直接訪問公有屬性。2.5面向?qū)ο蟪绦蛟O(shè)計(jì)【例2-41】公有屬性示例2.5面向?qū)ο蟪绦蛟O(shè)計(jì)(2)公有方法的定義在類的內(nèi)部,定義一個(gè)普通的方法即可。在類的外部,可以通過實(shí)例對象直接調(diào)用公有方法。2.5面向?qū)ο蟪绦蛟O(shè)計(jì)【例2-42】公有方法示例2.5面向?qū)ο蟪绦蛟O(shè)計(jì)【例2-43】修改公有屬性和公有方法示例2.5面向?qū)ο蟪绦蛟O(shè)計(jì)2.私有成員在Python中,可以使用雙下劃線“__”開頭來定義私有成員,包括私有屬性和私有方法。私有成員只能在類的內(nèi)部訪問,外部無法直接訪問。2.5面向?qū)ο蟪绦蛟O(shè)計(jì)2.私有成員(1)私有屬性的定義(2)私有方法的定義2.5面向?qū)ο蟪绦蛟O(shè)計(jì)(1)私有屬性的定義在屬性名前添加雙下劃線“__”即可定義私有屬性。2.5面向?qū)ο蟪绦蛟O(shè)計(jì)【例2-44】私有屬性示例2.5面向?qū)ο蟪绦蛟O(shè)計(jì)若把倒數(shù)第三行的注釋去掉則報(bào)錯(cuò)2.5面向?qū)ο蟪绦蛟O(shè)計(jì)(2)私有方法的定義在方法名前添加雙下劃線“__”即可定義私有方法。2.5面向?qū)ο蟪绦蛟O(shè)計(jì)【例2-45】私有方法示例2.5面向?qū)ο蟪绦蛟O(shè)計(jì)若把倒數(shù)第三行的注釋去掉則報(bào)錯(cuò)2.5面向?qū)ο蟪绦蛟O(shè)計(jì)3.受保護(hù)成員在Python中,受保護(hù)成員是指使用單下劃線“_”開頭來定義的成員,包括受保護(hù)屬性和受保護(hù)方法。受保護(hù)成員可以在類的內(nèi)部以及子類中訪問,但在類的外部不應(yīng)直接訪問。2.5面向?qū)ο蟪绦蛟O(shè)計(jì)3.受保護(hù)成員(1)受保護(hù)屬性的定義(2)受保護(hù)方法的定義2.5面向?qū)ο蟪绦蛟O(shè)計(jì)(1)受保護(hù)屬性的定義在屬性名前添加單下劃線“_”即可定義受保護(hù)屬性。2.5面向?qū)ο蟪绦蛟O(shè)計(jì)【例2-46】受保護(hù)屬性定義示例2.5面向?qū)ο蟪绦蛟O(shè)計(jì)(2)受保護(hù)方法的定義在方法名前添加單下劃線“_”即可定義受保護(hù)方法。2.5面向?qū)ο蟪绦蛟O(shè)計(jì)【例2-47】受保護(hù)方法定義示例2.5面向?qū)ο蟪绦蛟O(shè)計(jì)2.5.4方法在Python面向?qū)ο蟪绦蛟O(shè)計(jì)中,方法是與類相關(guān)聯(lián)的函數(shù)。方法可用于訪問對象的數(shù)據(jù),修改對象的狀態(tài),以及執(zhí)行與對象相關(guān)的操作2.5面向?qū)ο蟪绦蛟O(shè)計(jì)2.5.4方法1.實(shí)例方法(InstanceMethods)2.類方法(ClassMethods)3.靜態(tài)方法(StaticMethods)2.5面向?qū)ο蟪绦蛟O(shè)計(jì)1.實(shí)例方法(InstanceMethods)實(shí)例方法是最常見的方法類型,它與特定的實(shí)例相關(guān)聯(lián)。實(shí)例方法的第一個(gè)參數(shù)通常被命名為self,用于表示調(diào)用該方法的實(shí)例。實(shí)例方法可用于操作實(shí)例的屬性和執(zhí)行與實(shí)例相關(guān)的操作。2.5面向?qū)ο蟪绦蛟O(shè)計(jì)【例2-48】實(shí)例方法示例2.5面向?qū)ο蟪绦蛟O(shè)計(jì)2.類方法(ClassMethods)類方法通過@classmethod裝飾器進(jìn)行標(biāo)識(shí),第一個(gè)參數(shù)通常被命名為cls,用于表示類本身。類方法可用于執(zhí)行與整個(gè)類相關(guān)的操作,而不限定于特定的實(shí)例。2.5面向?qū)ο蟪绦蛟O(shè)計(jì)【例2-49】類方法示例2.5面向?qū)ο蟪绦蛟O(shè)計(jì)3.靜態(tài)方法(StaticMethods)靜態(tài)方法通過@staticmethod裝飾器進(jìn)行標(biāo)識(shí),它不需要表示實(shí)例或類的特定參數(shù)。靜態(tài)方法通常用于與類相關(guān)聯(lián),但不需要訪問類或?qū)嵗臓顟B(tài)。2.5面向?qū)ο蟪绦蛟O(shè)計(jì)【例2-50】靜態(tài)方法示例2.5面向?qū)ο蟪绦蛟O(shè)計(jì)2.5.5類的繼承在Python的面向?qū)ο蟪绦蛟O(shè)計(jì)中,類的繼承是一種重要的概念,它允許一個(gè)類(子類)從另一個(gè)類(父類)繼承屬性和方法。子類可以繼承來自父類的特征,并且可以在其中添加新的屬性和方法。這種機(jī)制使得代碼可以更好地組織和重用。2.5面向?qū)ο蟪绦蛟O(shè)計(jì)2.5.5類的繼承1.單繼承2.多繼承2.5面向?qū)ο蟪绦蛟O(shè)計(jì)1.單繼承單繼承是指一個(gè)子類只能繼承一個(gè)父類。2.5面向?qū)ο蟪绦蛟O(shè)計(jì)2.多繼承在Python中,除了單繼承外,也支持多繼承,多繼承是指一個(gè)子類可以繼承多個(gè)父類。對于多繼承的情況,Python使用了方法解析順序(MRO)來確定方法和屬性的繼承順序。2.5面向?qū)ο蟪绦蛟O(shè)計(jì)2.6Python數(shù)據(jù)分析工具2.6Python數(shù)據(jù)分析工具1.NumPy2.Pandas3.Matplotlib4.Seaborn5.Scikit-learn6.Statsmodels7.SciPy1.NumPyNumPy是Python科學(xué)計(jì)算的基礎(chǔ)庫,提供了多維數(shù)組對象和許多數(shù)學(xué)函數(shù),用于處理大型數(shù)據(jù)集,進(jìn)行數(shù)值計(jì)算和線性代數(shù)運(yùn)算。2.6Python數(shù)據(jù)分析工具2.PandasPandas是Python中用于數(shù)據(jù)分析的核心庫,提供了快速、靈活、簡單的數(shù)據(jù)結(jié)構(gòu),能夠處理結(jié)構(gòu)化數(shù)據(jù),支持?jǐn)?shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)分組和聚合等操作。2.6Python數(shù)據(jù)分析工具3.MatplotlibMatplotlib是Python中常用的數(shù)據(jù)可視化庫,可以繪制各種類型的圖表和圖形,包括折線圖、散點(diǎn)圖、直方圖等,幫助用戶展示數(shù)據(jù)分析結(jié)果。2.6Python數(shù)據(jù)分析工具4.SeabornSeaborn是基于Matplotlib的高級數(shù)據(jù)可視化庫,提供了更美觀、更具吸引力的統(tǒng)計(jì)圖表,適用于創(chuàng)建各種復(fù)雜的可視化圖形。2.6Python數(shù)據(jù)分析工具5.Scikit-learnScikit-learn是Python中常用的機(jī)器學(xué)習(xí)庫,提供了許多機(jī)器學(xué)習(xí)算法和工具,用于數(shù)據(jù)挖掘、預(yù)測建模和模式識(shí)別等任務(wù)。2.6Python數(shù)據(jù)分析工具6.StatsmodelsStatsmodels是Python中用于統(tǒng)計(jì)建模和推斷的庫,提供了各種統(tǒng)計(jì)模型和方法,用于執(zhí)行統(tǒng)計(jì)分析和假設(shè)檢驗(yàn)。2.6Python數(shù)據(jù)分析工具7.SciPySciPy是Python科學(xué)計(jì)算的擴(kuò)展庫,提供了數(shù)值計(jì)算、優(yōu)化、插值和統(tǒng)計(jì)等功能,適用于科學(xué)計(jì)算和工程應(yīng)用。2.6Python數(shù)據(jù)分析工具2.7本章小結(jié)本章深入介紹了Python編程語言的基礎(chǔ)知識(shí)和程序控制結(jié)構(gòu),包括數(shù)據(jù)類型、運(yùn)算符、程序控制流程以及函數(shù)和面向?qū)ο缶幊痰母拍睢U莆者@些知識(shí)可以更好地理解和使用Python編程語言,實(shí)現(xiàn)復(fù)雜的程序邏輯和數(shù)據(jù)處理任務(wù)。同時(shí),學(xué)習(xí)和掌握Python數(shù)據(jù)分析工具也為數(shù)據(jù)處理和分析提供了便利。通過本章的學(xué)習(xí),讀者可以建立起扎實(shí)的Python編程基礎(chǔ),為進(jìn)一步學(xué)習(xí)和應(yīng)用Python打下堅(jiān)實(shí)的基確。第3章大數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理是數(shù)據(jù)分析過程中的關(guān)鍵環(huán)節(jié),包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約和數(shù)據(jù)變換等步驟,旨在為后續(xù)的數(shù)據(jù)分析和建模提供高質(zhì)量的數(shù)據(jù)基礎(chǔ)。第3章大數(shù)據(jù)預(yù)處理3.1大數(shù)據(jù)預(yù)處理流程3.2數(shù)據(jù)清洗3.3數(shù)據(jù)集成3.4數(shù)據(jù)規(guī)約3.4數(shù)據(jù)變換3.5本章小結(jié)3.1大數(shù)據(jù)預(yù)處理流程圖3-1大數(shù)據(jù)預(yù)處理流程3.1大數(shù)據(jù)預(yù)處理流程3.2數(shù)據(jù)清洗在現(xiàn)實(shí)世界中,數(shù)據(jù)往往是不完整的(包含缺失值)、包含噪聲并且存在不一致性。數(shù)據(jù)清洗的任務(wù)就是嘗試填充缺失值、平滑噪聲、識(shí)別離群點(diǎn),并糾正數(shù)據(jù)中的不一致之處。通過數(shù)據(jù)清洗,可以提高數(shù)據(jù)的質(zhì)量和準(zhǔn)確性,確保數(shù)據(jù)可靠性,為后續(xù)的數(shù)據(jù)分析和挖掘提供可靠的基礎(chǔ)。數(shù)據(jù)清洗不僅是數(shù)據(jù)處理過程中的關(guān)鍵步驟,也是確保數(shù)據(jù)分析結(jié)果準(zhǔn)確性的重要環(huán)節(jié)。3.2數(shù)據(jù)清洗3.2.1缺失值處理3.2.2噪聲過濾3.2.1缺失值處理對于缺失值的處理,不同的情況處理方法也不同,總的來說,缺失值處理可概括為刪除法和插補(bǔ)法(或稱填充法)兩類方法。3.2數(shù)據(jù)清洗3.2.1缺失值處理1.刪除法2.填充法3.2數(shù)據(jù)清洗1.刪除法刪除法是對缺失值進(jìn)行處理的最原始的方法,它將存在缺失值的記錄刪除。3.2數(shù)據(jù)清洗2.填充法在大數(shù)據(jù)分析中,經(jīng)常面對的是海量數(shù)據(jù),數(shù)據(jù)的屬性可能有幾十個(gè)甚至幾百個(gè)。因?yàn)橐粋€(gè)屬性值的缺失而放棄大量的其他屬性值會(huì)導(dǎo)致信息的極大浪費(fèi)。因此,針對這種情況產(chǎn)生了以可能值對缺失值進(jìn)行插補(bǔ)的思想和方法。3.2數(shù)據(jù)清洗2.填充法(1)固定值插補(bǔ)(2)統(tǒng)計(jì)值插補(bǔ)(3)最近鄰填充(4)插值法填充(5)預(yù)測估計(jì)法3.2數(shù)據(jù)清洗(1)固定值插補(bǔ)預(yù)先確定的特定值(如0或-1)來填充缺失值。3.2數(shù)據(jù)清洗(2)統(tǒng)計(jì)值插補(bǔ)根據(jù)數(shù)據(jù)的屬性,可以將數(shù)據(jù)分為定距型和非定距型。如果缺失值是定距型的,就可以使用該屬性存在值的平均值來插補(bǔ)缺失的值。如果缺失值是非定距型的,可以根據(jù)統(tǒng)計(jì)學(xué)中的眾數(shù)原理,使用該屬性的眾數(shù)(即出現(xiàn)頻率最高的值)來填補(bǔ)缺失的值。此外,如果數(shù)據(jù)符合較規(guī)范的分布規(guī)律,還可以考慮使用中值(中位數(shù))插補(bǔ)。3.2數(shù)據(jù)清洗(3)最近鄰填充根據(jù)樣本之間的相似性,利用最近的鄰居樣本的值來填充缺失值。3.2數(shù)據(jù)清洗【例3-1】3.2數(shù)據(jù)清洗(4)插值法填充利用已知點(diǎn)建立合適的插值函數(shù)f(x),未知值由對應(yīng)點(diǎn)xi求出的函數(shù)值f(xi)近似代替。插值法包括線性插值法、多項(xiàng)式插值法(包括拉格朗日插值法、牛頓插值法)等。3.2數(shù)據(jù)清洗【例3-2】3.2數(shù)據(jù)清洗(5)預(yù)測估計(jì)法預(yù)測估計(jì)法利用變量之間的關(guān)系,將有缺失值的字段作為待預(yù)測的變量,使用其他同類別無缺失值的字段作為預(yù)測值,通過數(shù)據(jù)挖掘方法進(jìn)行預(yù)測,用推斷得到的該字段最大可能的取值進(jìn)行補(bǔ)充。3.2數(shù)據(jù)清洗3.2.2噪聲過濾噪聲(Noise)噪聲過濾3.2數(shù)據(jù)清洗噪聲(Noise)噪聲(Noise)是指數(shù)據(jù)中存在的隨機(jī)誤差或不相關(guān)信息,它可能對數(shù)據(jù)的準(zhǔn)確性和可靠性造成影響,使得數(shù)據(jù)中包含了不希望的隨機(jī)波動(dòng)或干擾。在數(shù)據(jù)處理和分析中,噪聲常常需要被過濾或消除,以減少對數(shù)據(jù)分析結(jié)果的負(fù)面影響。3.2數(shù)據(jù)清洗噪聲過濾對噪聲進(jìn)行過濾是數(shù)據(jù)處理和信號(hào)處理中常見的操作,可以通過各種技術(shù)和算法來降低噪聲對數(shù)據(jù)的影響,提高數(shù)據(jù)的質(zhì)量和可靠性。常見的噪聲過濾方法包括回歸法、均值平滑法、離群點(diǎn)分析和小波去噪等,這些方法可以幫助去除數(shù)據(jù)中的隨機(jī)波動(dòng),使得數(shù)據(jù)更加清晰和可靠,從而更好地支持?jǐn)?shù)據(jù)分析和決策過程。3.2數(shù)據(jù)清洗噪聲過濾1.回歸法2.均值平滑法3.離群點(diǎn)分析4.人機(jī)交互檢測法3.2數(shù)據(jù)清洗1.回歸法回歸法是一種常用的噪聲過濾方法,它通過擬合數(shù)據(jù)的回歸模型,識(shí)別并剔除與模型偏離較大的數(shù)據(jù)點(diǎn),從而減少噪聲對模型的影響?;貧w法特別適用于識(shí)別和處理線性關(guān)系的數(shù)據(jù)。3.2數(shù)據(jù)清洗【例3-3】利用線性回歸模型識(shí)別噪聲示例3.2數(shù)據(jù)清洗2.均值平滑法通過計(jì)算數(shù)據(jù)點(diǎn)周圍鄰近數(shù)據(jù)的均值來平滑數(shù)據(jù),減少噪聲的影響。均值平滑法適用于時(shí)間序列數(shù)據(jù)的平滑處理,對于周期性的噪聲有一定效果。3.2數(shù)據(jù)清洗【例3-4】利用均值平滑法處理時(shí)間序列數(shù)據(jù)示例3.2數(shù)據(jù)清洗3.離群點(diǎn)分析離群點(diǎn)分析是通過聚類等方法來檢測離群點(diǎn),并將其刪除,從而實(shí)現(xiàn)去噪的方法。直觀上,落在簇集合之外的值被視為離群點(diǎn)。3.2數(shù)據(jù)清洗【例3-5】利用DBSCAN算法進(jìn)行離群點(diǎn)檢測示例3.2數(shù)據(jù)清洗4.人機(jī)交互檢測法人機(jī)交互檢測法是一種利用人與計(jì)算機(jī)交互檢查的方法,旨在幫助發(fā)現(xiàn)噪聲數(shù)據(jù)。該方法依賴于專業(yè)分析人員豐富的背景知識(shí)和實(shí)踐經(jīng)驗(yàn),他們可以進(jìn)行人工篩選或者制定規(guī)則集,然后由計(jì)算機(jī)自動(dòng)處理,從而檢測出不符合業(yè)務(wù)邏輯的噪聲數(shù)據(jù)。3.2數(shù)據(jù)清洗3.3數(shù)據(jù)集成數(shù)據(jù)分析需要的數(shù)據(jù)往往分布在不同的數(shù)據(jù)源中,數(shù)據(jù)集成是將來自不同分散數(shù)據(jù)源的數(shù)據(jù),在邏輯或物理上集成到一個(gè)統(tǒng)一的數(shù)據(jù)集合中的過程。在數(shù)據(jù)集成時(shí),來自多個(gè)數(shù)據(jù)源的現(xiàn)實(shí)世界實(shí)體的表達(dá)形式是不一樣的,有可能不匹配,要考慮實(shí)體識(shí)別問題和冗余屬性問題,從而將源數(shù)據(jù)在最底層上加以轉(zhuǎn)換、提煉和集成。3.3數(shù)據(jù)集成3.3.1實(shí)體識(shí)別3.3.2冗余屬性識(shí)別3.3.1實(shí)體識(shí)別當(dāng)進(jìn)行實(shí)體識(shí)別時(shí),需要處理不同數(shù)據(jù)源之間可能存在的同名異義、異名同義以及單位不統(tǒng)一等問題,以統(tǒng)一不同源數(shù)據(jù)的矛盾之處。在進(jìn)行實(shí)體識(shí)別時(shí)可能會(huì)遇到以下情況:1.同名異義2.異名同義3.單位不統(tǒng)一可以采取以下方法來檢測和解決這些沖突1.屬性重命名2.屬性映射3.單位轉(zhuǎn)換或標(biāo)準(zhǔn)化3.3數(shù)據(jù)集成3.3.2冗余屬性識(shí)別數(shù)據(jù)集成往往會(huì)導(dǎo)致數(shù)據(jù)冗余,其中常見的情況包括同一屬性多次出現(xiàn)和同一屬性命名不一致導(dǎo)致重復(fù)。通過仔細(xì)整合不同數(shù)據(jù)源,可以減少甚至避免數(shù)據(jù)冗余和不一致,從而提高數(shù)據(jù)挖掘的速度和質(zhì)量。對于冗余屬性,可以先進(jìn)行分析和檢測,然后再進(jìn)行適當(dāng)?shù)奶幚?,比如刪除冗余屬性。3.3數(shù)據(jù)集成通過相關(guān)分析來檢測冗余屬性相關(guān)分析可以幫助理解兩個(gè)數(shù)值型屬性之間的關(guān)系,通過計(jì)算它們之間的相關(guān)系數(shù)來量化這種關(guān)系。相關(guān)系數(shù)的取值范圍通常在-1到1之間,表示兩個(gè)屬性之間的線性相關(guān)程度。以下是相關(guān)系數(shù)的一些常見取值和對應(yīng)含義:1.相關(guān)系數(shù)接近1表示兩個(gè)屬性之間存在強(qiáng)正相關(guān)關(guān)系,當(dāng)一個(gè)屬性增加時(shí),另一個(gè)屬性也相應(yīng)增加。2.相關(guān)系數(shù)接近-1表示兩個(gè)屬性之間存在強(qiáng)負(fù)相關(guān)關(guān)系,當(dāng)一個(gè)屬性增加時(shí),另一個(gè)屬性減少。3.相關(guān)系數(shù)接近0表示兩個(gè)屬性之間不存在線性相關(guān)關(guān)系。3.3數(shù)據(jù)集成3.4數(shù)據(jù)規(guī)約數(shù)據(jù)規(guī)約是基于挖掘分析需求和數(shù)據(jù)自身的特性,在原始數(shù)據(jù)上選擇和建立用戶感興趣的數(shù)據(jù)集合,通過刪除數(shù)據(jù)部分屬性、替換部分?jǐn)?shù)據(jù)表示形式等操作完成對數(shù)據(jù)集合中出現(xiàn)的偏差、重復(fù)、異常等數(shù)據(jù)的過濾工作,盡可能地保持原始數(shù)據(jù)的完整性,并最大程度地精簡數(shù)據(jù)量,在得到相同(或者類似相同)的分析結(jié)果前提下節(jié)省數(shù)據(jù)挖掘時(shí)間.數(shù)據(jù)規(guī)約的意義在于:1.降低無效、錯(cuò)誤數(shù)據(jù)對建模的影響,提高建模的準(zhǔn)確性。2.降低存儲(chǔ)數(shù)據(jù)的成本。3.少量且具有代表性的數(shù)據(jù)將大幅縮減數(shù)據(jù)分析所需的時(shí)間。3.4數(shù)據(jù)規(guī)約圖3-5數(shù)據(jù)規(guī)約3.4.1屬性規(guī)約3.4.2數(shù)值規(guī)約圖3-5數(shù)據(jù)規(guī)約3.4數(shù)據(jù)規(guī)約3.4.1屬性規(guī)約屬性規(guī)約通過屬性合并創(chuàng)建新屬性維度,或者直接刪除不相關(guān)的屬性來減少數(shù)據(jù)維度,進(jìn)而提高數(shù)據(jù)分析挖掘的效率,降低計(jì)算成本。屬性規(guī)約的目標(biāo)是尋找最小的屬性子集,并確保新數(shù)據(jù)子集的概率分布盡可能接近原始數(shù)據(jù)集的概率分布。3.4數(shù)據(jù)規(guī)約屬性規(guī)約常用方法1.合并屬性2.逐步向前選擇3.逐步向后刪除4.決策樹歸納5.主成分分析3.4數(shù)據(jù)規(guī)約1.合并屬性將一些舊屬性合并為新屬性。3.4數(shù)據(jù)規(guī)約2.逐步向前選擇從一個(gè)空屬性開始,每次從原來屬性集合中選擇一個(gè)當(dāng)前最優(yōu)的屬性添加到當(dāng)前屬性子集中。直到無法選出最優(yōu)屬性或滿足一定閾值約束為止。3.4數(shù)據(jù)規(guī)約3.逐步向后刪除從一個(gè)全屬性集開始,每次從當(dāng)前屬性子集中選擇一個(gè)當(dāng)前最差的屬性,并將其從當(dāng)前屬性子集中移除,直到無法選出最差屬性為止或滿足一定閾值約束為止。3.4數(shù)據(jù)規(guī)約4.決策樹歸納利用決策樹的歸納方法對初始數(shù)據(jù)進(jìn)行分類歸納學(xué)習(xí),獲得一個(gè)初始的決策樹,所有沒有出現(xiàn)在這個(gè)決策樹上的屬性均可認(rèn)為是無關(guān)屬性,因此將這些屬性從初始集合中刪除,就可以獲得一個(gè)最優(yōu)的屬性子集。3.4數(shù)據(jù)規(guī)約5.主成分分析主成分分析是一種用于連續(xù)屬性的數(shù)據(jù)降維方法。它通過構(gòu)造原始數(shù)據(jù)的正交變換,將數(shù)據(jù)轉(zhuǎn)化為一組新的變量,這些新變量被稱為“主成分”。主成分是原始變量的線性組合,彼此互不相關(guān)。3.4數(shù)據(jù)規(guī)約計(jì)算步驟(1)標(biāo)準(zhǔn)化數(shù)據(jù)。(2)計(jì)算協(xié)方差矩陣。(3)計(jì)算特征值和特征向量。(4)選擇主成分?jǐn)?shù)量。(5)構(gòu)建投影矩陣。(6)數(shù)據(jù)轉(zhuǎn)換。3.4數(shù)據(jù)規(guī)約3.4.2數(shù)值規(guī)約數(shù)值規(guī)約通過選擇替代的、較小的數(shù)據(jù)來減少數(shù)據(jù)量,包括有參數(shù)方法和無參數(shù)方法兩類。有參數(shù)方法使用模型來評估數(shù)據(jù),只需存放模型參數(shù),而無需存放實(shí)際數(shù)據(jù),例如一元線性回歸、多元線性回歸和對數(shù)回歸。無參數(shù)方法需要存放實(shí)際數(shù)據(jù),例如直方圖、聚類和抽樣。3.4數(shù)據(jù)規(guī)約3.4.2數(shù)值規(guī)約1.有參數(shù)回歸2.直方圖3.聚類4.抽樣3.4數(shù)據(jù)規(guī)約1.有參數(shù)回歸簡單線性模型和對數(shù)線性模型可以用來近似給定的數(shù)據(jù)。3.4數(shù)據(jù)規(guī)約【例3-6】一元線性回歸示例3.4數(shù)據(jù)規(guī)約2.直方圖直方圖是一種流行的數(shù)據(jù)規(guī)約形式,通過分箱來近似數(shù)據(jù)的分布。對于屬性A的直方圖,會(huì)將A的數(shù)據(jù)分布劃分為不相交的子集或桶。如果每個(gè)桶只代表單個(gè)屬性值和頻率對,這種桶稱為單桶。通常,桶表示給定屬性的一個(gè)連續(xù)區(qū)間。3.4數(shù)據(jù)規(guī)約【例3-7】直方圖示例3.4數(shù)據(jù)規(guī)約3.聚類將數(shù)據(jù)元組劃分成組或者類,同一組或類中的元組比較相似,不同組成者類中的元組彼此不相似,用數(shù)據(jù)的聚類替換原始數(shù)據(jù)。聚類技術(shù)的使用受限于實(shí)際數(shù)據(jù)的內(nèi)在分布,對于被污染的數(shù)據(jù),這種技術(shù)比較有效。在數(shù)據(jù)規(guī)約中,用數(shù)據(jù)的簇替換實(shí)際數(shù)據(jù)。該技術(shù)的有效性依賴于簇的定義是否符合數(shù)據(jù)的分布性質(zhì)。3.4數(shù)據(jù)規(guī)約4.抽樣抽樣是使用數(shù)據(jù)的較小隨機(jī)樣本(子集)替換大的數(shù)據(jù)集,以減少計(jì)算成本、提高計(jì)算效率和保持?jǐn)?shù)據(jù)特征的目的。以下是常見的幾種抽樣方法:(1)簡單隨機(jī)抽樣(SimpleRandomSampling)(2)分層抽樣(StratifiedSampling)(3)系統(tǒng)抽樣(SystematicSampling)(4)整群抽樣(ClusterSampling)(5)多階段抽樣(MultistageSampling)3.4數(shù)據(jù)規(guī)約3.4數(shù)據(jù)變換3.4數(shù)據(jù)變換3.4.1數(shù)據(jù)規(guī)范化3.4.2連續(xù)屬性離散化3.4.1數(shù)據(jù)規(guī)范化數(shù)據(jù)規(guī)范化(Normalization)可以將所有屬性數(shù)據(jù)按比例縮放到一個(gè)較小的特定范圍內(nèi),如[0,1]或者[-1,1],從而賦予所有屬性相同的權(quán)重,消除由于數(shù)據(jù)單位不同而引起的偏差。規(guī)范化的過程將原始的度量值轉(zhuǎn)換為無量綱的值,有助于提高數(shù)據(jù)分析的準(zhǔn)確性和穩(wěn)定性。3.4數(shù)據(jù)變換3.4.1數(shù)據(jù)規(guī)范化1.最小-最大規(guī)范化(Min-MaxNormalization)2.Z-score規(guī)范化(Standardization)3.小數(shù)定標(biāo)規(guī)范化(DecimalScaling)3.4數(shù)據(jù)變換1.最小-最大規(guī)范化(Min-MaxNormalization)將數(shù)值縮放到一個(gè)固定的范圍內(nèi),通常是[0,1]或者[-1,1]。公式見式子(3-1)。其中,max為樣本數(shù)據(jù)的最大值;min為樣本數(shù)據(jù)的最小值。這種方法有一個(gè)缺陷就是當(dāng)有新數(shù)據(jù)加入時(shí),可能導(dǎo)致max和min的變化,需要重新定義。3.4數(shù)據(jù)變換2.Z-score規(guī)范化(Standardization)將數(shù)據(jù)轉(zhuǎn)換成均值為0,標(biāo)準(zhǔn)差為1的標(biāo)準(zhǔn)正態(tài)分布。公式見式子(3-2)。其中,為所有樣本數(shù)據(jù)的均值;為所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差。3.4數(shù)據(jù)變換3.小數(shù)定標(biāo)規(guī)范化(DecimalScaling)將數(shù)值除以一個(gè)固定的基數(shù),使得數(shù)值落在[-1,1]之間。公式見式子(3-3)。其中,j是滿足max{|x*|}<1的最小整數(shù)。3.4數(shù)據(jù)變換3.4.2連續(xù)屬性離散化連續(xù)屬性離散化的目的是在數(shù)據(jù)的取值范圍內(nèi)設(shè)定若干個(gè)離散的劃分點(diǎn),將取值范圍劃分為一些離散化的區(qū)間,然后用不同的符號(hào)或整數(shù)值代表落在每個(gè)子區(qū)間中的數(shù)據(jù)值。離散化涉及兩個(gè)主要任務(wù),即確定分類數(shù)和如何將連續(xù)屬性值映射到這些分類值。3.4數(shù)據(jù)變換常用的離散化方法1.等寬法(EqualWidthDiscretization)將連續(xù)屬性的取值范圍均勻劃分為若干個(gè)區(qū)間,每個(gè)區(qū)間的寬度相等。這種方法適用于數(shù)據(jù)的分布比較均勻的情況。2.等頻法(EqualFrequencyDiscretization)將連續(xù)屬性的取值按照頻率劃分為若干個(gè)區(qū)間,確保每個(gè)區(qū)間內(nèi)包含相似數(shù)量的數(shù)據(jù)點(diǎn)。這種方法適用于數(shù)據(jù)分布不均勻的情況。3.聚類法(Cluster-BasedDiscretization)使用聚類算法(如K-means)將連續(xù)屬性的值聚類成若干個(gè)簇,然后將每個(gè)簇作為一個(gè)離散化的類別。4.基于決策樹的離散化(DecisionTree-BasedDiscretization)使用決策樹算法如ID3等來自動(dòng)確定最佳的離散化劃分點(diǎn),以最大化分類的信息增益。3.4數(shù)據(jù)變換3.5本章小結(jié)本章對大數(shù)據(jù)預(yù)處理流程進(jìn)行了深入探討,包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約、數(shù)據(jù)變換等多個(gè)關(guān)鍵步驟。在數(shù)據(jù)清洗階段,介紹了如何處理缺失值和噪聲過濾,以確保數(shù)據(jù)質(zhì)量。在數(shù)據(jù)集成部分,討論了實(shí)體識(shí)別和冗余屬性識(shí)別的重要性,幫助整合數(shù)據(jù)并消除重復(fù)信息。在數(shù)據(jù)規(guī)約部分,探究了屬性規(guī)約和數(shù)值規(guī)約,以簡化數(shù)據(jù)并提高效率。在數(shù)據(jù)變換環(huán)節(jié),重點(diǎn)關(guān)注了數(shù)據(jù)規(guī)范化和連續(xù)屬性離散化的方法,以確保數(shù)據(jù)處于相同的尺度下進(jìn)行分析。通過數(shù)據(jù)預(yù)處理的關(guān)鍵概念和技術(shù)的探討,為后續(xù)的數(shù)據(jù)分析工作奠定了基礎(chǔ)。第4章大數(shù)據(jù)可視化分析本章將介紹數(shù)據(jù)可視化工具M(jìn)atplotlib的基礎(chǔ)知識(shí)和技術(shù)應(yīng)用,包括數(shù)據(jù)可視化的重要性和設(shè)計(jì)原則、Numpy庫的使用、Matplotlib的繪圖基礎(chǔ)和常見圖表繪制方法,最后通過一個(gè)中國GDP分析案例展示數(shù)據(jù)可視化在大數(shù)據(jù)分析中的應(yīng)用。第4章大數(shù)據(jù)可視化分析4.1大數(shù)據(jù)可視化基礎(chǔ)4.2matplotlib基礎(chǔ)--numpy4.3matplotlib4.4實(shí)踐-中國GDP分析4.5本章小結(jié)4.1大數(shù)據(jù)可視化基礎(chǔ)4.1大數(shù)據(jù)可視化基礎(chǔ)4.1.1可視化的重要性4.1.2可視化設(shè)計(jì)原則4.1.1可視化的重要性數(shù)據(jù)可視化不僅是一種展示數(shù)據(jù)的方式,更是一種有力的分析工具。通過可視化,用戶能夠快速識(shí)別數(shù)據(jù)中的模式、異常和趨勢,從而指導(dǎo)決策和行動(dòng)。此外,數(shù)據(jù)可視化有助于揭示數(shù)據(jù)之間的關(guān)聯(lián)性,幫助用戶更深入地理解數(shù)據(jù),發(fā)現(xiàn)潛在的洞察,并及時(shí)采取行動(dòng)以應(yīng)對變化。它將抽象的數(shù)據(jù)轉(zhuǎn)化為直觀的圖形,使得非專業(yè)人士也能夠輕松理解和利用數(shù)據(jù)。大數(shù)據(jù)可視化則是將大規(guī)模、復(fù)雜的數(shù)據(jù)以圖形化或圖像化的方式展現(xiàn)出來,以便人們更直觀、更快速地理解和分析數(shù)據(jù)。通過可視化,用戶可以發(fā)現(xiàn)數(shù)據(jù)之間的模式、趨勢和關(guān)聯(lián),從而做出更明智的決策。它有助于用戶從海量數(shù)據(jù)中提取有用信息,發(fā)現(xiàn)隱藏在數(shù)據(jù)背后的價(jià)值,并促進(jìn)跨部門或跨團(tuán)隊(duì)之間的溝通與合作。因此,大數(shù)據(jù)可視化在提升數(shù)據(jù)理解、洞察力和決策效率方面發(fā)揮著重要作用。4.1大數(shù)據(jù)可視化基礎(chǔ)4.1.2可視化設(shè)計(jì)原則可視化設(shè)計(jì)原則涵蓋了許多方面,其中一些關(guān)鍵原則包括:1.簡潔性2.清晰性3.一致性4.合適的圖形類型5.顏色搭配6.注重重點(diǎn)7.可交互性8.審美性4.1大數(shù)據(jù)可視化基礎(chǔ)4.2matplotlib基礎(chǔ)--numpynumpy庫是Python中常用的數(shù)值計(jì)算、矩陣計(jì)算、數(shù)據(jù)處理和數(shù)據(jù)分析庫,也是學(xué)習(xí)pandas和matplotlib的基礎(chǔ)。4.2matplotlib基礎(chǔ)--numpy4.2.1創(chuàng)建數(shù)組4.2.2數(shù)組的常見屬性4.2.3數(shù)組的常見操作4.2.4數(shù)組的統(tǒng)計(jì)分析4.2.1創(chuàng)建數(shù)組Python語言的基礎(chǔ)語法中沒有提供數(shù)組,數(shù)組的功能可以用列表和元組來實(shí)現(xiàn)。由于列表和元組中的每個(gè)元素都是按“對象”來處理,每個(gè)成員都會(huì)需要存儲(chǔ)引用和對象值,導(dǎo)致時(shí)間和空間代價(jià)都很大。Python中出現(xiàn)了“以優(yōu)化列表和元組,進(jìn)而實(shí)現(xiàn)數(shù)組功能”的第三方擴(kuò)展包,如numpy。在調(diào)用ndarray之前需要導(dǎo)入numpy模塊,代碼如下:importnumpyasnp4.2matplotlib基礎(chǔ)--numpy4.2.1創(chuàng)建數(shù)組1.用np.array()創(chuàng)建數(shù)組2.用np.arange()函數(shù)創(chuàng)建數(shù)組3.用np.zeros()、np.ones()等函數(shù)創(chuàng)建數(shù)組4.用np.full()創(chuàng)建相同元素的數(shù)組5.用np.random()生成隨機(jī)數(shù)組4.2matplotlib基礎(chǔ)--numpy1.用np.array()創(chuàng)建數(shù)組【例4-1】列表作為參數(shù)代碼示例【例4-2】元組作為參數(shù)代碼示例4.2matplotlib基礎(chǔ)--numpy2.用np.arange()函數(shù)創(chuàng)建數(shù)組【例4-3】利用np.arange()創(chuàng)建數(shù)組示例4.2matplotlib基礎(chǔ)--numpy2.用np.arange()函數(shù)創(chuàng)建數(shù)組【例4-4】利用range()生成迭代器示例4.2matplotlib基礎(chǔ)--numpy2.用np.arange()函數(shù)創(chuàng)建數(shù)組【例4-5】獲取迭代器內(nèi)容示例4.2matplotlib基礎(chǔ)--numpy2.用np.arange()函數(shù)創(chuàng)建數(shù)組【例4-6】兩者對照示例4.2matplotlib基礎(chǔ)--numpy3.用np.zeros()、np.ones()等函數(shù)創(chuàng)建數(shù)組【例4-7】利用np.zeros()創(chuàng)建數(shù)組示例4.2matplotlib基礎(chǔ)--numpy3.用np.zeros()、np.ones()等函數(shù)創(chuàng)建數(shù)組【例4-8】利用np.ones()創(chuàng)建數(shù)組示例4.2matplotlib基礎(chǔ)--numpy4.用np.full()創(chuàng)建相同元素的數(shù)組【例4-9】利用np.full()創(chuàng)建數(shù)組示例4.2matplotlib基礎(chǔ)--numpy5.用np.random()生成隨機(jī)數(shù)組np.random.rand():根據(jù)傳入形狀參數(shù)創(chuàng)建元素為來自[0,1)的隨機(jī)數(shù)的數(shù)組;np.random.randn():根據(jù)傳入形狀參數(shù)創(chuàng)建元素為滿足標(biāo)準(zhǔn)正態(tài)分布的數(shù)組;np.random.random():根據(jù)傳入形狀參數(shù)創(chuàng)建元素為來自[0,1)的隨機(jī)數(shù)的數(shù)組;np.random.randint():根據(jù)傳入的取值范圍和形狀參數(shù)創(chuàng)建元素為來自范圍內(nèi)的隨機(jī)整數(shù)的數(shù)組;np.random.normal():根據(jù)傳入的數(shù)學(xué)期望、方差和形狀參數(shù)來創(chuàng)建元素滿足對應(yīng)正態(tài)分布的數(shù)組;4.2matplotlib基礎(chǔ)--numpy5.用np.random()生成隨機(jī)數(shù)組【例4-10】創(chuàng)建隨機(jī)數(shù)組示例14.2matplotlib基礎(chǔ)--numpy5.用np.random()生成隨機(jī)數(shù)組【例4-11】創(chuàng)建隨機(jī)數(shù)組示例24.2matplotlib基礎(chǔ)--numpy5.用np.random()生成隨機(jī)數(shù)組【例4-12】創(chuàng)建隨機(jī)數(shù)組示例34.2matplotlib基礎(chǔ)--numpy5.用np.random()生成隨機(jī)數(shù)組【例4-13】創(chuàng)建隨機(jī)數(shù)組示例44.2matplotlib基礎(chǔ)--numpy5.用np.random()生成隨機(jī)數(shù)組【例4-14】創(chuàng)建隨機(jī)數(shù)組示例54.2matplotlib基礎(chǔ)--numpy4.2.2數(shù)組的常見屬性數(shù)組的常見屬性及說明ndim:返回int。表示數(shù)組的維數(shù)。shape:返回tuple。表示數(shù)組的尺寸,對于n行m列數(shù)組,形狀為(n,m)。size:返回int。表示數(shù)組的元素總數(shù),等于數(shù)組形狀的乘積。dtype:返回data-type。描述數(shù)組中元素的類型。itemsize:返回int。表示數(shù)組的每個(gè)元素的大?。ㄒ宰止?jié)為單位)。4.2matplotlib基礎(chǔ)--numpy4.2.2數(shù)組的常見屬性【例4-15】顯示數(shù)組形狀示例4.2matplotlib基礎(chǔ)--numpy4.2.2數(shù)組的常見屬性【例4-16】顯示數(shù)組維度示例4.2matplotlib基礎(chǔ)--numpy4.2.2數(shù)組的常見屬性【例4-17】顯示數(shù)組大小示例4.2matplotlib基礎(chǔ)--numpy4.2.2數(shù)組的常見屬性【例4-18】顯示數(shù)組元素類型示例4.2matplotlib基礎(chǔ)--numpy4.2.2數(shù)組的常見屬性【例4-19】數(shù)組a中元素進(jìn)行強(qiáng)制類型轉(zhuǎn)換示例4.2matplotlib基礎(chǔ)--numpy4.2.3數(shù)組的常見操作1.數(shù)組的變形reshape()方法2.數(shù)組的拼接3.數(shù)組的分裂4.2matplotlib基礎(chǔ)--numpy1.數(shù)組的變形reshape()方法【例4-20】數(shù)組變形示例14.2matplotlib基礎(chǔ)--numpy1.數(shù)組的變形reshape()方法【例4-21】數(shù)組變形示例24.2matplotlib基礎(chǔ)--numpy2.數(shù)組的拼接數(shù)組的拼接就是將兩個(gè)數(shù)組拼接在一起,主要使用numpy庫的函數(shù),它的第一個(gè)參數(shù)是傳入一個(gè)列表或者元組,里面包含著要進(jìn)行拼接的數(shù)組,另外一個(gè)則是軸參數(shù),axis。4.2matplotlib基礎(chǔ)--numpy2.數(shù)組的拼接【例4-22】利用concatenate()進(jìn)行數(shù)組的拼接示例4.2matplotlib基礎(chǔ)--numpy2.數(shù)組的拼接【例4-23】利用hstack()和vstack()進(jìn)行數(shù)組的拼接示例4.2matplotlib基礎(chǔ)--numpy3.數(shù)組的分裂數(shù)組的分裂就是根據(jù)指定的分裂點(diǎn)來對數(shù)組進(jìn)行分裂,對于一維的數(shù)組通常使用numpy庫的split()函數(shù),它只需要兩個(gè)參數(shù),一個(gè)是要進(jìn)行分割的一維數(shù)組,另一個(gè)就是分割點(diǎn)。4.2matplotlib基礎(chǔ)--numpy3.數(shù)組的分裂【例4-24】利用split()進(jìn)行一維數(shù)組的分割示例4.2matplotlib基礎(chǔ)--numpy3.數(shù)組的分裂【例4-25】利用hsplit()和vsplit()進(jìn)行二維數(shù)組的分割示例4.2matplotlib基礎(chǔ)--numpy4.2.4數(shù)組的統(tǒng)計(jì)分析對數(shù)據(jù)的操作,主要包括三個(gè)部分:通用函數(shù),聚合和排序。4.2matplotlib基礎(chǔ)--numpy4.2.4數(shù)組的統(tǒng)計(jì)分析1.通用函數(shù)2.聚合操作3.數(shù)組元素的排序4.2matplotlib基礎(chǔ)--numpy1.通用函數(shù)當(dāng)兩個(gè)數(shù)組形狀相等時(shí),可以進(jìn)行數(shù)組的加減乘除運(yùn)算,此時(shí)是兩個(gè)數(shù)組對應(yīng)位置的數(shù)據(jù)做對應(yīng)的運(yùn)算。4.2matplotl

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論