《商務(wù)數(shù)據(jù)分析》課件_第1頁
《商務(wù)數(shù)據(jù)分析》課件_第2頁
《商務(wù)數(shù)據(jù)分析》課件_第3頁
《商務(wù)數(shù)據(jù)分析》課件_第4頁
《商務(wù)數(shù)據(jù)分析》課件_第5頁
已閱讀5頁,還剩303頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

商務(wù)數(shù)據(jù)分析商務(wù)數(shù)據(jù)分析基本概念與框架商務(wù)數(shù)據(jù)分析常用方法商業(yè)應(yīng)用大綱●

第一部分●

第二部分●

第三部分總總分第

部分商務(wù)數(shù)據(jù)分析基本概念與框架(

兩章)第一章

商務(wù)數(shù)據(jù)分析基本概念第二章

商務(wù)數(shù)據(jù)分析框架第

商務(wù)數(shù)據(jù)分析基本概念第

節(jié)

商務(wù)數(shù)據(jù)分析概述●

商務(wù)數(shù)據(jù)分析指的是為解決商務(wù)決策問題

選擇恰當(dāng)方法和工具對收集的數(shù)據(jù)進(jìn)行分析

,

得到隱

含的

、

未知的

、

有潛在價值的關(guān)系

、模式和趨勢

。●

數(shù)據(jù)和分析是其中的核心組成部分

。1

.

數(shù)據(jù)類型●(1)結(jié)構(gòu)化

、

半結(jié)構(gòu)化

非結(jié)構(gòu)化數(shù)據(jù)●結(jié)構(gòu)化數(shù)據(jù)●指可以用二維形式展現(xiàn)和存儲的

,

用統(tǒng)一整齊格式表示的數(shù)據(jù)

,

見的有數(shù)字

、

符號等

。●結(jié)構(gòu)化數(shù)據(jù)用二維表結(jié)構(gòu)表示時

,

一般用一行數(shù)據(jù)刻畫一個實體

,

而每一列表示實體的某一個屬性特征

?!窠Y(jié)構(gòu)化數(shù)據(jù)的存儲

、

排列有規(guī)律

易于處理

?!裨谏虅?wù)活動中

典型的結(jié)構(gòu)化數(shù)據(jù)包括商品的價格

、

銷量等數(shù)值型1

.

數(shù)據(jù)類型●(1)結(jié)構(gòu)化

半結(jié)構(gòu)化

、

非結(jié)構(gòu)化數(shù)據(jù)●半結(jié)構(gòu)化數(shù)據(jù)●

指并非二維表形式能夠存儲的

,

但是有基本固定結(jié)構(gòu)模式的數(shù)據(jù)

?!?/p>

屬于同一類的實體可以有不同的屬性

,

且屬性的順序也可以不同

。●

常見的半結(jié)構(gòu)化數(shù)據(jù)有XML

、HTML

、JSON等

?!?/p>

例如

在電展示的商品信息1

.

數(shù)據(jù)類型●(1)結(jié)構(gòu)化

、

半結(jié)構(gòu)化

非結(jié)構(gòu)化數(shù)據(jù)●非結(jié)構(gòu)化數(shù)據(jù)●

指沒有固定結(jié)構(gòu)的數(shù)據(jù)

,

如文檔

、

圖片

、視頻

音頻等數(shù)據(jù)

。●

對于非結(jié)構(gòu)化數(shù)據(jù)

,

一般存儲其二進(jìn)制的數(shù)據(jù)格式,●

例如商品的評論文本

、介紹圖片等

。1

.

數(shù)據(jù)類型●

(

2

)離散型

連續(xù)型數(shù)據(jù)●

離散型數(shù)據(jù)·是指數(shù)值只能用自然數(shù)或整數(shù)單位計算的數(shù)據(jù)·例如消費者人數(shù)

、商品個數(shù)

、評論數(shù)量

、消費者評論打分等

。

·這類數(shù)據(jù)一般由計數(shù)方法獲取

。●

連續(xù)型數(shù)據(jù)·

能夠在相應(yīng)范圍內(nèi)任意取值

,

例如消費者購買金額

、評論時間等

。2

.

數(shù)據(jù)分析類型●

(1

)

析●在商務(wù)數(shù)據(jù)分析中

,描述型分析是將歷史數(shù)據(jù)進(jìn)行定性或定量的描述

,

得出諸如單

日平均銷量

、

月度銷量總和等匯總數(shù)據(jù)

。●基于描述型分析

,

可以比較不同時間

、不同地區(qū)的表現(xiàn)

?!?/p>

(

2)

析●在商務(wù)數(shù)據(jù)分析中

,

驗證型分析通常用來驗證決策的后果

,

例如技術(shù)改進(jìn)

、策略變化、

產(chǎn)品升級等行為的發(fā)生是否達(dá)到預(yù)期目標(biāo)

?!?/p>

(

3

)

預(yù)

析●在商務(wù)數(shù)據(jù)分析中

,

預(yù)測型分析則是通過分析過去歷史數(shù)據(jù)和當(dāng)前相關(guān)的數(shù)據(jù)

,

對未

來可能出現(xiàn)的市場環(huán)境變化

、用戶痛點等關(guān)鍵問題進(jìn)行預(yù)測

。3

.

數(shù)據(jù)分析方法●

(

1

)

描述統(tǒng)計●

描述統(tǒng)計是通過圖

、表等方式

,

對數(shù)據(jù)進(jìn)行整理

、分析

,

揭示數(shù)據(jù)的分布情況

、數(shù)字特征

、變量關(guān)系,

的是尋找數(shù)據(jù)中蘊(yùn)含的規(guī)律

。●

描述統(tǒng)計是最基礎(chǔ)的分析方法

,

它能夠讓我們對數(shù)據(jù)集有一個直觀的認(rèn)識

,

方便進(jìn)行后續(xù)的分析

?!癖热?/p>

,

客戶收入?yún)^(qū)間統(tǒng)計●

(

2

)

時間序列分析●

時間序列分析側(cè)重研究銷量

、價格等時間序列數(shù)據(jù)的互相依賴關(guān)系

?!?/p>

基本原理是:

事物發(fā)展有一定的延續(xù)性

利用過去的數(shù)據(jù)可以推測未來發(fā)展趨勢

?!癖热?/p>

,

預(yù)測價格和銷量3

.

數(shù)據(jù)分析方法●

(

3

)

回歸分析●

回歸分析是一種預(yù)測性的建模技術(shù)

,

它研究的是決策問題和影響因素之間的關(guān)系

,

多用于預(yù)測分析

?!?/p>

相比于機(jī)器學(xué)習(xí)進(jìn)行預(yù)測的方法

回歸分析的優(yōu)勢在于可以定量地揭示某個影響因素對結(jié)果有多大的影

?!?/p>

例如

研究產(chǎn)品的受歡迎程度

?!?/p>

(

4

)

機(jī)器學(xué)習(xí)●

機(jī)器學(xué)習(xí)是一門交叉學(xué)科

,

涉及概率論

、

統(tǒng)計學(xué)

、算法等理論

?!?/p>

它的核心是使用算法解析數(shù)據(jù)

,

模擬人類的學(xué)習(xí)行為

,

對某件事情做出決定或預(yù)測

?!?/p>

例如

對用戶進(jìn)行細(xì)分

。3

.

數(shù)據(jù)分析方法●

(

5

)

社會網(wǎng)絡(luò)分析●

社會網(wǎng)絡(luò)是社會個體之間通過社會關(guān)系形成的網(wǎng)絡(luò)體系

?!?/p>

從分析對象來看

社會網(wǎng)絡(luò)分析既可分析網(wǎng)絡(luò)中單獨節(jié)點的特性(如重要性)

,

也可以分析整個網(wǎng)絡(luò)

的特性(如連通性)

?!?/p>

例如

用戶社區(qū)分析●

(

6

)

復(fù)雜數(shù)據(jù)分析●

復(fù)雜數(shù)據(jù)分析方法可以將文本

、

圖像

、視頻等非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)為計算機(jī)可以理解和計算的數(shù)據(jù)

,

并參與

到建模中

?!?/p>

例如消費者評論數(shù)據(jù)分析第二節(jié)

商務(wù)分析理論●

1.4P理論●

4

P

理論為我們在進(jìn)行商務(wù)數(shù)據(jù)分析時如何確定分析對象和營銷因素提供了重要的理論參考

?!?/p>

產(chǎn)品Product:

對產(chǎn)品進(jìn)行數(shù)據(jù)分析時

,

需要圍繞理論中對于產(chǎn)品特異性的要求

抓住產(chǎn)品的獨特

之處進(jìn)行著重分析

。●

價格Pr

ice

對于不同種類的產(chǎn)品

,

要根據(jù)產(chǎn)品特點

市場定位制定價格

。對顧客進(jìn)行數(shù)據(jù)分析時

,

需要圍繞各個屬性和行為特征

,

對顧客進(jìn)行類別劃分

從而為個性化定價和推廣提供依據(jù)

?!?/p>

渠道Place

建立恰當(dāng)?shù)姆咒N渠道

,

能夠增加企業(yè)利潤

。渠道所產(chǎn)生的數(shù)據(jù)

,

例如經(jīng)營平臺的廣告投

、銷售記錄

、訂單的密集程度等都是進(jìn)行商務(wù)數(shù)據(jù)分析時需要考量的因素

。●

促銷Promotion

企業(yè)注重通過銷售行為的改變來刺激消費者

,

以短期的行為促成消費的增長

銷方式設(shè)計是商業(yè)數(shù)據(jù)分析的一個重要任務(wù)

。2

.

用戶畫像●

用戶畫像是一種根據(jù)用戶的個人屬性

、產(chǎn)品喜好

、

消費特征等信息抽象出來的標(biāo)簽化模型

。

通過

用戶畫像

可以有效地將用戶抽象成一個標(biāo)簽集合

,

集合中的標(biāo)簽代表了用戶的各方面屬性

?!?/p>

構(gòu)建用戶畫像時首先需要收集數(shù)據(jù)

,

形成某些基礎(chǔ)數(shù)據(jù)標(biāo)簽;同時可以針對某一主題

,

建模分析

用戶大概率可能采取的行為

,

進(jìn)而根據(jù)行為特征為用戶構(gòu)建畫像;

還可以圍繞某一個決策

,

綜合

多個模型分析的結(jié)果

,

構(gòu)建畫像

。2

.

用戶畫像●

為了更加立體地反映用戶特征

,

在構(gòu)建用戶畫像的時候

,

可以分層次地建立多級指標(biāo)

。3

.

用戶點擊流分析●

用戶點擊流(Click

stream)

分析是指在獲得電商平臺用戶基本操作數(shù)據(jù)的情況下

,

對用戶的點擊

、

瀏覽

、加入購物車

、購買等行為進(jìn)行統(tǒng)計

分析

,

從中發(fā)現(xiàn)用戶行為規(guī)律

?!?/p>

這些規(guī)律首先可以對用戶的下一步行為進(jìn)行預(yù)測

,

然后

,

將這些規(guī)律與營銷策略等相結(jié)合

可以

對用戶的行為進(jìn)行干預(yù)

?!?/p>

另外

,

用戶行為分析也可以幫助評價目前的網(wǎng)絡(luò)營銷策略

,

指導(dǎo)未來營銷活動的制定

。4

.

顧客價值●

對企業(yè)而言

實現(xiàn)所有顧客的個性化產(chǎn)品或服務(wù)

,

其成本是無法承受的

。對顧客區(qū)分的主要依據(jù)

是顧客能夠為企業(yè)提供的價值

?!?/p>

顧客當(dāng)前為企業(yè)貢獻(xiàn)的價值

,

根據(jù)銷量高低對顧客進(jìn)行排序

,

重點分析排名靠前的顧客特點

供相應(yīng)的服務(wù)產(chǎn)品

。●

通常這類顧客會服從80-20分布

。4

.

顧客價值●

顧客當(dāng)前價值和潛在價值兩個維度

,

在一個二維坐標(biāo)里可以將客戶分為四類:

I類

、II類

、

III

類和IV類

?!?/p>

企業(yè)針對四類顧客提供不同的服務(wù)

例如IV類客戶既有很高的當(dāng)前價值也有很大的潛在價值,是對企業(yè)最有價值的一類客戶

。4

.

顧客價值●

RFM理論●

R(rec

en

cy)

代表最近一次購物距離當(dāng)前的時間長短

,

F(Frequency)

代表一段時間內(nèi)的購物頻

,

M(Monetary)

代表購物金額

?!?/p>

根據(jù)顧客在這三個指標(biāo)上的綜合表現(xiàn)

對顧客進(jìn)行細(xì)分

。第三節(jié)

數(shù)據(jù)分析主要應(yīng)用●

在商務(wù)領(lǐng)域中

,

通過數(shù)據(jù)分析可以監(jiān)控和管理整個運營

,

可以通過數(shù)據(jù)了解用戶

改進(jìn)產(chǎn)品

服務(wù)

、

提高運營效率

、

降低成本

?!?/p>

數(shù)據(jù)分析在商務(wù)領(lǐng)域的應(yīng)用主要集中在以下幾大方面

。1

.

市場營銷●

(

1

)

用戶細(xì)分●

客戶細(xì)分就是根據(jù)客戶的特征信息(年齡

、性別

、

收入

受教育程度

、購買金額等)

將客戶劃分成不同

的群體

.●

每個群體中的客戶具有相同或相似的特征

,

特征相似的客戶群具有相似的潛在需求;

而不同群體之間的

客戶特征差異較大

。●由此可以針對不同群體的客戶提供有一定差異的營銷策略和產(chǎn)品服務(wù)

提升客服和營銷活動效率

降低成

。1

.

市場營銷●

(

2

)

用戶行為分析●

不同的用戶群體具有互不相同的行為習(xí)慣

,

精準(zhǔn)確定不同用戶群的行為特點

,

提供符合其特征的

個性化服務(wù)

?!?/p>

基于用戶行為分析

可以進(jìn)一步對用戶進(jìn)行流失分析

、

生命周期分析

、影響力分析

、

價值分析等

。1

.

市場營銷●

(

3

)

銷量預(yù)測●

通過對銷量進(jìn)行預(yù)測

,

可以為商家提供參考

,

商家可以據(jù)此制定合理的采購計劃

、

配置合適的庫存

在降低成本

的同時

,

提前對銷售變化做好準(zhǔn)備

?!?/p>

(

4

)行業(yè)競爭和行情分析●

數(shù)據(jù)分析可以用來監(jiān)測和分析對手行業(yè)的產(chǎn)品特性和用戶反應(yīng)

?!?/p>

通過收集行業(yè)主要競爭對手的銷售情況和銷售策略

以及當(dāng)前市場宏觀變量

可以有效地掌握當(dāng)前市場行情和未

來市場預(yù)期

。2

.

運營管理●

(

1

)

運營監(jiān)控●

(

2

)

決策支持●

(

3

)量化運營效能3

.

產(chǎn)品研發(fā)●

(

1

)

產(chǎn)品優(yōu)化支持●

企業(yè)可以在銷售之前就能夠獲取客戶反饋信息

獲得明確的用戶需求

,

實現(xiàn)了

Pull

”的方式

。●

還可以基于數(shù)據(jù)對相關(guān)業(yè)務(wù)線產(chǎn)品進(jìn)行全面的分析

,

包括用戶分析

、

營收分析

、行為分析

、活動效果

評估等

從而更加科學(xué)地為產(chǎn)品優(yōu)化和業(yè)務(wù)運營提供支持

?!?/p>

(

2

)新產(chǎn)品研發(fā)支持●

通過分析目標(biāo)用戶喜好

收集當(dāng)下熱門產(chǎn)品和功能

可以為新產(chǎn)品的開發(fā)提供決策依據(jù)和方向

,

以用

戶和市場真實需求為基礎(chǔ)

設(shè)計更加符合消費喜好的產(chǎn)品

?!?/p>

還可以針對特定用戶群體

設(shè)計差異化產(chǎn)品

個性化地滿足不同用戶群的特殊需求

,

提高產(chǎn)品吸引力

的同時增加用戶滿意度和忠誠度

。第

部分商務(wù)數(shù)據(jù)分析基本概念與框架(

兩章)第一章

商務(wù)數(shù)據(jù)分析基本概念第二章

商務(wù)數(shù)據(jù)分析框架第二章

商務(wù)數(shù)據(jù)分析框架商務(wù)數(shù)據(jù)分析框架●

商務(wù)數(shù)據(jù)分析框架分為六個模塊

分別為問題明確

、

數(shù)據(jù)理解

、

數(shù)據(jù)預(yù)處理

、模型建立

、模型評

價和模型發(fā)布

這是一個明確商業(yè)目的

進(jìn)行數(shù)據(jù)的收集

、

整理

、加工和分析

,

提煉出有價值信

息的過程

。1

.問題明確●

問題明確是最開始同時也是最重要的一個環(huán)節(jié)

,

這一環(huán)節(jié)的確定嚴(yán)重影響著后續(xù)工作是否有意義

?!?/p>

在數(shù)據(jù)分析之前明確數(shù)據(jù)對象是誰

,

數(shù)據(jù)分析的目

的是什么

,

解決什么樣的業(yè)務(wù)問題

。2

.

數(shù)據(jù)理解●

數(shù)據(jù)理解包括數(shù)據(jù)收集和統(tǒng)計描述

。●

數(shù)據(jù)收集是按照第一環(huán)節(jié)的問題和分析思路

,

有目的性地收集

、整合相關(guān)數(shù)據(jù)的過程

,

它是

數(shù)據(jù)分析的重要基礎(chǔ)

。●

常見的數(shù)據(jù)收集渠道有內(nèi)部渠道和外部渠道

。

數(shù)據(jù)規(guī)模和數(shù)據(jù)靈活性也在不斷變化

,

從簡單

的數(shù)值數(shù)據(jù)到文本數(shù)據(jù)再到音頻

、視頻數(shù)據(jù)均可以收集到

?!?/p>

數(shù)據(jù)的統(tǒng)計描述主要是對數(shù)據(jù)繪制圖表進(jìn)行統(tǒng)計分析

簡單地分析數(shù)據(jù)的數(shù)量和質(zhì)量

,

判斷

收集到的數(shù)據(jù)能否滿足問題的分析目的

,

以及發(fā)現(xiàn)哪些數(shù)據(jù)值得進(jìn)一步分析

?!?/p>

雖然統(tǒng)計分析比較簡單

,

但它可以實現(xiàn)很多功能

。3

.

數(shù)據(jù)預(yù)處理●

數(shù)據(jù)預(yù)處理是對收集到的數(shù)據(jù)繼續(xù)進(jìn)行加工

、

整理

,

以便開展后期的模型建立

它是數(shù)據(jù)分析必

不可少的階段

?!?/p>

這一階段是比較復(fù)雜同時也是較為占用時間的

但它必不可少

,

在一定程度上影響了數(shù)據(jù)質(zhì)量的

保證以及后期模型的表現(xiàn)

?!?/p>

數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)清洗

、

數(shù)據(jù)變換

、

數(shù)據(jù)集成

、

數(shù)據(jù)規(guī)約和特征選擇等

。4

.

模型建立●

模型建立是數(shù)據(jù)分析的核心步驟

,

通過具體的模型

,

對數(shù)據(jù)進(jìn)行分析

發(fā)現(xiàn)數(shù)據(jù)中隱藏的規(guī)律關(guān)

系和模式

?!?/p>

模型建立首先要進(jìn)行模型選擇

,

根據(jù)不同的業(yè)務(wù)問題需求在眾多模型中選擇出最適合的模型

、

合適的參數(shù)配置

。●

建立模型實際上就是找到在這個模型的情境下輸入和輸出之間的關(guān)系模式

。

需要觀察已有的數(shù)據(jù),

使用已有的一些常用關(guān)系模式對數(shù)據(jù)進(jìn)行擬合

,

建立模型

。4

.

模型建立●(1)數(shù)據(jù)集

、

訓(xùn)練集

、驗證集

測試集●

數(shù)據(jù)集:

數(shù)據(jù)集合

,

模型的建立有兩方面的考慮:

其一是模型數(shù)據(jù)的維度

,

其二是數(shù)據(jù)的數(shù)量

?!?/p>

訓(xùn)練集:

用于建立模型的數(shù)據(jù)集

?!?/p>

驗證集:

用于調(diào)整模型參數(shù)

、對模型的能力進(jìn)行初步評價的數(shù)據(jù)

?!?/p>

測試集:

用于評價已經(jīng)建立的模型的表現(xiàn)

。4

.

模型建立●(1)數(shù)據(jù)集

、

訓(xùn)練集

、驗證集

、

測試集●

數(shù)據(jù)集:

數(shù)據(jù)集合

,

模型的建立有兩方面的考慮:

其一是模型數(shù)據(jù)的維度

其二是數(shù)據(jù)的數(shù)量

。●

訓(xùn)練集:

用于建立模型的數(shù)據(jù)集

。●

驗證集:

用于調(diào)整模型參數(shù)

、對模型的能力進(jìn)行初步評價的數(shù)據(jù)

?!?/p>

測試集:

用于評價已經(jīng)建立的模型的表現(xiàn)

。4

.

模型建立●(2)

數(shù)據(jù)劃分方法●

根據(jù)樣本的大小不同可以做出不同的劃分選擇

,

但是測試集必須

保證未知并且保持與訓(xùn)練集

、驗證集的獨立性

。4

.

模型建立●(2)

數(shù)據(jù)劃分方法

●留出法●

將所有數(shù)據(jù)按照一定比例分為互斥的兩部分●

在分割數(shù)據(jù)的時候

需要保證這兩部分的數(shù)據(jù)分布是盡可能一致的

?!?/p>

使用留出法時

,

一般需要進(jìn)行若干次隨機(jī)劃分并重復(fù)進(jìn)行實驗評估后取平均值

然后將其作為最

終的評估結(jié)果

?!?/p>

交叉驗證法●

將數(shù)據(jù)均勻地分為大小相似且互斥的k份數(shù)據(jù)子集

,

在每次訓(xùn)練時

,

取其中的一份作為測試集其余

的k-1份作為訓(xùn)練集

。進(jìn)行k次訓(xùn)練和測試

,

得到k個測試結(jié)果

對這k個測試結(jié)果取平均

,

將其作

為最后的測試結(jié)果

?!?/p>

交叉驗證法評估結(jié)果的穩(wěn)定性在很大程度上與k有關(guān)

通常也叫作

k折交叉驗證

”。4

.

模型建立●(

3

)

過擬合

、

欠擬合與調(diào)參

誤差●

在使用訓(xùn)練集擬合輸入和輸出之間的關(guān)系時

總會存在誤差

,

這種在訓(xùn)練模型時產(chǎn)生的誤差叫作

訓(xùn)練誤差或者經(jīng)驗誤差

,

在訓(xùn)練集之外的測試數(shù)據(jù)上進(jìn)行預(yù)測產(chǎn)生的誤差叫作泛化誤差

?!?/p>

建模的最終目標(biāo)并不是使訓(xùn)練誤差小

而是使模型在測試數(shù)據(jù)上的泛化誤差更小

,

即建立一個可

以被廣泛應(yīng)用在其他數(shù)據(jù)集上的模型

?!?/p>

過擬合●

模型過多地學(xué)習(xí)到了僅存在于訓(xùn)練樣本中的關(guān)系

由于這些關(guān)系在其他樣本中可能是不存在的

,

模型在其他樣本上的表現(xiàn)將遠(yuǎn)不如在訓(xùn)練樣本上的表現(xiàn)

,

即泛化誤差大

?!?/p>

原因:

學(xué)習(xí)能力過于強(qiáng)大

建立了復(fù)雜度過高的模型

。●

解決方法:

在構(gòu)建模型時對模型進(jìn)行控制和修剪

欠擬合●

模型沒有表達(dá)出樣本中普遍存在的關(guān)鍵關(guān)系模式

,

導(dǎo)致在訓(xùn)練集上的訓(xùn)練誤差都較大

。●

原因:

學(xué)習(xí)能力過于低下

?!?/p>

解決方法:

通過增加訓(xùn)練迭代次數(shù)4

.

模型建立●(

3

)

過擬合

欠擬合與調(diào)參●

調(diào)參:

對模型進(jìn)行參數(shù)的配置●

在模型的訓(xùn)練過程中需要根據(jù)訓(xùn)練集進(jìn)行參數(shù)設(shè)置

,

這些在訓(xùn)練過程中確定的參數(shù)稱為普通參數(shù)

。模

型的有些參數(shù)需要人工設(shè)定

,

被稱為超參數(shù)

?!?/p>

一般調(diào)參和模型的選擇通常是在驗證集上進(jìn)行的

,

多次使用驗證集進(jìn)行不斷調(diào)參并監(jiān)控模型是否出現(xiàn)

過擬合的情況

,

最終得到表現(xiàn)最好的模型

,

用于測試集的評估

。4

.

模型建立●(

4

)有監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)●

有監(jiān)督學(xué)習(xí)●

一些模型建立的目

的是給數(shù)據(jù)打上“

標(biāo)簽

,

當(dāng)構(gòu)建模型時使用的訓(xùn)練集必須要存在這樣的標(biāo)簽,

才能在特征和標(biāo)簽之間建立聯(lián)系

。●

學(xué)習(xí)時有

正確答案

”●

無監(jiān)督學(xué)習(xí)●

使用不帶標(biāo)簽的數(shù)據(jù)建立模型

,

得到了我們想要獲得的信息

,

這種學(xué)習(xí)任務(wù)稱為無監(jiān)督學(xué)習(xí)

?!?/p>

學(xué)習(xí)時無

正確答案

”5

.

模型評價●

模型評價主要是指對模型在測試集中的泛化性能進(jìn)行評估

。●

不同類型的模型使用不同的評價標(biāo)準(zhǔn)

。●

相同類型的模型在不同的評價標(biāo)準(zhǔn)上的表現(xiàn)可能不同

?!?/p>

在具體的研究中

要根據(jù)研究的問題選擇合適的評價標(biāo)準(zhǔn)

。6

.

模型發(fā)布●

執(zhí)行完上述步驟之后

,

得到最終表現(xiàn)最好的模型和參數(shù)配置

,

將其應(yīng)用于后續(xù)未知數(shù)據(jù)的分

析中

?!?/p>

有時會根據(jù)其業(yè)務(wù)需求

,

將模型部署集成到相應(yīng)的系統(tǒng)中進(jìn)行使用

。商務(wù)數(shù)據(jù)分析整體框架第三章

數(shù)據(jù)獲取與數(shù)據(jù)理解第四章

數(shù)據(jù)預(yù)處理第五章

計量模型第六章

數(shù)據(jù)挖掘分類預(yù)測模型第七章

數(shù)據(jù)挖掘聚類與關(guān)聯(lián)規(guī)則模型第八章

社會網(wǎng)絡(luò)分析模型第九章

復(fù)雜數(shù)據(jù)分析方法第十章

數(shù)據(jù)可視化第二部分商務(wù)數(shù)據(jù)分析

常用方法第三章數(shù)據(jù)獲取與數(shù)據(jù)理解第

節(jié)

數(shù)據(jù)獲取●

數(shù)據(jù)獲取主要有兩個渠道●

一個是直接獲取數(shù)據(jù)

,

即自

己在經(jīng)營過程中累積的數(shù)據(jù)

或者通過實驗或調(diào)查直接獲得的數(shù)據(jù)

,

這些數(shù)據(jù)被稱為一手?jǐn)?shù)據(jù)

.●

另一個是間接獲取數(shù)據(jù)

指的是數(shù)據(jù)是由其他人通過各種形式搜集的

使用者僅僅是找到這些數(shù)

據(jù)并加以加工和使用

,

間接地獲取了這些數(shù)據(jù)

這些數(shù)據(jù)通常被稱為二手?jǐn)?shù)據(jù)

。1

.

直接獲取●

(

1

)

經(jīng)營數(shù)據(jù)●

企業(yè)在經(jīng)營過程中積累了大量數(shù)據(jù)

包括運營

、人事

、財務(wù)

、供應(yīng)鏈

、客戶管理等

。這些數(shù)據(jù)通常

存儲在企業(yè)信息系統(tǒng)的數(shù)據(jù)庫中

,

是企業(yè)經(jīng)營的真實反映

。●

獲取相對比較簡單

,

但由于經(jīng)營數(shù)據(jù)通常涉及企業(yè)的競爭優(yōu)勢

,

所以企業(yè)外部人員甚至不同部門的

人員很難得到

?!?/p>

(

2

)

市場調(diào)查●

市場調(diào)查是指用科學(xué)的方法(引用正規(guī))

,

有目

系統(tǒng)地搜集

、記錄

、整理和分析市場現(xiàn)狀的數(shù)

據(jù)獲取和分析方法

。

市場調(diào)查通常比較適用于社會問題和企業(yè)經(jīng)濟(jì)問題

。1

.

直接獲取●

(

3

)

試驗●

在試驗中

研究者圍繞想要解決的問題

設(shè)定相應(yīng)情景

,

記錄不同條件下相應(yīng)的試驗觀測結(jié)果

對試驗結(jié)果展開分析

?!?/p>

(

4

)

爬蟲●

更多數(shù)據(jù)被保留在了各個網(wǎng)頁上

,

使用者可以針對自己的需要

利用爬

蟲技術(shù)自行對網(wǎng)頁上的數(shù)據(jù)進(jìn)行爬取

。2

.

間接獲取●

從相關(guān)渠道獲取與研究內(nèi)容有關(guān)的而且已經(jīng)存在的二手?jǐn)?shù)據(jù)

?!?/p>

二手?jǐn)?shù)據(jù)的優(yōu)勢:●

二手?jǐn)?shù)據(jù)獲取過程通常時間短

、成本低●

二手?jǐn)?shù)據(jù)除了可以用來分析研究問題

還可以從中剖析研究問題的背景

?!?/p>

二手?jǐn)?shù)據(jù)的局限性●

二手?jǐn)?shù)據(jù)通常不是為使用者想要進(jìn)行研究的問題而收集的

,

所以與直接收集數(shù)據(jù)相比

,

在和研究問題的

契合度上必定有所欠缺

。●

在使用二手?jǐn)?shù)據(jù)時

,

提前對數(shù)據(jù)進(jìn)行評估是非常必要的

?!?/p>

在使用二手?jǐn)?shù)據(jù)時

避免錯用

、誤用

、濫用

?!?/p>

在引用二手?jǐn)?shù)據(jù)時

,

應(yīng)注明數(shù)據(jù)的來源

,

以尊重他人的勞動成果

。2

.

間接獲取●

(1)

文獻(xiàn)●

相關(guān)專業(yè)期刊

、

學(xué)術(shù)會議

、專業(yè)圖書的文獻(xiàn)資料中提供了一些可供使用或參考的數(shù)據(jù)資料

。文獻(xiàn)中的數(shù)

據(jù)往往經(jīng)過了原作者的處理

,

對使用者來說省去了數(shù)據(jù)處理的過程

,

但是文獻(xiàn)數(shù)據(jù)的計算口徑有時難以

獲知

,

適用性相對較弱

。●

(

2

)學(xué)術(shù)單位的數(shù)據(jù)庫●

為了研究需要

,

大學(xué)等學(xué)術(shù)單位提供了一些以數(shù)據(jù)庫為存儲形式的數(shù)據(jù)集

,

供公眾訪問獲取

。這些數(shù)據(jù)

集來自實踐

,

體量通常比較大

,

涵蓋的范圍也比較廣

?;谶@些共同的數(shù)據(jù)集

研究者們可以更方便公

正地比較各自所提出的數(shù)據(jù)分析策略

、方法的優(yōu)劣

因此學(xué)術(shù)數(shù)據(jù)庫集被眾多研究者青睞

。2

.

間接獲取●

(

3

)

統(tǒng)計部門機(jī)構(gòu)●

統(tǒng)計部門和各級政府部門定期公布的有關(guān)資料中提供了宏觀統(tǒng)計數(shù)據(jù)

。對于使用者了解所感興趣的領(lǐng)域

的整體情況是有很大幫助的

,

但通常并不能用于解決具體的決策問題

。●

(

4

)

第三方機(jī)構(gòu)●

具有數(shù)據(jù)資源優(yōu)勢的數(shù)據(jù)源提供商

、

咨詢機(jī)構(gòu)以及一些自身有數(shù)據(jù)積累的互聯(lián)網(wǎng)企業(yè)都已經(jīng)成為大數(shù)據(jù)

產(chǎn)業(yè)中能夠提供海量數(shù)據(jù)的中流砥柱

。在第三方機(jī)構(gòu)獲取的數(shù)據(jù)比較完整

,

有豐富的描述

通常需要付費才能獲取

。●(

5

)

國內(nèi)外各類數(shù)據(jù)挖掘競賽●

國內(nèi)外了各類數(shù)據(jù)挖掘競賽中都提供了大量真實的數(shù)據(jù)集

,

這些數(shù)據(jù)通常有實際的應(yīng)用背景和明確的使

用目的

。第二節(jié)

數(shù)據(jù)描述●

也稱為描述性數(shù)據(jù)分析

,

通常指對數(shù)據(jù)的整體分布情況

、

數(shù)據(jù)各特征之間的關(guān)系進(jìn)行估計和

描述

,

從而有利于了解數(shù)據(jù)的整體情況

,

發(fā)現(xiàn)顯著特點

為進(jìn)一步的數(shù)據(jù)分析提供重要的思

?!?/p>

數(shù)據(jù)描述通常可以從三個方面進(jìn)行:

集中趨勢分析

、

離散程度分析和分布形狀分析1

.

集中趨勢分析●

集中趨勢是指一組數(shù)據(jù)向某一中心值靠攏的程度

是對數(shù)據(jù)一般水平的概括性度量

,

它反映了

組數(shù)據(jù)中心點的位置所在

?!?/p>

(1)

均值●

是最常用的也是最有效的度量集中趨勢的指標(biāo)

。將一組數(shù)據(jù)的總和除以數(shù)據(jù)數(shù)量

,

便能得到均值

。●

在有些情況下

,

每個數(shù)據(jù)的重要程度或者意義可能不是相同的

,

這時候需要對不同的數(shù)據(jù)賦予不同的權(quán)

。這樣根據(jù)權(quán)重計算得到的平均數(shù)叫作加權(quán)平均數(shù)或加權(quán)算術(shù)均值

?!?/p>

均值能夠充分利用所有數(shù)據(jù)的信息

但也正是因為這種特性

均值非常容易受到極端值的影響

。1

.

集中趨勢分析●

(

2

)

中位數(shù)●

一組數(shù)據(jù)排序之后處于中間位置的值

它把數(shù)據(jù)較大的一半和較小的一半分開

?!?/p>

是一個由位置決定的值

因此即便數(shù)據(jù)中存在極端值

,

中間位置上的數(shù)值也不會受到影響

。對于存在極

值或非對稱數(shù)據(jù)的情況來說

,

中位數(shù)是一個比均值更好的度量

?!?/p>

(

3

)

分位數(shù)●

分位數(shù)是將總體的全部數(shù)據(jù)遞增排列后

處于各等分位置的數(shù)據(jù)點

。

分位數(shù)將數(shù)據(jù)劃分為基本上規(guī)模相

等的區(qū)域

?!?/p>

如果分為四部分

,

則得到的數(shù)據(jù)點就是四分位數(shù)

。在各類分位數(shù)中

,

常用的是四分位數(shù)

。相比于中位數(shù)

只有一個

,

四分位數(shù)有兩個

能夠更充分地反映數(shù)據(jù)的集中程度

。1

.

集中趨勢分析●

(

4

)

眾數(shù)●

一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值

不會受到數(shù)據(jù)中極端值的影響

?!?/p>

一組數(shù)據(jù)可能各不相同

既可能不存在眾數(shù)

,

也可能存在多個眾數(shù)

。

一般來說

,

數(shù)據(jù)量較大的時候眾數(shù)

才有意義

,

將眾數(shù)作為數(shù)據(jù)整體特征才有代表性

。●

對比前面的集中指標(biāo)

,

眾數(shù)不涉及數(shù)值計算

因此

,

對于類別數(shù)據(jù)

,

眾數(shù)是常用的集中程度測度

。2

.

離散程度分析●

離散程度指的是一組數(shù)據(jù)遠(yuǎn)離其中心值的程度

。

數(shù)據(jù)的離散程度分析主要是用來反映一組數(shù)據(jù)的

差異程度

?!?

1

)異眾比率(Variation

ratio)●

指的是非眾數(shù)數(shù)據(jù)的數(shù)量占數(shù)據(jù)總數(shù)的比例

。

異眾比率越小

表示眾數(shù)所占的比例越大

,

眾數(shù)對于數(shù)據(jù)

的代表程度越好

?!?/p>

(

2

)

極差(Range)●

也稱全距

,

指的是數(shù)據(jù)最大值與最小值之差

。

因為極差選取最值來進(jìn)行計算

,

所以必然會受到極端值的

影響

。此外

,

極差的計算只考慮了最大最小值

遺漏了中間部分的更多信息

,

換句話說

只用兩個數(shù)據(jù)表示一組數(shù)據(jù)集合的特點

,

一般情況下不能準(zhǔn)確地描述

。2

.

離散程度分析●(

3

)四分位差(Quartile

deviation)●

指的是一組數(shù)據(jù)的上四位數(shù)和下四分位數(shù)之差

,

反映了數(shù)據(jù)分布的中心

、散布情況的特征

,

它表示的是

中間50%的數(shù)據(jù)的離散程度

因此也不會受到極端值的影響

。

四分位數(shù)越小

表示中間的一半數(shù)據(jù)越

集中

?!?

4

)平均差(Mean

deviation)●

指的是一組數(shù)據(jù)中各個值與其平均數(shù)的差的絕對值的平均數(shù)

。平均差越大

,

表明樣本值與均值差異越大,

數(shù)據(jù)的離散程度越大

。平均差充分運用了數(shù)據(jù)中的每個樣本值

,

因此是一個能較全面反映數(shù)據(jù)離散程度

的指標(biāo)

。2

.

離散程度分析●(

5

)方差或標(biāo)準(zhǔn)差(Variance)●

指的是數(shù)據(jù)中各個值與其平均數(shù)離差的平方的平均數(shù)

。

能夠反映出數(shù)據(jù)偏離均值的程度

是衡量數(shù)據(jù)離

散程度最常用的指標(biāo)

。方差或標(biāo)準(zhǔn)差越小

表示數(shù)據(jù)越集中

,

數(shù)據(jù)的離散程度越小

?!?

6

)

變異系數(shù)(Coefficientofvariation)●

也叫作離散系數(shù)

,

它是標(biāo)準(zhǔn)差與均值之比

。變異系數(shù)可以用來比較不同數(shù)據(jù)集之間的離散程度

。變異系

數(shù)越小

,

表明數(shù)據(jù)的離散程度越小

。3

.

分布形狀分析●

離散程度和集中程度的度量方式選擇是否恰當(dāng)

,

與數(shù)據(jù)分布關(guān)系密切

。在分析之前首先觀察數(shù)據(jù)

的分布形狀

,

對于選擇合適的指標(biāo)對數(shù)據(jù)的整體情況進(jìn)行描述

,

避免產(chǎn)生錯誤的分析結(jié)果很有必

?!?/p>

(

1

)偏態(tài)(Skewness)●

是對數(shù)據(jù)分布對稱性的一種度量

通過計算數(shù)據(jù)相對于中心點的傾斜方向以及程度

,

衡量數(shù)據(jù)分布的

對稱性

,

如果一組數(shù)據(jù)是對稱的

則偏態(tài)系數(shù)為0

。●

偏態(tài)系數(shù)的正負(fù)表明了數(shù)據(jù)分布是否對稱

,

以及傾斜的方向

,

而絕對值的大小表明了傾斜的程度

。3

.

分布形狀分析●

離散程度和集中程度的度量方式選擇是否恰當(dāng)

,

與數(shù)據(jù)分布關(guān)系密切

。在分析之前首先觀察數(shù)據(jù)

的分布形狀

,

對于選擇合適的指標(biāo)對數(shù)據(jù)的整體情況進(jìn)行描述

,

避免產(chǎn)生錯誤的分析結(jié)果很有必

?!瘢?)

峰度(Kurt

os

is)●

是對數(shù)據(jù)分布峰部尖度的一種度量

峰度是和標(biāo)準(zhǔn)正態(tài)分布相比較而言的

?!?/p>

如果一組數(shù)據(jù)服從標(biāo)準(zhǔn)正態(tài)分布

則峰度系數(shù)為0;當(dāng)峰度系數(shù)大于0時

,

表明數(shù)據(jù)的分布是尖峰分布

,

數(shù)據(jù)分布較標(biāo)準(zhǔn)正態(tài)分布而言更為集中;

當(dāng)峰度系數(shù)小于0時

表明數(shù)據(jù)的分布是扁平分布

,

數(shù)據(jù)分布較標(biāo)準(zhǔn)正態(tài)分布而言更為分散

。第三章

數(shù)據(jù)獲取與數(shù)據(jù)理解第四章

數(shù)據(jù)預(yù)處理第五章

計量模型第六章

數(shù)據(jù)挖掘分類預(yù)測模型第七章

數(shù)據(jù)挖掘聚類與關(guān)聯(lián)規(guī)則模型第八章

社會網(wǎng)絡(luò)分析模型第九章

復(fù)雜數(shù)據(jù)分析方法第十章

數(shù)據(jù)可視化第二部分商務(wù)數(shù)據(jù)分析

常用方法第四章

數(shù)據(jù)預(yù)處理第

節(jié)

數(shù)據(jù)預(yù)處理●

各行各業(yè)每天的數(shù)據(jù)規(guī)模不斷增加

,

數(shù)據(jù)質(zhì)量成為重要問題

?!?/p>

這些數(shù)據(jù)被獲取之后

,

往往不能直接拿來進(jìn)行分析

需要對數(shù)據(jù)的缺失

、

異常等情況進(jìn)行判斷處

,

并結(jié)合具體分析的需要對數(shù)據(jù)進(jìn)行變換

。1

.

數(shù)據(jù)預(yù)處理的目的●

我們實際搜集到的原始數(shù)據(jù)經(jīng)常是不完全的

、

有異常的

、

冗余的

、模糊的

,

甚至矛盾的

。●

導(dǎo)致這種結(jié)果的原因也有很多種:

收集數(shù)據(jù)的設(shè)備可能出現(xiàn)故障;當(dāng)用戶不希望提交個人信息時,

可能故意輸入錯誤信息;

數(shù)據(jù)輸入

、傳輸時出現(xiàn)錯誤;

不同數(shù)據(jù)源命名約定或者所用數(shù)據(jù)代碼不

一致等等

?!?/p>

在海量的實際數(shù)據(jù)中無意義的成分也很多

,

非常不利于后續(xù)的模型以及算法的訓(xùn)練

。●

預(yù)處理的目

的是為后續(xù)的模型提供滿足要求

、

更加具有針對性的數(shù)據(jù)

,

從而提高數(shù)據(jù)分析效率和

準(zhǔn)確率

。2

.

數(shù)據(jù)預(yù)處理的主要任務(wù)●

數(shù)據(jù)清洗●

對數(shù)據(jù)中的缺失值

、異常值

、不一致等情況進(jìn)行分析和處理●

數(shù)據(jù)集成●

為了滿足數(shù)據(jù)分析需要

,

合并來自多個數(shù)據(jù)源的數(shù)據(jù)

,

并保證數(shù)據(jù)的一致性

?!?/p>

數(shù)據(jù)變換●

用各種方式變換數(shù)據(jù)原本的數(shù)值

,

使得數(shù)據(jù)集在不失真的情況下

,

更能滿足下一步處理的需要

,

主要包

括規(guī)范化

函數(shù)變化

、數(shù)據(jù)類型變化等

。●

數(shù)據(jù)規(guī)約●

產(chǎn)生更小但是能夠代表原有數(shù)據(jù)集合特點的新數(shù)據(jù)集

。主要有屬性規(guī)約

、數(shù)值規(guī)約等方法

。3

.

數(shù)據(jù)清洗●

(

1

)

缺失值分析●

缺失值是指在原始數(shù)據(jù)中由于缺少信息而造成的數(shù)據(jù)的某個或者某些屬性的值是不完全的

,

或者是不正

確的

?!?/p>

缺失值存在的原因常見的有:

信息暫時無法獲取或信息獲取的成本較高;

信息在儲存或傳輸過程中丟失;

屬性值不存在等

?!?2

)缺失值處理方法:

刪除●

方法簡單易行

、非常有效

、迅速

但是它以減少數(shù)據(jù)量為代價來換取信息的完備

,

這樣做可能會將有用

的信息一并刪除

。3

.

數(shù)據(jù)清洗●(

3

)

缺失值處理方法:

數(shù)據(jù)填充●

當(dāng)我們獲取的數(shù)據(jù)集較小時

,

更不能直接刪除數(shù)據(jù)

,

這時就需要對缺失值進(jìn)行插補(bǔ)

?!?/p>

①指定值填充●

將空值作為一種特殊的屬性值進(jìn)行處理

有可能在后期的數(shù)據(jù)分析過程中

,

算法誤以為它們有實際的意義

而導(dǎo)致模型的錯誤

。●

②使用屬性的集中度量填充●

根據(jù)數(shù)據(jù)的集中分布來填補(bǔ)缺失值

,

方法缺乏理論依據(jù)●

③插值法填充●

插值法類似于函數(shù)擬合

利用在某段區(qū)間中已知的若干點的函數(shù)值

擬合出適當(dāng)?shù)暮瘮?shù)

那么在區(qū)間上所有

點的值都可以用這個函數(shù)來近似

,

這樣對于缺失記錄

,

就可以用函數(shù)計算出的結(jié)果對缺失值進(jìn)行填補(bǔ)

。●常見的差值法有拉格朗日差值法和牛頓差值法

。3

.

數(shù)據(jù)清洗●(

3

)

缺失值處理方法:

數(shù)據(jù)填充●

④K最近鄰數(shù)據(jù)填充●

基本原理是根據(jù)與此實例相近的幾個實例的均值進(jìn)行填充

。●

此方法用相似實例取值的均值進(jìn)行插補(bǔ)

更加合理

。但是該方法引入了數(shù)據(jù)間的自相關(guān)

這可能會

給后期的模型分析造成一定的偏差

?!?/p>

⑤模型預(yù)測填充●

通過建模的方式

,

用已有值來建立變量間的模型關(guān)系

,

從而擬合出缺失值

。在這個情景下

,

數(shù)據(jù)完

整的記錄組成模型的訓(xùn)練集

,

而對缺失值的預(yù)測實際上是模型的應(yīng)用

?!?/p>

缺失值處理的方法有很多

,

各有優(yōu)劣

,

無論是以哪種方式填充

都無法避免對原數(shù)據(jù)的影響,

使得數(shù)據(jù)有偏

。3

.

數(shù)據(jù)清洗●

(

4

)

異常值分析●

異常值

,

也叫作離群點

噪聲點

,

指的是在數(shù)值

、

結(jié)構(gòu)

、特征等方面與大多數(shù)數(shù)據(jù)的表現(xiàn)顯

著不同的數(shù)據(jù)樣本

?!?/p>

產(chǎn)生異常值的常見原因:

信息錄入時出現(xiàn)人為錯誤或系統(tǒng)誤差

,

有時候環(huán)境等因素也會帶來

數(shù)據(jù)的極端變化

?!?/p>

分析異常值的常用方法:

箱線圖●

箱線圖也稱盒形圖

,

在箱線圖中標(biāo)示了代表數(shù)據(jù)分布的下四分位數(shù)

中位數(shù)和上四分位數(shù)

?!?/p>

它相對穩(wěn)定

,

包含了數(shù)據(jù)集中50%的數(shù)值

不會受到異常值的影響

。●

根據(jù)偏離程度的不同

,

箱線圖分析中將異常值分為兩類:

偏離程度較小的定義為離群值

,

偏離程度

較大的定義為極端值

。偏離上、下四分位數(shù)的程度不及極端值,但

仍然有一定偏離程度的值被判定為離群值。比上四分位數(shù)高出某范圍或比下四分位數(shù)低某范圍的值被判定為極端值?!?/p>

(

4

)

異常值分析●

箱線圖3

.

數(shù)據(jù)清洗3

.

數(shù)據(jù)清洗●(5)

異常值處理●

需要分析異常值是不是人為錯誤產(chǎn)生的

。●

如果是由于環(huán)境變化產(chǎn)生的

,

這些異常值中通常就含有有用的信息

可以進(jìn)行單獨建模等處

。●

對于人為錯誤產(chǎn)生的異常值

,

可以采用如下方法處理:●

①直接刪除●

將含有異常值的記錄直接刪除

。

該方法操作簡單

,

同直接刪除有缺失值的記錄一樣

一般適用于數(shù)

據(jù)集合較大

,

異常值占比較小的情形

?!?/p>

②用其他值替代異常值●

可以利用填補(bǔ)的方法

,

將異常值利用數(shù)據(jù)的平均值

中位數(shù)等進(jìn)行替換和修正

,

也可以通過前面介

紹的缺失值插補(bǔ)的其他方法對異常值進(jìn)行修正

。4

.

數(shù)據(jù)集成●

數(shù)據(jù)來自不同渠道并且用不同方式獲取時

,

有可能會導(dǎo)致對同一個對象的不同描述

?!?/p>

數(shù)據(jù)集成不僅將數(shù)據(jù)進(jìn)行簡單合并

而且需要同時處理數(shù)據(jù)集的冗余和不一致

,

這對于后續(xù)的分

析過程的準(zhǔn)確性和速度有很大影響

?!?/p>

(

1

)

實體識別●

每個數(shù)據(jù)來源通常有各自的數(shù)據(jù)定義和組織方法

因此

,

數(shù)據(jù)集成中經(jīng)常會遇到實體識別的問題

,

同一個對象實體在不同的數(shù)據(jù)集中有不同的名稱(異名同義)

或者同樣的名稱不對應(yīng)同一個實體(同名異義)

?!?/p>

在進(jìn)行數(shù)據(jù)實體識別時

,

不能被不規(guī)范的命名誤導(dǎo)

需要進(jìn)行業(yè)務(wù)調(diào)研

,

準(zhǔn)確地確認(rèn)個表中每個屬性

的實際含義

,

對數(shù)據(jù)表

、屬性字段等進(jìn)行統(tǒng)一的規(guī)范命名

,

完成對數(shù)據(jù)的集成

。4

.

數(shù)據(jù)集成●

(

2

)冗余和相關(guān)分析

冗余●

如果一個特征屬性可以由其他屬性導(dǎo)出或者計算得到

,

則這個特征屬性可以被認(rèn)定為冗余

?!?/p>

屬性冗余的判定依據(jù)是屬性之間是否存在較強(qiáng)的相關(guān)性

。通過檢測屬性之間的相關(guān)性

,

即進(jìn)行相關(guān)分析

就可以甄別出冗余屬性

?!?/p>

相關(guān)分析●

具體方法主要分為兩種:

1

)對于標(biāo)稱型數(shù)據(jù)

,

通常采用的方法為卡方檢驗;

2

)對于數(shù)值型數(shù)據(jù)

,

以通過相關(guān)系數(shù)或者協(xié)方差來衡量屬性之間的相關(guān)性

。數(shù)據(jù)冗余有時會提高數(shù)據(jù)分析的效率

。4

.

數(shù)據(jù)集成●

(

3

)

實例重復(fù)●

實例重復(fù):

給定的唯一的數(shù)據(jù)實體存在兩個或者多個相同的記錄實例

。重復(fù)數(shù)據(jù)會嚴(yán)重影響后續(xù)數(shù)據(jù)分

析的效果

?!?/p>

對于數(shù)據(jù)中實例重復(fù)的問題

需要調(diào)查確定每個數(shù)據(jù)集的主鍵

,

對于沒有主鍵的數(shù)據(jù)表

,

需要確定合適

的主鍵

或者對數(shù)據(jù)表進(jìn)行拆分或整合

,

從而有效地解決實例重復(fù)的問題

?!?/p>

(

4

)

數(shù)據(jù)沖突●

對于同一實體

來自不同數(shù)據(jù)源的相同的屬性值不同

?!?/p>

原因:

這可能是因為獲取信息的時間點不同

屬性值發(fā)生了變化;

可能是因為在不同的數(shù)據(jù)源中其表示

單位或者編碼不同;

相同的屬性可能抽象在不同的層次

?!?/p>

解決方法:

需要明確造成數(shù)據(jù)沖突的原因

如果是單位

、計量方法等不同

,

可以通過數(shù)據(jù)變換對數(shù)據(jù)進(jìn)

行變換整理;

如果數(shù)據(jù)沖突實在無法避免或者變換

就需要根據(jù)實際的業(yè)務(wù)需求考慮沖突數(shù)據(jù)

,

辨別出

正確的數(shù)值

。5

.

數(shù)據(jù)變換●

為了解決數(shù)據(jù)集成中的不一致問題

,

以及更容易被后續(xù)模型處理

提高模型的擬合度

,

需要將原

有數(shù)據(jù)轉(zhuǎn)換成適當(dāng)?shù)男问?/p>

?!?/p>

(

1

)

函數(shù)變換●

函數(shù)變換是指對樣本中的原始數(shù)據(jù)直接使用某些數(shù)學(xué)函數(shù)進(jìn)行變換

,

使得處理后的數(shù)據(jù)更適合模

型后續(xù)的處理

?!?/p>

選擇數(shù)據(jù)變換函數(shù)需要考量:●

變換后的數(shù)據(jù)要分布在合理的區(qū)間

,

或者說變換后的數(shù)據(jù)符合對現(xiàn)實生活中分布的認(rèn)知

?!?/p>

變換后的數(shù)據(jù)的分布特征

正負(fù)性和平穩(wěn)性等都可能會發(fā)生改變

,

所以在進(jìn)行函數(shù)變換前

應(yīng)該預(yù)判變

換后是否會影響后續(xù)數(shù)據(jù)模型的建立和分析的有效性

。5

.

數(shù)據(jù)變換●

(

2

)

規(guī)范化●

數(shù)據(jù)規(guī)范化是指將原始數(shù)據(jù)按照一定的比例縮放

,

使其落入一個較小的特定區(qū)間

。●

一般來說

,

通過數(shù)據(jù)的縮放能夠消除數(shù)據(jù)的量綱

,

消除度量單位引起的數(shù)值差異

即將屬性

數(shù)據(jù)縮放到一個特定區(qū)間

?!?/p>

①最小—最大規(guī)范化●

也稱為離散標(biāo)準(zhǔn)化

利用某屬性的最大值和最小值

,

將該屬性的取值映射到[0

,

1]之間

?!?/p>

優(yōu)點是算法操作簡單

,

且保留了原始數(shù)據(jù)存在的關(guān)系●

缺點是規(guī)范值不穩(wěn)定

,

容易受極值的影響

,

方法適用于數(shù)據(jù)比較集中的情況

。5

.

數(shù)據(jù)變換●

(

2

)

規(guī)范化●

③小數(shù)定標(biāo)規(guī)范化●

通過移動數(shù)據(jù)的小數(shù)位數(shù)

,

即除以10的某次方

將數(shù)據(jù)映射到[-1

,

1]之間

。

移動的小數(shù)位數(shù)取決

于數(shù)據(jù)中最大絕對值的位數(shù)

?!?/p>

只是移動小數(shù)點

,

不會破壞原始數(shù)據(jù)的分布結(jié)構(gòu)

,

當(dāng)然也會受到極值的影響

。5

.

數(shù)據(jù)變換●

(

3

)

離散化●

將數(shù)據(jù)從連續(xù)型數(shù)值數(shù)據(jù)轉(zhuǎn)換為離散型標(biāo)稱數(shù)據(jù)

?!?/p>

進(jìn)行數(shù)據(jù)離散化通常是為了滿足特定模型的需要

,

將數(shù)據(jù)類型從連續(xù)轉(zhuǎn)換到

,

或者在某些情況下將已有的離散型數(shù)

據(jù)進(jìn)行類別合并

減少類別數(shù)量

?!?/p>

①等寬離散化●將原始連續(xù)數(shù)據(jù)的區(qū)間劃分成具有相同寬度的子區(qū)間

,

比較簡單

,

缺點在于沒有考慮實際數(shù)據(jù)的分布情況

,

可能會導(dǎo)致離

散化之后建立的數(shù)據(jù)模型樣本不均衡

。●

②等頻離散化●根據(jù)連續(xù)型數(shù)值數(shù)據(jù)的分布劃分類別

,

劃分后的各個區(qū)間包含的數(shù)據(jù)點的個數(shù)是相等的

,

為保證各個區(qū)間包含的實例個數(shù)

相等

,

可能會將原本相同的兩個數(shù)值劃分到不同類別中

,

從而影響了后續(xù)建立模型的準(zhǔn)確性

?!?/p>

③聚類離散化●用聚類算法

根據(jù)數(shù)據(jù)的相似性將原始數(shù)據(jù)分成多個類別

,

實現(xiàn)離散化

。●效果較好的一類離散方法,●缺點:需要用戶自

己規(guī)定聚類個數(shù)

聚類的效果受到經(jīng)驗的影響

。5

.

數(shù)據(jù)變換●(

4

)

獨熱編碼(One-hot

encoding

)●

在數(shù)據(jù)集中標(biāo)稱數(shù)據(jù)有兩種常見類型:

分類的取值有大小之分

,

直接用數(shù)值表示類別

,

需要進(jìn)行轉(zhuǎn)換;

第二

,

離散特征的取值之間沒有大小之分

無法直接比較類別的差異

,

此時就需

要對特征進(jìn)行獨熱編碼

?!?/p>

根據(jù)類別可能的數(shù)量設(shè)定位數(shù)N

建立N位編碼

,

每一個類別對應(yīng)一個位置

,

因為樣本只能屬于

一個類別

,

所以N位獨熱編碼中只有一位有效

。●

離散特征進(jìn)行獨熱編碼之后

,

可以計算特征之間的距離或相似度

?!?/p>

如果某個類別有多個可能的取值

,

則編碼的位數(shù)會相應(yīng)地增加

有時會影響處理效率

。6

.

數(shù)據(jù)規(guī)約●

數(shù)據(jù)集可能規(guī)模較大

,

大幅度降低數(shù)據(jù)分析效率

。

數(shù)據(jù)規(guī)約就是能夠降低屬性維度

、減少樣本數(shù)量的

方法

?!?/p>

核心是要產(chǎn)生規(guī)模更小但能最大可能保持原始數(shù)據(jù)特點和完整性的新數(shù)據(jù)集

?!?/p>

(

1

)

屬性規(guī)約●

屬性規(guī)約通過減少屬性數(shù)量

,

達(dá)到減少數(shù)據(jù)集的目

?!?/p>

主成分分析(Principal

Component

Analysi

s

,PCA)

是屬性規(guī)約的主要方法

。●

基本思想是針對原始數(shù)據(jù)集

,

重新構(gòu)造一組有代表性的

互不相關(guān)的新特征

?!癫幌嚓P(guān)意味著這些新特征包含的信息彼此不重復(fù)

,

而有代表性則說明

這些特征還能夠盡量多地涵蓋原始數(shù)

據(jù)的信息

。●

對于新特征互不相關(guān)的要求

,

可以利用正交基向量互不相關(guān)的性質(zhì)

通過構(gòu)造多維度正交基向量來保證;

對于包含盡量多的信息的要求

則通過樣本在新特征上取值的方差來衡量

,

方差越大

,

說明數(shù)據(jù)在此新特征

上越分散

,

包含的信息也越多

。●

(

2

)

數(shù)值規(guī)約●

用部分或者較小規(guī)模的數(shù)據(jù)來替換原始數(shù)據(jù)

。●

①直方圖●

通過劃分子區(qū)間的方式減少原數(shù)據(jù)的屬性取值

?!?/p>

子區(qū)間的劃分可以是等寬的

,

也可以是等頻的

?!?/p>

②聚類●

利用聚類進(jìn)行數(shù)值規(guī)約

,

將數(shù)據(jù)分簇

,

使得同簇的對象相似

,

不同簇的對

表值來替換原始數(shù)據(jù)

。相異

用每個數(shù)據(jù)簇中的代6

.

數(shù)據(jù)規(guī)約6

.

數(shù)據(jù)規(guī)約●

(

2

)

數(shù)值規(guī)約

③抽樣●

基本思想是從原始數(shù)據(jù)集合中隨機(jī)抽取小得多的子集

,

用其代表原始數(shù)據(jù)集

?!?/p>

抽樣的方法主要包括簡單隨機(jī)抽樣

、

分層抽樣

?!?/p>

簡單隨機(jī)抽樣●

每條數(shù)據(jù)記錄以相同的概率被抽中

具體分為無放回和有放回兩種

。兩者的區(qū)別在于當(dāng)一個數(shù)據(jù)記

錄從原始數(shù)據(jù)集中被抽取之后

,

無放回抽樣將在剩余數(shù)據(jù)集中繼續(xù)抽取新數(shù)據(jù);

而有放回抽樣會將

被抽取的數(shù)據(jù)放回原始數(shù)據(jù)集

,

下一次再次以同樣的概率被抽取

該方法主要適用于總體個數(shù)較小

且樣本類別分布均衡的情況

?!?/p>

分層抽樣●

先根據(jù)類別將原始數(shù)據(jù)集劃分為不同的層(或組)

,

層之間是互不相交的

然后對每一層各自進(jìn)行

抽樣

,

最后將各層抽樣的結(jié)果進(jìn)行整合

得到對于原始數(shù)據(jù)集的抽樣

。第二節(jié)

特征工程●

特征指的是對數(shù)據(jù)各方面的描述

,

是進(jìn)行分析和解決問題的基礎(chǔ)

?!?/p>

好的數(shù)據(jù)和特征是所有模型和算法發(fā)揮到極致的前提

。

因此

,

需要圍繞分析的問題

,

在原始數(shù)

據(jù)特征中找到既能盡量多地代表全部特征又能使算法模型達(dá)到最佳性能的特征子集

?!?/p>

特征工程包括三個方面:

特征構(gòu)建

、特征提取和特征選擇

?!?/p>

特征構(gòu)建●

是指圍繞需要解決的問題

用人工方法從原始數(shù)據(jù)中找出一些有代表性的

、

能夠刻畫研究對象關(guān)鍵屬性的特征的過程

。●

特征提取●

通過特征轉(zhuǎn)換

,

依據(jù)屬性取值之間的相關(guān)關(guān)系

,

去除不重要以及冗余的特征

,

減少特征數(shù)量的過程

。第二節(jié)

特征工程●

數(shù)據(jù)樣本的屬性特征分類●

可以分為三種類型:●

對當(dāng)前的學(xué)習(xí)任務(wù)有用的屬性稱為

相關(guān)特征

,

可以提升模型的效果;●

對當(dāng)前的學(xué)習(xí)任務(wù)沒用的稱為

無用特征

”;●

冗余特征

”是指其特征包含的信息能夠從其他特征中計算或者推演出來

?!?/p>

特征選擇●

科學(xué)剔除不相關(guān)或者冗余特征的過程1

.

特征選擇的目的●

維數(shù)災(zāi)難

”就是當(dāng)數(shù)據(jù)的特征維度超過某個值之后

隨著特征數(shù)量的進(jìn)一步增加

,

模型訓(xùn)練的

效率會降低

同時訓(xùn)練出的模型準(zhǔn)確度反而會下降

?!?/p>

為了降低模型的復(fù)雜性

、

降低模型訓(xùn)練的時間

,

同時提高模型的效果

、

準(zhǔn)確率

,

我們需要進(jìn)行特

征選擇

。2

.

特征選擇的過程●

特征選擇的目標(biāo)就是從備選的特征子集中選擇出對算法模型表現(xiàn)最好的子集

。●

特征選擇的過程一般為特征子集搜索

、

構(gòu)建候選子集

利用評價函數(shù)對子集進(jìn)行評價

,

然后利用

停止規(guī)則

驗證所得到的特征子集是否滿足要求

。3

.

子集搜索●

(

1

)

完全搜索●

基本思路是遍歷原始特征所組成的所有可能的特征子集

從中尋找最優(yōu)

。●

需要對所有可能的特征子集利用評價函數(shù)進(jìn)行計算比較

,

評價函數(shù)表現(xiàn)最好的特征子集為最終的

搜索結(jié)果

。●

避免了局部最優(yōu)解

,

但是遍歷會帶來很大的計算開銷

,

其復(fù)雜度是指數(shù)級別的

。3

.

子集搜索●

(

2

)

啟發(fā)式搜索●

從某一個候選特征子集出發(fā)

,

向其中不斷添加或者減少特征

,

不斷構(gòu)建出新的特征子集

并在改

變的過程中對候選子集進(jìn)行評價

?!?/p>

序列前向選擇(Sequential

Forward

Selection

,

SFS)

,

是不斷將新的特征添加到候選子集的方

。

該方法的搜索從空集開始

,

每次選擇一個特征加入當(dāng)前子集

,

加入的判斷標(biāo)準(zhǔn)是評價函數(shù)得

到了優(yōu)化

這個過程持續(xù)進(jìn)行

,

直到評價函數(shù)的值不能變得更優(yōu)時停止

?!?/p>

序列后向選擇(Sequential

Backward

S

election

,

SBS)

該方法以特征全集為初始的特征子

,

每次從特征子集中剔除一個特征

剔除的標(biāo)準(zhǔn)是剔除某特征后

,

評價函數(shù)值會變優(yōu)

?!?/p>

雙向搜索(BiDirectional

Search

,BDS)

,將前面介紹的兩種方法結(jié)合起來進(jìn)行搜索

當(dāng)兩者達(dá)

到相同的特征子集時停止搜索

。3

.

子集搜索●

(

3

)

隨機(jī)搜索●

基本思想:

在啟發(fā)式算法中進(jìn)行更改

,

使之能夠在一定程度上跳出局部最優(yōu)值●

隨機(jī)產(chǎn)生序列選擇算法●

隨機(jī)產(chǎn)生一個特征子集

,

再在該特征子集上執(zhí)行前向搜索算法和后向搜索算法

。

多次進(jìn)行此過程后

到表現(xiàn)最優(yōu)的子集作為特征搜索的結(jié)果

?!?/p>

模擬退火算法●

核心思想是有一定隨機(jī)概率拒絕表現(xiàn)更優(yōu)的子集

,

防止陷入局部最優(yōu)

。4

.

子集評價●

依據(jù)評價函數(shù)對候選特征子集的優(yōu)劣進(jìn)行評價的過程

?!?/p>

一個特征子集的優(yōu)劣往往是對于特定的評價函數(shù)來說的

,

對于不同問題背景下的評價函數(shù),

同一特征子集的優(yōu)劣可能表現(xiàn)得不同

。5.

特征選擇的方法?根據(jù)評價和搜索與后續(xù)模型算法的聯(lián)系的緊密程度,

特征選擇方法可以分為三類。5.

特征選擇的方法?

(

1

)

過濾式?

基本思想:

首先選擇出在特征評價指標(biāo)下表現(xiàn)較好的特征子集,

然后利用最終得到的最優(yōu)特征子集去訓(xùn)練模型。?

過濾式特征選擇的最大特點在于選擇特征子集的過程與模型的表現(xiàn)效果無關(guān),兩者是獨立進(jìn)行的

。過濾式特征選擇對特征的評價與后續(xù)的模型算法無關(guān),是基于數(shù)據(jù)特征本身的性質(zhì)進(jìn)行評價的。?

優(yōu)點:

通用性較強(qiáng),

選擇的特征子集可以應(yīng)用于多個問題背景;

算法在特征

選擇時不需要進(jìn)行模型訓(xùn)練優(yōu)化,

復(fù)雜性較低;

適用于大規(guī)模且需要高效率選擇特征的數(shù)據(jù)集。?

缺點:

所選擇的特征子集在模型準(zhǔn)確率上通常低于其他兩種特征選擇方法。5.

特征選擇的方法5.

特征選擇的方法?

(

1

)

過濾式?②依賴性度量?又稱為相關(guān)性度量,

基于的假設(shè)為:

特征子集所包含的特征應(yīng)該與目標(biāo)屬性的相關(guān)度較高,

而子集中特征之間的相關(guān)度較低。?

皮爾遜相關(guān)系數(shù)?

被廣泛應(yīng)用于對兩個連續(xù)型數(shù)據(jù)屬性取值之間的相關(guān)程度的度量。?

用協(xié)方差除以兩個變量的標(biāo)準(zhǔn)差得到,計算結(jié)果介于-1到1之間,度量的是兩個屬性之間是否存在線性關(guān)系。?

卡方檢驗?

衡量兩個離散屬性之間的相關(guān)程度。?

根本思想是:

首先假設(shè)某特征屬性和目標(biāo)屬性是獨立的,

也就是說,特征屬性與目標(biāo)結(jié)果沒有相關(guān)性,那么在此特征的取值范圍上,

目標(biāo)屬性的分布理論上應(yīng)該是均勻的,通過比較理論值與實際值的吻合程度來確定原假設(shè)是否成立。5.

特征選擇的方法?

(

1

)

過濾式?

③信息增益度量?

信息增益的概念來自信息熵,

通過衡量按照某屬性取值劃分后數(shù)據(jù)集的“純度

”評價屬性的重要性。?

④一致性度量?

基于以下假設(shè):

如果某特征對于研究目標(biāo)屬性是重要的,

那么對于任意兩個樣本來說,

當(dāng)它們在特征上的取值相同時,

其在目標(biāo)屬性中的取值也應(yīng)該相同。?

一致性常用不一致率來衡量,

不一致率越小,

表示根據(jù)這一評價標(biāo)準(zhǔn),

特征子集的表現(xiàn)越好。5.

特征選擇的方法?

(

2

)

包裹式?直接將后續(xù)要使用的模型性能的好壞作為特征選擇的評價標(biāo)準(zhǔn),

選擇

使得后續(xù)模型表現(xiàn)最好的特征子集作為最優(yōu)子集

。包裹式特征選擇的結(jié)果不是普遍適用的,

是直接針對給定的模型來進(jìn)行特征選擇的。?優(yōu)點:

顯然從最終模型的性能、準(zhǔn)確率等表現(xiàn)來看,

包裹式特征選擇要優(yōu)于過濾式特征選擇。?缺點:

需要選擇不斷地訓(xùn)練模型,

以得到表現(xiàn)最好的特征子集,

所以

相對于過濾式特征選擇來說,

其花費的時間和成本都較大,

不適用于

較大規(guī)?;蛘邿o關(guān)特征較多的數(shù)據(jù)集。?

典型的包裹式特征選擇方法包括LVW(Las

Vegas

Wrapper)算法和遞

歸特征消除法RFE(recursive

feature

elimination)

。5.

特征選擇的方法?(

3

)

嵌入式?沒有專門的準(zhǔn)則對特征進(jìn)行評價,

而是將特征選擇的過程與模型

的訓(xùn)練過程完全融合在一起,在模型構(gòu)建訓(xùn)練的過程中自動實現(xiàn)

了特征選擇。?常見的一種嵌入式特征選擇方式是進(jìn)行正則化,

把額外的懲罰項

加到原有模型的損失函數(shù)上,

通過最小化正則項,

使那些不重要

的特征所對應(yīng)的系數(shù)變成0,進(jìn)而實現(xiàn)特征選擇。?有些數(shù)據(jù)挖掘的算法在完成模型訓(xùn)練的同時,

自身就可以實現(xiàn)特

征選擇,

判斷哪些屬性對目標(biāo)屬性更重要

。在自身的訓(xùn)練過程中

完成了特征選擇,

也是一種嵌入式特征選擇方法。第三章

數(shù)據(jù)獲取與數(shù)據(jù)理解第四章

數(shù)據(jù)預(yù)處理第五章

計量模型第六章

數(shù)據(jù)挖掘分類預(yù)測模型第七章

數(shù)據(jù)挖掘聚類與關(guān)聯(lián)規(guī)則模型第八章

社會網(wǎng)絡(luò)分析模型第九章

復(fù)雜數(shù)據(jù)分析方法第十章

數(shù)據(jù)可視化第二部分商務(wù)數(shù)據(jù)分析

常用方法第五章

計量模型第

節(jié)

時間序列分析●1

.

時間序列分析簡介●(2)時間序列分析方法●

主要可以分為兩類:

描述性時序分析和統(tǒng)計時序分析

?!?/p>

描述性時序分析指的是

,

通過繪制時序圖等方式

,

比較

、觀察

、

發(fā)現(xiàn)時間序列中顯然存在的

一些變化趨勢

,

如數(shù)據(jù)逐漸增大或變小的趨勢性

或者數(shù)據(jù)變化呈現(xiàn)周期性等

。1

.

時間序列分析簡介●(2)時間序列分析方法●

統(tǒng)計時序分析目前比較流行的方法是進(jìn)行時域分析

,

認(rèn)為時間序列的值之間存在有一定的相

關(guān)關(guān)系

而且這種相關(guān)關(guān)系通常具備某些統(tǒng)計規(guī)律

?!?/p>

時域分析就是利用模型刻畫時間序列的值中體現(xiàn)的關(guān)系的規(guī)律

。2

.

時間序列建模:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論