




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
商務(wù)數(shù)據(jù)分析商務(wù)數(shù)據(jù)分析基本概念與框架商務(wù)數(shù)據(jù)分析常用方法商業(yè)應(yīng)用大綱●
第一部分●
第二部分●
第三部分總總分第
一
部分商務(wù)數(shù)據(jù)分析基本概念與框架(
兩章)第一章
商務(wù)數(shù)據(jù)分析基本概念第二章
商務(wù)數(shù)據(jù)分析框架第
一
章
商務(wù)數(shù)據(jù)分析基本概念第
一
節(jié)
商務(wù)數(shù)據(jù)分析概述●
商務(wù)數(shù)據(jù)分析指的是為解決商務(wù)決策問題
,
選擇恰當(dāng)方法和工具對收集的數(shù)據(jù)進(jìn)行分析
,
得到隱
含的
、
未知的
、
有潛在價值的關(guān)系
、模式和趨勢
。●
數(shù)據(jù)和分析是其中的核心組成部分
。1
.
數(shù)據(jù)類型●(1)結(jié)構(gòu)化
、
半結(jié)構(gòu)化
、
非結(jié)構(gòu)化數(shù)據(jù)●結(jié)構(gòu)化數(shù)據(jù)●指可以用二維形式展現(xiàn)和存儲的
,
用統(tǒng)一整齊格式表示的數(shù)據(jù)
,
常
見的有數(shù)字
、
符號等
。●結(jié)構(gòu)化數(shù)據(jù)用二維表結(jié)構(gòu)表示時
,
一般用一行數(shù)據(jù)刻畫一個實體
,
而每一列表示實體的某一個屬性特征
?!窠Y(jié)構(gòu)化數(shù)據(jù)的存儲
、
排列有規(guī)律
,
易于處理
?!裨谏虅?wù)活動中
,
典型的結(jié)構(gòu)化數(shù)據(jù)包括商品的價格
、
銷量等數(shù)值型1
.
數(shù)據(jù)類型●(1)結(jié)構(gòu)化
、
半結(jié)構(gòu)化
、
非結(jié)構(gòu)化數(shù)據(jù)●半結(jié)構(gòu)化數(shù)據(jù)●
指并非二維表形式能夠存儲的
,
但是有基本固定結(jié)構(gòu)模式的數(shù)據(jù)
?!?/p>
屬于同一類的實體可以有不同的屬性
,
且屬性的順序也可以不同
。●
常見的半結(jié)構(gòu)化數(shù)據(jù)有XML
、HTML
、JSON等
?!?/p>
例如
在電展示的商品信息1
.
數(shù)據(jù)類型●(1)結(jié)構(gòu)化
、
半結(jié)構(gòu)化
、
非結(jié)構(gòu)化數(shù)據(jù)●非結(jié)構(gòu)化數(shù)據(jù)●
指沒有固定結(jié)構(gòu)的數(shù)據(jù)
,
如文檔
、
圖片
、視頻
、
音頻等數(shù)據(jù)
。●
對于非結(jié)構(gòu)化數(shù)據(jù)
,
一般存儲其二進(jìn)制的數(shù)據(jù)格式,●
例如商品的評論文本
、介紹圖片等
。1
.
數(shù)據(jù)類型●
(
2
)離散型
、
連續(xù)型數(shù)據(jù)●
離散型數(shù)據(jù)·是指數(shù)值只能用自然數(shù)或整數(shù)單位計算的數(shù)據(jù)·例如消費者人數(shù)
、商品個數(shù)
、評論數(shù)量
、消費者評論打分等
。
·這類數(shù)據(jù)一般由計數(shù)方法獲取
。●
連續(xù)型數(shù)據(jù)·
能夠在相應(yīng)范圍內(nèi)任意取值
,
例如消費者購買金額
、評論時間等
。2
.
數(shù)據(jù)分析類型●
(1
)
描
述
型
分
析●在商務(wù)數(shù)據(jù)分析中
,描述型分析是將歷史數(shù)據(jù)進(jìn)行定性或定量的描述
,
得出諸如單
日平均銷量
、
月度銷量總和等匯總數(shù)據(jù)
。●基于描述型分析
,
可以比較不同時間
、不同地區(qū)的表現(xiàn)
?!?/p>
(
2)
驗
證
型
分
析●在商務(wù)數(shù)據(jù)分析中
,
驗證型分析通常用來驗證決策的后果
,
例如技術(shù)改進(jìn)
、策略變化、
產(chǎn)品升級等行為的發(fā)生是否達(dá)到預(yù)期目標(biāo)
?!?/p>
(
3
)
預(yù)
測
型
分
析●在商務(wù)數(shù)據(jù)分析中
,
預(yù)測型分析則是通過分析過去歷史數(shù)據(jù)和當(dāng)前相關(guān)的數(shù)據(jù)
,
對未
來可能出現(xiàn)的市場環(huán)境變化
、用戶痛點等關(guān)鍵問題進(jìn)行預(yù)測
。3
.
數(shù)據(jù)分析方法●
(
1
)
描述統(tǒng)計●
描述統(tǒng)計是通過圖
、表等方式
,
對數(shù)據(jù)進(jìn)行整理
、分析
,
揭示數(shù)據(jù)的分布情況
、數(shù)字特征
、變量關(guān)系,
目
的是尋找數(shù)據(jù)中蘊(yùn)含的規(guī)律
。●
描述統(tǒng)計是最基礎(chǔ)的分析方法
,
它能夠讓我們對數(shù)據(jù)集有一個直觀的認(rèn)識
,
方便進(jìn)行后續(xù)的分析
?!癖热?/p>
,
客戶收入?yún)^(qū)間統(tǒng)計●
(
2
)
時間序列分析●
時間序列分析側(cè)重研究銷量
、價格等時間序列數(shù)據(jù)的互相依賴關(guān)系
?!?/p>
基本原理是:
事物發(fā)展有一定的延續(xù)性
,
利用過去的數(shù)據(jù)可以推測未來發(fā)展趨勢
?!癖热?/p>
,
預(yù)測價格和銷量3
.
數(shù)據(jù)分析方法●
(
3
)
回歸分析●
回歸分析是一種預(yù)測性的建模技術(shù)
,
它研究的是決策問題和影響因素之間的關(guān)系
,
多用于預(yù)測分析
?!?/p>
相比于機(jī)器學(xué)習(xí)進(jìn)行預(yù)測的方法
,
回歸分析的優(yōu)勢在于可以定量地揭示某個影響因素對結(jié)果有多大的影
響
?!?/p>
例如
,
研究產(chǎn)品的受歡迎程度
?!?/p>
(
4
)
機(jī)器學(xué)習(xí)●
機(jī)器學(xué)習(xí)是一門交叉學(xué)科
,
涉及概率論
、
統(tǒng)計學(xué)
、算法等理論
?!?/p>
它的核心是使用算法解析數(shù)據(jù)
,
模擬人類的學(xué)習(xí)行為
,
對某件事情做出決定或預(yù)測
?!?/p>
例如
,
對用戶進(jìn)行細(xì)分
。3
.
數(shù)據(jù)分析方法●
(
5
)
社會網(wǎng)絡(luò)分析●
社會網(wǎng)絡(luò)是社會個體之間通過社會關(guān)系形成的網(wǎng)絡(luò)體系
?!?/p>
從分析對象來看
,
社會網(wǎng)絡(luò)分析既可分析網(wǎng)絡(luò)中單獨節(jié)點的特性(如重要性)
,
也可以分析整個網(wǎng)絡(luò)
的特性(如連通性)
等
?!?/p>
例如
,
用戶社區(qū)分析●
(
6
)
復(fù)雜數(shù)據(jù)分析●
復(fù)雜數(shù)據(jù)分析方法可以將文本
、
圖像
、視頻等非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)為計算機(jī)可以理解和計算的數(shù)據(jù)
,
并參與
到建模中
?!?/p>
例如消費者評論數(shù)據(jù)分析第二節(jié)
商務(wù)分析理論●
1.4P理論●
4
P
理論為我們在進(jìn)行商務(wù)數(shù)據(jù)分析時如何確定分析對象和營銷因素提供了重要的理論參考
?!?/p>
產(chǎn)品Product:
對產(chǎn)品進(jìn)行數(shù)據(jù)分析時
,
需要圍繞理論中對于產(chǎn)品特異性的要求
,
抓住產(chǎn)品的獨特
之處進(jìn)行著重分析
。●
價格Pr
ice
:
對于不同種類的產(chǎn)品
,
要根據(jù)產(chǎn)品特點
、
市場定位制定價格
。對顧客進(jìn)行數(shù)據(jù)分析時
,
需要圍繞各個屬性和行為特征
,
對顧客進(jìn)行類別劃分
,
從而為個性化定價和推廣提供依據(jù)
?!?/p>
渠道Place
:
建立恰當(dāng)?shù)姆咒N渠道
,
能夠增加企業(yè)利潤
。渠道所產(chǎn)生的數(shù)據(jù)
,
例如經(jīng)營平臺的廣告投
放
、銷售記錄
、訂單的密集程度等都是進(jìn)行商務(wù)數(shù)據(jù)分析時需要考量的因素
。●
促銷Promotion
:
企業(yè)注重通過銷售行為的改變來刺激消費者
,
以短期的行為促成消費的增長
,
促
銷方式設(shè)計是商業(yè)數(shù)據(jù)分析的一個重要任務(wù)
。2
.
用戶畫像●
用戶畫像是一種根據(jù)用戶的個人屬性
、產(chǎn)品喜好
、
消費特征等信息抽象出來的標(biāo)簽化模型
。
通過
用戶畫像
,
可以有效地將用戶抽象成一個標(biāo)簽集合
,
集合中的標(biāo)簽代表了用戶的各方面屬性
?!?/p>
構(gòu)建用戶畫像時首先需要收集數(shù)據(jù)
,
形成某些基礎(chǔ)數(shù)據(jù)標(biāo)簽;同時可以針對某一主題
,
建模分析
用戶大概率可能采取的行為
,
進(jìn)而根據(jù)行為特征為用戶構(gòu)建畫像;
還可以圍繞某一個決策
,
綜合
多個模型分析的結(jié)果
,
構(gòu)建畫像
。2
.
用戶畫像●
為了更加立體地反映用戶特征
,
在構(gòu)建用戶畫像的時候
,
可以分層次地建立多級指標(biāo)
。3
.
用戶點擊流分析●
用戶點擊流(Click
stream)
分析是指在獲得電商平臺用戶基本操作數(shù)據(jù)的情況下
,
對用戶的點擊
、
瀏覽
、加入購物車
、購買等行為進(jìn)行統(tǒng)計
、
分析
,
從中發(fā)現(xiàn)用戶行為規(guī)律
?!?/p>
這些規(guī)律首先可以對用戶的下一步行為進(jìn)行預(yù)測
,
然后
,
將這些規(guī)律與營銷策略等相結(jié)合
,
可以
對用戶的行為進(jìn)行干預(yù)
?!?/p>
另外
,
用戶行為分析也可以幫助評價目前的網(wǎng)絡(luò)營銷策略
,
指導(dǎo)未來營銷活動的制定
。4
.
顧客價值●
對企業(yè)而言
,
實現(xiàn)所有顧客的個性化產(chǎn)品或服務(wù)
,
其成本是無法承受的
。對顧客區(qū)分的主要依據(jù)
是顧客能夠為企業(yè)提供的價值
?!?/p>
顧客當(dāng)前為企業(yè)貢獻(xiàn)的價值
,
根據(jù)銷量高低對顧客進(jìn)行排序
,
重點分析排名靠前的顧客特點
,
提
供相應(yīng)的服務(wù)產(chǎn)品
。●
通常這類顧客會服從80-20分布
。4
.
顧客價值●
顧客當(dāng)前價值和潛在價值兩個維度
,
在一個二維坐標(biāo)里可以將客戶分為四類:
I類
、II類
、
III
類和IV類
?!?/p>
企業(yè)針對四類顧客提供不同的服務(wù)
例如IV類客戶既有很高的當(dāng)前價值也有很大的潛在價值,是對企業(yè)最有價值的一類客戶
。4
.
顧客價值●
RFM理論●
R(rec
en
cy)
代表最近一次購物距離當(dāng)前的時間長短
,
F(Frequency)
代表一段時間內(nèi)的購物頻
率
,
M(Monetary)
代表購物金額
?!?/p>
根據(jù)顧客在這三個指標(biāo)上的綜合表現(xiàn)
,
對顧客進(jìn)行細(xì)分
。第三節(jié)
數(shù)據(jù)分析主要應(yīng)用●
在商務(wù)領(lǐng)域中
,
通過數(shù)據(jù)分析可以監(jiān)控和管理整個運營
,
可以通過數(shù)據(jù)了解用戶
、
改進(jìn)產(chǎn)品
服務(wù)
、
提高運營效率
、
降低成本
?!?/p>
數(shù)據(jù)分析在商務(wù)領(lǐng)域的應(yīng)用主要集中在以下幾大方面
。1
.
市場營銷●
(
1
)
用戶細(xì)分●
客戶細(xì)分就是根據(jù)客戶的特征信息(年齡
、性別
、
收入
、
受教育程度
、購買金額等)
將客戶劃分成不同
的群體
.●
每個群體中的客戶具有相同或相似的特征
,
特征相似的客戶群具有相似的潛在需求;
而不同群體之間的
客戶特征差異較大
。●由此可以針對不同群體的客戶提供有一定差異的營銷策略和產(chǎn)品服務(wù)
提升客服和營銷活動效率
,
降低成
本
。1
.
市場營銷●
(
2
)
用戶行為分析●
不同的用戶群體具有互不相同的行為習(xí)慣
,
精準(zhǔn)確定不同用戶群的行為特點
,
提供符合其特征的
個性化服務(wù)
?!?/p>
基于用戶行為分析
,
可以進(jìn)一步對用戶進(jìn)行流失分析
、
生命周期分析
、影響力分析
、
價值分析等
。1
.
市場營銷●
(
3
)
銷量預(yù)測●
通過對銷量進(jìn)行預(yù)測
,
可以為商家提供參考
,
商家可以據(jù)此制定合理的采購計劃
、
配置合適的庫存
,
在降低成本
的同時
,
提前對銷售變化做好準(zhǔn)備
?!?/p>
(
4
)行業(yè)競爭和行情分析●
數(shù)據(jù)分析可以用來監(jiān)測和分析對手行業(yè)的產(chǎn)品特性和用戶反應(yīng)
?!?/p>
通過收集行業(yè)主要競爭對手的銷售情況和銷售策略
,
以及當(dāng)前市場宏觀變量
,
可以有效地掌握當(dāng)前市場行情和未
來市場預(yù)期
。2
.
運營管理●
(
1
)
運營監(jiān)控●
(
2
)
決策支持●
(
3
)量化運營效能3
.
產(chǎn)品研發(fā)●
(
1
)
產(chǎn)品優(yōu)化支持●
企業(yè)可以在銷售之前就能夠獲取客戶反饋信息
,
獲得明確的用戶需求
,
實現(xiàn)了
“
Pull
”的方式
。●
還可以基于數(shù)據(jù)對相關(guān)業(yè)務(wù)線產(chǎn)品進(jìn)行全面的分析
,
包括用戶分析
、
營收分析
、行為分析
、活動效果
評估等
,
從而更加科學(xué)地為產(chǎn)品優(yōu)化和業(yè)務(wù)運營提供支持
?!?/p>
(
2
)新產(chǎn)品研發(fā)支持●
通過分析目標(biāo)用戶喜好
,
收集當(dāng)下熱門產(chǎn)品和功能
,
可以為新產(chǎn)品的開發(fā)提供決策依據(jù)和方向
,
以用
戶和市場真實需求為基礎(chǔ)
,
設(shè)計更加符合消費喜好的產(chǎn)品
?!?/p>
還可以針對特定用戶群體
,
設(shè)計差異化產(chǎn)品
,
個性化地滿足不同用戶群的特殊需求
,
提高產(chǎn)品吸引力
的同時增加用戶滿意度和忠誠度
。第
一
部分商務(wù)數(shù)據(jù)分析基本概念與框架(
兩章)第一章
商務(wù)數(shù)據(jù)分析基本概念第二章
商務(wù)數(shù)據(jù)分析框架第二章
商務(wù)數(shù)據(jù)分析框架商務(wù)數(shù)據(jù)分析框架●
商務(wù)數(shù)據(jù)分析框架分為六個模塊
,
分別為問題明確
、
數(shù)據(jù)理解
、
數(shù)據(jù)預(yù)處理
、模型建立
、模型評
價和模型發(fā)布
。
這是一個明確商業(yè)目的
,
進(jìn)行數(shù)據(jù)的收集
、
整理
、加工和分析
,
提煉出有價值信
息的過程
。1
.問題明確●
問題明確是最開始同時也是最重要的一個環(huán)節(jié)
,
這一環(huán)節(jié)的確定嚴(yán)重影響著后續(xù)工作是否有意義
?!?/p>
在數(shù)據(jù)分析之前明確數(shù)據(jù)對象是誰
,
數(shù)據(jù)分析的目
的是什么
,
解決什么樣的業(yè)務(wù)問題
。2
.
數(shù)據(jù)理解●
數(shù)據(jù)理解包括數(shù)據(jù)收集和統(tǒng)計描述
。●
數(shù)據(jù)收集是按照第一環(huán)節(jié)的問題和分析思路
,
有目的性地收集
、整合相關(guān)數(shù)據(jù)的過程
,
它是
數(shù)據(jù)分析的重要基礎(chǔ)
。●
常見的數(shù)據(jù)收集渠道有內(nèi)部渠道和外部渠道
。
數(shù)據(jù)規(guī)模和數(shù)據(jù)靈活性也在不斷變化
,
從簡單
的數(shù)值數(shù)據(jù)到文本數(shù)據(jù)再到音頻
、視頻數(shù)據(jù)均可以收集到
?!?/p>
數(shù)據(jù)的統(tǒng)計描述主要是對數(shù)據(jù)繪制圖表進(jìn)行統(tǒng)計分析
,
簡單地分析數(shù)據(jù)的數(shù)量和質(zhì)量
,
判斷
收集到的數(shù)據(jù)能否滿足問題的分析目的
,
以及發(fā)現(xiàn)哪些數(shù)據(jù)值得進(jìn)一步分析
?!?/p>
雖然統(tǒng)計分析比較簡單
,
但它可以實現(xiàn)很多功能
。3
.
數(shù)據(jù)預(yù)處理●
數(shù)據(jù)預(yù)處理是對收集到的數(shù)據(jù)繼續(xù)進(jìn)行加工
、
整理
,
以便開展后期的模型建立
,
它是數(shù)據(jù)分析必
不可少的階段
?!?/p>
這一階段是比較復(fù)雜同時也是較為占用時間的
,
但它必不可少
,
在一定程度上影響了數(shù)據(jù)質(zhì)量的
保證以及后期模型的表現(xiàn)
?!?/p>
數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)清洗
、
數(shù)據(jù)變換
、
數(shù)據(jù)集成
、
數(shù)據(jù)規(guī)約和特征選擇等
。4
.
模型建立●
模型建立是數(shù)據(jù)分析的核心步驟
,
通過具體的模型
,
對數(shù)據(jù)進(jìn)行分析
,
發(fā)現(xiàn)數(shù)據(jù)中隱藏的規(guī)律關(guān)
系和模式
?!?/p>
模型建立首先要進(jìn)行模型選擇
,
根據(jù)不同的業(yè)務(wù)問題需求在眾多模型中選擇出最適合的模型
、
最
合適的參數(shù)配置
。●
建立模型實際上就是找到在這個模型的情境下輸入和輸出之間的關(guān)系模式
。
需要觀察已有的數(shù)據(jù),
使用已有的一些常用關(guān)系模式對數(shù)據(jù)進(jìn)行擬合
,
建立模型
。4
.
模型建立●(1)數(shù)據(jù)集
、
訓(xùn)練集
、驗證集
、
測試集●
數(shù)據(jù)集:
數(shù)據(jù)集合
,
模型的建立有兩方面的考慮:
其一是模型數(shù)據(jù)的維度
,
其二是數(shù)據(jù)的數(shù)量
?!?/p>
訓(xùn)練集:
用于建立模型的數(shù)據(jù)集
?!?/p>
驗證集:
用于調(diào)整模型參數(shù)
、對模型的能力進(jìn)行初步評價的數(shù)據(jù)
?!?/p>
測試集:
用于評價已經(jīng)建立的模型的表現(xiàn)
。4
.
模型建立●(1)數(shù)據(jù)集
、
訓(xùn)練集
、驗證集
、
測試集●
數(shù)據(jù)集:
數(shù)據(jù)集合
,
模型的建立有兩方面的考慮:
其一是模型數(shù)據(jù)的維度
,
其二是數(shù)據(jù)的數(shù)量
。●
訓(xùn)練集:
用于建立模型的數(shù)據(jù)集
。●
驗證集:
用于調(diào)整模型參數(shù)
、對模型的能力進(jìn)行初步評價的數(shù)據(jù)
?!?/p>
測試集:
用于評價已經(jīng)建立的模型的表現(xiàn)
。4
.
模型建立●(2)
數(shù)據(jù)劃分方法●
根據(jù)樣本的大小不同可以做出不同的劃分選擇
,
但是測試集必須
保證未知并且保持與訓(xùn)練集
、驗證集的獨立性
。4
.
模型建立●(2)
數(shù)據(jù)劃分方法
●留出法●
將所有數(shù)據(jù)按照一定比例分為互斥的兩部分●
在分割數(shù)據(jù)的時候
,
需要保證這兩部分的數(shù)據(jù)分布是盡可能一致的
?!?/p>
使用留出法時
,
一般需要進(jìn)行若干次隨機(jī)劃分并重復(fù)進(jìn)行實驗評估后取平均值
,
然后將其作為最
終的評估結(jié)果
?!?/p>
交叉驗證法●
將數(shù)據(jù)均勻地分為大小相似且互斥的k份數(shù)據(jù)子集
,
在每次訓(xùn)練時
,
取其中的一份作為測試集其余
的k-1份作為訓(xùn)練集
。進(jìn)行k次訓(xùn)練和測試
,
得到k個測試結(jié)果
,
對這k個測試結(jié)果取平均
,
將其作
為最后的測試結(jié)果
?!?/p>
交叉驗證法評估結(jié)果的穩(wěn)定性在很大程度上與k有關(guān)
,
通常也叫作
“
k折交叉驗證
”。4
.
模型建立●(
3
)
過擬合
、
欠擬合與調(diào)參
●
誤差●
在使用訓(xùn)練集擬合輸入和輸出之間的關(guān)系時
,
總會存在誤差
,
這種在訓(xùn)練模型時產(chǎn)生的誤差叫作
訓(xùn)練誤差或者經(jīng)驗誤差
,
在訓(xùn)練集之外的測試數(shù)據(jù)上進(jìn)行預(yù)測產(chǎn)生的誤差叫作泛化誤差
?!?/p>
建模的最終目標(biāo)并不是使訓(xùn)練誤差小
,
而是使模型在測試數(shù)據(jù)上的泛化誤差更小
,
即建立一個可
以被廣泛應(yīng)用在其他數(shù)據(jù)集上的模型
?!?/p>
過擬合●
模型過多地學(xué)習(xí)到了僅存在于訓(xùn)練樣本中的關(guān)系
,
由于這些關(guān)系在其他樣本中可能是不存在的
,
模型在其他樣本上的表現(xiàn)將遠(yuǎn)不如在訓(xùn)練樣本上的表現(xiàn)
,
即泛化誤差大
?!?/p>
原因:
學(xué)習(xí)能力過于強(qiáng)大
,
建立了復(fù)雜度過高的模型
。●
解決方法:
在構(gòu)建模型時對模型進(jìn)行控制和修剪
●
欠擬合●
模型沒有表達(dá)出樣本中普遍存在的關(guān)鍵關(guān)系模式
,
導(dǎo)致在訓(xùn)練集上的訓(xùn)練誤差都較大
。●
原因:
學(xué)習(xí)能力過于低下
?!?/p>
解決方法:
通過增加訓(xùn)練迭代次數(shù)4
.
模型建立●(
3
)
過擬合
、
欠擬合與調(diào)參●
調(diào)參:
對模型進(jìn)行參數(shù)的配置●
在模型的訓(xùn)練過程中需要根據(jù)訓(xùn)練集進(jìn)行參數(shù)設(shè)置
,
這些在訓(xùn)練過程中確定的參數(shù)稱為普通參數(shù)
。模
型的有些參數(shù)需要人工設(shè)定
,
被稱為超參數(shù)
?!?/p>
一般調(diào)參和模型的選擇通常是在驗證集上進(jìn)行的
,
多次使用驗證集進(jìn)行不斷調(diào)參并監(jiān)控模型是否出現(xiàn)
過擬合的情況
,
最終得到表現(xiàn)最好的模型
,
用于測試集的評估
。4
.
模型建立●(
4
)有監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)●
有監(jiān)督學(xué)習(xí)●
一些模型建立的目
的是給數(shù)據(jù)打上“
標(biāo)簽
”
,
當(dāng)構(gòu)建模型時使用的訓(xùn)練集必須要存在這樣的標(biāo)簽,
才能在特征和標(biāo)簽之間建立聯(lián)系
。●
學(xué)習(xí)時有
“
正確答案
”●
無監(jiān)督學(xué)習(xí)●
使用不帶標(biāo)簽的數(shù)據(jù)建立模型
,
得到了我們想要獲得的信息
,
這種學(xué)習(xí)任務(wù)稱為無監(jiān)督學(xué)習(xí)
?!?/p>
學(xué)習(xí)時無
“
正確答案
”5
.
模型評價●
模型評價主要是指對模型在測試集中的泛化性能進(jìn)行評估
。●
不同類型的模型使用不同的評價標(biāo)準(zhǔn)
。●
相同類型的模型在不同的評價標(biāo)準(zhǔn)上的表現(xiàn)可能不同
?!?/p>
在具體的研究中
,
要根據(jù)研究的問題選擇合適的評價標(biāo)準(zhǔn)
。6
.
模型發(fā)布●
執(zhí)行完上述步驟之后
,
得到最終表現(xiàn)最好的模型和參數(shù)配置
,
將其應(yīng)用于后續(xù)未知數(shù)據(jù)的分
析中
?!?/p>
有時會根據(jù)其業(yè)務(wù)需求
,
將模型部署集成到相應(yīng)的系統(tǒng)中進(jìn)行使用
。商務(wù)數(shù)據(jù)分析整體框架第三章
數(shù)據(jù)獲取與數(shù)據(jù)理解第四章
數(shù)據(jù)預(yù)處理第五章
計量模型第六章
數(shù)據(jù)挖掘分類預(yù)測模型第七章
數(shù)據(jù)挖掘聚類與關(guān)聯(lián)規(guī)則模型第八章
社會網(wǎng)絡(luò)分析模型第九章
復(fù)雜數(shù)據(jù)分析方法第十章
數(shù)據(jù)可視化第二部分商務(wù)數(shù)據(jù)分析
常用方法第三章數(shù)據(jù)獲取與數(shù)據(jù)理解第
一
節(jié)
數(shù)據(jù)獲取●
數(shù)據(jù)獲取主要有兩個渠道●
一個是直接獲取數(shù)據(jù)
,
即自
己在經(jīng)營過程中累積的數(shù)據(jù)
,
或者通過實驗或調(diào)查直接獲得的數(shù)據(jù)
,
這些數(shù)據(jù)被稱為一手?jǐn)?shù)據(jù)
.●
另一個是間接獲取數(shù)據(jù)
,
指的是數(shù)據(jù)是由其他人通過各種形式搜集的
,
使用者僅僅是找到這些數(shù)
據(jù)并加以加工和使用
,
間接地獲取了這些數(shù)據(jù)
,
這些數(shù)據(jù)通常被稱為二手?jǐn)?shù)據(jù)
。1
.
直接獲取●
(
1
)
經(jīng)營數(shù)據(jù)●
企業(yè)在經(jīng)營過程中積累了大量數(shù)據(jù)
,
包括運營
、人事
、財務(wù)
、供應(yīng)鏈
、客戶管理等
。這些數(shù)據(jù)通常
存儲在企業(yè)信息系統(tǒng)的數(shù)據(jù)庫中
,
是企業(yè)經(jīng)營的真實反映
。●
獲取相對比較簡單
,
但由于經(jīng)營數(shù)據(jù)通常涉及企業(yè)的競爭優(yōu)勢
,
所以企業(yè)外部人員甚至不同部門的
人員很難得到
?!?/p>
(
2
)
市場調(diào)查●
市場調(diào)查是指用科學(xué)的方法(引用正規(guī))
,
有目
的
、
系統(tǒng)地搜集
、記錄
、整理和分析市場現(xiàn)狀的數(shù)
據(jù)獲取和分析方法
。
市場調(diào)查通常比較適用于社會問題和企業(yè)經(jīng)濟(jì)問題
。1
.
直接獲取●
(
3
)
試驗●
在試驗中
,
研究者圍繞想要解決的問題
,
設(shè)定相應(yīng)情景
,
記錄不同條件下相應(yīng)的試驗觀測結(jié)果
,
并
對試驗結(jié)果展開分析
?!?/p>
(
4
)
爬蟲●
更多數(shù)據(jù)被保留在了各個網(wǎng)頁上
,
使用者可以針對自己的需要
,
利用爬
蟲技術(shù)自行對網(wǎng)頁上的數(shù)據(jù)進(jìn)行爬取
。2
.
間接獲取●
從相關(guān)渠道獲取與研究內(nèi)容有關(guān)的而且已經(jīng)存在的二手?jǐn)?shù)據(jù)
?!?/p>
二手?jǐn)?shù)據(jù)的優(yōu)勢:●
二手?jǐn)?shù)據(jù)獲取過程通常時間短
、成本低●
二手?jǐn)?shù)據(jù)除了可以用來分析研究問題
,
還可以從中剖析研究問題的背景
?!?/p>
二手?jǐn)?shù)據(jù)的局限性●
二手?jǐn)?shù)據(jù)通常不是為使用者想要進(jìn)行研究的問題而收集的
,
所以與直接收集數(shù)據(jù)相比
,
在和研究問題的
契合度上必定有所欠缺
。●
在使用二手?jǐn)?shù)據(jù)時
,
提前對數(shù)據(jù)進(jìn)行評估是非常必要的
?!?/p>
在使用二手?jǐn)?shù)據(jù)時
,
避免錯用
、誤用
、濫用
?!?/p>
在引用二手?jǐn)?shù)據(jù)時
,
應(yīng)注明數(shù)據(jù)的來源
,
以尊重他人的勞動成果
。2
.
間接獲取●
(1)
文獻(xiàn)●
相關(guān)專業(yè)期刊
、
學(xué)術(shù)會議
、專業(yè)圖書的文獻(xiàn)資料中提供了一些可供使用或參考的數(shù)據(jù)資料
。文獻(xiàn)中的數(shù)
據(jù)往往經(jīng)過了原作者的處理
,
對使用者來說省去了數(shù)據(jù)處理的過程
,
但是文獻(xiàn)數(shù)據(jù)的計算口徑有時難以
獲知
,
適用性相對較弱
。●
(
2
)學(xué)術(shù)單位的數(shù)據(jù)庫●
為了研究需要
,
大學(xué)等學(xué)術(shù)單位提供了一些以數(shù)據(jù)庫為存儲形式的數(shù)據(jù)集
,
供公眾訪問獲取
。這些數(shù)據(jù)
集來自實踐
,
體量通常比較大
,
涵蓋的范圍也比較廣
?;谶@些共同的數(shù)據(jù)集
,
研究者們可以更方便公
正地比較各自所提出的數(shù)據(jù)分析策略
、方法的優(yōu)劣
,
因此學(xué)術(shù)數(shù)據(jù)庫集被眾多研究者青睞
。2
.
間接獲取●
(
3
)
統(tǒng)計部門機(jī)構(gòu)●
統(tǒng)計部門和各級政府部門定期公布的有關(guān)資料中提供了宏觀統(tǒng)計數(shù)據(jù)
。對于使用者了解所感興趣的領(lǐng)域
的整體情況是有很大幫助的
,
但通常并不能用于解決具體的決策問題
。●
(
4
)
第三方機(jī)構(gòu)●
具有數(shù)據(jù)資源優(yōu)勢的數(shù)據(jù)源提供商
、
咨詢機(jī)構(gòu)以及一些自身有數(shù)據(jù)積累的互聯(lián)網(wǎng)企業(yè)都已經(jīng)成為大數(shù)據(jù)
產(chǎn)業(yè)中能夠提供海量數(shù)據(jù)的中流砥柱
。在第三方機(jī)構(gòu)獲取的數(shù)據(jù)比較完整
,
有豐富的描述
,
通常需要付費才能獲取
。●(
5
)
國內(nèi)外各類數(shù)據(jù)挖掘競賽●
國內(nèi)外了各類數(shù)據(jù)挖掘競賽中都提供了大量真實的數(shù)據(jù)集
,
這些數(shù)據(jù)通常有實際的應(yīng)用背景和明確的使
用目的
。第二節(jié)
數(shù)據(jù)描述●
也稱為描述性數(shù)據(jù)分析
,
通常指對數(shù)據(jù)的整體分布情況
、
數(shù)據(jù)各特征之間的關(guān)系進(jìn)行估計和
描述
,
從而有利于了解數(shù)據(jù)的整體情況
,
發(fā)現(xiàn)顯著特點
,
為進(jìn)一步的數(shù)據(jù)分析提供重要的思
路
?!?/p>
數(shù)據(jù)描述通常可以從三個方面進(jìn)行:
集中趨勢分析
、
離散程度分析和分布形狀分析1
.
集中趨勢分析●
集中趨勢是指一組數(shù)據(jù)向某一中心值靠攏的程度
,
是對數(shù)據(jù)一般水平的概括性度量
,
它反映了
一
組數(shù)據(jù)中心點的位置所在
?!?/p>
(1)
均值●
是最常用的也是最有效的度量集中趨勢的指標(biāo)
。將一組數(shù)據(jù)的總和除以數(shù)據(jù)數(shù)量
,
便能得到均值
。●
在有些情況下
,
每個數(shù)據(jù)的重要程度或者意義可能不是相同的
,
這時候需要對不同的數(shù)據(jù)賦予不同的權(quán)
重
。這樣根據(jù)權(quán)重計算得到的平均數(shù)叫作加權(quán)平均數(shù)或加權(quán)算術(shù)均值
?!?/p>
均值能夠充分利用所有數(shù)據(jù)的信息
,
但也正是因為這種特性
,
均值非常容易受到極端值的影響
。1
.
集中趨勢分析●
(
2
)
中位數(shù)●
一組數(shù)據(jù)排序之后處于中間位置的值
,
它把數(shù)據(jù)較大的一半和較小的一半分開
?!?/p>
是一個由位置決定的值
,
因此即便數(shù)據(jù)中存在極端值
,
中間位置上的數(shù)值也不會受到影響
。對于存在極
值或非對稱數(shù)據(jù)的情況來說
,
中位數(shù)是一個比均值更好的度量
?!?/p>
(
3
)
分位數(shù)●
分位數(shù)是將總體的全部數(shù)據(jù)遞增排列后
,
處于各等分位置的數(shù)據(jù)點
。
分位數(shù)將數(shù)據(jù)劃分為基本上規(guī)模相
等的區(qū)域
?!?/p>
如果分為四部分
,
則得到的數(shù)據(jù)點就是四分位數(shù)
。在各類分位數(shù)中
,
常用的是四分位數(shù)
。相比于中位數(shù)
只有一個
,
四分位數(shù)有兩個
,
能夠更充分地反映數(shù)據(jù)的集中程度
。1
.
集中趨勢分析●
(
4
)
眾數(shù)●
一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值
,
不會受到數(shù)據(jù)中極端值的影響
?!?/p>
一組數(shù)據(jù)可能各不相同
,
既可能不存在眾數(shù)
,
也可能存在多個眾數(shù)
。
一般來說
,
數(shù)據(jù)量較大的時候眾數(shù)
才有意義
,
將眾數(shù)作為數(shù)據(jù)整體特征才有代表性
。●
對比前面的集中指標(biāo)
,
眾數(shù)不涉及數(shù)值計算
,
因此
,
對于類別數(shù)據(jù)
,
眾數(shù)是常用的集中程度測度
。2
.
離散程度分析●
離散程度指的是一組數(shù)據(jù)遠(yuǎn)離其中心值的程度
。
數(shù)據(jù)的離散程度分析主要是用來反映一組數(shù)據(jù)的
差異程度
?!?
1
)異眾比率(Variation
ratio)●
指的是非眾數(shù)數(shù)據(jù)的數(shù)量占數(shù)據(jù)總數(shù)的比例
。
異眾比率越小
,
表示眾數(shù)所占的比例越大
,
眾數(shù)對于數(shù)據(jù)
的代表程度越好
?!?/p>
(
2
)
極差(Range)●
也稱全距
,
指的是數(shù)據(jù)最大值與最小值之差
。
因為極差選取最值來進(jìn)行計算
,
所以必然會受到極端值的
影響
。此外
,
極差的計算只考慮了最大最小值
,
遺漏了中間部分的更多信息
,
換句話說
,
只用兩個數(shù)據(jù)表示一組數(shù)據(jù)集合的特點
,
一般情況下不能準(zhǔn)確地描述
。2
.
離散程度分析●(
3
)四分位差(Quartile
deviation)●
指的是一組數(shù)據(jù)的上四位數(shù)和下四分位數(shù)之差
,
反映了數(shù)據(jù)分布的中心
、散布情況的特征
,
它表示的是
中間50%的數(shù)據(jù)的離散程度
,
因此也不會受到極端值的影響
。
四分位數(shù)越小
,
表示中間的一半數(shù)據(jù)越
集中
?!?
4
)平均差(Mean
deviation)●
指的是一組數(shù)據(jù)中各個值與其平均數(shù)的差的絕對值的平均數(shù)
。平均差越大
,
表明樣本值與均值差異越大,
數(shù)據(jù)的離散程度越大
。平均差充分運用了數(shù)據(jù)中的每個樣本值
,
因此是一個能較全面反映數(shù)據(jù)離散程度
的指標(biāo)
。2
.
離散程度分析●(
5
)方差或標(biāo)準(zhǔn)差(Variance)●
指的是數(shù)據(jù)中各個值與其平均數(shù)離差的平方的平均數(shù)
。
能夠反映出數(shù)據(jù)偏離均值的程度
,
是衡量數(shù)據(jù)離
散程度最常用的指標(biāo)
。方差或標(biāo)準(zhǔn)差越小
,
表示數(shù)據(jù)越集中
,
數(shù)據(jù)的離散程度越小
?!?
6
)
變異系數(shù)(Coefficientofvariation)●
也叫作離散系數(shù)
,
它是標(biāo)準(zhǔn)差與均值之比
。變異系數(shù)可以用來比較不同數(shù)據(jù)集之間的離散程度
。變異系
數(shù)越小
,
表明數(shù)據(jù)的離散程度越小
。3
.
分布形狀分析●
離散程度和集中程度的度量方式選擇是否恰當(dāng)
,
與數(shù)據(jù)分布關(guān)系密切
。在分析之前首先觀察數(shù)據(jù)
的分布形狀
,
對于選擇合適的指標(biāo)對數(shù)據(jù)的整體情況進(jìn)行描述
,
避免產(chǎn)生錯誤的分析結(jié)果很有必
要
?!?/p>
(
1
)偏態(tài)(Skewness)●
是對數(shù)據(jù)分布對稱性的一種度量
,
通過計算數(shù)據(jù)相對于中心點的傾斜方向以及程度
,
衡量數(shù)據(jù)分布的
對稱性
,
如果一組數(shù)據(jù)是對稱的
,
則偏態(tài)系數(shù)為0
。●
偏態(tài)系數(shù)的正負(fù)表明了數(shù)據(jù)分布是否對稱
,
以及傾斜的方向
,
而絕對值的大小表明了傾斜的程度
。3
.
分布形狀分析●
離散程度和集中程度的度量方式選擇是否恰當(dāng)
,
與數(shù)據(jù)分布關(guān)系密切
。在分析之前首先觀察數(shù)據(jù)
的分布形狀
,
對于選擇合適的指標(biāo)對數(shù)據(jù)的整體情況進(jìn)行描述
,
避免產(chǎn)生錯誤的分析結(jié)果很有必
要
?!瘢?)
峰度(Kurt
os
is)●
是對數(shù)據(jù)分布峰部尖度的一種度量
,
峰度是和標(biāo)準(zhǔn)正態(tài)分布相比較而言的
?!?/p>
如果一組數(shù)據(jù)服從標(biāo)準(zhǔn)正態(tài)分布
,
則峰度系數(shù)為0;當(dāng)峰度系數(shù)大于0時
,
表明數(shù)據(jù)的分布是尖峰分布
,
數(shù)據(jù)分布較標(biāo)準(zhǔn)正態(tài)分布而言更為集中;
當(dāng)峰度系數(shù)小于0時
,
表明數(shù)據(jù)的分布是扁平分布
,
數(shù)據(jù)分布較標(biāo)準(zhǔn)正態(tài)分布而言更為分散
。第三章
數(shù)據(jù)獲取與數(shù)據(jù)理解第四章
數(shù)據(jù)預(yù)處理第五章
計量模型第六章
數(shù)據(jù)挖掘分類預(yù)測模型第七章
數(shù)據(jù)挖掘聚類與關(guān)聯(lián)規(guī)則模型第八章
社會網(wǎng)絡(luò)分析模型第九章
復(fù)雜數(shù)據(jù)分析方法第十章
數(shù)據(jù)可視化第二部分商務(wù)數(shù)據(jù)分析
常用方法第四章
數(shù)據(jù)預(yù)處理第
一
節(jié)
數(shù)據(jù)預(yù)處理●
各行各業(yè)每天的數(shù)據(jù)規(guī)模不斷增加
,
數(shù)據(jù)質(zhì)量成為重要問題
?!?/p>
這些數(shù)據(jù)被獲取之后
,
往往不能直接拿來進(jìn)行分析
,
需要對數(shù)據(jù)的缺失
、
異常等情況進(jìn)行判斷處
理
,
并結(jié)合具體分析的需要對數(shù)據(jù)進(jìn)行變換
。1
.
數(shù)據(jù)預(yù)處理的目的●
我們實際搜集到的原始數(shù)據(jù)經(jīng)常是不完全的
、
有異常的
、
冗余的
、模糊的
,
甚至矛盾的
。●
導(dǎo)致這種結(jié)果的原因也有很多種:
收集數(shù)據(jù)的設(shè)備可能出現(xiàn)故障;當(dāng)用戶不希望提交個人信息時,
可能故意輸入錯誤信息;
數(shù)據(jù)輸入
、傳輸時出現(xiàn)錯誤;
不同數(shù)據(jù)源命名約定或者所用數(shù)據(jù)代碼不
一致等等
?!?/p>
在海量的實際數(shù)據(jù)中無意義的成分也很多
,
非常不利于后續(xù)的模型以及算法的訓(xùn)練
。●
預(yù)處理的目
的是為后續(xù)的模型提供滿足要求
、
更加具有針對性的數(shù)據(jù)
,
從而提高數(shù)據(jù)分析效率和
準(zhǔn)確率
。2
.
數(shù)據(jù)預(yù)處理的主要任務(wù)●
數(shù)據(jù)清洗●
對數(shù)據(jù)中的缺失值
、異常值
、不一致等情況進(jìn)行分析和處理●
數(shù)據(jù)集成●
為了滿足數(shù)據(jù)分析需要
,
合并來自多個數(shù)據(jù)源的數(shù)據(jù)
,
并保證數(shù)據(jù)的一致性
?!?/p>
數(shù)據(jù)變換●
用各種方式變換數(shù)據(jù)原本的數(shù)值
,
使得數(shù)據(jù)集在不失真的情況下
,
更能滿足下一步處理的需要
,
主要包
括規(guī)范化
、
函數(shù)變化
、數(shù)據(jù)類型變化等
。●
數(shù)據(jù)規(guī)約●
產(chǎn)生更小但是能夠代表原有數(shù)據(jù)集合特點的新數(shù)據(jù)集
。主要有屬性規(guī)約
、數(shù)值規(guī)約等方法
。3
.
數(shù)據(jù)清洗●
(
1
)
缺失值分析●
缺失值是指在原始數(shù)據(jù)中由于缺少信息而造成的數(shù)據(jù)的某個或者某些屬性的值是不完全的
,
或者是不正
確的
?!?/p>
缺失值存在的原因常見的有:
信息暫時無法獲取或信息獲取的成本較高;
信息在儲存或傳輸過程中丟失;
屬性值不存在等
?!?2
)缺失值處理方法:
刪除●
方法簡單易行
、非常有效
、迅速
,
但是它以減少數(shù)據(jù)量為代價來換取信息的完備
,
這樣做可能會將有用
的信息一并刪除
。3
.
數(shù)據(jù)清洗●(
3
)
缺失值處理方法:
數(shù)據(jù)填充●
當(dāng)我們獲取的數(shù)據(jù)集較小時
,
更不能直接刪除數(shù)據(jù)
,
這時就需要對缺失值進(jìn)行插補(bǔ)
?!?/p>
①指定值填充●
將空值作為一種特殊的屬性值進(jìn)行處理
,
有可能在后期的數(shù)據(jù)分析過程中
,
算法誤以為它們有實際的意義
,
而導(dǎo)致模型的錯誤
。●
②使用屬性的集中度量填充●
根據(jù)數(shù)據(jù)的集中分布來填補(bǔ)缺失值
,
方法缺乏理論依據(jù)●
③插值法填充●
插值法類似于函數(shù)擬合
,
利用在某段區(qū)間中已知的若干點的函數(shù)值
,
擬合出適當(dāng)?shù)暮瘮?shù)
,
那么在區(qū)間上所有
點的值都可以用這個函數(shù)來近似
,
這樣對于缺失記錄
,
就可以用函數(shù)計算出的結(jié)果對缺失值進(jìn)行填補(bǔ)
。●常見的差值法有拉格朗日差值法和牛頓差值法
。3
.
數(shù)據(jù)清洗●(
3
)
缺失值處理方法:
數(shù)據(jù)填充●
④K最近鄰數(shù)據(jù)填充●
基本原理是根據(jù)與此實例相近的幾個實例的均值進(jìn)行填充
。●
此方法用相似實例取值的均值進(jìn)行插補(bǔ)
,
更加合理
。但是該方法引入了數(shù)據(jù)間的自相關(guān)
,
這可能會
給后期的模型分析造成一定的偏差
?!?/p>
⑤模型預(yù)測填充●
通過建模的方式
,
用已有值來建立變量間的模型關(guān)系
,
從而擬合出缺失值
。在這個情景下
,
數(shù)據(jù)完
整的記錄組成模型的訓(xùn)練集
,
而對缺失值的預(yù)測實際上是模型的應(yīng)用
?!?/p>
缺失值處理的方法有很多
,
各有優(yōu)劣
,
無論是以哪種方式填充
,
都無法避免對原數(shù)據(jù)的影響,
使得數(shù)據(jù)有偏
。3
.
數(shù)據(jù)清洗●
(
4
)
異常值分析●
異常值
,
也叫作離群點
、
噪聲點
,
指的是在數(shù)值
、
結(jié)構(gòu)
、特征等方面與大多數(shù)數(shù)據(jù)的表現(xiàn)顯
著不同的數(shù)據(jù)樣本
?!?/p>
產(chǎn)生異常值的常見原因:
信息錄入時出現(xiàn)人為錯誤或系統(tǒng)誤差
,
有時候環(huán)境等因素也會帶來
數(shù)據(jù)的極端變化
?!?/p>
分析異常值的常用方法:
箱線圖●
箱線圖也稱盒形圖
,
在箱線圖中標(biāo)示了代表數(shù)據(jù)分布的下四分位數(shù)
、
中位數(shù)和上四分位數(shù)
?!?/p>
它相對穩(wěn)定
,
包含了數(shù)據(jù)集中50%的數(shù)值
,
不會受到異常值的影響
。●
根據(jù)偏離程度的不同
,
箱線圖分析中將異常值分為兩類:
偏離程度較小的定義為離群值
,
偏離程度
較大的定義為極端值
。偏離上、下四分位數(shù)的程度不及極端值,但
仍然有一定偏離程度的值被判定為離群值。比上四分位數(shù)高出某范圍或比下四分位數(shù)低某范圍的值被判定為極端值?!?/p>
(
4
)
異常值分析●
箱線圖3
.
數(shù)據(jù)清洗3
.
數(shù)據(jù)清洗●(5)
異常值處理●
需要分析異常值是不是人為錯誤產(chǎn)生的
。●
如果是由于環(huán)境變化產(chǎn)生的
,
這些異常值中通常就含有有用的信息
,
可以進(jìn)行單獨建模等處
理
。●
對于人為錯誤產(chǎn)生的異常值
,
可以采用如下方法處理:●
①直接刪除●
將含有異常值的記錄直接刪除
。
該方法操作簡單
,
同直接刪除有缺失值的記錄一樣
,
一般適用于數(shù)
據(jù)集合較大
,
異常值占比較小的情形
?!?/p>
②用其他值替代異常值●
可以利用填補(bǔ)的方法
,
將異常值利用數(shù)據(jù)的平均值
、
中位數(shù)等進(jìn)行替換和修正
,
也可以通過前面介
紹的缺失值插補(bǔ)的其他方法對異常值進(jìn)行修正
。4
.
數(shù)據(jù)集成●
數(shù)據(jù)來自不同渠道并且用不同方式獲取時
,
有可能會導(dǎo)致對同一個對象的不同描述
?!?/p>
數(shù)據(jù)集成不僅將數(shù)據(jù)進(jìn)行簡單合并
,
而且需要同時處理數(shù)據(jù)集的冗余和不一致
,
這對于后續(xù)的分
析過程的準(zhǔn)確性和速度有很大影響
?!?/p>
(
1
)
實體識別●
每個數(shù)據(jù)來源通常有各自的數(shù)據(jù)定義和組織方法
,
因此
,
數(shù)據(jù)集成中經(jīng)常會遇到實體識別的問題
,
即
同一個對象實體在不同的數(shù)據(jù)集中有不同的名稱(異名同義)
或者同樣的名稱不對應(yīng)同一個實體(同名異義)
等
?!?/p>
在進(jìn)行數(shù)據(jù)實體識別時
,
不能被不規(guī)范的命名誤導(dǎo)
,
需要進(jìn)行業(yè)務(wù)調(diào)研
,
準(zhǔn)確地確認(rèn)個表中每個屬性
的實際含義
,
對數(shù)據(jù)表
、屬性字段等進(jìn)行統(tǒng)一的規(guī)范命名
,
完成對數(shù)據(jù)的集成
。4
.
數(shù)據(jù)集成●
(
2
)冗余和相關(guān)分析
●
冗余●
如果一個特征屬性可以由其他屬性導(dǎo)出或者計算得到
,
則這個特征屬性可以被認(rèn)定為冗余
?!?/p>
屬性冗余的判定依據(jù)是屬性之間是否存在較強(qiáng)的相關(guān)性
。通過檢測屬性之間的相關(guān)性
,
即進(jìn)行相關(guān)分析
就可以甄別出冗余屬性
?!?/p>
相關(guān)分析●
具體方法主要分為兩種:
1
)對于標(biāo)稱型數(shù)據(jù)
,
通常采用的方法為卡方檢驗;
2
)對于數(shù)值型數(shù)據(jù)
,
可
以通過相關(guān)系數(shù)或者協(xié)方差來衡量屬性之間的相關(guān)性
。數(shù)據(jù)冗余有時會提高數(shù)據(jù)分析的效率
。4
.
數(shù)據(jù)集成●
(
3
)
實例重復(fù)●
實例重復(fù):
給定的唯一的數(shù)據(jù)實體存在兩個或者多個相同的記錄實例
。重復(fù)數(shù)據(jù)會嚴(yán)重影響后續(xù)數(shù)據(jù)分
析的效果
?!?/p>
對于數(shù)據(jù)中實例重復(fù)的問題
,
需要調(diào)查確定每個數(shù)據(jù)集的主鍵
,
對于沒有主鍵的數(shù)據(jù)表
,
需要確定合適
的主鍵
,
或者對數(shù)據(jù)表進(jìn)行拆分或整合
,
從而有效地解決實例重復(fù)的問題
?!?/p>
(
4
)
數(shù)據(jù)沖突●
對于同一實體
,
來自不同數(shù)據(jù)源的相同的屬性值不同
?!?/p>
原因:
這可能是因為獲取信息的時間點不同
,
屬性值發(fā)生了變化;
可能是因為在不同的數(shù)據(jù)源中其表示
、
單位或者編碼不同;
相同的屬性可能抽象在不同的層次
?!?/p>
解決方法:
需要明確造成數(shù)據(jù)沖突的原因
,
如果是單位
、計量方法等不同
,
可以通過數(shù)據(jù)變換對數(shù)據(jù)進(jìn)
行變換整理;
如果數(shù)據(jù)沖突實在無法避免或者變換
,
就需要根據(jù)實際的業(yè)務(wù)需求考慮沖突數(shù)據(jù)
,
辨別出
正確的數(shù)值
。5
.
數(shù)據(jù)變換●
為了解決數(shù)據(jù)集成中的不一致問題
,
以及更容易被后續(xù)模型處理
,
提高模型的擬合度
,
需要將原
有數(shù)據(jù)轉(zhuǎn)換成適當(dāng)?shù)男问?/p>
?!?/p>
(
1
)
函數(shù)變換●
函數(shù)變換是指對樣本中的原始數(shù)據(jù)直接使用某些數(shù)學(xué)函數(shù)進(jìn)行變換
,
使得處理后的數(shù)據(jù)更適合模
型后續(xù)的處理
?!?/p>
選擇數(shù)據(jù)變換函數(shù)需要考量:●
變換后的數(shù)據(jù)要分布在合理的區(qū)間
,
或者說變換后的數(shù)據(jù)符合對現(xiàn)實生活中分布的認(rèn)知
?!?/p>
變換后的數(shù)據(jù)的分布特征
、
正負(fù)性和平穩(wěn)性等都可能會發(fā)生改變
,
所以在進(jìn)行函數(shù)變換前
,
應(yīng)該預(yù)判變
換后是否會影響后續(xù)數(shù)據(jù)模型的建立和分析的有效性
。5
.
數(shù)據(jù)變換●
(
2
)
規(guī)范化●
數(shù)據(jù)規(guī)范化是指將原始數(shù)據(jù)按照一定的比例縮放
,
使其落入一個較小的特定區(qū)間
。●
一般來說
,
通過數(shù)據(jù)的縮放能夠消除數(shù)據(jù)的量綱
,
消除度量單位引起的數(shù)值差異
,
即將屬性
數(shù)據(jù)縮放到一個特定區(qū)間
?!?/p>
①最小—最大規(guī)范化●
也稱為離散標(biāo)準(zhǔn)化
,
利用某屬性的最大值和最小值
,
將該屬性的取值映射到[0
,
1]之間
?!?/p>
優(yōu)點是算法操作簡單
,
且保留了原始數(shù)據(jù)存在的關(guān)系●
缺點是規(guī)范值不穩(wěn)定
,
容易受極值的影響
,
方法適用于數(shù)據(jù)比較集中的情況
。5
.
數(shù)據(jù)變換●
(
2
)
規(guī)范化●
③小數(shù)定標(biāo)規(guī)范化●
通過移動數(shù)據(jù)的小數(shù)位數(shù)
,
即除以10的某次方
,
將數(shù)據(jù)映射到[-1
,
1]之間
。
移動的小數(shù)位數(shù)取決
于數(shù)據(jù)中最大絕對值的位數(shù)
?!?/p>
只是移動小數(shù)點
,
不會破壞原始數(shù)據(jù)的分布結(jié)構(gòu)
,
當(dāng)然也會受到極值的影響
。5
.
數(shù)據(jù)變換●
(
3
)
離散化●
將數(shù)據(jù)從連續(xù)型數(shù)值數(shù)據(jù)轉(zhuǎn)換為離散型標(biāo)稱數(shù)據(jù)
?!?/p>
進(jìn)行數(shù)據(jù)離散化通常是為了滿足特定模型的需要
,
將數(shù)據(jù)類型從連續(xù)轉(zhuǎn)換到
,
或者在某些情況下將已有的離散型數(shù)
據(jù)進(jìn)行類別合并
,
減少類別數(shù)量
?!?/p>
①等寬離散化●將原始連續(xù)數(shù)據(jù)的區(qū)間劃分成具有相同寬度的子區(qū)間
,
比較簡單
,
缺點在于沒有考慮實際數(shù)據(jù)的分布情況
,
可能會導(dǎo)致離
散化之后建立的數(shù)據(jù)模型樣本不均衡
。●
②等頻離散化●根據(jù)連續(xù)型數(shù)值數(shù)據(jù)的分布劃分類別
,
劃分后的各個區(qū)間包含的數(shù)據(jù)點的個數(shù)是相等的
,
為保證各個區(qū)間包含的實例個數(shù)
相等
,
可能會將原本相同的兩個數(shù)值劃分到不同類別中
,
從而影響了后續(xù)建立模型的準(zhǔn)確性
?!?/p>
③聚類離散化●用聚類算法
,
根據(jù)數(shù)據(jù)的相似性將原始數(shù)據(jù)分成多個類別
,
實現(xiàn)離散化
。●效果較好的一類離散方法,●缺點:需要用戶自
己規(guī)定聚類個數(shù)
,
聚類的效果受到經(jīng)驗的影響
。5
.
數(shù)據(jù)變換●(
4
)
獨熱編碼(One-hot
encoding
)●
在數(shù)據(jù)集中標(biāo)稱數(shù)據(jù)有兩種常見類型:
第
一
,
分類的取值有大小之分
,
直接用數(shù)值表示類別
,
不
需要進(jìn)行轉(zhuǎn)換;
第二
,
離散特征的取值之間沒有大小之分
,
無法直接比較類別的差異
,
此時就需
要對特征進(jìn)行獨熱編碼
?!?/p>
根據(jù)類別可能的數(shù)量設(shè)定位數(shù)N
,
建立N位編碼
,
每一個類別對應(yīng)一個位置
,
因為樣本只能屬于
一個類別
,
所以N位獨熱編碼中只有一位有效
。●
離散特征進(jìn)行獨熱編碼之后
,
可以計算特征之間的距離或相似度
?!?/p>
如果某個類別有多個可能的取值
,
則編碼的位數(shù)會相應(yīng)地增加
,
有時會影響處理效率
。6
.
數(shù)據(jù)規(guī)約●
數(shù)據(jù)集可能規(guī)模較大
,
大幅度降低數(shù)據(jù)分析效率
。
數(shù)據(jù)規(guī)約就是能夠降低屬性維度
、減少樣本數(shù)量的
方法
?!?/p>
核心是要產(chǎn)生規(guī)模更小但能最大可能保持原始數(shù)據(jù)特點和完整性的新數(shù)據(jù)集
?!?/p>
(
1
)
屬性規(guī)約●
屬性規(guī)約通過減少屬性數(shù)量
,
達(dá)到減少數(shù)據(jù)集的目
的
?!?/p>
主成分分析(Principal
Component
Analysi
s
,PCA)
是屬性規(guī)約的主要方法
。●
基本思想是針對原始數(shù)據(jù)集
,
重新構(gòu)造一組有代表性的
、
互不相關(guān)的新特征
?!癫幌嚓P(guān)意味著這些新特征包含的信息彼此不重復(fù)
,
而有代表性則說明
,
這些特征還能夠盡量多地涵蓋原始數(shù)
據(jù)的信息
。●
對于新特征互不相關(guān)的要求
,
可以利用正交基向量互不相關(guān)的性質(zhì)
,
通過構(gòu)造多維度正交基向量來保證;
而
對于包含盡量多的信息的要求
,
則通過樣本在新特征上取值的方差來衡量
,
方差越大
,
說明數(shù)據(jù)在此新特征
上越分散
,
包含的信息也越多
。●
(
2
)
數(shù)值規(guī)約●
用部分或者較小規(guī)模的數(shù)據(jù)來替換原始數(shù)據(jù)
。●
①直方圖●
通過劃分子區(qū)間的方式減少原數(shù)據(jù)的屬性取值
?!?/p>
子區(qū)間的劃分可以是等寬的
,
也可以是等頻的
?!?/p>
②聚類●
利用聚類進(jìn)行數(shù)值規(guī)約
,
將數(shù)據(jù)分簇
,
使得同簇的對象相似
,
不同簇的對
表值來替換原始數(shù)據(jù)
。相異
用每個數(shù)據(jù)簇中的代6
.
數(shù)據(jù)規(guī)約6
.
數(shù)據(jù)規(guī)約●
(
2
)
數(shù)值規(guī)約
●
③抽樣●
基本思想是從原始數(shù)據(jù)集合中隨機(jī)抽取小得多的子集
,
用其代表原始數(shù)據(jù)集
?!?/p>
抽樣的方法主要包括簡單隨機(jī)抽樣
、
分層抽樣
?!?/p>
簡單隨機(jī)抽樣●
每條數(shù)據(jù)記錄以相同的概率被抽中
。
具體分為無放回和有放回兩種
。兩者的區(qū)別在于當(dāng)一個數(shù)據(jù)記
錄從原始數(shù)據(jù)集中被抽取之后
,
無放回抽樣將在剩余數(shù)據(jù)集中繼續(xù)抽取新數(shù)據(jù);
而有放回抽樣會將
被抽取的數(shù)據(jù)放回原始數(shù)據(jù)集
,
下一次再次以同樣的概率被抽取
。
該方法主要適用于總體個數(shù)較小
且樣本類別分布均衡的情況
?!?/p>
分層抽樣●
先根據(jù)類別將原始數(shù)據(jù)集劃分為不同的層(或組)
,
層之間是互不相交的
,
然后對每一層各自進(jìn)行
抽樣
,
最后將各層抽樣的結(jié)果進(jìn)行整合
,
得到對于原始數(shù)據(jù)集的抽樣
。第二節(jié)
特征工程●
特征指的是對數(shù)據(jù)各方面的描述
,
是進(jìn)行分析和解決問題的基礎(chǔ)
?!?/p>
好的數(shù)據(jù)和特征是所有模型和算法發(fā)揮到極致的前提
。
因此
,
需要圍繞分析的問題
,
在原始數(shù)
據(jù)特征中找到既能盡量多地代表全部特征又能使算法模型達(dá)到最佳性能的特征子集
?!?/p>
特征工程包括三個方面:
特征構(gòu)建
、特征提取和特征選擇
?!?/p>
特征構(gòu)建●
是指圍繞需要解決的問題
,
用人工方法從原始數(shù)據(jù)中找出一些有代表性的
、
能夠刻畫研究對象關(guān)鍵屬性的特征的過程
。●
特征提取●
通過特征轉(zhuǎn)換
,
依據(jù)屬性取值之間的相關(guān)關(guān)系
,
去除不重要以及冗余的特征
,
減少特征數(shù)量的過程
。第二節(jié)
特征工程●
數(shù)據(jù)樣本的屬性特征分類●
可以分為三種類型:●
對當(dāng)前的學(xué)習(xí)任務(wù)有用的屬性稱為
“
相關(guān)特征
”
,
可以提升模型的效果;●
對當(dāng)前的學(xué)習(xí)任務(wù)沒用的稱為
“
無用特征
”;●
“
冗余特征
”是指其特征包含的信息能夠從其他特征中計算或者推演出來
?!?/p>
特征選擇●
科學(xué)剔除不相關(guān)或者冗余特征的過程1
.
特征選擇的目的●
“
維數(shù)災(zāi)難
”就是當(dāng)數(shù)據(jù)的特征維度超過某個值之后
,
隨著特征數(shù)量的進(jìn)一步增加
,
模型訓(xùn)練的
效率會降低
,
同時訓(xùn)練出的模型準(zhǔn)確度反而會下降
?!?/p>
為了降低模型的復(fù)雜性
、
降低模型訓(xùn)練的時間
,
同時提高模型的效果
、
準(zhǔn)確率
,
我們需要進(jìn)行特
征選擇
。2
.
特征選擇的過程●
特征選擇的目標(biāo)就是從備選的特征子集中選擇出對算法模型表現(xiàn)最好的子集
。●
特征選擇的過程一般為特征子集搜索
、
構(gòu)建候選子集
、
利用評價函數(shù)對子集進(jìn)行評價
,
然后利用
停止規(guī)則
,
驗證所得到的特征子集是否滿足要求
。3
.
子集搜索●
(
1
)
完全搜索●
基本思路是遍歷原始特征所組成的所有可能的特征子集
從中尋找最優(yōu)
。●
需要對所有可能的特征子集利用評價函數(shù)進(jìn)行計算比較
,
評價函數(shù)表現(xiàn)最好的特征子集為最終的
搜索結(jié)果
。●
避免了局部最優(yōu)解
,
但是遍歷會帶來很大的計算開銷
,
其復(fù)雜度是指數(shù)級別的
。3
.
子集搜索●
(
2
)
啟發(fā)式搜索●
從某一個候選特征子集出發(fā)
,
向其中不斷添加或者減少特征
,
不斷構(gòu)建出新的特征子集
,
并在改
變的過程中對候選子集進(jìn)行評價
?!?/p>
序列前向選擇(Sequential
Forward
Selection
,
SFS)
,
是不斷將新的特征添加到候選子集的方
法
。
該方法的搜索從空集開始
,
每次選擇一個特征加入當(dāng)前子集
,
加入的判斷標(biāo)準(zhǔn)是評價函數(shù)得
到了優(yōu)化
,
這個過程持續(xù)進(jìn)行
,
直到評價函數(shù)的值不能變得更優(yōu)時停止
?!?/p>
序列后向選擇(Sequential
Backward
S
election
,
SBS)
,
該方法以特征全集為初始的特征子
集
,
每次從特征子集中剔除一個特征
,
剔除的標(biāo)準(zhǔn)是剔除某特征后
,
評價函數(shù)值會變優(yōu)
?!?/p>
雙向搜索(BiDirectional
Search
,BDS)
,將前面介紹的兩種方法結(jié)合起來進(jìn)行搜索
,
當(dāng)兩者達(dá)
到相同的特征子集時停止搜索
。3
.
子集搜索●
(
3
)
隨機(jī)搜索●
基本思想:
在啟發(fā)式算法中進(jìn)行更改
,
使之能夠在一定程度上跳出局部最優(yōu)值●
隨機(jī)產(chǎn)生序列選擇算法●
隨機(jī)產(chǎn)生一個特征子集
,
再在該特征子集上執(zhí)行前向搜索算法和后向搜索算法
。
多次進(jìn)行此過程后
,
找
到表現(xiàn)最優(yōu)的子集作為特征搜索的結(jié)果
?!?/p>
模擬退火算法●
核心思想是有一定隨機(jī)概率拒絕表現(xiàn)更優(yōu)的子集
,
防止陷入局部最優(yōu)
。4
.
子集評價●
依據(jù)評價函數(shù)對候選特征子集的優(yōu)劣進(jìn)行評價的過程
?!?/p>
一個特征子集的優(yōu)劣往往是對于特定的評價函數(shù)來說的
,
對于不同問題背景下的評價函數(shù),
同一特征子集的優(yōu)劣可能表現(xiàn)得不同
。5.
特征選擇的方法?根據(jù)評價和搜索與后續(xù)模型算法的聯(lián)系的緊密程度,
特征選擇方法可以分為三類。5.
特征選擇的方法?
(
1
)
過濾式?
基本思想:
首先選擇出在特征評價指標(biāo)下表現(xiàn)較好的特征子集,
然后利用最終得到的最優(yōu)特征子集去訓(xùn)練模型。?
過濾式特征選擇的最大特點在于選擇特征子集的過程與模型的表現(xiàn)效果無關(guān),兩者是獨立進(jìn)行的
。過濾式特征選擇對特征的評價與后續(xù)的模型算法無關(guān),是基于數(shù)據(jù)特征本身的性質(zhì)進(jìn)行評價的。?
優(yōu)點:
通用性較強(qiáng),
選擇的特征子集可以應(yīng)用于多個問題背景;
算法在特征
選擇時不需要進(jìn)行模型訓(xùn)練優(yōu)化,
復(fù)雜性較低;
適用于大規(guī)模且需要高效率選擇特征的數(shù)據(jù)集。?
缺點:
所選擇的特征子集在模型準(zhǔn)確率上通常低于其他兩種特征選擇方法。5.
特征選擇的方法5.
特征選擇的方法?
(
1
)
過濾式?②依賴性度量?又稱為相關(guān)性度量,
基于的假設(shè)為:
特征子集所包含的特征應(yīng)該與目標(biāo)屬性的相關(guān)度較高,
而子集中特征之間的相關(guān)度較低。?
皮爾遜相關(guān)系數(shù)?
被廣泛應(yīng)用于對兩個連續(xù)型數(shù)據(jù)屬性取值之間的相關(guān)程度的度量。?
用協(xié)方差除以兩個變量的標(biāo)準(zhǔn)差得到,計算結(jié)果介于-1到1之間,度量的是兩個屬性之間是否存在線性關(guān)系。?
卡方檢驗?
衡量兩個離散屬性之間的相關(guān)程度。?
根本思想是:
首先假設(shè)某特征屬性和目標(biāo)屬性是獨立的,
也就是說,特征屬性與目標(biāo)結(jié)果沒有相關(guān)性,那么在此特征的取值范圍上,
目標(biāo)屬性的分布理論上應(yīng)該是均勻的,通過比較理論值與實際值的吻合程度來確定原假設(shè)是否成立。5.
特征選擇的方法?
(
1
)
過濾式?
③信息增益度量?
信息增益的概念來自信息熵,
通過衡量按照某屬性取值劃分后數(shù)據(jù)集的“純度
”評價屬性的重要性。?
④一致性度量?
基于以下假設(shè):
如果某特征對于研究目標(biāo)屬性是重要的,
那么對于任意兩個樣本來說,
當(dāng)它們在特征上的取值相同時,
其在目標(biāo)屬性中的取值也應(yīng)該相同。?
一致性常用不一致率來衡量,
不一致率越小,
表示根據(jù)這一評價標(biāo)準(zhǔn),
特征子集的表現(xiàn)越好。5.
特征選擇的方法?
(
2
)
包裹式?直接將后續(xù)要使用的模型性能的好壞作為特征選擇的評價標(biāo)準(zhǔn),
選擇
使得后續(xù)模型表現(xiàn)最好的特征子集作為最優(yōu)子集
。包裹式特征選擇的結(jié)果不是普遍適用的,
是直接針對給定的模型來進(jìn)行特征選擇的。?優(yōu)點:
顯然從最終模型的性能、準(zhǔn)確率等表現(xiàn)來看,
包裹式特征選擇要優(yōu)于過濾式特征選擇。?缺點:
需要選擇不斷地訓(xùn)練模型,
以得到表現(xiàn)最好的特征子集,
所以
相對于過濾式特征選擇來說,
其花費的時間和成本都較大,
不適用于
較大規(guī)?;蛘邿o關(guān)特征較多的數(shù)據(jù)集。?
典型的包裹式特征選擇方法包括LVW(Las
Vegas
Wrapper)算法和遞
歸特征消除法RFE(recursive
feature
elimination)
。5.
特征選擇的方法?(
3
)
嵌入式?沒有專門的準(zhǔn)則對特征進(jìn)行評價,
而是將特征選擇的過程與模型
的訓(xùn)練過程完全融合在一起,在模型構(gòu)建訓(xùn)練的過程中自動實現(xiàn)
了特征選擇。?常見的一種嵌入式特征選擇方式是進(jìn)行正則化,
把額外的懲罰項
加到原有模型的損失函數(shù)上,
通過最小化正則項,
使那些不重要
的特征所對應(yīng)的系數(shù)變成0,進(jìn)而實現(xiàn)特征選擇。?有些數(shù)據(jù)挖掘的算法在完成模型訓(xùn)練的同時,
自身就可以實現(xiàn)特
征選擇,
判斷哪些屬性對目標(biāo)屬性更重要
。在自身的訓(xùn)練過程中
完成了特征選擇,
也是一種嵌入式特征選擇方法。第三章
數(shù)據(jù)獲取與數(shù)據(jù)理解第四章
數(shù)據(jù)預(yù)處理第五章
計量模型第六章
數(shù)據(jù)挖掘分類預(yù)測模型第七章
數(shù)據(jù)挖掘聚類與關(guān)聯(lián)規(guī)則模型第八章
社會網(wǎng)絡(luò)分析模型第九章
復(fù)雜數(shù)據(jù)分析方法第十章
數(shù)據(jù)可視化第二部分商務(wù)數(shù)據(jù)分析
常用方法第五章
計量模型第
一
節(jié)
時間序列分析●1
.
時間序列分析簡介●(2)時間序列分析方法●
主要可以分為兩類:
描述性時序分析和統(tǒng)計時序分析
?!?/p>
描述性時序分析指的是
,
通過繪制時序圖等方式
,
比較
、觀察
、
發(fā)現(xiàn)時間序列中顯然存在的
一些變化趨勢
,
如數(shù)據(jù)逐漸增大或變小的趨勢性
,
或者數(shù)據(jù)變化呈現(xiàn)周期性等
。1
.
時間序列分析簡介●(2)時間序列分析方法●
統(tǒng)計時序分析目前比較流行的方法是進(jìn)行時域分析
,
認(rèn)為時間序列的值之間存在有一定的相
關(guān)關(guān)系
,
而且這種相關(guān)關(guān)系通常具備某些統(tǒng)計規(guī)律
?!?/p>
時域分析就是利用模型刻畫時間序列的值中體現(xiàn)的關(guān)系的規(guī)律
。2
.
時間序列建模:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 家電公司外部培訓(xùn)管理規(guī)章
- 天津初一考試試題及答案
- 勵磁系統(tǒng)考試題及答案
- 康復(fù)醫(yī)學(xué)試題及答案
- 坡道訓(xùn)練考試題及答案
- 2026屆北京二十中化學(xué)高三上期中質(zhì)量跟蹤監(jiān)視模擬試題含解析
- 5G時代財務(wù)數(shù)據(jù)分析
- 家電公司涉外事務(wù)管理辦法
- 關(guān)節(jié)損傷康復(fù)必知
- 家電公司采購管理辦法
- 肝癌介入術(shù)術(shù)后護(hù)理
- 2025年高考河南省物理真題(含解析)
- 污泥安全培訓(xùn)課件內(nèi)容
- 四懂四會消防知識培訓(xùn)
- 【二甲基甲酰胺(DMF)的精餾過程工藝設(shè)計計算案例2000字】
- 《曾國藩傳》讀書分享課件
- 公司對實習(xí)生管理制度
- 廠區(qū)安保巡邏管理制度
- T/CERDS 1-2021企業(yè)高質(zhì)量發(fā)展評價指標(biāo)
- T/CECS 10209-2022給水用高環(huán)剛鋼骨架增強(qiáng)聚乙烯復(fù)合管材
- GB/T 18487.4-2025電動汽車傳導(dǎo)充放電系統(tǒng)第4部分:車輛對外放電要求
評論
0/150
提交評論