大數(shù)據(jù)營(yíng)銷(第2版 數(shù)字教材版) 課件 第3章 營(yíng)銷大數(shù)據(jù)采集及預(yù)處理_第1頁(yè)
大數(shù)據(jù)營(yíng)銷(第2版 數(shù)字教材版) 課件 第3章 營(yíng)銷大數(shù)據(jù)采集及預(yù)處理_第2頁(yè)
大數(shù)據(jù)營(yíng)銷(第2版 數(shù)字教材版) 課件 第3章 營(yíng)銷大數(shù)據(jù)采集及預(yù)處理_第3頁(yè)
大數(shù)據(jù)營(yíng)銷(第2版 數(shù)字教材版) 課件 第3章 營(yíng)銷大數(shù)據(jù)采集及預(yù)處理_第4頁(yè)
大數(shù)據(jù)營(yíng)銷(第2版 數(shù)字教材版) 課件 第3章 營(yíng)銷大數(shù)據(jù)采集及預(yù)處理_第5頁(yè)
已閱讀5頁(yè),還剩27頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第3章

營(yíng)銷大數(shù)據(jù)采集及預(yù)處理本章內(nèi)容

第1節(jié)

數(shù)據(jù)采集

第2節(jié)

數(shù)據(jù)預(yù)處理

第3節(jié)

大語(yǔ)言模型應(yīng)用學(xué)習(xí)目標(biāo)了解大數(shù)據(jù)的類型和數(shù)據(jù)來源了解數(shù)據(jù)采集過程,培育正確的信息隱私觀了解大數(shù)據(jù)采集方法以及使用八爪魚工具進(jìn)行數(shù)據(jù)采集的基本方法掌握數(shù)據(jù)預(yù)處理的方法,每種方法對(duì)應(yīng)處理的問題類型,以及運(yùn)用大模型輔助數(shù)據(jù)預(yù)處理的操作方法

導(dǎo)入案例

聯(lián)通在線多途徑數(shù)據(jù)收集,開展精準(zhǔn)營(yíng)銷聯(lián)通在線公司擁有4億全網(wǎng)用戶的大數(shù)據(jù)能力,每日數(shù)據(jù)采集量有100TB,用戶觸達(dá)能力達(dá)到數(shù)億級(jí),其強(qiáng)大的數(shù)據(jù)采集能力主要?dú)w功于收集渠道的多元化在內(nèi)部用戶數(shù)據(jù)的采集上,聯(lián)通在線公司通過收集用戶與公司交互形成的數(shù)據(jù)并結(jié)合特有的網(wǎng)絡(luò)資源能力,在進(jìn)行集中化處理后實(shí)現(xiàn)智能中臺(tái)的功能聯(lián)通在線公司還通過收集第三方用戶的數(shù)據(jù),了解用戶的整體消費(fèi)趨勢(shì),進(jìn)一步完善數(shù)據(jù)營(yíng)銷體系沃廣告還通過開放創(chuàng)新對(duì)外合作模式,打造移動(dòng)營(yíng)銷新生態(tài),提升轉(zhuǎn)換效果本章知識(shí)結(jié)構(gòu)數(shù)據(jù)類型數(shù)據(jù)預(yù)處理營(yíng)銷數(shù)據(jù)采集及預(yù)處理數(shù)據(jù)采集方法結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)系統(tǒng)日志、感知設(shè)備、網(wǎng)絡(luò)爬蟲及其實(shí)踐、市場(chǎng)調(diào)查數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、運(yùn)用大語(yǔ)言模型實(shí)踐數(shù)據(jù)類型丨數(shù)據(jù)來源丨數(shù)據(jù)采集方法丨大數(shù)據(jù)采集面臨的問題一、數(shù)據(jù)類型第1節(jié)

數(shù)據(jù)采集數(shù)據(jù)預(yù)處理數(shù)據(jù)采集結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)是指關(guān)系模型數(shù)據(jù),即以關(guān)系數(shù)據(jù)庫(kù)形式管理的數(shù)據(jù),可計(jì)算、可查詢、可定義。結(jié)構(gòu)化數(shù)據(jù)能夠形式化存儲(chǔ)在數(shù)據(jù)庫(kù)里,可以用二維表結(jié)構(gòu)來表示,它被歸類為定量數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型,不便于用數(shù)據(jù)庫(kù)二維邏輯表來表現(xiàn)的數(shù)據(jù),在技術(shù)上比結(jié)構(gòu)化信息更難標(biāo)準(zhǔn)化和理解。半結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)是介于完全結(jié)構(gòu)化數(shù)據(jù)和完全無結(jié)構(gòu)數(shù)據(jù)之間的一種結(jié)構(gòu)化數(shù)據(jù)形式。因其比較特殊,所以單獨(dú)列出來,但本質(zhì)還是結(jié)構(gòu)化數(shù)據(jù)。半結(jié)構(gòu)化數(shù)據(jù)是非關(guān)系模型的、有基本固定結(jié)構(gòu)模式的數(shù)據(jù)。數(shù)據(jù)三大類型大語(yǔ)言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用數(shù)據(jù)類型丨數(shù)據(jù)來源丨數(shù)據(jù)采集方法丨大數(shù)據(jù)采集面臨的問題二、數(shù)據(jù)來源第1節(jié)

數(shù)據(jù)采集數(shù)據(jù)來源

搜索引擎搜索數(shù)據(jù)和網(wǎng)站的點(diǎn)擊瀏覽數(shù)據(jù)來源于搜索引擎,搜索平臺(tái)擁有龐大的用戶行為數(shù)據(jù)。利用點(diǎn)擊和瀏覽數(shù)據(jù)對(duì)消費(fèi)者進(jìn)行分析,可以找到用戶的關(guān)注點(diǎn)、興趣點(diǎn),利用這些信息,企業(yè)可以對(duì)用戶進(jìn)行個(gè)性化推送,精準(zhǔn)營(yíng)銷,極大提高了廣告的效率。電子商務(wù)平臺(tái)商品的搜索數(shù)據(jù)、瀏覽數(shù)據(jù)、交易數(shù)據(jù)、評(píng)價(jià)數(shù)據(jù)以及對(duì)應(yīng)的用戶數(shù)據(jù)來源于電子商務(wù)平臺(tái)。通過對(duì)商業(yè)大數(shù)據(jù)的分析,能夠更直接地了解消費(fèi)者的動(dòng)態(tài)。通過用戶的點(diǎn)評(píng)數(shù)據(jù),企業(yè)能夠分析出用戶滿意或者不滿意的地方,這些因素就是企業(yè)存在的優(yōu)勢(shì)和劣勢(shì)。收集、分析用戶的點(diǎn)評(píng)數(shù)據(jù)還有一個(gè)重要之處就是傾聽用戶的意見、了解用戶的真實(shí)需求。社交媒體平臺(tái)用戶屬性標(biāo)簽、用戶生成內(nèi)容(UGC)、用戶間社交網(wǎng)絡(luò)數(shù)據(jù)來源于社交媒體平臺(tái)。通過對(duì)社交網(wǎng)絡(luò)的研究,企業(yè)可以跟蹤信息傳播路徑?;谟脩舻男袨楹蛯傩詷?biāo)簽,可以生成用戶畫像,從而了解用戶喜好,企業(yè)根據(jù)分析結(jié)果來開展精準(zhǔn)營(yíng)銷。數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語(yǔ)言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用數(shù)據(jù)類型丨數(shù)據(jù)來源丨數(shù)據(jù)采集方法丨大數(shù)據(jù)采集面臨的問題三、數(shù)據(jù)采集方法第1節(jié)

數(shù)據(jù)采集系統(tǒng)日志系統(tǒng)日志數(shù)據(jù)采集主要是收集公司業(yè)務(wù)平臺(tái)日常產(chǎn)生的大量日志數(shù)據(jù),供離線和在線大數(shù)據(jù)分析系統(tǒng)使用。很多互聯(lián)網(wǎng)企業(yè)都有自己的海量數(shù)據(jù)采集工具用于系統(tǒng)日志采集,如Hadoop公司的Chukwa,Cloudera公司的Flume,以及Facebook公司的Scribe等。這些工具均采用分布式架構(gòu),能滿足每秒數(shù)百兆字節(jié)的日志數(shù)據(jù)采集和傳輸需求。數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語(yǔ)言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用數(shù)據(jù)類型丨數(shù)據(jù)來源丨數(shù)據(jù)采集方法丨大數(shù)據(jù)采集面臨的問題第1節(jié)

數(shù)據(jù)采集感知設(shè)備三、數(shù)據(jù)采集方法感知設(shè)備數(shù)據(jù)采集是指通過傳感器、攝像頭和其它智能終端自動(dòng)采集信號(hào)、圖片或錄像來獲取數(shù)據(jù)。在智能制造、可穿戴設(shè)備、物聯(lián)網(wǎng)愈發(fā)普及的今天,高速、可靠的數(shù)據(jù)采集技術(shù)是當(dāng)前需要重點(diǎn)突破的方向??萍伎焖侔l(fā)展,技術(shù)創(chuàng)新給大數(shù)據(jù)采集提供了新的方法,比如基于眼動(dòng)(EM)、腦電圖(EEG)、事件相關(guān)電位(ERP)、皮膚電反應(yīng)(GSR)、肌電(EMG)、心電圖(ECG)等前沿科技來采集數(shù)據(jù)。通過感知設(shè)備對(duì)生物數(shù)據(jù)進(jìn)行采集的方式在廣告、消費(fèi)者評(píng)論領(lǐng)域均有很強(qiáng)的應(yīng)用價(jià)值,逐漸成為營(yíng)銷領(lǐng)域研究者的“新寵”。數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語(yǔ)言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用數(shù)據(jù)類型丨數(shù)據(jù)來源丨數(shù)據(jù)采集方法丨大數(shù)據(jù)采集面臨的問題第1節(jié)

數(shù)據(jù)采集三、數(shù)據(jù)采集方法網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲是指按照一定規(guī)則在搜索引擎下載并存儲(chǔ)網(wǎng)頁(yè)的程序或腳本,又被稱為網(wǎng)頁(yè)蜘蛛、網(wǎng)絡(luò)機(jī)器人。傳統(tǒng)爬蟲從獲得一個(gè)或若干初始網(wǎng)頁(yè)的URL開始,在抓取網(wǎng)頁(yè)的過程中,不斷從當(dāng)前頁(yè)面抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的停止條件后結(jié)束。從嚴(yán)格意義上來說,爬蟲更像一種數(shù)據(jù)下載邏輯,很多軟件都具備爬蟲的功能(如Python、R、“火車頭”、“八爪魚”等)。數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語(yǔ)言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用數(shù)據(jù)類型丨數(shù)據(jù)來源丨數(shù)據(jù)采集方法丨大數(shù)據(jù)采集面臨的問題第1節(jié)

數(shù)據(jù)采集三、數(shù)據(jù)采集方法市場(chǎng)調(diào)查利用上文所說的信息化手段收集資料非常方便,但對(duì)于有些數(shù)據(jù),如顧客需求及偏好、顧客滿意度、市場(chǎng)環(huán)境和行情信息、競(jìng)爭(zhēng)對(duì)手信息以及戰(zhàn)略合作伙伴方的情況等無法通過信息化手段取得資料時(shí),則需要通過市場(chǎng)調(diào)查或科學(xué)的實(shí)驗(yàn)方法來獲取一手?jǐn)?shù)據(jù)。市場(chǎng)調(diào)查分為線下、線上兩種。線下即傳統(tǒng)人與人面對(duì)面的調(diào)查方式;線上即網(wǎng)絡(luò)在線調(diào)查方式,相比線下方式可以在投入較少人力、時(shí)間和資金的情況下獲取更大規(guī)模數(shù)據(jù),許多企業(yè)和市場(chǎng)調(diào)研機(jī)構(gòu)越來越多地采用線上網(wǎng)絡(luò)市場(chǎng)調(diào)研的方式進(jìn)行網(wǎng)絡(luò)營(yíng)銷數(shù)據(jù)采集。數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語(yǔ)言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用數(shù)據(jù)類型丨數(shù)據(jù)來源丨數(shù)據(jù)采集方法丨大數(shù)據(jù)采集面臨的問題第1節(jié)

數(shù)據(jù)采集四、大數(shù)據(jù)采集面臨的問題數(shù)據(jù)獲取渠道缺乏項(xiàng)目二數(shù)據(jù)質(zhì)量難以保證項(xiàng)目三隱私安全問題凸顯缺少數(shù)據(jù)獲取渠道,是數(shù)據(jù)分析面臨的一大難題。很多行業(yè)和企業(yè)并沒有積累數(shù)據(jù)的意識(shí),導(dǎo)致很多數(shù)據(jù)存在空白。此外,大數(shù)據(jù)包含大量信息,可能涉及到用戶的隱私和公司的機(jī)密,企業(yè)和政府不愿意分享數(shù)據(jù)。大數(shù)據(jù)的“大”是指全體樣本,而非單指數(shù)據(jù)量大?,F(xiàn)有平臺(tái)數(shù)據(jù)質(zhì)量參差不齊,大數(shù)據(jù)采集能力有待提升,實(shí)踐中很難獲得全樣本數(shù)據(jù),龐雜的數(shù)據(jù)中充斥著大量無效的干擾性數(shù)據(jù)、缺失內(nèi)容,如何讓收集到的數(shù)據(jù)樣本豐富全面,是大數(shù)據(jù)給營(yíng)銷變革帶來的挑戰(zhàn)之一?;ヂ?lián)網(wǎng)時(shí)代,在線活動(dòng)與在線交易不斷增多,用戶數(shù)據(jù)與隱私泄露事件時(shí)有發(fā)生,網(wǎng)絡(luò)安全威脅更為嚴(yán)峻。數(shù)據(jù)挖掘一方面可以被企業(yè)有效利用,增強(qiáng)營(yíng)銷活動(dòng)的精準(zhǔn)度,提升營(yíng)銷效率;但另一方面,如果缺乏有效監(jiān)管,用戶數(shù)據(jù)被不法分子得到,將會(huì)帶來嚴(yán)重的損失與危害。數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語(yǔ)言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用第2節(jié)

數(shù)據(jù)預(yù)處理一、數(shù)據(jù)清洗數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約概念:數(shù)據(jù)清洗主要是通過填寫缺失值對(duì)“臟數(shù)據(jù)”進(jìn)行處理,識(shí)別或刪除離群點(diǎn),將數(shù)據(jù)庫(kù)中所存數(shù)據(jù)精細(xì)化,并使剩余數(shù)據(jù)轉(zhuǎn)化成標(biāo)準(zhǔn)可接受格式的過程,以達(dá)到格式標(biāo)準(zhǔn)化、異常數(shù)據(jù)消除、錯(cuò)誤糾正、重復(fù)數(shù)據(jù)清除等目的。原始數(shù)據(jù)中的“臟數(shù)據(jù)”指源系統(tǒng)中不在給定的范圍內(nèi)、對(duì)于實(shí)際業(yè)務(wù)毫無意義、數(shù)據(jù)格式非法、存在不規(guī)范的編碼和含糊業(yè)務(wù)邏輯的數(shù)據(jù)。在數(shù)據(jù)清洗步驟中,主要解決數(shù)據(jù)出現(xiàn)遺漏值、噪聲、異常值等問題。數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語(yǔ)言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用第2節(jié)

數(shù)據(jù)預(yù)處理一、數(shù)據(jù)清洗數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約遺漏值(missing

value)數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語(yǔ)言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用遺漏值(missing

value)為數(shù)據(jù)遺漏、缺失的情況,如某客戶的月消費(fèi)數(shù)據(jù)缺失。在數(shù)據(jù)搜集階段,由于設(shè)備故障或人為失誤均有可能導(dǎo)致數(shù)據(jù)的遺漏,應(yīng)將數(shù)據(jù)補(bǔ)全。處理遺漏數(shù)據(jù)最簡(jiǎn)單直接的方法是直接刪去該變量值,但當(dāng)數(shù)據(jù)遺漏比例很大時(shí),此方法將造成大量數(shù)據(jù)流失;第二種方法是使用一個(gè)常數(shù)或該字段所有數(shù)據(jù)的平均值統(tǒng)一替換遺漏值,例如用其他用戶消費(fèi)均值替換某客戶消費(fèi)指標(biāo)的遺漏值,此方法缺點(diǎn)是不具客觀性,當(dāng)數(shù)據(jù)本身具有類別或等級(jí)之分時(shí),容易高估或低估數(shù)據(jù);最后還可利用數(shù)據(jù)挖掘模式來填充遺漏值,使用回歸分析、決策樹、人工神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘推導(dǎo)工具來推測(cè)填補(bǔ)遺漏值。第2節(jié)

數(shù)據(jù)預(yù)處理一、數(shù)據(jù)清洗數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約噪聲(noise)數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語(yǔ)言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用噪聲(noise)表示數(shù)據(jù)中的隨機(jī)誤差或干擾項(xiàng)。在數(shù)據(jù)收集、整理的過程中,會(huì)產(chǎn)生大量的噪聲數(shù)據(jù),即“離群點(diǎn)”。比如在年齡收入曲線中,出現(xiàn)個(gè)別遠(yuǎn)離曲線的極端點(diǎn)。因?yàn)樵肼晹?shù)據(jù)不在合理的數(shù)據(jù)域內(nèi),所以分析、挖掘過程中輸入和輸出數(shù)據(jù)的質(zhì)量難以保證,容易造成后續(xù)的挖掘結(jié)果不準(zhǔn)確、不可靠。常用的消除噪聲數(shù)據(jù)的方法分為兩種。一種是噪聲平滑方法(datapolishing),常用分箱法處理,即將預(yù)處理數(shù)據(jù)分布到不同的箱中,通過參考周圍實(shí)例平滑噪聲數(shù)據(jù)。具體的分箱技術(shù)包括:平均值平滑,中位數(shù)平滑,按設(shè)定的箱邊界平滑。另一種是噪聲過濾(datafilters),利用聚類方法對(duì)離群點(diǎn)進(jìn)行分析、過濾。第2節(jié)

數(shù)據(jù)預(yù)處理一、數(shù)據(jù)清洗數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約異常值(abnormal

value)數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語(yǔ)言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用若某一些數(shù)據(jù)的表現(xiàn)與其他數(shù)據(jù)差距很大時(shí),這些數(shù)據(jù)稱為異常值(abnormal

value),如數(shù)據(jù)顯示某用戶的月消費(fèi)金額基本在3000~5000元范圍內(nèi),若賬單有一條30000元的記錄,即為異常值。異常值可通過經(jīng)驗(yàn)判斷、標(biāo)準(zhǔn)分?jǐn)?shù)(或法則)、箱線圖等方法來判斷。對(duì)于異常值的處理需根據(jù)具體情況分析,若該異常值擁有特殊意義,則需保留;若由于儀器工具或人工失誤導(dǎo)致,可根據(jù)情況考慮直接刪除該數(shù)據(jù),或用其它數(shù)值更替,將數(shù)據(jù)的范圍歸一化。第2節(jié)

數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約概念:數(shù)據(jù)清洗后方可進(jìn)行數(shù)據(jù)集成,數(shù)據(jù)集成是將來自多個(gè)數(shù)據(jù)源的數(shù)據(jù)合并,統(tǒng)一存放在一個(gè)數(shù)據(jù)庫(kù)中。由于描述同一個(gè)概念的屬性在不同數(shù)據(jù)庫(kù)可能有不同的名字,在進(jìn)行數(shù)據(jù)集成時(shí)常會(huì)引起數(shù)據(jù)的不一致和冗余。命名的不一致常常也會(huì)導(dǎo)致同一屬性值的內(nèi)容不同。使用數(shù)據(jù)量太大的數(shù)據(jù)進(jìn)行分析不僅會(huì)降低數(shù)據(jù)挖掘速度,也會(huì)誤導(dǎo)數(shù)據(jù)挖掘進(jìn)程。因此進(jìn)行數(shù)據(jù)清洗之后,在數(shù)據(jù)集成中還需要注意消除數(shù)據(jù)的不一致、重復(fù)和冗余。二、數(shù)據(jù)集成數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語(yǔ)言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用第2節(jié)

數(shù)據(jù)預(yù)處理二、數(shù)據(jù)集成數(shù)據(jù)不一致數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語(yǔ)言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用數(shù)據(jù)不一致是指兩條及以上數(shù)據(jù)出現(xiàn)數(shù)據(jù)的矛盾性或不相容性的情況。由于整合數(shù)據(jù)后,不同來源的數(shù)據(jù)屬性可能不同,在數(shù)據(jù)表達(dá)、比例定義或編碼上也會(huì)有所不同,因此產(chǎn)生數(shù)值或字段不一致的狀況。例如在兩個(gè)不同的數(shù)據(jù)表中,用戶在線時(shí)長(zhǎng)分別用小時(shí)和分鐘兩種單位來記錄。為使數(shù)據(jù)保持一致,需要先確定作為標(biāo)準(zhǔn)的字段,然后對(duì)另外的字段進(jìn)行單位的換算或者修改來保持?jǐn)?shù)據(jù)一致。第2節(jié)

數(shù)據(jù)預(yù)處理二、數(shù)據(jù)集成數(shù)據(jù)重復(fù)數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語(yǔ)言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用重復(fù)數(shù)據(jù)是指重復(fù)出現(xiàn)的數(shù)值或字段。對(duì)于重復(fù)數(shù)據(jù)的處理方法也需根據(jù)實(shí)際情況進(jìn)行判斷:如因數(shù)據(jù)庫(kù)信息有重合,在數(shù)據(jù)整合后發(fā)生的數(shù)據(jù)重復(fù),刪除多余記錄只保留一條即可;若確實(shí)為幾條不同的記錄,如同一用戶對(duì)同一規(guī)格的產(chǎn)品、下單兩次,則兩條均需保留。第2節(jié)

數(shù)據(jù)預(yù)處理二、數(shù)據(jù)集成數(shù)據(jù)冗余數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語(yǔ)言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用數(shù)據(jù)冗余是指數(shù)據(jù)之間的重復(fù),也可以說是同一數(shù)據(jù)存儲(chǔ)在不同數(shù)據(jù)文件中的現(xiàn)象。屬性命名的不一致,也有可能導(dǎo)致集中的冗余數(shù)據(jù)。數(shù)據(jù)冗余的處理主要是針對(duì)具有相同意義或彼此間存在已知數(shù)學(xué)關(guān)系的字段,也就是此變量的屬性或代表的意義可由另一變量推導(dǎo)而得,如數(shù)據(jù)中含有用戶1-12月的“月消費(fèi)金額”及全年的“年消費(fèi)金額”,“年消費(fèi)金額”完全可以由每月消費(fèi)金額累加得出,即為數(shù)據(jù)冗余。為使數(shù)據(jù)更加簡(jiǎn)潔,可將該字段剔除。若數(shù)據(jù)冗余因?qū)傩悦灰恢聦?dǎo)致,需經(jīng)具體判斷后處理或保留。第2節(jié)

數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約三、數(shù)據(jù)變換概念:數(shù)據(jù)變換是將數(shù)據(jù)轉(zhuǎn)換成適合于各種數(shù)據(jù)挖掘模式的形式,以轉(zhuǎn)換原始數(shù)據(jù)或重新編碼的方式提升數(shù)據(jù)價(jià)值,其中可能涉及數(shù)據(jù)數(shù)值與數(shù)據(jù)類別的轉(zhuǎn)換。例如,將數(shù)值型數(shù)據(jù)轉(zhuǎn)換為離散型的類別數(shù)據(jù),根據(jù)領(lǐng)域知識(shí)將舊變量合并成新的變量,或?qū)?shù)據(jù)歸一化以避免尺度的差異,常見如人工神經(jīng)網(wǎng)絡(luò)對(duì)輸入數(shù)據(jù)的歸一化。對(duì)于數(shù)據(jù)的數(shù)值轉(zhuǎn)換,可采取歸一化和標(biāo)準(zhǔn)化方法,歸一化(normalization)是將屬性數(shù)據(jù)按比例縮放到一個(gè)特定的區(qū)間,如[-1,1]或[0,1],標(biāo)準(zhǔn)化(standardization)則是依據(jù)數(shù)據(jù)的均值和標(biāo)準(zhǔn)差進(jìn)行標(biāo)準(zhǔn)化處理。對(duì)于數(shù)據(jù)的屬性轉(zhuǎn)換,可視情況將離散數(shù)據(jù)轉(zhuǎn)換為連續(xù)數(shù)據(jù),如將顧客評(píng)論中“比較滿意”“滿意”“非常滿意”轉(zhuǎn)化為數(shù)值8、9、10,或是將連續(xù)數(shù)據(jù)轉(zhuǎn)換為離散數(shù)據(jù),例如按照顧客的價(jià)值評(píng)分把顧客分為白銀貴賓、黃金貴賓、鉑金貴賓、鉆石貴賓。數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語(yǔ)言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用第2節(jié)

數(shù)據(jù)預(yù)處理四、數(shù)據(jù)歸約數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約概念:數(shù)據(jù)歸約的主要目的是得到與原始數(shù)據(jù)具有相同信息但較精簡(jiǎn)的數(shù)據(jù)集。數(shù)據(jù)挖掘時(shí)數(shù)據(jù)量往往非常大,數(shù)據(jù)歸約技術(shù)通過選擇替代的、較少的數(shù)據(jù)來減少數(shù)據(jù)量,可以有效縮減數(shù)據(jù)規(guī)模,在盡可能保持?jǐn)?shù)據(jù)原貌的前提下最大限度地精簡(jiǎn)數(shù)據(jù)量,使得大數(shù)據(jù)挖掘更精準(zhǔn)高效。企業(yè)根據(jù)現(xiàn)實(shí)情況主要進(jìn)行維度歸約和數(shù)值歸約兩方面的處理。數(shù)據(jù)維度歸約常用于分類或預(yù)測(cè)問題,最直接的方式是以目標(biāo)變量作為比較基準(zhǔn),利用特征選取法將變量維度中與目標(biāo)變量不相關(guān)的屬性刪除,或利用主成分分析法將變量作線性轉(zhuǎn)換,只留下提供較多信息的幾個(gè)主成分,以縮小變量維度。數(shù)值歸約通過選擇替代的、較少的數(shù)據(jù)來減少數(shù)據(jù)量,包括有參數(shù)方法和無參數(shù)方法。參數(shù)方法可采用回歸模型與對(duì)數(shù)線性模型來實(shí)現(xiàn),非參數(shù)化方法包括直方圖、聚類、抽樣、數(shù)據(jù)立方體聚集等方法。數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語(yǔ)言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用第3節(jié)

利用大語(yǔ)言模型進(jìn)行數(shù)據(jù)預(yù)處理應(yīng)用——以DeepSeek為例數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語(yǔ)言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用一、DeepSeek簡(jiǎn)介:DeepSeek是由中國(guó)頂尖AI團(tuán)隊(duì)深度求索(DeepSeekInc.)自主研發(fā)的通用大語(yǔ)言模型體系,其研發(fā)始于2023年,致力于突破認(rèn)知智能的邊界,是國(guó)內(nèi)首個(gè)全面對(duì)標(biāo)GPT-4技術(shù)架構(gòu)的AI大模型。自然語(yǔ)言理解與生成:精準(zhǔn)處理復(fù)雜邏輯與專業(yè)術(shù)語(yǔ),高效生成高質(zhì)量文本。強(qiáng)大數(shù)據(jù)探索:挖掘海量數(shù)據(jù)隱藏規(guī)律,支持科研與商業(yè)決策。交互式分析:自然語(yǔ)言對(duì)話降低門檻,快速響應(yīng)數(shù)據(jù)分析需求。多模態(tài)數(shù)據(jù)分析:融合文本、圖像等信息,提供精準(zhǔn)行業(yè)解決方案。

第3節(jié)

利用大語(yǔ)言模型進(jìn)行數(shù)據(jù)預(yù)處理應(yīng)用——以DeepSeek為例二、DeepSeek應(yīng)用數(shù)據(jù)預(yù)處理上傳數(shù)據(jù)文件并提出數(shù)據(jù)清洗請(qǐng)求在使用DeepSeek進(jìn)行數(shù)據(jù)清洗時(shí),首先需要進(jìn)入其主界面。點(diǎn)擊界面上的“文件”選項(xiàng),選擇并上傳需要清洗的數(shù)據(jù)文件。

數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語(yǔ)言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用第3節(jié)

利用大語(yǔ)言模型進(jìn)行數(shù)據(jù)預(yù)處理應(yīng)用——以DeepSeek為例DeepSeek返回處理意見DeepSeek會(huì)根據(jù)輸入的請(qǐng)求,從專業(yè)視角分析數(shù)據(jù),并提出針對(duì)性的解決方案。數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語(yǔ)言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用第3節(jié)

利用大語(yǔ)言模型進(jìn)行數(shù)據(jù)預(yù)處理應(yīng)用——以DeepSeek為例根據(jù)清洗建議執(zhí)行操作DeepSeek會(huì)結(jié)合上傳數(shù)據(jù)的結(jié)構(gòu)與內(nèi)容,生成一系列針對(duì)性的清洗建議。這些建議通常包括以下常見操作:刪除重復(fù)數(shù)據(jù);補(bǔ)充或處理缺失值;識(shí)別并移除異常值;統(tǒng)一數(shù)據(jù)格式等。數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語(yǔ)言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用案例3-1

瑞幸咖啡:用數(shù)據(jù)做口味從財(cái)務(wù)造假被唱衰到突破萬(wàn)店的中國(guó)咖啡品牌,瑞幸憑借大數(shù)據(jù)營(yíng)銷及全鏈條數(shù)據(jù)驅(qū)動(dòng)下的標(biāo)準(zhǔn)化運(yùn)營(yíng)管理實(shí)現(xiàn)逆轉(zhuǎn)。這一成功的背后,是瑞幸獨(dú)有的基于大數(shù)據(jù)的產(chǎn)品研發(fā)方法:瑞幸數(shù)據(jù)平臺(tái)設(shè)計(jì):瑞幸咖啡的大數(shù)據(jù)營(yíng)銷核心之一就是數(shù)據(jù)平臺(tái)的設(shè)計(jì)。這個(gè)平臺(tái)應(yīng)能夠智能整合來自不同渠道的數(shù)據(jù),以支持?jǐn)?shù)據(jù)分析和決策制定,從而實(shí)現(xiàn)更卓越的客戶管理和個(gè)性化營(yíng)銷。瑞幸數(shù)據(jù)采集:數(shù)據(jù)采集對(duì)于大數(shù)據(jù)營(yíng)銷至關(guān)重要,正如瑞幸咖啡一直在實(shí)踐的。有效的數(shù)據(jù)采集可以幫助企業(yè)跟蹤消費(fèi)者在各個(gè)平臺(tái)上的行為,無論他們是在哪里購(gòu)物。這些數(shù)據(jù)應(yīng)包括渠道來源、購(gòu)買歷史等信息,為更深入了解消費(fèi)者、識(shí)別新老客戶以及為個(gè)性化營(yíng)銷提供堅(jiān)實(shí)基礎(chǔ)。案例3-1

瑞幸咖啡:用數(shù)據(jù)做口味數(shù)據(jù)的質(zhì)量和完整性:數(shù)據(jù)的質(zhì)量對(duì)于大數(shù)據(jù)營(yíng)銷至關(guān)重要,特別是像瑞幸咖啡這樣注重細(xì)節(jié)的品牌。包括

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論