




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
摘要為了探究香水的銷售動態(tài)是如何受到消費者多元偏好演變的。本文采用Python爬蟲爬取京東電商平臺的香水銷售數(shù)據(jù),進而通過Python中的高級數(shù)據(jù)分析及可視化庫,對爬取到的香水銷售數(shù)據(jù)進行了全面深入的分析。研究結(jié)果表明,具有競爭力的中低檔定價、高品牌知名度、獨特的花果香調(diào)、淡香水及禮盒包裝的香水產(chǎn)品在市場上更受歡迎。本研究進一步利用基于Python的決策樹模型探究了影響香水產(chǎn)品銷量的變量重要性和利用基于Python的K-Means模型對香水產(chǎn)品進行了有效分類,為銷售商提供了精準的市場洞察和銷售策略,以應(yīng)對激烈的市場競爭環(huán)境,促進香水行業(yè)的健康發(fā)展。關(guān)鍵詞:Python;可視化;香水;決策樹;K-Means聚類ABSTRACTInordertoexplorehowthesalesdynamicsofperfumeareevolvedbyconsumers'multiplepreferences.ThispaperusesPythoncrawlerstocrawlperfumesalesdataontheJDe-commerceplatform,andthenconductsacomprehensiveandin-depthanalysisofperfumesalesdatacrawledthroughPython'sadvanceddataanalysisandvisualizationlibrary.Theresearchresultsshowthatcompetitivemiddleandlowprice,highbrandawareness,uniqueflowerandfruitfragrance,eaudetoiletteandgiftboxpackagedperfumearemorepopularinthemarket.ThisstudyfurtherexploredtheimportanceofvariablesthataffectthesalesofperfumeproductsbyusingthePythonbaseddecisiontreemodel,andeffectivelyclassifiedperfumeproductsbyusingthePythonbasedK-Meansmodel,providingaccuratemarketinsightsandsalesstrategiesforsellerstocopewiththefiercemarketcompetitionenvironmentandpromotethehealthydevelopmentoftheperfumeindustry.Keywords:Python,Visualization,Perfume,DecisionTree,K-Meansclustering目錄TOC\o"1-3"\h\u前言 I前言香水作為一種融合藝術(shù)、文化和時尚的奢侈品,一直以來都是引領(lǐng)時尚潮流的重要組成部分。其獨特的香調(diào)、瓶身設(shè)計以及廣告宣傳策略,既是個人品位的體現(xiàn),也是品牌文化的代表。近年來,隨著社會經(jīng)濟的快速發(fā)展和人們審美需求的不斷提升,香水行業(yè)迎來了更為廣闊的市場空間和消費群體。在這個充滿活力和競爭的市場環(huán)境中,香水銷售商需要通過深入洞察市場趨勢、優(yōu)化采購計劃以及滿足用戶需求來保持競爭力。為了更好地應(yīng)對這一挑戰(zhàn),本文采用Python爬蟲技術(shù)爬取京東電商平臺上香水產(chǎn)品銷售數(shù)據(jù),利用基于Python的數(shù)據(jù)可視化技術(shù)對香水銷售數(shù)據(jù)的進行可視化分析,深入挖掘價格、商品特性、品牌等因素對香水銷售的影響、利用基于Python的決策樹模型來進一步探究各個變量因素對香水產(chǎn)品銷售數(shù)據(jù)的影響程度和利用基于Python的K-Means聚類模型,將香水產(chǎn)品劃分為若干類別,進而來展示不同聚類簇中香水產(chǎn)品的特征差異。本文將從數(shù)據(jù)的角度為香水銷售商提供一些建設(shè)性的建議,提供精準的市場認知。緒論1.1研究目的從艾瑞網(wǎng)的《2021H1中國香水產(chǎn)品NPS用戶體驗研究》數(shù)據(jù)來看,2020年全球香水市場規(guī)模達4063億元,中國香水市場規(guī)模僅占全球的2.5%,但是從2017年起,中國香水市場年均同比增長率為26.8%,增速明顯。與此同時隨著中國跨入新消費時代,Z世代的男性與女性均將香水香氛作為時尚產(chǎn)品的TOP選擇,因此中國香水市場有很大發(fā)展空間。為了探究消費者選擇某款香水產(chǎn)品的原因,本研究決定爬取京東電商平臺的香水銷售數(shù)據(jù)。通過對這些數(shù)據(jù)的綜合分析,去探尋價格、商品特性、品牌等諸多因素對香水產(chǎn)品銷售的影響,為銷售商提供精準的市場認知。1.2相關(guān)研究背景1.2.1國外研究現(xiàn)狀國外研究者如SohiniRoychowdhury等學者提出了一個自動化的機器學習框架來理解消費者的在線購物模式,通過處理用戶與產(chǎn)品之間的會話級互動記錄來預(yù)測特定的購買行為模式REF_Ref14889\r\h[14]。Dr.SBhuvana等學者使用Python中的多個庫構(gòu)建了CNN模型,通過大量數(shù)據(jù)的訓練和測試來建立模型的準確性,開發(fā)了一種預(yù)測方法來幫助確定最適合某種膚質(zhì)的產(chǎn)品,為適合的膚質(zhì)推薦最佳的化妝品組合REF_Ref15186\r\h[15]。這些研究顯示了現(xiàn)代公司利用數(shù)據(jù)分析和機器學習技術(shù)來深入理解消費者行為的趨勢。1.2.2國內(nèi)研究現(xiàn)狀國內(nèi)學者對香水市場的研究不多,特別是利用Python可視化技術(shù)結(jié)合大數(shù)據(jù)和人工智能方法的研究更是鳳毛麟角。在國內(nèi),王惠以B公司為例通過PEST分析法和波特五力模型對香水市場和摩佰貿(mào)易有限公司的競爭結(jié)構(gòu)進行了深入分析REF_Ref17322\r\h[1]。周婧丹以C公司為例,在營銷理論的指導(dǎo)下,其通過采用文獻研究法、訪談法和理論分析法,對C公司香水產(chǎn)品的STP分析和營銷策略組合(4Ps)的現(xiàn)狀進行研究,從而給出了符合C公司香水產(chǎn)品發(fā)展營銷策略的優(yōu)化改進建議REF_Ref17404\r\h[2]。這些研究主要基于經(jīng)濟學和管理學的視角,具有一定的區(qū)域或?qū)ο缶窒扌?。此外,隨著互聯(lián)網(wǎng)的發(fā)展,大量的數(shù)據(jù)在線上呈現(xiàn),基于Python的數(shù)據(jù)可視化研究在學術(shù)界越來越受歡迎,趙帥和薛亞輝學者探討了基于Python的可視化技術(shù)研究的方法和原則,為大數(shù)據(jù)時代下的數(shù)據(jù)分析和決策提供有效的參考和支持REF_Ref29653\r\h[3]。師天祺學者借助Python實現(xiàn)了地震數(shù)據(jù)的可視化,滿足了施工現(xiàn)場快速實現(xiàn)地震數(shù)據(jù)的處理與成像的要求,對現(xiàn)場工作有一定指導(dǎo)意義REF_Ref14401\r\h[4]。胡超和王雪芹等學者則利用基于Python的數(shù)據(jù)可視化技術(shù)對眉山建站以來64年的日平均氣溫、日降雨量、日最高氣溫、日最低氣溫四個要素資料進行分析和繪制,從而為城市氣象研究提供更加準確、可靠的數(shù)據(jù)支持,為應(yīng)對城市氣候變化和城市規(guī)劃建設(shè)等方面提供科學決策參考REF_Ref29976\r\h[5]。秦仲篪等人通過采集歐萊雅(中國)的用戶畫像數(shù)據(jù)源構(gòu)建了從年齡,產(chǎn)品訴求,興趣,購買渠道,形式節(jié)目五個維度分析的可視化模型,為大數(shù)據(jù)環(huán)境在歐萊雅(中國)的市場細分和精準營銷起到借鑒作用REF_Ref30077\r\h[6]。這顯示了利用Python可視化技術(shù)來研究香水銷售數(shù)據(jù)的潛力,有助于更好地分析消費者購買行為和偏好,為香水產(chǎn)業(yè)的發(fā)展提供數(shù)據(jù)支持和市場策略優(yōu)化。1.3研究方法在前述研究目的和研究背景的基礎(chǔ)上,本研究設(shè)計了以下研究方法。首先,通過編寫Python爬蟲程序,運用Python編程語言的爬蟲技術(shù)從京東電商平臺抓取香水銷售數(shù)據(jù)。接著,對收集到的原始數(shù)據(jù)集進行預(yù)處理,包括去除缺失值和處理某些特定字段。之后,利用Python數(shù)據(jù)可視化技術(shù)相關(guān)的數(shù)據(jù)分析庫,Numpy、Pandas、Matplotlib和Seaborn等對預(yù)處理后的數(shù)據(jù)進行基礎(chǔ)的統(tǒng)計分析,直觀地展示不同因素對香水銷量的影響。其次本研究采用基于Python的決策樹模型深入分析影響香水產(chǎn)品銷量的變量重要性和通過基于Python的K-Means聚類模型對香水產(chǎn)品進行有效分類。綜合以上分析結(jié)果,本研究將提出針對香水銷售的策略建議,旨在為香水銷售商提供基于數(shù)據(jù)驅(qū)動的深入洞察,以優(yōu)化產(chǎn)品定位和市場策略,增強市場競爭力。1.4創(chuàng)新點與不足1.4.1創(chuàng)新點經(jīng)查閱文獻發(fā)現(xiàn)國內(nèi)學者對香水市場的研究不多,其中大部分是采用文獻法、訪談法及問卷法對某一具體的公司現(xiàn)狀進行研究,有一定的區(qū)域或?qū)ο蟮木窒扌?。本文使用Python爬取京東電商平臺的香水銷售數(shù)據(jù),采用基于Python的數(shù)據(jù)可視化技術(shù)和Python的機器學習方法對香水產(chǎn)品銷售數(shù)據(jù)進行研究,為香水銷售提出策略建議,打破了區(qū)域和對象的局限性。1.4.2不足基于時間和技術(shù)的局限性,本文研究還有進一步改善的地方:(1)本文采用決策樹模型探究變量的重要性和K-Means聚類模型研究香水產(chǎn)品聚類,但是對于變量的重要性和香水產(chǎn)品聚類研究還有很多方法,可以在此基礎(chǔ)上探索更多合適的方法。(2)擴充研究角度,本文只爬取了一定量的數(shù)據(jù),并沒有按時間去爬取數(shù)據(jù),因此其它研究者在時間的允許下可以研究每個季度或月份的香水銷售數(shù)據(jù),對香水銷售數(shù)據(jù)更全面。1.5論文結(jié)構(gòu)根據(jù)前面相關(guān)內(nèi)容的分析,本文針對基于Python的香水產(chǎn)品銷售數(shù)據(jù)的研究主要從下面幾節(jié)相應(yīng)介紹:(1)第2章為本文的理論基礎(chǔ)。(2)第3章為本文的數(shù)據(jù)來源及利用Python爬取香水銷售數(shù)據(jù)過程。(3)第4章內(nèi)容是利用基于Python的數(shù)據(jù)可視化技術(shù),對香水產(chǎn)品銷售數(shù)據(jù)進行一個初步的統(tǒng)計分析,從而將各個變量因素影響香水產(chǎn)品銷售數(shù)據(jù)的情況通過圖表直觀的展示出來。(4)第5章內(nèi)容是利用基于Python的決策樹模型來進一步探究各個變量因素對香水產(chǎn)品銷售數(shù)據(jù)的影響程度和利用基于Python的K-Means聚類模型,將香水產(chǎn)品劃分為若干類別,進而來展示不同聚類簇中香水產(chǎn)品的特征差異。(5)第6章是本文結(jié)論:根據(jù)上述章節(jié)內(nèi)容的探究結(jié)果,對香水產(chǎn)品的銷售思路提出自己的見解。理論基礎(chǔ)2.1基于Python的數(shù)據(jù)可視化技術(shù)數(shù)據(jù)可視化是大數(shù)據(jù)分析過程中不可缺少的一步重要環(huán)節(jié),其是通過將抽象的、復(fù)雜的和不易理解的數(shù)據(jù)通過直觀、可視的圖表進行呈現(xiàn)的過程,以便能更好的分析和掌握數(shù)據(jù)信息,探究數(shù)據(jù)背后隱藏的價值和意義。Python是一種面向?qū)ο蟮慕忉屝陀嬎銠C程序設(shè)計語言,其含有豐富的機器學習庫,開發(fā)生態(tài)非常完善。在數(shù)據(jù)可視化方面,Python展現(xiàn)了強大的實力,例如NumPy和Pandas等庫能夠輕松實現(xiàn)復(fù)雜的數(shù)據(jù)分析與處理任務(wù);Matplotlib庫則提供了多樣化的圖形繪制手段,涵蓋折線圖、散點圖、柱狀圖等多種圖表類型;而Seaborn庫則基于Matplotlib進行了更為高級的API封裝,豐富了可視化效果。因此Python能夠迅速生成各類可視化圖形,提供數(shù)據(jù)分析和可視化功能。2.2決策數(shù)算法2.2.1決策樹算法原理決策樹算法是一種基本的分類和回歸算法,且是有監(jiān)督學習。該算法模型呈樹形結(jié)構(gòu),通過建立模型來預(yù)測基于輸入變量決策規(guī)則的目標變量值。構(gòu)成決策樹的節(jié)點和分枝反映了數(shù)據(jù)結(jié)構(gòu),每一個內(nèi)部節(jié)點表示對某一屬性的檢驗,每個分枝對應(yīng)該檢驗的一個可能結(jié)果,而每個葉節(jié)點則對應(yīng)于一個分類標簽(用于分類問題)或一個數(shù)值(用于回歸問題)。建立決策樹的過程包括重復(fù)選擇最合適的屬性用于分割數(shù)據(jù)集,這一過程會一直持續(xù),直到達到預(yù)設(shè)的終止準則。簡單來說決策樹是由眾多判定節(jié)點構(gòu)成的樹形結(jié)構(gòu),其節(jié)點劃分的準則基于后續(xù)節(jié)點的純度是否超過劃分前的狀態(tài)。而不采用劃分的情況是基于節(jié)點純度的考量,常用的純度衡量標準包括信息熵和基尼系數(shù)等。信息熵不僅衡量信息的量化大小,同時反映了不確定性和系統(tǒng)的無序狀態(tài)。在機器學習領(lǐng)域,它也用于評價樣本集合的純凈度,熵值較低意味著高純度。信息熵的定義是:Ent(2.1)基尼指數(shù)越小,表示數(shù)據(jù)集的類別越統(tǒng)一,即數(shù)據(jù)集的純度越高。基尼指數(shù)的計算公式是:Gini(2.2)決策樹算法的主要優(yōu)勢包括其相對較低的計算復(fù)雜性和容易理解,它能夠從一系列有特征和標簽的數(shù)據(jù)中總結(jié)出決策規(guī)則,并利用樹狀圖的結(jié)構(gòu)呈現(xiàn)這些規(guī)則,解決分類和回歸問題。因此本文采用基于Python的機器學習庫Scikit-learn庫中的決策樹模型來探究變量重要性。2.2.2泛化誤差評價一個機器學習模型的泛化能力描述的是模型對新、未經(jīng)見過的數(shù)據(jù)做出預(yù)測的能力。這是衡量模型性能的關(guān)鍵屬性,反映了模型在面對新情況時的適應(yīng)性和準確性。泛化誤差主要由三個部分組成:偏差(Bias)、方差(Variance)和不可減少的誤差(IrreducibleError)。模型的泛化性能受多方面因素影響,包括算法的學習能力、數(shù)據(jù)集的質(zhì)量和規(guī)模,以及學習任務(wù)的固有難度。在實際應(yīng)用中,通常通過在獨立的測試集上評估泛化誤差來量化模型的泛化能力,如果模型的預(yù)測函數(shù)為f,那么使用此模型對未見過的數(shù)據(jù)進行預(yù)測時的誤差,就是我們評估的泛化誤差,那么用這個模型對未知數(shù)據(jù)預(yù)測的誤差即為:R(2.3)隨著訓練數(shù)據(jù)量的增加,理論上模型的泛化誤差會逐漸減少,直至趨近于零。在實際研究中,特別是當可用的樣本數(shù)量較少時,為了最小化模型的誤差并準確評估其泛化能力,通常會采用交叉驗證的技術(shù)。例如,在構(gòu)建預(yù)測香水銷售影響因素分析時,數(shù)據(jù)會被分割成訓練集和測試集。此方法的核心在于不僅僅尋求最優(yōu)參數(shù),而是通過最小化訓練集上的損失函數(shù)來探索所有可能的模型配置,從而確定最優(yōu)的參數(shù)組合。隨后,利用測試集來評估這些參數(shù)下模型的泛化誤差,確保模型在未知數(shù)據(jù)上的表現(xiàn)盡可能接近實際情況。2.2.3feature_importances_屬性feature_importances_是基于Python的機器學習庫Scikit-learn庫中許多模型對象的屬性,用來評估每個特征對于模型的預(yù)測的重要性。feature_importances_基于決策樹算法,通過計算每個特征在所有決策樹中被用來進行分割的次數(shù),來評估特征的重要性。對于每個決策樹,feature_importances_屬性會計算每個特征在分裂時所帶來的信息增益。信息增益表示在分裂前后數(shù)據(jù)集中的純度提升程度,進而通過累加所有決策樹中每個特征的信息增益,可以得到每個特征的總體重要性。2.3K-Means聚類算法2.3.1K-Means聚類算法原理K-Means聚類是聚類分析中一種極為普遍且廣泛應(yīng)用的無監(jiān)督學習算法。K-means算法是一種基于劃分的聚類方法,采用迭代更新類中心的方法,因此其核心思想在于通過反復(fù)迭代,將給定的數(shù)據(jù)點聚集到具有相似特性的聚類中。以下是K-means算法的具體實施步驟:首先,針對給定的數(shù)據(jù)集,隨機選擇K個數(shù)據(jù)點作為初始的聚類中心;接著,計算數(shù)據(jù)集中每個點與這K個中心點的距離,并將每個點分配到距離最近的聚類中;隨后,根據(jù)分配好的數(shù)據(jù)點,更新每個聚類的中心點。不斷重復(fù)上述分配和更新的步驟,直至聚類中心點不再發(fā)生顯著變化或達到預(yù)設(shè)的最大迭代次數(shù)。K-means算法通過最小化簇內(nèi)誤差平方和(WCSS),來尋找最佳簇劃分,其中Si?是簇i中的點集,μi是簇i的中心點,WCSS=(2.4)決策樹算法的主要優(yōu)勢包括K-means算法的概念簡單、實現(xiàn)起來相對容易、計算效率高、易于理解且收斂速度快,因此本文采用基于Python的機器學習庫Scikit-learn庫中的K-Means模型來探究變量重要性。2.3.2手肘圖手肘圖是一種用于輔助確定聚類分析中最佳簇數(shù)量的可視化工具。在應(yīng)用K-Means劃分聚類算法時,手肘圖通過繪制不同簇數(shù)量下的聚類內(nèi)誤差平方和(WCSS)來揭示簇數(shù)量對模型性能的影響。具體而言,隨著簇的數(shù)量增加,每個點到其簇中心的距離平方和會減小,因為簇越多,點與其最近的簇中心越近。然而,超過某個點后,增加更多的簇只會導(dǎo)致微小的性能提升,這是因為簇開始劃分本質(zhì)上相似的點,從而增加模型的復(fù)雜度而非提升其效能。手肘圖上的“手肘”點,即WCSS開始下降速率顯著減緩的點,通常被認為是最佳簇數(shù)量的一個好的指示器。選擇少于手肘點的簇數(shù)量可能導(dǎo)致過度簡化,而多于手肘點的簇數(shù)量則可能導(dǎo)致過擬合。數(shù)據(jù)采集與預(yù)處理3.1數(shù)據(jù)來源京東電商平臺是當前我國主要的電商平臺,是中國一個綜合性在線購物商城,也是廣大消費者線上購物的主要平臺。作為一個傳播程度高、覆蓋面廣且用戶數(shù)量龐大的在線商城,是挖掘廣大消費者意見和商品銷量影響因素的最佳場所。因此,在綜合考慮京東商場的消費者以及京東商城商品的多樣性、評論數(shù)據(jù)的豐富性后本文選擇對京東商城香水產(chǎn)品銷售數(shù)據(jù)作為本論文數(shù)據(jù)來源,來進行探究影響香水產(chǎn)品銷量的原因。3.2數(shù)據(jù)采集3.2.1京東香水產(chǎn)品基本信息爬取首先,代碼導(dǎo)入需要的模塊,主要包括“webdriver”模塊和一些“Selenium”的輔助模塊,用于模擬瀏覽器操作,如圖3.1所示。圖STYLEREF1\s3.SEQ圖\*ARABIC\s11基本信息爬取模塊導(dǎo)入圖定義了兩個函數(shù)“save_cookies”和“l(fā)oad_cookies”,用于保存和加載瀏覽器的Cookie信息,以便后續(xù)完成賬號的自動登錄,如圖3.2所示。圖STYLEREF1\s3.SEQ圖\*ARABIC\s12保存和加載Cookie圖“manual_login”函數(shù)用于手動登錄,程序會提示用戶登錄,并在登錄成功后保存Cookie信息,利用保存的Cookies信息可以實現(xiàn)后續(xù)賬號的自動登錄,無需再進行手動操作,如圖3.3所示。圖STYLEREF1\s3.SEQ圖\*ARABIC\s13手動登錄功能圖“check_page_status”函數(shù)用于檢查頁面加載狀態(tài),主要是通過檢查頁面中是否存在指定的加載標志來確定頁面是否加載完畢,如圖3.4所示。圖STYLEREF1\s3.SEQ圖\*ARABIC\s14頁面狀態(tài)檢查圖“check_next_page_button”函數(shù)用于檢查是否存在下一頁按鈕,以確定是否還有下一頁數(shù)據(jù)需要加載,如圖3.5所示。圖STYLEREF1\s3.SEQ圖\*ARABIC\s15檢查下一頁按鈕圖“write_to_csv”函數(shù)用于將爬取到的商品信息寫入CSV文件,如果在寫入過程中遇到權(quán)限錯誤,會進行重試,如圖3.6所示。圖STYLEREF1\s3.SEQ圖\*ARABIC\s16寫入CSV文件圖“init_driver”函數(shù)用于初始化瀏覽器驅(qū)動,主要是設(shè)置瀏覽器參數(shù)和加載Cookie信息,如圖3.7所示。圖STYLEREF1\s3.SEQ圖\*ARABIC\s17初始化瀏覽器驅(qū)動圖“main”函數(shù)是程序的主入口,用于執(zhí)行爬取邏輯。首先初始化瀏覽器驅(qū)動,然后根據(jù)給定的關(guān)鍵詞和最大頁數(shù)進行搜索。在搜索結(jié)果頁面,循環(huán)爬取每一頁的商品信息,直到達到最大頁數(shù)或沒有下一頁按鈕為止,如圖3.8所示。圖STYLEREF1\s3.SEQ圖\*ARABIC\s18基本信息爬取邏輯圖3.2.2京東商品參數(shù)信息爬取代碼導(dǎo)入需要使用的模塊,包括“BeautifulSoup”、“requests”和“pandas”,它們分用于解析HTML、發(fā)送HTTP請求以及數(shù)據(jù)處理,如圖3.9所示。圖STYLEREF1\s3.SEQ圖\*ARABIC\s19參數(shù)信息爬取模塊導(dǎo)入圖“get_details”函數(shù)用于爬取商品參數(shù)信息,接受一個商品ID作為參數(shù),通過發(fā)送HTTP請求獲取商品頁面的HTML源碼,并使用BeautifulSoup解析源碼,提取商品的名稱、品牌和其他基本參數(shù)信息,最后返回格式化的參數(shù)信息字符串,如圖3.10所示。圖STYLEREF1\s3.SEQ圖\*ARABIC\s110獲取香水產(chǎn)品參數(shù)信息圖“main”函數(shù)主要用于執(zhí)行爬取的主要邏輯。首先使用“pandas”的“read_csv”函數(shù)讀取之前爬取的香水產(chǎn)品基本信息文件,然后對每個商品的鏈接進行解析,提取出商品ID,并調(diào)用“get_details”函數(shù)獲取詳細參數(shù)信息。接著將參數(shù)信息更新到基本信息中,并將更新后的信息保存到“allInfos”列表中。最后,使用“pandas”的DataFrame操作將所有商品的詳細信息保存到Excel文件中,如圖3.11所示。圖STYLEREF1\s3.SEQ圖\*ARABIC\s111參數(shù)信息爬取邏輯圖3.3數(shù)據(jù)預(yù)處理本文使用Python爬蟲獲取京東商城香水產(chǎn)品銷售數(shù)據(jù),所采集的數(shù)據(jù)包含‘店鋪名’、‘商品標題’、‘價格’、‘評論數(shù)’、‘品牌’等23個字段,共包含6000條數(shù)據(jù)。在進入深入分析之前,對從京東電商平臺上采集到的香水產(chǎn)品銷售數(shù)據(jù)進行細致的預(yù)處理,以確保數(shù)據(jù)的質(zhì)量和可靠性。3.3.1缺失值處理采集的原始數(shù)據(jù)集包含6000條數(shù)據(jù),其中包含‘商品標題’、‘價格’、‘評論數(shù)’等23個字段。進行缺失值的查看發(fā)現(xiàn)所采集到的數(shù)據(jù)有些字段缺失值個數(shù)嚴重,如圖3.12所示。為了保證數(shù)據(jù)的質(zhì)量和可靠性,保留有效值大于2800的列,剔除其它的列。剔除后剩余的字段為‘店鋪名’、‘商品標題’、‘價格’、‘評論數(shù)’、‘商品鏈接’、‘品牌’、‘商品名稱’、‘商品編號’、‘商品毛重’、‘類別’、‘香調(diào)’以及‘包裝形式’。在此基礎(chǔ)上在去剔除有缺失值的行,最后剩余2548條數(shù)據(jù)。圖STYLEREF1\s3.SEQ圖\*ARABIC\s112缺失值圖3.3.2有效字段選取經(jīng)過缺失值處理后,剩余的有效字段有12個分別為‘店鋪名’、‘商品標題’、‘價格’、‘評論數(shù)’、‘商品鏈接’、‘品牌’、‘商品名稱’、‘商品編號’、‘商品毛重’、‘類別’、‘香調(diào)’以及‘包裝形式’,在實際生活中‘店鋪名’、‘商品標題’、‘商品鏈接’、商品名稱’、‘商品編號’對香水銷售影響微乎其微,因此本文重點論述‘價格’、‘評論數(shù)’、‘品牌’、‘商品毛重’、‘類別’、‘香調(diào)’以及‘包裝形式’這7個變量對香水銷售數(shù)據(jù)的影響。3.3.3字段處理經(jīng)過缺失值處理后剩余的2584條數(shù)據(jù)如圖3.13所示,發(fā)現(xiàn)‘評論數(shù)’字段中存在漢字‘萬’和‘+’符號,并且‘商品毛重’字段通常以‘g’為單位。評論數(shù)是評估產(chǎn)品受歡迎程度的關(guān)鍵指標,而商品毛重可能影響到用戶的購買決策,本文為了能更好的分析這兩個字段的對香水產(chǎn)品銷售的影響,進行了‘評論數(shù)’字段的處理和‘商品毛重’字段的處理。評論數(shù)字段處理是通過將‘萬’轉(zhuǎn)換為相應(yīng)的數(shù)字,例如將1萬轉(zhuǎn)換為10000,從而確保了評論數(shù)的數(shù)值類型的一致性。同時,對于最后帶有‘+’符號的評論數(shù),我們進行了刪除,以保證數(shù)據(jù)的準確性和可分析性。本文使用rstrip()字符串方法,用于刪除字符串末尾的指定字符;使用replace()方法將‘萬’字轉(zhuǎn)化為‘e4’并利用astype(int)方法其轉(zhuǎn)化為數(shù)值型。商品毛重字段處理是為了方便后續(xù)的數(shù)值分析,將商品毛重字段的數(shù)據(jù)類型轉(zhuǎn)化為數(shù)值型,去除了‘g’單位,這使得更好的理解商品毛重與其他因素的關(guān)聯(lián)。本文使用replace()方法去除商品毛重中的非數(shù)字字符,并利用astype(float)方法其轉(zhuǎn)換為數(shù)值型。經(jīng)過評論數(shù)字段和商品毛重字段處理后數(shù)據(jù)如圖3.14所示。圖STYLEREF1\s3.SEQ圖\*ARABIC\s113缺失值處理后數(shù)據(jù)圖圖STYLEREF1\s3.SEQ圖\*ARABIC\s114商品毛重和評論數(shù)字段處理后圖經(jīng)過觀察發(fā)現(xiàn)香水產(chǎn)品的價格和評論數(shù)都相差很大,不利于后續(xù)的統(tǒng)計觀察,由此對香水產(chǎn)品的價格和評論數(shù)進行等級劃分。本文利用pd.qcut()方法將‘價格’和‘評論數(shù)’字段,都分別劃分為:'低','中','高','非常高'四個等級,從而增加‘價格等級’和‘銷量等級’兩個字段,如圖3.15所示。圖STYLEREF1\s3.SEQ圖\*ARABIC\s115添加價格等級和銷量等級圖香水產(chǎn)品銷售數(shù)據(jù)可視化展示4.1產(chǎn)品價格分布分析使用基于Python的數(shù)據(jù)可視化庫seaborn、matplotlib庫對經(jīng)過數(shù)據(jù)預(yù)處理的香水產(chǎn)品銷售數(shù)據(jù)的價格進行可視化的統(tǒng)計分析。產(chǎn)品價格分布分析代碼如圖4.1所示,統(tǒng)計分析結(jié)果如圖4.2所示。觀察香水產(chǎn)品的價格直方圖,發(fā)現(xiàn)隨著價格的升高,出現(xiàn)的頻次逐漸減少,呈現(xiàn)出明顯的指數(shù)下降趨勢。這意味著在香水銷售市場的香水產(chǎn)品中低價位的商品相對較多,而高價位的商品則相對較少。這一趨勢反映出消費者更偏好購買中低價位的香水產(chǎn)品,同時也反映了高價位香水產(chǎn)品的相對較高的品牌溢價。圖STYLEREF1\s4.SEQ圖\*ARABIC\s11香水產(chǎn)品價格分布分析代碼圖圖STYLEREF1\s4.SEQ圖\*ARABIC\s12香水產(chǎn)品價格直方圖4.2產(chǎn)品銷量分布分析深入分析香水市場的數(shù)據(jù),本文進一步關(guān)注了香水產(chǎn)品銷量的分布情況。與數(shù)據(jù)價格分布分析所使用方法一致,繪制香水產(chǎn)品銷量直方圖。本文繪制直方圖時將銷量大于100000的數(shù)據(jù)改為100000,避免直方圖過于分散。產(chǎn)品銷量分布分析代碼如圖4.3所示,統(tǒng)計分析分析結(jié)果如圖4.4所示觀察香水產(chǎn)品銷量直方圖,可以明顯看到,銷量越高的產(chǎn)品反而出現(xiàn)的頻次相對較少,呈現(xiàn)出明顯的斷崖式跨度。這表明在香水市場中存在個別的“爆款”產(chǎn)品,大多數(shù)消費者只鐘愛“爆款產(chǎn)品”,其銷量遠遠超過了其他大部分產(chǎn)品。圖STYLEREF1\s4.SEQ圖\*ARABIC\s13產(chǎn)品銷量分布分析代碼圖圖STYLEREF1\s4.SEQ圖\*ARABIC\s14香水產(chǎn)品銷量直方圖4.3香水品牌統(tǒng)計分析使用基于Python的數(shù)據(jù)可視化庫matplotlib庫繪制餅圖對各品牌香水產(chǎn)品進行統(tǒng)計分析,其中將占比小于1%的品牌合并歸為“其他”類。香水品牌統(tǒng)計分析代碼如圖4.5所示,可以得到如圖4.6統(tǒng)計分析結(jié)果。觀察餅圖可知,銷量位于前十的香水品牌包括“Versace(范思哲)”、“Gucci(古馳)”、“Chanel(香奈兒)”、“Hermès(愛馬仕)”、“冰希黎”、“Chloe(蔻依)”、“FlorabyGucci(花之物語)”、“Bvlgari(寶格麗)”、“Lanvin(浪凡)”和“JEANMISS”。此外,還存在一個“其他”類別,盡管這些品牌的市場份額較小,但它們?nèi)匀痪哂幸欢ǖ氖袌鲇绊?。從這一發(fā)現(xiàn)中可以看出,品牌在香水市場中的重要性不言而喻。消費者在選購香水時,除了考慮價格和“爆款產(chǎn)品”外,品牌形象和歷史沉淀也是重要的考量因素。著名品牌通過其獨特的形象和高品質(zhì)口碑吸引大量消費者,占據(jù)了較大的市場份額。圖STYLEREF1\s4.SEQ圖\*ARABIC\s15香水品牌統(tǒng)計分析代碼圖圖STYLEREF1\s4.SEQ圖\*ARABIC\s16香水品牌分布餅圖4.4商品毛重與香水銷量的關(guān)系使用基于Python的pandas庫中的groupby()函數(shù)和numpy庫中的mean()函數(shù)計算各個銷量等級中的商品毛重的均值,得到商品毛重與香水銷量的關(guān)系,關(guān)鍵代碼如圖4.7所示,統(tǒng)計結(jié)果如圖4.8所示。使用基于Python的數(shù)據(jù)化可視庫matplotlib庫繪制商品毛重與銷量關(guān)系圖,如圖所4.9示??梢园l(fā)現(xiàn)銷量等級非常高對應(yīng)的商品毛重均值最重,銷量等級低對應(yīng)的商品毛重均值最低。且銷量等級中、高及非常高總體商品毛重均值相差不大。圖STYLEREF1\s4.SEQ圖\*ARABIC\s17商品毛重均值與銷量等級關(guān)系代碼圖圖STYLEREF1\s4.SEQ圖\*ARABIC\s18各銷量等級的具體商品毛重均值圖圖STYLEREF1\s4.SEQ圖\*ARABIC\s19各銷量等級的商品毛重均值柱形圖4.5包裝形式、香調(diào)和類別對香水銷量的影響4.5.1箱線圖分析法箱線圖可以用于反映一組或多組連續(xù)型定量數(shù)據(jù)分布的中心位置和散布范圍,也稱為盒須圖。它主要由五個統(tǒng)計量組成,分別是最小值、第一四分位數(shù)(Q1)、中位數(shù)、第三四分位數(shù)(Q3)、最大值。箱線圖以直觀的圖形展示數(shù)據(jù)的中心趨勢、離散程度以及異常值的情況。4.5.2不同包裝形式、香調(diào)和類別的香水銷量可視化使用基于Python的數(shù)據(jù)可視化庫matplotlib、seaborn繪制箱線圖來探究香水產(chǎn)品包裝形式、香調(diào)以及類別的不同對香水產(chǎn)品銷量的影響。結(jié)果如圖4.10、圖4.11、圖4.12所示。觀察箱線圖可知,在包裝方面,禮盒裝最受歡迎,其次是獨立裝;從香調(diào)來看,花果香最受歡迎,其次是木質(zhì)香、柑橘香調(diào)、海洋香調(diào)等;從分類來看,淡香水最受歡迎,固體香水/香膏最不受歡迎。圖STYLEREF1\s4.SEQ圖\*ARABIC\s110各包裝香水銷量箱線圖圖STYLEREF1\s4.SEQ圖\*ARABIC\s111各香調(diào)香水銷量箱線圖圖STYLEREF1\s4.SEQ圖\*ARABIC\s112各分類香水銷量箱線圖進一步探究了各類香水不同價位平均銷量影響,統(tǒng)計方法同上,繪制結(jié)果如圖4.13所示。通過觀察各類香水不同價位平均銷量對比圖發(fā)現(xiàn),在香水類型中,中低價位的銷量明顯高于其他價位,表明消費者更傾向于選擇中低價位的香水產(chǎn)品。圖STYLEREF1\s4.SEQ圖\*ARABIC\s113各類香水不同價格等級的平均銷量對比圖4.6可視化總結(jié)這一過程揭示了各個變量對香水銷量的具體影響,總結(jié)如下:(1)在現(xiàn)有香水市場當中中低價位的香水產(chǎn)品相對較多,消費者更偏好購買中低價位的香水產(chǎn)品。(2)在香水市場中存在個別的“爆款”產(chǎn)品,其銷量遠遠超過其他大部分的香水產(chǎn)品,消費者更偏向于購買“爆款產(chǎn)品”。(3)知名品牌在香水市場中的占有率比較高,但是“其他”品牌也有一定的市場占有率。(4)銷量等級非常高對應(yīng)的商品毛重均值最重,銷量等級低對應(yīng)的商品毛重均值最低。且銷量等級中、高及非常高總體商品毛重均值相差不大。(5)在包裝方面消費者更偏好于購買禮盒裝和獨立裝的香水。(6)從香調(diào)來看,消費者更喜歡花果香,其次是木質(zhì)香、柑橘香調(diào)、海洋香調(diào)等。(7)從分類來看消費者更偏好淡香水,相對于其它分類來固體香水受消費者喜歡程度最低。模型建立5.1決策樹模型探究變量重要性5.1.1模型選擇決策樹模型可以用于進行特征重要性分析,其可以根據(jù)特征在樹的位置和分裂點的信息增益或基尼指數(shù)來評估特征的重要性。一般來說,特征在樹中的位置越靠前,特征就對模型的影響更大。因此本文選擇利用決策樹模型來進一步深入探究價格、品牌、商品毛重、香調(diào)、包裝類型以及香水類別變量對香水產(chǎn)品銷量的影響程度。5.1.2決策樹模型代碼實現(xiàn)在構(gòu)建決策樹模型前,首先對‘類別’、‘品牌’、‘香調(diào)’和‘包裝類型’字段進行預(yù)處理,應(yīng)用Python的Scikit-learn庫中的LabelEncoder()函數(shù)進行標簽編碼,將這些文本標簽轉(zhuǎn)換成適合機器學習模型訓練的數(shù)值型標簽。完成數(shù)據(jù)預(yù)處理后,調(diào)用Python的Scikit-learn庫決策樹模型來訓練并測試‘類別’、‘香調(diào)’、‘包裝類型’、‘價格’、‘品牌’、‘商品毛重’、‘銷量等級’字段的數(shù)據(jù),其中類別’、‘香調(diào)’、‘包裝類型’、‘價格’、‘品牌’、‘商品毛重’、字段作為因變量、‘銷售等級’字段作為自變量。在決策樹算法模型訓練數(shù)據(jù)完成后,調(diào)用feature_importances_屬性來評估特征的重要性,代碼如圖5.1所示。圖STYLEREF1\s5.SEQ圖\*ARABIC\s11變量重要性代碼圖5.1.3變量重要性分析結(jié)果基于決策樹模型探究變量重要性分析結(jié)果如圖5.2所示。變量重要性分析揭示了價格對香水銷量影響的顯著性,顯示出在購買決策中,消費者極為重視產(chǎn)品的價格水平,認為價格的適宜性是促進購買的關(guān)鍵因素。其次,品牌和商品毛重的影響排在價格之后。其中商品毛重的考量可能與其包裝設(shè)計和所含香水的凈含量相關(guān)聯(lián);而香調(diào)直接影響消費者對香水味道的偏好。雖然這兩個因素的影響力較為次要,但在制定市場策略時,仍需予以適當?shù)闹匾?。通過運用決策樹算法對影響香水銷量的各個因素進行深度分析,本研究為香水銷售商提供了基于數(shù)據(jù)的、更科學的市場策略制定指導(dǎo)。在制定銷售策略時,銷售商應(yīng)重點考慮定價策略的優(yōu)化和品牌效益,同時對產(chǎn)品的包裝及香調(diào)進行精心設(shè)計以及香水凈含量重點關(guān)注,以增強產(chǎn)品的市場競爭力。圖STYLEREF1\s5.SEQ圖\*ARABIC\s12變量重要性結(jié)果圖、5.2K-Means模型研究香水產(chǎn)品聚類5.2.1聚類目的通過聚類分析,本研究旨將香水產(chǎn)品劃分為若干個類別,發(fā)現(xiàn)了不同聚類簇中香水產(chǎn)品的特征。通過對每個聚類簇的變量平均值進行可視化,展示了不同聚類簇中香水產(chǎn)品的特征差異,為銷售商提供了更加詳細的市場細分信息。5.2.2模型選擇K-Means聚類模型是一種廣泛應(yīng)用的無監(jiān)督聚類模型。K-Means模型給定一個訓練集合,將數(shù)據(jù)分成多個聚集的“簇”。通過不斷迭代的方法依次更迭出各聚類中心的值,直到出現(xiàn)最好的聚類結(jié)果。因此本文選擇利用K-Means模型對香水產(chǎn)品進行聚類。5.2.3K-Means模型代碼實現(xiàn)在進行香水產(chǎn)品聚類分析前,關(guān)鍵的一步是使用手肘方法來確定最佳的聚類數(shù)量。這一步驟至關(guān)重要,它能夠指導(dǎo)我們選擇一個恰當?shù)姆诸悢?shù)目,從而使聚類結(jié)果盡可能精確。確定進行聚類分析的字段包括‘類別’、‘香調(diào)’、‘包裝類型’、‘價格’和‘商品毛重’,其中‘類別’、‘香調(diào)’、‘包裝類型’三個分類字段用Python的Scikit-learn庫中的LabelEncoder()函數(shù)進行標簽編碼,將這些文本標簽轉(zhuǎn)換成適合機器學習模型訓練的數(shù)值型標簽。之后,用Python的Scikit-learn庫中的StandardScaler()函數(shù)對所選取聚類分析的字段進行標準化處理,以提高模型的擬合速度和準確性。數(shù)據(jù)預(yù)處理完成后應(yīng)用K-Means模型對所選取字段進行聚類,并計算每個聚類數(shù)量(K值)下的WCSS,繪制出WCSS隨聚類數(shù)量變化的圖(手肘圖),如圖5.3。因此確定k值為6,構(gòu)建k=6的K-Means模型,并利用groupby()函數(shù)和mean()計算每個聚類簇中樣本的平均值,代碼如圖5.4所示。圖STYLEREF1\s5.SEQ圖\*ARABIC\s13手肘圖-總內(nèi)部方差圖STYLEREF1\s5.SEQ圖\*ARABIC\s14聚類分析代碼圖5.2.4香水產(chǎn)品聚類結(jié)果下面是對每個聚類簇的變量平均值進行可視化的結(jié)果,以展示不同聚類簇中香水產(chǎn)品的特征差異,如圖5.5所示。觀察香水產(chǎn)品的聚類簇特征可視化結(jié)果,展示了市場上香水產(chǎn)品的多元定位:首先,前三個聚類和后兩個聚類代表的中低價位香水,其產(chǎn)品的平均價格主要集中于250-300元區(qū)間內(nèi),在這一區(qū)間內(nèi)展現(xiàn)出了香調(diào)和類別上的多樣性,且商品毛重平均值大致都在100-150g之間,但是最后一個聚類簇中商品毛重的平均值有400g;其次第四個聚類揭示了香水產(chǎn)品平均價格在1750元左右的高端香水,在這一價格區(qū)間內(nèi),其類別、包裝形式以及香調(diào)平均值幾乎為0,形式單一,體現(xiàn)了高端消費者對獨特、稀有香水的追求,這反映了高端品牌針對具有較高購買力消費者的市場策略,其商品毛重平均值也在150g左右。圖STYLEREF1\s5.SEQ圖\*ARABIC\s15聚類分析結(jié)果圖結(jié)論本文基于Python的數(shù)據(jù)可視化技術(shù),對從京東電商平臺所采集到的香水產(chǎn)品銷售數(shù)據(jù)進行初步可視化展示,其次并利用決策樹算法對相關(guān)變量對于香水產(chǎn)品銷量的重用性進行了分析,最后利用K-Means算法將產(chǎn)品聚為6類對每個聚類簇的變量平均值進行可視化,展示了不同聚類簇中香水產(chǎn)品的特征差異。根據(jù)上面內(nèi)容的分析得到了一些關(guān)于香水營銷的建議如下:(1)價格市場定位:在香水消費市場中消費者最為重視香水產(chǎn)品的價格水平,且更偏好購買中低價位的香水產(chǎn)品,因此建議香水銷售商可以在消費者更偏好的中低價位的賽道上著力發(fā)展。(2)產(chǎn)品組合調(diào)整:根據(jù)不同聚類簇的特征,銷售商可以調(diào)整產(chǎn)品組合。銷售商可以優(yōu)化中低檔價位產(chǎn)品的香調(diào),提升
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 呼吸機相關(guān)性肺炎
- 公司開除員工合同范本
- 水電安裝承攬合同范本
- 肯德基招商加盟合同范本
- 門面轉(zhuǎn)買合同范本
- 哈密房屋租賃合同范本
- 運輸合同范本
- 代理公司的合同范本
- 延吉物業(yè)合同范本
- 2026屆云南省鎮(zhèn)沅縣一中高一化學第一學期期中統(tǒng)考試題含解析
- GB/T 31989-2015高壓電力用戶用電安全
- GB/T 22562-2008電梯T型導(dǎo)軌
- 申克振動篩操作和維護手冊
- 兒科-維生素D缺乏性手足搐搦癥課件
- 三晶變頻器說明書SAJ8000系列簡約版
- 循環(huán)系統(tǒng)-超聲診斷
- 《風力機理論與設(shè)計》全套教學課件
- 項目策劃工作檢查考核表
- 六年級上冊數(shù)學課件-4.1 圓的周長 |冀教版 (共27張PPT)
- (標準版)康復(fù)治療技術(shù)專業(yè)《 康復(fù)心理學 》課程標準
- 身體六大排毒PPT
評論
0/150
提交評論