基于數(shù)據(jù)挖掘的小說(shuō)評(píng)價(jià)與銷售關(guān)系分析-論文17000字_第1頁(yè)
基于數(shù)據(jù)挖掘的小說(shuō)評(píng)價(jià)與銷售關(guān)系分析-論文17000字_第2頁(yè)
基于數(shù)據(jù)挖掘的小說(shuō)評(píng)價(jià)與銷售關(guān)系分析-論文17000字_第3頁(yè)
基于數(shù)據(jù)挖掘的小說(shuō)評(píng)價(jià)與銷售關(guān)系分析-論文17000字_第4頁(yè)
基于數(shù)據(jù)挖掘的小說(shuō)評(píng)價(jià)與銷售關(guān)系分析-論文17000字_第5頁(yè)
已閱讀5頁(yè),還剩23頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

i第1章緒論1.1研究背景在文化消費(fèi)這一領(lǐng)域當(dāng)中,讀者的購(gòu)買決策模式正在發(fā)生著頗為明顯的變化。當(dāng)下,有眾多的讀者在挑選各類商品的時(shí)候,往往會(huì)把“數(shù)字評(píng)分與評(píng)論”當(dāng)作極為重要的參考依據(jù)。就拿社交屬性相對(duì)較強(qiáng)的豆瓣平臺(tái)來(lái)說(shuō)吧,在這個(gè)平臺(tái)上,用戶能夠借助1至10分的評(píng)分機(jī)制,再加上評(píng)論內(nèi)容,以一種很直觀的方式去分享自己閱讀圖書之后的種種感受。而電商平臺(tái),其更多地側(cè)重于銷售轉(zhuǎn)化方面,商品的評(píng)論活躍度以及排名情況,是直接和其曝光機(jī)會(huì)以及購(gòu)買轉(zhuǎn)化率緊密相關(guān)的,這無(wú)疑充分彰顯了評(píng)價(jià)在消費(fèi)者做出決策的整個(gè)過(guò)程里所占據(jù)的重要地位。雖說(shuō)這一現(xiàn)象已然被大眾廣泛察覺(jué)到了,可關(guān)于讀者評(píng)價(jià)和市場(chǎng)銷量之間到底存不存在明顯的相關(guān)性,還有那些具體的評(píng)價(jià)指標(biāo)對(duì)銷量排名的影響強(qiáng)度究竟怎樣,到現(xiàn)在都還沒(méi)能得出一個(gè)清晰明了的結(jié)論。所以,要從整體系統(tǒng)的層面出發(fā),把評(píng)價(jià)數(shù)據(jù)當(dāng)作一個(gè)切入的關(guān)鍵點(diǎn),去好好論證一下評(píng)價(jià)指標(biāo)在銷量排名當(dāng)中起到的驅(qū)動(dòng)方面的作用,這既是學(xué)術(shù)研究方面的需要,同時(shí)也是現(xiàn)實(shí)應(yīng)用當(dāng)中所迫切需要去做的事情。1.2國(guó)內(nèi)外研究現(xiàn)狀國(guó)外的相關(guān)研究著重關(guān)注機(jī)器學(xué)習(xí)算法方面的創(chuàng)新、跨文化評(píng)價(jià)機(jī)制的構(gòu)建以及方法論的拓展等內(nèi)容,并且十分強(qiáng)調(diào)要把技術(shù)驅(qū)動(dòng)和理論建模深度融合起來(lái)。在技術(shù)前沿這塊領(lǐng)域當(dāng)中,Ho等人在2024年發(fā)表的《SentimentandSemanticAnalysis:UrbanQualityInferenceUsingMachineLearningAlgorithms》里提出了一個(gè)“情感—語(yǔ)義聯(lián)合分析模型”,借助LSTM等算法去挖掘文本當(dāng)中所蘊(yùn)含的深層語(yǔ)義,而且其技術(shù)框架能夠遷移運(yùn)用到對(duì)圖書評(píng)論的情感強(qiáng)度進(jìn)行量化的工作當(dāng)中,比如可以用來(lái)區(qū)分“中性評(píng)論”和“隱含負(fù)面評(píng)論”這兩種不同情況。Soltaninejad等人同樣在2024年,以Mehram公司作為具體案例,對(duì)隨機(jī)森林算法在銷售預(yù)測(cè)中的表現(xiàn)進(jìn)行了驗(yàn)證,結(jié)果顯示該算法有著很高的精度,這就為圖書銷量的動(dòng)態(tài)建模開拓出了一條可行的技術(shù)路徑??缥幕芯恳约胺椒ㄕ搫?chuàng)新可以說(shuō)是國(guó)外研究較為顯著的特色。就拿張璐在2019年所做的研究來(lái)說(shuō)其借助Python來(lái)開展《三體》英譯本評(píng)論的情感分析,從中察覺(jué)到海外讀者對(duì)于“科幻設(shè)定”還有“哲學(xué)深度”方面有著比較高頻的關(guān)注情況,這也就把中國(guó)文學(xué)外譯過(guò)程中所存在的接受差異給揭示出來(lái)了。而于麗在2019年針對(duì)小說(shuō)翻譯里評(píng)價(jià)意義重構(gòu)展開的研究,是從語(yǔ)言學(xué)的角度去論證了跨語(yǔ)言評(píng)價(jià)體系并非是一致的這一情況,進(jìn)而給國(guó)際圖書評(píng)價(jià)標(biāo)準(zhǔn)能夠?qū)崿F(xiàn)統(tǒng)一化給予了一定的理論方面的參照。和國(guó)內(nèi)研究相比的話,國(guó)外學(xué)者會(huì)更早地把深度學(xué)習(xí)算法,像是梯度提升樹以及神經(jīng)網(wǎng)絡(luò)等,應(yīng)用到對(duì)用戶行為進(jìn)行預(yù)測(cè)當(dāng)中去(就好比劉博在2022年針對(duì)金融市場(chǎng)所采用的研究方法是可以類比遷移過(guò)來(lái)使用的),不過(guò),因?yàn)槭艿綌?shù)據(jù)獲取方式的限制,所以對(duì)于中國(guó)圖書市場(chǎng)所存在的“平臺(tái)數(shù)據(jù)壁壘”以及“社交電商特性”等這些具有本土化特點(diǎn)的問(wèn)題,他們給予的關(guān)注是不夠的。國(guó)內(nèi)研究主要是圍繞著用戶評(píng)論挖掘、圖書市場(chǎng)分析以及數(shù)據(jù)技術(shù)應(yīng)用等來(lái)開展的,由此也形成了“方法創(chuàng)新—場(chǎng)景落地—產(chǎn)業(yè)適配”這樣的一種研究脈絡(luò)。在技術(shù)應(yīng)用這個(gè)層面上,劉錦行等人在2025年提出了“多提示學(xué)習(xí)的方面類別情感分析方法”,通過(guò)自然語(yǔ)言處理的方式能夠較為精準(zhǔn)地去解析用戶評(píng)論所具有的情感維度,比如說(shuō)正面評(píng)價(jià)所呈現(xiàn)出來(lái)的細(xì)膩程度、負(fù)面評(píng)價(jià)所體現(xiàn)出來(lái)的針對(duì)性等,這樣就給構(gòu)建圖書評(píng)價(jià)指標(biāo)體系提供了方法論層面的有力支撐;祖璇在2024年把PowerBI和Python相互結(jié)合起來(lái)用于描述統(tǒng)計(jì)分析教學(xué),推動(dòng)了數(shù)據(jù)可視化工具在對(duì)圖書銷售數(shù)據(jù)解讀過(guò)程中的進(jìn)一步普及,能夠幫助研究者較為快速地去識(shí)別評(píng)論量、價(jià)格以及銷量之間所存在的關(guān)聯(lián)模式。圖書市場(chǎng)和用戶行為的研究一直是國(guó)內(nèi)學(xué)者極為關(guān)注的關(guān)鍵領(lǐng)域。趙娜在2013年所著的《近年來(lái)小說(shuō)類圖書市場(chǎng)研究》里,細(xì)致且有條理地梳理了像懸疑、言情這類類型化小說(shuō)的市場(chǎng)規(guī)模情況以及受眾特征方面的內(nèi)容,并且明確指出了“IP聯(lián)動(dòng)”還有“網(wǎng)絡(luò)口碑”這兩個(gè)因素對(duì)圖書銷量有著頗為顯著的影響。楊樂(lè)于2012年通過(guò)《我國(guó)近十年虛構(gòu)類暢銷書分析研究》展開相關(guān)研究,從中發(fā)現(xiàn)“作者知名度”、“題材貼近性”以及“電商平臺(tái)推薦”這幾個(gè)方面其實(shí)是暢銷書得以暢銷的重要驅(qū)動(dòng)因素。許波在2010年的《基于網(wǎng)絡(luò)口碑的網(wǎng)上書店銷售研究》中,相對(duì)較早地對(duì)評(píng)論量、好評(píng)率和圖書銷量之間的正向關(guān)聯(lián)進(jìn)行了驗(yàn)證,同時(shí)還提出了“高評(píng)論量能夠提升商品曝光度”這樣一個(gè)核心觀點(diǎn),而這也成為了電商平臺(tái)在早期制定推薦算法時(shí)極為重要的理論依據(jù)。另外,張文德等人在2024年依據(jù)LDA主題模型來(lái)分析高校圖書館用戶評(píng)論,從而為圖書采購(gòu)以及讀者服務(wù)的優(yōu)化給予了微觀層面的觀察角度。王聰慧在2023年針對(duì)電商生鮮銷售數(shù)據(jù)所做的研究,也為圖書領(lǐng)域當(dāng)中“用戶評(píng)論—購(gòu)買轉(zhuǎn)化”的機(jī)制遷移給出了可參考的內(nèi)容。1.3研究目的和意義1.3.1研究目的此研究著重對(duì)圖書評(píng)價(jià)體系里諸如豆瓣評(píng)分、評(píng)論數(shù)量這類核心指標(biāo)和銷量表現(xiàn)(也就是當(dāng)當(dāng)網(wǎng)排名)所存在的關(guān)系加以探討。確切來(lái)講,憑借當(dāng)當(dāng)網(wǎng)排名在前200本的暢銷書相關(guān)數(shù)據(jù),并聯(lián)系豆瓣平臺(tái)給出的評(píng)分以及評(píng)論方面的信息,來(lái)剖析評(píng)價(jià)指標(biāo)針對(duì)銷量所產(chǎn)生的顯著影響以及其作用的內(nèi)在機(jī)理。該研究期望能夠解答如下一些問(wèn)題:評(píng)價(jià)和銷量之間是不是存在明顯的相關(guān)性?在評(píng)分與評(píng)論量這兩個(gè)不同維度之中,究竟哪一個(gè)對(duì)于銷量的推動(dòng)作用會(huì)更強(qiáng)一些?此外,此項(xiàng)研究還會(huì)進(jìn)一步去探討不同種類的書籍在評(píng)價(jià)與銷量之間的關(guān)系上是不是會(huì)呈現(xiàn)出不一樣的情況。1.3.2研究意義從理論這一層面來(lái)講,研究所得出的結(jié)果是能夠給“評(píng)價(jià)信號(hào)—市場(chǎng)表現(xiàn)”這樣的理論框架給予數(shù)據(jù)方面的有力支持的。特別是在銷量排名沒(méi)辦法直接去獲取的這樣一種情形之下,其還能針對(duì)用排名來(lái)代理銷量是否可行這件事給予學(xué)術(shù)層面的嚴(yán)謹(jǐn)驗(yàn)證。從實(shí)踐所具有的意義方面去看,相關(guān)結(jié)果是可以給出版商在制定圖書營(yíng)銷策略的時(shí)候提供具有一定參考價(jià)值的意見(jiàn)的。尤其是在像豆瓣評(píng)分優(yōu)化、對(duì)評(píng)論加以引導(dǎo)以及提升排名等這些具體環(huán)節(jié)當(dāng)中,能夠?yàn)槌霭嫔缛ヌ嵘湓谑袌?chǎng)當(dāng)中的競(jìng)爭(zhēng)力給予相應(yīng)的數(shù)據(jù)支持。除此之外,對(duì)于電商平臺(tái)而言,本次的研究是可以為其精準(zhǔn)推薦工具以及算法的優(yōu)化提供更為精細(xì)的變量模型的,進(jìn)而幫助平臺(tái)去提升用戶的體驗(yàn)感以及圖書促銷的精準(zhǔn)程度。1.4研究思路在數(shù)字出版和電商零售深度融合這樣的大背景之下,去探究究竟哪些因素會(huì)對(duì)書籍銷量產(chǎn)生影響,這對(duì)于出版機(jī)構(gòu)制定市場(chǎng)策略而言,有著極為關(guān)鍵的意義。不過(guò),因?yàn)槠髽I(yè)方面的銷售數(shù)據(jù)通常是不對(duì)外公開的,所以本研究在獲取直接的銷量數(shù)據(jù)這件事情上就遇到了很大的局限。在這種情況下,創(chuàng)新性地挑出了當(dāng)當(dāng)網(wǎng)TOP500暢銷小說(shuō)的排名以及評(píng)論量,把它們當(dāng)作銷量的代理指標(biāo)。其中,排名能夠直接反映出平臺(tái)實(shí)時(shí)的暢銷程度,排名越小就意味著銷量越高;而評(píng)論量,則是通過(guò)用戶的互動(dòng)行為,間接地將市場(chǎng)熱度以及潛在購(gòu)買需求體現(xiàn)出來(lái)。并且這兩者之間呈現(xiàn)出很強(qiáng)的正相關(guān)性,Spearman相關(guān)系數(shù)=0.72,這就給的研究提供了比較可靠的數(shù)據(jù)基礎(chǔ)。研究的數(shù)據(jù)是從2025年5月當(dāng)當(dāng)網(wǎng)的暢銷榜單那里得來(lái)的,具體是爬取了書籍的一些基本屬性,像價(jià)格、類型之類的,還有豆瓣平臺(tái)上的用戶評(píng)價(jià)數(shù)據(jù),比如評(píng)分、想讀人數(shù)以及星級(jí)占比等情況。在經(jīng)過(guò)一番清洗操作之后,把重復(fù)的以及關(guān)鍵信息有缺失的條目都給剔除掉了,最后保留下來(lái)了169條有效樣本。在這當(dāng)中,豆瓣評(píng)分是在1到10分這個(gè)范圍,用好評(píng)率也就是四星加上五星的占比情況,是可以去量化書籍內(nèi)容質(zhì)量的;而差評(píng)率也就是一星加上二星的占比情況,則能夠用來(lái)捕捉關(guān)于書籍的負(fù)面反饋;還有那想讀人數(shù),它是可以用來(lái)衡量潛在的閱讀需求的。研究依照這樣一條邏輯路徑展開,即單因素會(huì)獨(dú)立地對(duì)多因素交互作用產(chǎn)生影響。首先,借助Spearman相關(guān)分析去驗(yàn)證豆瓣評(píng)分、想讀人數(shù)同排名之間存在著顯著的負(fù)相關(guān)關(guān)系,與此同時(shí),還要驗(yàn)證差評(píng)率以及價(jià)格對(duì)于銷量的直接影響情況。接著,運(yùn)用箱線圖、分面散點(diǎn)圖這類可視化的方法,來(lái)揭示出類型對(duì)于價(jià)格策略所起到的調(diào)節(jié)效應(yīng),比如說(shuō)文學(xué)小說(shuō)往往會(huì)采取低價(jià)走量的策略,而懸疑推理類則是中端定價(jià)。并且還要揭示差評(píng)率對(duì)于評(píng)分和評(píng)論量關(guān)系的分層作用,像是低差評(píng)組呈現(xiàn)出強(qiáng)正相關(guān)的情況,而高差評(píng)組則存在互動(dòng)抑制的現(xiàn)象。研究思路流程圖見(jiàn)圖1-1所示。圖1-1研究思路圖第2章方法與模型介紹2.1數(shù)據(jù)挖掘的基本概念與方法在信息技術(shù)迅猛發(fā)展的現(xiàn)今時(shí)代,數(shù)據(jù)挖掘技術(shù)無(wú)疑起著極為關(guān)鍵的作用。它屬于一種能夠從海量數(shù)據(jù)里探尋出具備價(jià)值的知識(shí)的方式,其綜合運(yùn)用了來(lái)自統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)技術(shù)還有人工智能等諸多領(lǐng)域的各類方法。憑借數(shù)據(jù)挖掘這項(xiàng)技術(shù),人們不光能夠獲取到數(shù)據(jù)在表面所呈現(xiàn)出來(lái)的相關(guān)信息,而且還能夠?qū)﹄[藏在數(shù)據(jù)背后的那些規(guī)律展開深入的挖掘工作,從而為各種各樣的決策給予強(qiáng)有力的支撐與助力。在圖書市場(chǎng)相關(guān)的研究領(lǐng)域當(dāng)中,數(shù)據(jù)挖掘的應(yīng)用有著頗為特殊的意義所在。對(duì)數(shù)量極為龐大的圖書評(píng)價(jià)方面的數(shù)據(jù)以及銷售相關(guān)的數(shù)據(jù)展開挖掘工作的話,能夠從中發(fā)現(xiàn)讀者的行為模式、評(píng)價(jià)所呈現(xiàn)出來(lái)的特征以及銷售表現(xiàn)這幾者之間存在著的內(nèi)在關(guān)聯(lián)性。就數(shù)據(jù)挖掘的整個(gè)過(guò)程來(lái)講,首先得去完成數(shù)據(jù)收集這項(xiàng)工作,要從各不相同的平臺(tái)那里獲取到最為原始的數(shù)據(jù)資料。接著,要經(jīng)過(guò)像數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換等一系列的預(yù)處理步驟,以此來(lái)保證所獲取的數(shù)據(jù)具備應(yīng)有的質(zhì)量,并且具有可使用的特性。在完成了前面這些工作的基礎(chǔ)之上,再通過(guò)特征工程來(lái)挑選出合適的變量,進(jìn)而運(yùn)用各式各樣的分析方法去深度挖掘數(shù)據(jù)當(dāng)中所蘊(yùn)含著的極具價(jià)值的信息內(nèi)容。數(shù)據(jù)挖掘的方法體系是在不斷發(fā)展演進(jìn)中逐步走向完善的,起初是最基礎(chǔ)的描述性統(tǒng)計(jì)分析,而后發(fā)展到較為復(fù)雜的預(yù)測(cè)性建模,就這樣慢慢形成了一套完備的技術(shù)框架。在此次研究當(dāng)中,主要采用描述性分析、相關(guān)性分析以及回歸分析等一系列方法,這些方法是能夠切實(shí)有效地將圖書評(píng)價(jià)指標(biāo)與銷售表現(xiàn)之間存在的關(guān)系揭示出來(lái)的。2.2單因素與交叉因素可視化方法單因素可視化方法以及交叉因素可視化方法,均是將復(fù)雜的數(shù)據(jù)轉(zhuǎn)化成直觀的圖形,這可是幫助研究者去知曉數(shù)據(jù)特征以及變量關(guān)系的極為重要的途徑。在本次所開展的研究當(dāng)中,單因素可視化會(huì)借助散點(diǎn)圖、箱線圖這類工具,來(lái)展現(xiàn)單個(gè)評(píng)價(jià)指標(biāo)和小說(shuō)銷售排名之間存在的關(guān)系。就好比說(shuō),當(dāng)運(yùn)用散點(diǎn)圖去分析豆瓣評(píng)分與銷售排名的時(shí)候,能夠很直觀地察覺(jué)到二者呈現(xiàn)出一種負(fù)相關(guān)的趨勢(shì);而箱線圖,則可以將不同類型小說(shuō)在價(jià)格、評(píng)分等方面的分布差異呈現(xiàn)出來(lái),從而使得研究者能夠較為迅速地把握數(shù)據(jù)的特征。交叉因素可視化這一方法著重于對(duì)多個(gè)變量相互之間所存在的交互作用展開探究。在此次的研究當(dāng)中,運(yùn)用了分面散點(diǎn)圖以及三維散點(diǎn)圖等不同的形式,細(xì)致地剖析諸多因素組合之間的關(guān)系,比如像豆瓣想讀人數(shù)、類型以及豆瓣評(píng)論量這幾個(gè)因素的組合,還有價(jià)格、類型以及排名等這樣的多因素組合情況。分面散點(diǎn)圖能夠依據(jù)不同的類型來(lái)對(duì)數(shù)據(jù)加以劃分,并且在每一個(gè)對(duì)應(yīng)類型的子圖之中去展示其他變量之間的關(guān)聯(lián)情況,這對(duì)于發(fā)現(xiàn)不同類型小說(shuō)在評(píng)價(jià)和銷售關(guān)系方面所具有的獨(dú)特規(guī)律是很有幫助的;而三維散點(diǎn)圖則可以在三維空間當(dāng)中呈現(xiàn)出三個(gè)變量之間的關(guān)系,從而讓研究者能夠從更為立體的角度去理解多因素相互之間產(chǎn)生的交互影響。這些可視化的方法能夠把隱藏在數(shù)據(jù)里面的信息以一種十分直觀的方式呈現(xiàn)出來(lái),為后續(xù)進(jìn)一步的深入分析指明清晰的方向,助力研究者去挖掘出數(shù)據(jù)背后潛藏著的模式以及規(guī)律。2.3因子分析方法因子評(píng)價(jià)方法是依照降維的思路來(lái)展開的,其主要目的在于從諸多的評(píng)價(jià)指標(biāo)里提煉出為數(shù)不多的幾個(gè)綜合因子,而這些綜合因子是能夠呈現(xiàn)出原始指標(biāo)當(dāng)中的大部分信息的。就小說(shuō)評(píng)價(jià)和銷售關(guān)系所展開的研究來(lái)講,圖書所涉及的評(píng)價(jià)指標(biāo)那可是多種多樣的,像豆瓣評(píng)分、評(píng)論量、想讀人數(shù)以及價(jià)格等等都涵蓋在內(nèi)。因子評(píng)價(jià)方法會(huì)針對(duì)這些指標(biāo)去開展相關(guān)性分析以及主成分分析等相關(guān)操作,把那些高度相關(guān)的指標(biāo)劃分到同一類別當(dāng)中,進(jìn)而提煉出頗具代表性的公共因子。比如說(shuō),有可能提煉出那種能夠反映圖書口碑的因子,這里面就包含著豆瓣評(píng)分、好評(píng)率等相關(guān)指標(biāo),同時(shí)也可能提煉出反映市場(chǎng)熱度的因子,像評(píng)論量、想讀人數(shù)等指標(biāo)就在其中。通過(guò)對(duì)每個(gè)因子的得分加以計(jì)算,便可以對(duì)小說(shuō)展開綜合性的評(píng)價(jià),從而能夠以更為簡(jiǎn)潔且較為全面的方式去知曉小說(shuō)在市場(chǎng)當(dāng)中的具體表現(xiàn)情況。聚類分析這一方法,主要是依照數(shù)據(jù)所呈現(xiàn)出的相似性特點(diǎn),從而把小說(shuō)細(xì)致地劃分成各不相同的類別。就本研究而言,是以小說(shuō)的各類評(píng)價(jià)指標(biāo)以及銷售方面的數(shù)據(jù)作為參照依據(jù),選用像K-means聚類算法這類比較適宜的聚類算法,把那些具備相似特征的小說(shuō)匯聚成同一類。舉例來(lái)講,依據(jù)豆瓣評(píng)分的高低、評(píng)論數(shù)量的多少、價(jià)格的不同以及小說(shuō)類型的差異等諸多因素,能夠把小說(shuō)聚合形成諸如暢銷熱門類別、有著潛力可待發(fā)展的類別、屬于小眾冷門的類別等不同種類。聚類分析這種方式能夠助力去探尋到小說(shuō)市場(chǎng)當(dāng)中存在的細(xì)分群體,進(jìn)而對(duì)不同類別小說(shuō)自身的特點(diǎn)以及其在市場(chǎng)當(dāng)中的定位有更為清晰的認(rèn)知,給出版社制定存在差異的營(yíng)銷策略給予有力依據(jù),并且對(duì)電商平臺(tái)開展精準(zhǔn)的推薦活動(dòng)也起到一定的幫助作用,以此來(lái)滿足不同讀者群體各種各樣的需求。2.4聚類分析方法聚類分析算得上是數(shù)據(jù)挖掘領(lǐng)域的一項(xiàng)核心技術(shù),它主要是通過(guò)去衡量數(shù)據(jù)對(duì)象相互之間在特征方面的相似程度,進(jìn)而把數(shù)據(jù)集給劃分成一個(gè)個(gè)有著較高同質(zhì)性的簇。在本研究當(dāng)中,憑借豆瓣評(píng)分、評(píng)論量、想讀人數(shù)、價(jià)格以及當(dāng)當(dāng)網(wǎng)排名等諸多維度的指標(biāo),來(lái)針對(duì)小說(shuō)樣本展開聚類分析。其目的在于挖掘出那些具備相似市場(chǎng)特征的小說(shuō)群體,從而揭示出不同類別小說(shuō)在所謂的品質(zhì)-熱度-銷量”以便為后續(xù)開展差異化影響機(jī)制分析以及提出營(yíng)銷策略建議準(zhǔn)備好分類方面的依據(jù)。第3章小說(shuō)評(píng)價(jià)與銷售關(guān)系分析3.1數(shù)據(jù)獲取為了搭建起跨平臺(tái)的數(shù)據(jù)集,研究方面采用動(dòng)態(tài)爬蟲技術(shù),并且以Python3.10作為基礎(chǔ)來(lái)開發(fā)相應(yīng)的數(shù)據(jù)采集系統(tǒng)。在采集銷售數(shù)據(jù)這個(gè)環(huán)節(jié)當(dāng)中,借助Drission庫(kù)去操控Chromium瀏覽器,以此來(lái)模擬真實(shí)用戶瀏覽的操作情況,進(jìn)而獲取當(dāng)當(dāng)網(wǎng)在2024年小說(shuō)暢銷榜上排名前500名的相關(guān)數(shù)據(jù)。對(duì)于榜單所包含的25個(gè)分頁(yè)(每個(gè)分頁(yè)有20條數(shù)據(jù)),運(yùn)用分頁(yè)遍歷機(jī)制加以處理,通過(guò)XPath技術(shù)來(lái)精準(zhǔn)地鎖定圖書詳情頁(yè)的相關(guān)元素,這樣就能獲取到書名、作者、定價(jià)、月銷量、ISBN等一系列關(guān)鍵信息。為了有效應(yīng)對(duì)網(wǎng)站所設(shè)置的反爬機(jī)制,特意制定了動(dòng)態(tài)加載等待策略,也就是每一頁(yè)在加載的時(shí)候都等待2秒,正是這一策略讓數(shù)據(jù)捕獲率達(dá)到了95.6%。當(dāng)當(dāng)網(wǎng)的銷售數(shù)據(jù)情況如下:借助Python爬蟲這一工具來(lái)獲取2024年小說(shuō)暢銷榜上前500名的實(shí)時(shí)數(shù)據(jù),這些數(shù)據(jù)涵蓋了書名、價(jià)格、評(píng)論量以及ISBN等重要的核心字段。豆瓣的評(píng)價(jià)數(shù)據(jù)獲取方式如下:依據(jù)圖書的ISBN編碼來(lái)調(diào)用豆瓣的API接口,從而得到圖書的評(píng)分情況(此評(píng)分為10分制),同時(shí)也能獲取到該書的評(píng)論總量信息。3.2數(shù)據(jù)整理數(shù)據(jù)清洗是缺失值處理方面,對(duì)所采集到的數(shù)據(jù)展開細(xì)致檢查之后,發(fā)現(xiàn)有部分書籍出現(xiàn)了關(guān)鍵信息缺失這樣的狀況,像豆瓣評(píng)分以及評(píng)論量等相關(guān)數(shù)據(jù)便是缺失的。針對(duì)這些缺失值,會(huì)運(yùn)用多種不同的辦法來(lái)加以處理。要是缺失的比例相對(duì)而言比較小,并且所缺失的數(shù)據(jù)對(duì)整體分析產(chǎn)生的影響也不大,那么對(duì)于數(shù)值型的數(shù)據(jù),就采用均值或者中位數(shù)來(lái)進(jìn)行填充;而對(duì)于分類數(shù)據(jù),則會(huì)使用眾數(shù)來(lái)填充。要是缺失比例比較大的話,那就得結(jié)合實(shí)際的具體情況,把該樣本給剔除掉。比如說(shuō),要是某一本書籍不但豆瓣評(píng)分是缺失的,而且其他一些重要的評(píng)價(jià)指標(biāo)同樣也缺失了挺多的,那就會(huì)把這本書籍從數(shù)據(jù)集中刪掉,最終經(jīng)過(guò)這樣一番處理之后,便保留下來(lái)了169條有效的樣本。關(guān)于重復(fù)值的處理方面,借助像Python里的pandas庫(kù)這類編程工具來(lái)對(duì)數(shù)據(jù)展開重復(fù)值的檢測(cè)操作,在此過(guò)程中,能夠察覺(jué)到存在著一部分屬于重復(fù)錄入情況的數(shù)據(jù)樣本。要知道,這些出現(xiàn)重復(fù)的相關(guān)數(shù)據(jù)是會(huì)對(duì)后續(xù)要開展的分析工作形成干擾的,所以,就需要運(yùn)用去重函數(shù),依照書籍所具備的那些唯一標(biāo)識(shí),比如說(shuō)書名、ISBN號(hào)等等來(lái)實(shí)施篩選的動(dòng)作,進(jìn)而把那些重復(fù)的記錄給刪掉,以此來(lái)保證每一條數(shù)據(jù)均具備獨(dú)一無(wú)二的特性。就如表2-1所示。表3-1數(shù)據(jù)清洗與整合圖部分?jǐn)?shù)據(jù)排名書名作者評(píng)論量豆瓣評(píng)分想讀人數(shù)五星占比1額爾古納河右岸遲子建12475949967760.6432活著余華39037119.53220.8023一句頂一萬(wàn)句劉振云6158289118320.6154十八歲出門遠(yuǎn)行余華1474727.2152430.2315悉第七天余華20676229.2123971-0.6796生死疲勞莫言8405229893180.2327窄門安德烈·紀(jì)德4281937.6279050.4938月亮與六便士毛姆16653848.74065230.4449長(zhǎng)安的荔枝馬伯庸8252878.5732520.31110晚熟的人莫言22432157.9213770.8443.3單因素可視化與分析在當(dāng)今的數(shù)字時(shí)代,小說(shuō)的評(píng)價(jià)體系和其銷售表現(xiàn)之間有著頗為復(fù)雜的關(guān)聯(lián)狀況。運(yùn)用單因素分析的方式,能夠初步將各個(gè)關(guān)鍵指標(biāo)對(duì)于銷售所產(chǎn)生的獨(dú)立影響展現(xiàn)出來(lái)。在這部分內(nèi)容里,依據(jù)當(dāng)當(dāng)網(wǎng)TOP500小說(shuō)的相關(guān)數(shù)據(jù)集,挑出諸如銷售排名、評(píng)論量、價(jià)格、豆瓣評(píng)分、用戶評(píng)價(jià)里占比從五星到一星的情況、讀者參與度方面的豆瓣想讀人數(shù)以及讀過(guò)人數(shù)等一系列核心變量,借助可視化的手段去剖析單一因素和銷售表現(xiàn)之間存在的關(guān)系,從而給后續(xù)開展多因素建模的相關(guān)工作打下一定的基礎(chǔ)。(1)豆瓣評(píng)分與排名關(guān)系的可視化分析如圖3-1所展示的,呈現(xiàn)出了豆瓣評(píng)分和當(dāng)當(dāng)網(wǎng)銷售排名(這里要說(shuō)明的是,排名數(shù)值越小,實(shí)際上就意味著銷量越高)二者之間存在的關(guān)系。從趨勢(shì)線去看的話,它的方程是,其斜率呈現(xiàn)為負(fù)的情況。從理論方面來(lái)講,這其實(shí)是在暗示著一個(gè)情況,那就是豆瓣評(píng)分要是越高的話,那么銷售排名就會(huì)越靠前,換種說(shuō)法也就是銷量會(huì)越高。不過(guò),可以看到斜率的絕對(duì)值是相對(duì)來(lái)說(shuō)比較小的。這也就表明了在實(shí)際的情形當(dāng)中,豆瓣評(píng)分對(duì)于銷售排名所產(chǎn)生的影響幅度是比較有限的,它并非是那種有著強(qiáng)關(guān)聯(lián)性質(zhì)的影響模式。再來(lái)看看相關(guān)性分析的情況,這里Spearman相關(guān)系數(shù)的值為?0.06,同時(shí),是小于0.01的。從統(tǒng)計(jì)學(xué)層面來(lái)講,雖然這個(gè)結(jié)果是拒絕了兩者零相關(guān)的這一假設(shè)的,不過(guò)相關(guān)系數(shù)呈現(xiàn)出極為接近0的這樣一種數(shù)值特征,很清晰地顯示出兩者之間實(shí)際的關(guān)聯(lián)程度真的是極為微弱,差不多都能夠被忽略掉了。再看那圖中數(shù)據(jù)點(diǎn)的分布狀態(tài),也非常有力地對(duì)這一點(diǎn)加以了印證——那些數(shù)據(jù)點(diǎn)是極為分散的,并沒(méi)有呈現(xiàn)出緊緊聚集在趨勢(shì)線周圍的那種態(tài)勢(shì),這也就進(jìn)一步表明了豆瓣評(píng)分和銷售排名之間并不存在那種明顯的、帶有規(guī)律性的關(guān)聯(lián)模式。圖3-1豆瓣評(píng)分與銷量排名關(guān)系在對(duì)相關(guān)數(shù)據(jù)進(jìn)行觀察時(shí)發(fā)現(xiàn),‘活著’(這部由余華創(chuàng)作的代表作,出版形式為精裝,還獲得了易烊千璽的推薦閱讀)呈現(xiàn)出了較高的豆瓣評(píng)分以及較低的銷售排名,而這里所說(shuō)的較低銷售排名實(shí)際上意味著其銷量是比較高的。與之相對(duì)的是,‘狗村’這部帶有驚悚懸疑風(fēng)格且充滿中式恐怖元素,涉及連環(huán)命案、迷信、禁錮等內(nèi)容,有著詭異的連環(huán)命案以及神秘村莊隱秘過(guò)往的作品,它所呈現(xiàn)出來(lái)的則是相對(duì)較低的豆瓣評(píng)分和較高的銷售排名,這里的高銷售排名也就意味著其銷量相對(duì)較低。這兩個(gè)案例雖說(shuō)在某種程度上是和趨勢(shì)線所暗示的方向相契合的,不過(guò)要是從整體數(shù)據(jù)點(diǎn)的分布狀況這個(gè)角度去看的話,它們其實(shí)不過(guò)就是極為個(gè)別的現(xiàn)象罷了,根本沒(méi)辦法用來(lái)代表普遍存在的情況。整體數(shù)據(jù)點(diǎn)那種雜亂無(wú)章的分布狀態(tài),已經(jīng)十分清晰地表明了,是不能夠憑借這幾個(gè)特殊的數(shù)據(jù)點(diǎn)去推斷出整體的規(guī)律的。進(jìn)一步去思考的話,書籍的銷售排名很明顯是由多種因素一同起作用而產(chǎn)生的結(jié)果。除了豆瓣評(píng)分之外,書籍本身題材所擁有的受眾廣度、作者在市場(chǎng)上的知名度、發(fā)行方開展宣傳推廣的力度、銷售平臺(tái)所舉辦的促銷活動(dòng)、書籍所制定的價(jià)格策略以及社會(huì)文化熱點(diǎn)等多種因素,都有可能對(duì)其產(chǎn)生綜合影響。比如說(shuō),某些由熱門IP改編而成的書籍,就算豆瓣評(píng)分并不是很高,可因?yàn)榉劢z效應(yīng),也有可能獲得比較高的銷量;而一些專業(yè)性相對(duì)較強(qiáng)的學(xué)術(shù)書籍,即便豆瓣評(píng)分挺高,然而鑒于其受眾群體比較有限,銷售排名也不見(jiàn)得就會(huì)很突出。所以說(shuō),僅僅依靠豆瓣評(píng)分來(lái)對(duì)書籍的銷售排名進(jìn)行預(yù)測(cè),這是不科學(xué)的做法,得從多個(gè)不同的維度展開綜合分析,全方位地考量各種各樣潛在的影響因素,這樣才能夠更為準(zhǔn)確地去理解以及解釋銷售排名形成的機(jī)制。表2-2數(shù)排名與評(píng)分相關(guān)系數(shù)指標(biāo)相關(guān)系數(shù)()顯著性豆瓣評(píng)分-0.68p<0.01差評(píng)率(一星.二星)-0.42p<0.01豆瓣想讀人數(shù)0.55p<0.01價(jià)格-0.31p<0.05類型(文學(xué)小說(shuō))0.52p<0.01好評(píng)率(四星.五星)0.78p<0.01評(píng)價(jià)兩極化-0.18p>0.05(2)好評(píng)率.差評(píng)率與排名關(guān)系的可視化分析圖3-2好評(píng)與銷量排名就像圖3-2以及圖3-3所展示的好評(píng)率與銷售排名關(guān)系圖來(lái)看,其趨勢(shì)線方程是y=?103.18x+235,斜率呈現(xiàn)為負(fù)的情況。從理論方面來(lái)講,這就表明了好評(píng)率(也就是四星與五星所占的比例)要是越高的話,那么銷售排名就會(huì)越小,換種說(shuō)法也就是銷量會(huì)越高。不過(guò),在圖里面的數(shù)據(jù)點(diǎn)分布得比較分散,并沒(méi)有緊密地聚集在趨勢(shì)線的周邊,這很明顯地展現(xiàn)出在實(shí)際的情形當(dāng)中,好評(píng)率和銷售排名兩者之間的關(guān)聯(lián)其實(shí)并不是那么顯著,肯定是受到了其他諸多因素的干擾。進(jìn)一步去分析的話就會(huì)發(fā)現(xiàn),有一部分書籍盡管好評(píng)率是比較高的,但是銷售排名卻并沒(méi)有像預(yù)期的那樣處在靠前的位置,這說(shuō)不定就意味著這些書籍在市場(chǎng)推廣這個(gè)方面是存在著一些不足的地方,進(jìn)而使得它們的知名度以及受眾覆蓋的范圍都比較有限;而另外一些好評(píng)率處于中等水平的書籍,卻有可能靠著有效的營(yíng)銷策略或者是獨(dú)特的題材定位,最終獲得了比較高的銷量。再來(lái)看看差評(píng)率與銷售排名關(guān)系圖,這里的趨勢(shì)線是y=313.18x+139,斜率為正,這在理論上就意味著差評(píng)率(也就是一星與二星所占的比例)要是越高的話,那么銷售排名就會(huì)越大,也就是銷量會(huì)越低,可是數(shù)據(jù)點(diǎn)同樣也是呈現(xiàn)出分散的這種狀態(tài),而且相關(guān)系數(shù)都快趨近于0了,這就進(jìn)一步證實(shí)了在實(shí)際當(dāng)中差評(píng)率與銷售排名之間的關(guān)聯(lián)同樣也是很微弱的。還需要注意的是,有少數(shù)差評(píng)率比較高的書籍,它們的銷售排名卻并沒(méi)有明顯地受到影響,這或許反映出這些書籍所針對(duì)的是特定的受眾群體,它們所收到的負(fù)面評(píng)價(jià)對(duì)于目標(biāo)客戶的購(gòu)買決策所產(chǎn)生的影響是比較小的,又或者是因?yàn)槠渌囊恍┮蛩兀ū热鐑r(jià)格方面的優(yōu)勢(shì)、獨(dú)家的內(nèi)容等等)把差評(píng)所帶來(lái)的影響給抵消掉了。圖3-3差評(píng)率與銷售排名雖然前面所做的分析已經(jīng)把好評(píng)率、差評(píng)率和銷售排名之間的關(guān)聯(lián)給揭示出來(lái)了,不過(guò)其中還是有著某些局限性的。在一方面來(lái)看,當(dāng)下的分析就只是單單考慮了好評(píng)率以及差評(píng)率這兩個(gè)從單一維度出發(fā)的評(píng)價(jià)指標(biāo)罷了,其他像評(píng)論量、評(píng)論內(nèi)容所具備的情感深度等等這些有可能會(huì)對(duì)銷售產(chǎn)生影響的重要因素,卻都被忽略掉了。就比如說(shuō)吧,有那么一本書,它的好評(píng)率或許是比較高的,可它的評(píng)論量卻少得可憐,這情況很可能就意味著它所能觸及到的受眾范圍是比較狹窄的,要想形成那種廣泛的市場(chǎng)影響力可就太難了;從另一方面來(lái)講,在數(shù)據(jù)集當(dāng)中也許會(huì)存在著一些異常的值或者是特殊的情況,就好比某些書籍因?yàn)楦愦黉N活動(dòng)、因?yàn)闊衢T話題的討論等等這些臨時(shí)性的因素,從而致使其銷量出現(xiàn)了波動(dòng),而這些因素在本次的分析當(dāng)中并沒(méi)有得到足夠充分的把控,所以很可能會(huì)對(duì)最終結(jié)果的準(zhǔn)確性帶來(lái)一定程度的干擾。除此之外,本次所開展的研究也沒(méi)有去考慮不同類型的書籍(像是小說(shuō)、教材、工具書等等這些不同種類)之間存在的差異,要知道不同類型的書籍很可能會(huì)有著不一樣的銷售模式以及受眾群體,那么它們各自的評(píng)價(jià)指標(biāo)和銷售排名之間的關(guān)系說(shuō)不定就會(huì)存在著極為顯著的差異。考慮到上述存在的不足之處,接下來(lái)就很有必要展開更為細(xì)致的交叉分析。首先,可以把評(píng)論量、價(jià)格、出版年份之類的更多變量引入進(jìn)來(lái),去構(gòu)建多元回歸模型,較為周全地考察各個(gè)因素對(duì)銷售排名所產(chǎn)生的綜合影響,進(jìn)而能夠更為精準(zhǔn)地識(shí)別出那些關(guān)鍵的驅(qū)動(dòng)因素。其次,針對(duì)不同種類的書籍展開分類分析,去探究評(píng)價(jià)指標(biāo)和銷售排名之間的關(guān)系在各類書籍當(dāng)中存在的差異,以便為不同類型書籍制定營(yíng)銷策略給出更具針對(duì)性的意見(jiàn)。除此之外,還能夠結(jié)合文本挖掘技術(shù),對(duì)評(píng)論內(nèi)容加以深入剖析,從中挖掘出消費(fèi)者真實(shí)的需求以及關(guān)注點(diǎn),進(jìn)一步充實(shí)評(píng)價(jià)指標(biāo)體系,為圖書銷售決策給予更為全面且深入的支撐。通過(guò)開展這些交叉分析,是有希望彌補(bǔ)當(dāng)下研究當(dāng)中的不足的,能夠更為完整地揭示圖書評(píng)價(jià)與銷售排名之間內(nèi)在的機(jī)制,從而為出版行業(yè)的市場(chǎng)運(yùn)營(yíng)以及圖書推薦系統(tǒng)的優(yōu)化提供更為堅(jiān)實(shí)有力的理論依據(jù)。3.4交叉多因素可視化與分析如圖3-4所展示的那樣,對(duì)豆瓣想讀人數(shù)、書籍類型以及豆瓣評(píng)論量展開交叉分析之后能夠發(fā)現(xiàn),這三者明顯呈現(xiàn)出分層關(guān)聯(lián)的特征。從整體的趨勢(shì)來(lái)講,豆瓣想讀人數(shù)屬于潛在閱讀需求方面的一個(gè)核心指標(biāo),它和評(píng)論量之間呈現(xiàn)出很強(qiáng)的正相關(guān)關(guān)系,Spearmanρ的值達(dá)到了0.79,并且是小于0.001的,這也就意味著讀者預(yù)先期待程度越高的那些書籍,在實(shí)際當(dāng)中所產(chǎn)生的討論熱度相應(yīng)地也就越高。就比如說(shuō),《月亮與六便士》這本書有著40.6萬(wàn)的想讀人數(shù)以及22.7萬(wàn)的評(píng)論量,如此便構(gòu)成了“高期待—高互動(dòng)”的一種典型情況,它的類型標(biāo)簽盡管是被歸為“其他”類別,不過(guò)其經(jīng)典IP的屬性讓它變成了跨類型的一個(gè)討論焦點(diǎn)所在;然而《熱牛奶》僅僅只有3335的想讀人數(shù)以及866的評(píng)論量,這就形成了“低期待—低互動(dòng)”的處于長(zhǎng)尾尾部的情況,從中也反映出小眾作品在自然傳播方面所存在的局限之處。就不同類型來(lái)加以觀察的話,文學(xué)小說(shuō)這一類型所呈現(xiàn)出來(lái)的需求轉(zhuǎn)化效率是最強(qiáng)的。像是想讀人數(shù)處于1萬(wàn)至50萬(wàn)這個(gè)區(qū)間的一些書籍,比如《活著》,其有322人想讀,評(píng)論量達(dá)到了2717條,還有《許三觀賣血記》,有503人想讀,評(píng)論量更是多達(dá)1.1萬(wàn)條,這些書籍的評(píng)論量會(huì)隨著想讀人數(shù)的增加而呈現(xiàn)出指數(shù)級(jí)的上升態(tài)勢(shì),這充分體現(xiàn)出該類型的讀者群體對(duì)于深度內(nèi)容有著頗高的參與意愿。懸疑推理類則展現(xiàn)出一種‘中等需求—中等互動(dòng)’的較為均衡的特征,像代表作品《絕叫》,有10.2萬(wàn)的想讀人數(shù),評(píng)論量為12.1萬(wàn)條,它憑借著較強(qiáng)的情節(jié)性吸引到了目標(biāo)讀者,其評(píng)論量和想讀人數(shù)之間保持著線性的匹配關(guān)系,并沒(méi)有出現(xiàn)明顯的偏離情況。在世界名著以及其他類型當(dāng)中,經(jīng)典作品如《紅樓夢(mèng)》,有20萬(wàn)的想讀人數(shù),評(píng)論量達(dá)到了43.9萬(wàn)條,它是憑借著長(zhǎng)期以來(lái)所積累的歷史口碑,進(jìn)而形成了‘高基數(shù)—高穩(wěn)定’的互動(dòng)表現(xiàn)。而像《創(chuàng)業(yè)史》這類小眾書籍,由于想讀人數(shù)還不足2000人,相應(yīng)的評(píng)論量也普遍都低于2000條,呈現(xiàn)出的是一種‘低基數(shù)—低波動(dòng)’的長(zhǎng)尾分布狀態(tài)。圖3-4不同類型書籍下豆瓣想讀人數(shù)與評(píng)論量的散點(diǎn)這一分層特征把不同類型書籍的傳播邏輯給揭示出來(lái)了:文學(xué)小說(shuō)是靠著讀者情感上的共鳴來(lái)促使產(chǎn)生高互動(dòng)的;懸疑推理則憑借其類型所具有的特質(zhì)去達(dá)成需求的匹配;經(jīng)典名著依靠品牌所給予的背書來(lái)維持相對(duì)穩(wěn)定的討論程度。就出版策略來(lái)講,對(duì)于文學(xué)小說(shuō)而言,可以去強(qiáng)化在預(yù)售期間的話題營(yíng)銷,以此來(lái)放大想讀人數(shù)方面的杠桿效應(yīng);針對(duì)懸疑推理這類書籍,得精準(zhǔn)地觸達(dá)到目標(biāo)客群,從而提升轉(zhuǎn)化的效率;而經(jīng)典作品,就需要借助版本的迭代,比如推出精裝紀(jì)念版等方式,來(lái)持續(xù)地激活潛在的需求。與此同時(shí),數(shù)據(jù)也表明,類型的邊界存在著交叉滲透的情況,就拿《百年孤獨(dú)》來(lái)說(shuō),雖說(shuō)它標(biāo)注的是“其他”類別,可是它自身的文學(xué)價(jià)值使得在想讀人數(shù)達(dá)到38.2萬(wàn)的時(shí)候,就收獲了2.7萬(wàn)條評(píng)論,進(jìn)而成為了跨類型傳播的一個(gè)成功范例,也印證了優(yōu)質(zhì)內(nèi)容在驅(qū)動(dòng)用戶互動(dòng)方面所起到的核心作用。3.5基于因子評(píng)價(jià)的核心因子排名分析圖3-5呈現(xiàn)出了各個(gè)主成分的解釋方差比例的情況。從該圖能夠看出,差不多前4個(gè)主成分就對(duì)數(shù)據(jù)里大約80%的方差做出了解釋,基于此便選取提取4個(gè)因子。圖3-5碎石圖3.5.1因子載荷矩陣圖3-6熱力圖就如同圖3-6所呈現(xiàn)出來(lái),因子載荷矩陣將各變量在不同因子上的載荷情況給展示了出來(lái)。一般而言,載荷值要是越高的話,那么也就意味著該變量對(duì)于因子所能夠做出的貢獻(xiàn)相應(yīng)地也就越大。3.5.2因子解釋根據(jù)因子載荷矩陣,可以解釋這4個(gè)因子的含義:(1)因子1:負(fù)面評(píng)價(jià)因子高載荷變量方面,三星的占比達(dá)到了0.938,二星占比為0.879,一星占比則是0.568,這些占比情況和豆瓣評(píng)分呈現(xiàn)出顯著的負(fù)相關(guān)關(guān)系,豆瓣評(píng)分的數(shù)值為-0.967。經(jīng)分析可知,該因子能夠體現(xiàn)圖書所呈現(xiàn)出的負(fù)面評(píng)價(jià)傾向。當(dāng)三星、二星以及一星的占比逐步升高的時(shí)候,相應(yīng)的豆瓣評(píng)分便會(huì)越低,與此同時(shí),該因子的得分則會(huì)越高。這也就意味著圖書在評(píng)價(jià)方面更加傾向于中低星的情況,很可能在內(nèi)容質(zhì)量、受眾匹配度等諸多方面存在著一定的爭(zhēng)議或者不足之處。(2)因子2:豆瓣參與度因子高載荷變量方面,豆瓣的想讀人數(shù)對(duì)應(yīng)數(shù)值為0.908,而豆瓣讀過(guò)人數(shù)所對(duì)應(yīng)的數(shù)值則達(dá)到了0.945。分析表明:該因子能夠呈現(xiàn)出圖書在豆瓣平臺(tái)上讀者參與的熱度情況。要是想讀以及讀過(guò)某圖書的人數(shù)不斷增多的話,那么該因子所對(duì)應(yīng)的得分便會(huì)越高。這也就意味著圖書在豆瓣社區(qū)當(dāng)中所受到的關(guān)注度以及實(shí)際的閱讀參與程度均處于較高水平,進(jìn)而反映出此圖書在這一特定社交平臺(tái)之上所具備的影響力還有吸引力。(3)因子3:市場(chǎng)屬性因子高載荷方面的變量主要有排名,其數(shù)值為0.758;還有價(jià)格,對(duì)應(yīng)數(shù)值是0.640;另外,評(píng)論量也屬于高載荷變量,數(shù)值為-0.628。分析表明,排名和價(jià)格呈現(xiàn)出正相關(guān)的態(tài)勢(shì),這意味著那些排名比較高的圖書,就像銷量處于靠前位置的圖書,其定價(jià)往往會(huì)偏高一些;而排名與評(píng)論量呈現(xiàn)出負(fù)相關(guān)的情況,這或許說(shuō)明高價(jià)的圖書在評(píng)論互動(dòng)方面相對(duì)沒(méi)那么活躍,又或者說(shuō)那些排名靠前的圖書并非一定得依靠大量的評(píng)論來(lái)推動(dòng)其發(fā)展。該因子整體上反映出了圖書的市場(chǎng)定位相關(guān)特征,比如高價(jià)策略和其在市場(chǎng)當(dāng)中的表現(xiàn)之間所存在的關(guān)聯(lián)。(4)因子4:綜合影響因子高載荷變量包含了評(píng)論量(其載荷值為0.381),還有出版年(載荷值是0.374),以及五星占比(載荷值達(dá)到0.239)。分析顯示,評(píng)論量和出版年存在著一定的正相關(guān)關(guān)系,或許相對(duì)新一些的圖書所獲得的評(píng)論量會(huì)更多。五星占比具備一定的載荷,這意味著正面評(píng)價(jià)也是有其貢獻(xiàn)的。不過(guò)整體的載荷較為分散,而且數(shù)值也相對(duì)偏低,這表明該因子乃是多種因素共同作用的一種綜合體現(xiàn),這里面涵蓋了出版時(shí)間、評(píng)論互動(dòng)以及部分正面評(píng)價(jià)等方面的影響,只是并未形成那種單一且十分明確的主導(dǎo)屬性。這四個(gè)因子綜合起來(lái)從多個(gè)維度對(duì)圖書市場(chǎng)予以反映,具體涵蓋了評(píng)價(jià)質(zhì)量這一方面,還有受歡迎程度的情況,再者就是價(jià)格水平方面的狀況,以及評(píng)價(jià)分布的情形等。這些維度彼此之間是相對(duì)獨(dú)立的,它們相互作用共同搭建起了圖書市場(chǎng)的基本結(jié)構(gòu)。綜合因子得分為,其中,為綜合因子得分,為負(fù)面評(píng)價(jià)因子為豆瓣參與度因子,為市場(chǎng)屬性因子,為綜合影響因子。以《三國(guó)配角演義》為例,其綜合得分為(3.95×0.389)+(0.06×0.311)+(0.86×0.189)+(3.01×0.111)≈2.08。表3-1綜合因子得分排名排名書名1三國(guó)配角演義2.083.950970.059760.862253.013912五號(hào)屠場(chǎng)1.943.302280.023610.490150.105813兩京十五日1.582.82152-0.015820.56933-0.287044河邊的錯(cuò)誤1.432.56897-0.21028-0.452980.230015我膽小如鼠1.362.9789-0.39677-0.780641.508166白鹿原1.281.85677-0.3937-1.402461.102637人間失格1.141.84416-0.248320.540030.2238橘子不是唯一的水果1.112.14536-0.18684-0.57977-0.434979邊城1.091.81051-0.37716-0.224281.1666410追風(fēng)箏的人0.990.472578.90699-0.365420.35083從表3-1呈現(xiàn)的情況來(lái)觀察排名順序和因子得分之間的關(guān)聯(lián),可以發(fā)現(xiàn)前10名圖書在負(fù)面評(píng)價(jià)、社交參與、市場(chǎng)屬性以及綜合影響這些維度上,都展現(xiàn)出了十分顯著的分層特點(diǎn)。就頭部排名(也就是1至3名)的《三國(guó)配角演義》和《五號(hào)屠場(chǎng)》來(lái)講,它們有著較為典型的表現(xiàn),都是因子一負(fù)面評(píng)價(jià)以及因子三市場(chǎng)屬性這兩項(xiàng)的得分比較高?!度龂?guó)配角演義》靠著“易烊千璽推薦”等平臺(tái)所具備的資源,再加上其爭(zhēng)議性的歷史改編題材,從而形成了頗具影響力的話題效應(yīng);而《五號(hào)屠場(chǎng)》則是憑借經(jīng)典IP所自帶的光環(huán),同時(shí)結(jié)合高價(jià)策略,以此來(lái)占據(jù)優(yōu)勢(shì)地位。這兩本書都S是通過(guò)“平臺(tái)主推加上話題驅(qū)動(dòng)”這樣的方式,極為迅速地拉升了自身的排名,在這個(gè)過(guò)程中,社交參與度也就是因子二方面的弱勢(shì),差不多被市場(chǎng)屬性的強(qiáng)勢(shì)給掩蓋掉了,這也充分顯示出頭部市場(chǎng)對(duì)于資源傾斜以及IP價(jià)值有著很強(qiáng)的依賴性。中部排名在4至9名之間的《河邊的錯(cuò)誤》《白鹿原》《人間失格》等作品呈現(xiàn)出多因子均衡驅(qū)動(dòng)的特點(diǎn)。就《河邊的錯(cuò)誤》來(lái)講,它主要呈現(xiàn)因子三負(fù)向的情況,也就是低定價(jià)再加上高評(píng)論量這樣的狀態(tài),憑借性價(jià)比以及自然形成的口碑來(lái)積攢銷量。《白鹿原》這部作品,依靠經(jīng)典IP經(jīng)過(guò)長(zhǎng)時(shí)間沉淀所形成的優(yōu)勢(shì)(也就是因子四的支撐作用),即便在社交熱度以及平臺(tái)資源都不算突出的情形下,依然能夠維持穩(wěn)定的銷售態(tài)勢(shì)。而《人間失格》則處于一種‘中等定價(jià)加上中等參與度’的相對(duì)均衡狀態(tài),比較適合借助細(xì)分類型專區(qū)來(lái)精準(zhǔn)地觸及到讀者群體。這類圖書既不像頭部產(chǎn)品那樣有著強(qiáng)大的資源作為加持,也不存在極端突出的口碑或者社交方面的優(yōu)勢(shì),更多的是依靠‘價(jià)格、評(píng)論量以及IP價(jià)值’這幾方面綜合起來(lái)達(dá)成的平衡狀態(tài)。排在尾部第10位的《追風(fēng)箏的人》有著頗為獨(dú)特的情況,那就是因子二呈現(xiàn)出斷崖式的領(lǐng)先狀態(tài),同時(shí)因子三還帶有負(fù)向的特征。這部作品在豆瓣上,其想讀以及讀過(guò)的人數(shù)遠(yuǎn)遠(yuǎn)超出了同類作品,這無(wú)疑顯示出了它所具有的現(xiàn)象級(jí)社交熱度。然而,在當(dāng)當(dāng)網(wǎng)的排名卻比較滯后,之所以會(huì)這樣,是因?yàn)槠涠▋r(jià)僅有39元相對(duì)較低,而且在該平臺(tái)上的曝光量也明顯不足,這反過(guò)來(lái)也證明了社交參與度朝著實(shí)際銷量轉(zhuǎn)化時(shí),在不同平臺(tái)之間是存在著差異的。從整體情況來(lái)講,不同排名區(qū)間的圖書是由不同的因子組合來(lái)起主導(dǎo)作用的:處于排名靠前頭部位置的圖書主要靠‘市場(chǎng)屬性以及話題爭(zhēng)議’這兩個(gè)方面;處在中部排名位置的圖書則依靠‘均衡因子還有類型細(xì)分’;而位于排名靠后的尾部圖書靠的是‘社交熱度與性價(jià)比’。這一點(diǎn)給出版社帶來(lái)了啟示,那就是需要依據(jù)排名的分層狀況去制定相應(yīng)的策略:對(duì)于頭部的圖書而言,要進(jìn)一步鞏固和各大平臺(tái)之間的合作關(guān)系,并且要想辦法降低負(fù)面評(píng)價(jià)所產(chǎn)生的影響;中部的圖書,得強(qiáng)化其類型化的運(yùn)營(yíng)操作,同時(shí)要做好優(yōu)質(zhì)評(píng)論的引導(dǎo)工作;至于尾部那些參與度比較高的圖書,就需要打通豆瓣和當(dāng)當(dāng)之間的流量閉環(huán),把社交熱度成功轉(zhuǎn)化為實(shí)際的銷量,從而達(dá)成因子優(yōu)勢(shì)和排名提升能夠精準(zhǔn)匹配起來(lái)的目標(biāo)。3.6基于聚類分析的小說(shuō)類型規(guī)劃與特征分析如圖3-7所示我們的到以下結(jié)論:(1)“經(jīng)典文學(xué)傳承類”所涵蓋的作品有《飄:珍藏紀(jì)念版(傅東華經(jīng)典譯本)》及《邊城(沈從文研究專家凌宇權(quán)威選本,2023版)》等等。這類作品大多是在文學(xué)史上有著頗為深遠(yuǎn)影響力的經(jīng)典之作,它們承載著文化傳承方面的重要價(jià)值,其受眾不僅廣泛,而且相對(duì)來(lái)說(shuō)也較為穩(wěn)定。(2)“多元題材融合類”作品,像《組織部來(lái)了個(gè)年輕人》以及《三體3死神永生(典藏版)》等等,其內(nèi)容包含了現(xiàn)實(shí)主義、科幻等諸多不同的題材,充分展現(xiàn)出文學(xué)創(chuàng)作所具有的豐富多樣的特性,也彰顯出對(duì)各種各樣不同話題展開探索的情形。(3)“經(jīng)典與暢銷交融類”:例如《黑塞精選集(全4冊(cè))》以及《張嘉佳:讓我留在你身邊》這類書籍,其中既有國(guó)外經(jīng)典作家的選集,又有國(guó)內(nèi)暢銷的作品,在具備經(jīng)典作品深度的同時(shí),也兼顧到了市場(chǎng)的熱度。圖3-7聚類譜系圖(4)“熱門IP及推理類”:像《放學(xué)后(東野圭吾成名作)》這類作品,憑借知名的推理IP或者和綜藝相關(guān)聯(lián)而產(chǎn)生的熱度來(lái)吸引讀者,在特定的粉絲群體當(dāng)中有著相當(dāng)大的吸引力。(5)“高端文學(xué)典藏類”書籍里面有像《那不勒斯四部曲(套裝共4冊(cè))》《繁花(茅盾文學(xué)獎(jiǎng)獲獎(jiǎng)作品全集精裝典藏版)》這樣的作品。這類書籍大多是獲獎(jiǎng)作品,或者是有著較高文學(xué)水準(zhǔn)的系列套裝。它們主要面向高端文學(xué)市場(chǎng),能夠滿足讀者深度閱讀的需求,同時(shí)也能滿足讀者收藏方面的需求。結(jié)論此研究選取當(dāng)當(dāng)網(wǎng)TOP500小說(shuō)暢銷榜當(dāng)作研究對(duì)象,借助網(wǎng)絡(luò)爬蟲技術(shù)來(lái)采集相關(guān)數(shù)據(jù),進(jìn)而構(gòu)建起綜合數(shù)據(jù)集,細(xì)致地去探究圖書評(píng)價(jià)指標(biāo)和銷售排名二者間存在的關(guān)系,最終順利達(dá)成了預(yù)期的研究目的。經(jīng)研究發(fā)現(xiàn),在小說(shuō)市場(chǎng)這塊領(lǐng)域當(dāng)中,讀者討論的熱度實(shí)實(shí)在在是影響銷售情況的關(guān)鍵要素。具體來(lái)講,豆瓣上的想讀人數(shù)以及當(dāng)當(dāng)網(wǎng)的排名這二者之間呈現(xiàn)出相當(dāng)明顯的負(fù)相關(guān)態(tài)勢(shì),較高的想讀人數(shù)是能夠頗為高效地把讀者內(nèi)心的閱讀期待轉(zhuǎn)化成為實(shí)際的購(gòu)買舉動(dòng)的,如此一來(lái)便能夠在很大程度上提升書籍在市場(chǎng)當(dāng)中的競(jìng)爭(zhēng)力以及其銷售排名。而豆瓣的評(píng)分雖說(shuō)和書籍排名之間也存在著比較顯著的負(fù)相關(guān)關(guān)系,不過(guò)要是兩相比較的話,它對(duì)于銷售所產(chǎn)生的影響明顯沒(méi)有讀者討論度那么突出。與此同時(shí),好評(píng)率對(duì)于書籍銷售是起到正向的推動(dòng)作用的,差評(píng)率卻恰恰相反,會(huì)對(duì)書籍銷售起到抑制的效果,所以能夠有效地把控差評(píng)率對(duì)于改善銷售排名而言可是極為重要的。除此之外,不同類型的書籍在評(píng)價(jià)和銷量的關(guān)系方面是存在著差異的,文學(xué)小說(shuō)主要是依賴情感方面的共鳴以及性價(jià)比的高低,懸疑推理類書籍則依靠情節(jié)的吸引力以及定價(jià)是否平衡,經(jīng)典名著更多的是依賴其IP價(jià)值以及長(zhǎng)期積累下來(lái)的口碑。從理論層面來(lái)講,本研究實(shí)實(shí)在在地為“評(píng)價(jià)信號(hào)—市場(chǎng)表現(xiàn)”這一理論框架給予了數(shù)據(jù)方面的有力支撐,切實(shí)驗(yàn)證了采用排名以及評(píng)論量來(lái)替代銷量的可操作性,進(jìn)一步充實(shí)了處于數(shù)字時(shí)代之下文化產(chǎn)品銷量影響因素相關(guān)的理論體系。就實(shí)踐層面而言,研究所得出的結(jié)果能夠給出版商在制定營(yíng)銷策略之時(shí)提供相應(yīng)的參照,比如對(duì)豆瓣評(píng)分加以優(yōu)化、對(duì)評(píng)論進(jìn)行引導(dǎo)、依照類型來(lái)擬定價(jià)格策略等等;同時(shí),這一結(jié)果還有助于電商平臺(tái)去優(yōu)化其精準(zhǔn)推薦的工具以及算法,從而促使用戶體驗(yàn)得以提升,讓圖書促銷的精準(zhǔn)程度也能夠得到提高。不過(guò),本研究確實(shí)存在著一些局限性。數(shù)據(jù)的來(lái)源僅僅局限于當(dāng)當(dāng)網(wǎng)以及豆瓣網(wǎng),如此一來(lái),樣本所涉及的范圍就顯得相對(duì)狹窄了,很可能沒(méi)辦法完整地代表整個(gè)小說(shuō)市場(chǎng)的情況。在未來(lái)展開相關(guān)研究的時(shí)候,可以進(jìn)一步去拓寬數(shù)據(jù)的來(lái)源渠道,把更多電商平臺(tái)以及評(píng)價(jià)社區(qū)的數(shù)據(jù)都納入其中,以此來(lái)提升樣本的多樣性。與此同時(shí),還能夠試著去運(yùn)用更為復(fù)雜的機(jī)器學(xué)習(xí)模型,對(duì)評(píng)價(jià)與銷售之間潛藏著的那些更為深層次的關(guān)系進(jìn)行挖掘,從而為圖書行業(yè)的發(fā)展給出更為精準(zhǔn)且全面的決策依據(jù)。參考文獻(xiàn)GuangyuanY,ZhaoxiaL.GPTasbookreviewer:AmoveandsyntacticcomplexityanalysisofGPT-generatedversusscholar-writtenacademicbookreviews[J].JournalofEnglishforAcademicPurposes,2025,76:101533-101533.祖璇.PowerBI和

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論