大數(shù)據(jù)管理與應(yīng)用 課件 第十二章 Web分析_第1頁
大數(shù)據(jù)管理與應(yīng)用 課件 第十二章 Web分析_第2頁
大數(shù)據(jù)管理與應(yīng)用 課件 第十二章 Web分析_第3頁
大數(shù)據(jù)管理與應(yīng)用 課件 第十二章 Web分析_第4頁
大數(shù)據(jù)管理與應(yīng)用 課件 第十二章 Web分析_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第九章Web分析大數(shù)據(jù)管理與應(yīng)用——主編:王剛副主編:劉婧、邵臻01Web分析概述02Web內(nèi)容分析03Web結(jié)構(gòu)分析04Web使用分析

1.1Web分析概述Web分析的分類Web數(shù)據(jù)的分類作為Web分析的對象,Web數(shù)據(jù)包括內(nèi)容數(shù)據(jù)(ContentData)、結(jié)構(gòu)數(shù)據(jù)(StructureData)以及日志數(shù)據(jù)(UsageData)三種數(shù)據(jù)類型,分別對應(yīng)于Web數(shù)據(jù)的語義(Semantic)、語法(Syntactic)與語用(Pragmatic)三個(gè)層次。Web分析方法的分類根據(jù)數(shù)據(jù)的類型,Web數(shù)據(jù)分析也可以分為三類:Web內(nèi)容分析、Web結(jié)構(gòu)分析和Web使用分析。1.1Web分析概述圖12-1Web數(shù)據(jù)分析的分類Web分析面臨的挑戰(zhàn)Web數(shù)據(jù)的高度復(fù)雜性具體體現(xiàn)在數(shù)據(jù)的四個(gè)方面:異構(gòu)性半結(jié)構(gòu)化特性動(dòng)態(tài)性存在噪聲數(shù)據(jù)搜索引擎是獲取Web數(shù)據(jù)的一種重要手段,但是Web數(shù)據(jù)的復(fù)雜性以及常用獲取數(shù)據(jù)方法的缺陷,導(dǎo)致搜索引擎在Web數(shù)據(jù)檢索方面還存在以下問題:豐度問題(AbundanceProblem)有限覆蓋問題(LimitedCoverageProblem)檢索接口的局限性缺少個(gè)性化檢索機(jī)制1.1Web分析概述Web文本挖掘以Web文本為分析對象的文本挖掘被稱為Web文本挖掘。Web文本挖掘主要通過應(yīng)用數(shù)據(jù)挖掘技術(shù)從Web頁面中的文本內(nèi)容發(fā)現(xiàn)有價(jià)值的信息,幫助人們從大量的Web文本數(shù)據(jù)中找出隱藏的、潛在的關(guān)聯(lián)模式。Web文本挖掘的主要功能包括預(yù)測和描述。Web文本挖掘的過程與方法Web文本數(shù)據(jù)的種類有很多,所以Web文本挖掘的種類也有很多。雖然Web文本挖掘的方法之間存在著差異性,但是這些方法遵循的處理過程一般都是相同的,如圖12-2所示。1.2Web內(nèi)容分析圖12-2Web文本挖掘的一般過程Web文本挖掘的方法主要包括文本摘要、文本分類和文本聚類等。文本摘要是指從文本(集)中抽取關(guān)鍵信息,以簡潔的方式對文本(集)中的主體內(nèi)容進(jìn)行總結(jié)。這樣做可以使用戶在不閱讀全文的情況下就可以對文本(集)的內(nèi)容有比較全面的了解,使用戶判斷是否需要對文本(集)深入閱讀。分類的方法被廣泛地應(yīng)用于人類社會與科學(xué)領(lǐng)域的各個(gè)方面,是人類保存和處理信息與知識的最有效的方式之一。在Web數(shù)據(jù)的處理中,文本分類是把一些被標(biāo)記的文本作為訓(xùn)練集,按照文本屬性和文本類別之間的關(guān)系模型,然后利用這種關(guān)系模型預(yù)測待標(biāo)記的文本的類別。文本分類的效果可以用召回率和準(zhǔn)確度來衡量。召回率是正確分類的文檔數(shù)與實(shí)際相關(guān)文檔數(shù)之比,而準(zhǔn)確度是分類中正確分類的文檔與總文檔數(shù)之比。文本聚類是指根據(jù)文本的不同特征劃分為不同的簇,目的是使文檔集合分成一個(gè)個(gè)的文檔簇,要求歸屬于同一簇文本之間的差別盡可能的小,而不同簇間的文本之間的差別盡可能的大。文本聚類與文本分類不同,聚類沒有預(yù)先對主題定義類別標(biāo)記,這些標(biāo)記需要通過聚類學(xué)習(xí)算法自動(dòng)確定。1.2Web內(nèi)容分析Web文本挖掘的應(yīng)用搜索引擎領(lǐng)域:Web文本挖掘可以充分利用WWW資源,提高搜索效率與精準(zhǔn)度,使搜索引擎返回與用戶檢索條件更加匹配的結(jié)果,提高Web文檔的利用價(jià)值。Web文本挖掘?qū)λ阉饕娴乃阉鹘Y(jié)果做到了有效的文本聚類,如Google的“精化查詢”。在信息檢索領(lǐng)域,用聚類分析產(chǎn)生的聚類文件結(jié)構(gòu),能夠改進(jìn)檢索的效果和效率。聚類分析能對搜索結(jié)果進(jìn)行合理的整合:類似文檔聚類的過程,按照頁面摘要或頁面之間的相似程度分為多個(gè)簇,相似度高的聚集在一個(gè)簇內(nèi),然后每個(gè)簇形成一個(gè)中心。自然語言理解領(lǐng)域:自然語言理解是人工智能領(lǐng)域的一個(gè)重要方向,是一門新興的邊緣學(xué)科,以語言學(xué)為基礎(chǔ),內(nèi)容涉及包括語言學(xué)、心理學(xué)、邏輯學(xué)、聲學(xué)、數(shù)學(xué)和計(jì)算機(jī)科學(xué)在內(nèi)的多個(gè)學(xué)科。從人工智能的角度來看,自然語言理解的任務(wù)是建立一種計(jì)算機(jī)模型,這種模型的功能要能夠給出類似人的理解,可以分析回答自然語言提出的問題。Web中存在著海量的自然語言數(shù)據(jù),如何處理和利用這些數(shù)據(jù)是一個(gè)亟待解決的問題。而利用Web文本挖掘的方法可以更有效地處理這些自然語言數(shù)據(jù)。1.2Web內(nèi)容分析Web多媒體挖掘Web多媒體挖掘是指通過綜合分析視聽特性和語義,從大量的多媒體數(shù)據(jù)中發(fā)現(xiàn)隱含的、有價(jià)值的和可理解的模式,得出事件的趨向和關(guān)聯(lián),為用戶提供決策支持。多媒體挖掘主要是針對圖像、音頻、視頻以及綜合的多媒體數(shù)據(jù)進(jìn)行分析的,其包括圖像挖掘、音頻挖掘和視頻挖掘等類型。多媒體挖掘的主要方法多媒體索引和檢索多媒體數(shù)據(jù)泛化和多維分析多媒體數(shù)據(jù)的分類與預(yù)測多媒體數(shù)據(jù)的關(guān)聯(lián)分析1.2Web內(nèi)容分析Web多媒體挖掘多媒體挖掘系統(tǒng)的體系結(jié)構(gòu)預(yù)處理:多媒體數(shù)據(jù)挖掘中預(yù)處理的主要作用是利用內(nèi)容處理技術(shù),從大量的多媒體數(shù)據(jù)或多媒體數(shù)據(jù)庫中提取有效的元數(shù)據(jù)。多媒體數(shù)據(jù)集和元數(shù)據(jù)庫:多媒體數(shù)據(jù)庫或大型的多媒體數(shù)據(jù)集包含的多媒體數(shù)據(jù)十分龐大,有的可能包含幾十萬張圖片、上千小時(shí)的音視頻甚至更多。它們之間的結(jié)構(gòu)與元數(shù)據(jù)庫中的描述相關(guān)聯(lián),便于可視化表示和存取。挖掘引擎:挖掘引擎內(nèi)含一組挖掘算法,可以對元數(shù)據(jù)庫和多媒體數(shù)據(jù)庫進(jìn)行挖掘處理。用戶接口:用戶接口為用戶提供與多媒體挖掘系統(tǒng)的交互接口。1.2Web內(nèi)容分析圖12-3Web多媒體挖掘系統(tǒng)的典型體系結(jié)構(gòu)Web多媒體挖掘多媒體挖掘的典型應(yīng)用圖像挖掘的應(yīng)用:原始的圖像數(shù)據(jù)并不能直接用于圖像挖掘,所以在圖像挖掘之前需要對圖像數(shù)據(jù)進(jìn)行預(yù)處理,預(yù)處理的結(jié)果是生成一個(gè)圖像特征數(shù)據(jù)庫,數(shù)據(jù)庫中的內(nèi)容可供高層的挖掘模塊使用。圖像挖掘技術(shù)有圖像相似搜索、圖像關(guān)聯(lián)規(guī)則、圖像的分類、圖像的聚類。視頻挖掘的應(yīng)用:視頻挖掘是對大量的視頻數(shù)據(jù)的一種處理方式,強(qiáng)調(diào)對視頻進(jìn)行自適應(yīng)、無監(jiān)督的內(nèi)容處理,試圖從中獲取有價(jià)值的信息,并挖掘視頻數(shù)據(jù)內(nèi)容及其高層語義隱含的模式或知識。視頻挖掘技術(shù)不僅涉及到計(jì)算機(jī)視覺和數(shù)據(jù)挖掘,還與圖像處理、人工智能、模式識別等技術(shù)相關(guān)聯(lián)。智能算法對視頻數(shù)據(jù)內(nèi)容的處理可以從很多幀的連續(xù)視頻數(shù)據(jù)中提取出視頻內(nèi)容可能表達(dá)出的一些模式或知識,在這個(gè)過程中可能需要底層的目標(biāo)識別技術(shù)來獲得這些模式和知識。但視頻挖掘與這些學(xué)科的側(cè)重點(diǎn)不同,傳統(tǒng)的模式識別是把具體事物歸入某一類別,而在視頻挖掘的方法中,更強(qiáng)調(diào)算法的效用。視頻挖掘技術(shù)根據(jù)挖掘?qū)ο罂梢苑譃橐曨l結(jié)構(gòu)挖掘和視頻運(yùn)動(dòng)挖掘。1.2Web內(nèi)容分析萬維網(wǎng)中有許許多多的Web站點(diǎn),這些站點(diǎn)中又有著許許多多的Web頁面,Web頁面包含的信息由三個(gè)部分組成:網(wǎng)頁正文、網(wǎng)頁的超文本標(biāo)記和網(wǎng)頁之間的超鏈接。如果將Web看作是一個(gè)超大規(guī)模的有向圖,那么有向圖的邊是超鏈接,而Web頁面則是有向圖的節(jié)點(diǎn)。在Web環(huán)境中,有價(jià)值的信息不僅是Web頁面的內(nèi)容,Web頁面之間的超鏈接與頁面結(jié)構(gòu)也隱藏著很重要的信息。Web結(jié)構(gòu)分析就是利用數(shù)據(jù)挖掘技術(shù)自動(dòng)地從萬維網(wǎng)的宏觀整體結(jié)構(gòu)、鏈接結(jié)構(gòu)以及網(wǎng)頁內(nèi)部結(jié)構(gòu)中發(fā)現(xiàn)知識的過程。Web結(jié)構(gòu)中包含的信息有:URL字符串中的目錄路徑結(jié)構(gòu)信息;網(wǎng)頁頁面內(nèi)部內(nèi)容,網(wǎng)頁結(jié)構(gòu)可以用HTML、XML表示成樹形結(jié)構(gòu);網(wǎng)頁之間的超鏈接結(jié)構(gòu)。挖掘Web結(jié)構(gòu)可以發(fā)現(xiàn)大量的高價(jià)值的Web結(jié)構(gòu)信息,對這些Web結(jié)構(gòu)信息再進(jìn)行挖掘可以發(fā)現(xiàn)有用的知識與模式。1.3Web結(jié)構(gòu)分析PageRank算法Google的創(chuàng)始人之一LarryPage于1998年提出了PageRank,并應(yīng)用在Google搜索引擎的檢索結(jié)果排序上,該技術(shù)也是Google早期的核心技術(shù)之一。PageRank并不是一種搜索算法,而是一種在搜索引擎中根據(jù)網(wǎng)頁之間相互的鏈接關(guān)系計(jì)算網(wǎng)頁排名的技術(shù)。它可以計(jì)算收集到的Web中的網(wǎng)頁,使每一個(gè)頁面對應(yīng)一個(gè)數(shù)值,這個(gè)數(shù)值用來表示網(wǎng)頁的重要程度。搜索引擎在用戶做出查詢操作時(shí),在找到滿足用戶查詢條件的頁面后,會根據(jù)頁面的PageRank值的大小對搜索結(jié)果排序并將結(jié)果返回給用戶。PageRank算法的概述數(shù)量假設(shè):在Web圖模型中,如果一個(gè)頁面節(jié)點(diǎn)接收到的其他網(wǎng)頁指向的入鏈數(shù)量越多,那么這個(gè)頁面越重要。質(zhì)量假設(shè):指向頁面A的入鏈質(zhì)量不同,質(zhì)量高的頁面會通過鏈接向其他頁面?zhèn)鬟f更多的權(quán)重。所以越是質(zhì)量高的頁面指向頁面A,則頁面A越重要。1.3Web結(jié)構(gòu)分析

1.3Web結(jié)構(gòu)分析PageRank算法PageRank建模過程PageRank值的計(jì)算采用冪迭代方法,它可以計(jì)算出特征值為1的主特征向量。如算法12-1所示,算法可以由任意給定的初始狀態(tài)開始,直到迭代在PageRank值不再明顯變化或者收斂的時(shí)候結(jié)束。1.3Web結(jié)構(gòu)分析PageRank算法PageRank算法的優(yōu)點(diǎn)和缺點(diǎn)PageRank算法最主要的優(yōu)點(diǎn)便是它防止作弊的能力。在PageRank算法中認(rèn)為一個(gè)網(wǎng)頁之所以重要是因?yàn)橹赶蛩木W(wǎng)頁很重要。但是在Web環(huán)境中一個(gè)網(wǎng)頁的擁有者很難將指向自己的鏈入鏈接強(qiáng)行添加到別人的重要網(wǎng)頁中,因此想要影響PageRank的值是非常不易的。PageRank算法的另一個(gè)優(yōu)點(diǎn)是其是從全局出發(fā)的度量以及其非查詢相關(guān)的特性。PageRank算法仍存在一些不足。例如PageRank算法沒有區(qū)分站內(nèi)導(dǎo)航鏈接,很多網(wǎng)站的首頁都有很多對站內(nèi)其他頁面的鏈接,稱為站內(nèi)導(dǎo)航鏈接。這些鏈接與不同網(wǎng)站之間的鏈接相比,后者更能體現(xiàn)PageRank值的傳遞關(guān)系。PageRank算法沒有過濾鏈接的功能,例如一些廣告鏈接和分享鏈接,這些鏈接通常沒有什么實(shí)際價(jià)值,前者鏈接到廣告頁面,后者常常鏈接到某個(gè)社交網(wǎng)站首頁,但PageRank算法在計(jì)算時(shí)會把這些鏈接的影響也考慮到。此外PageRank對新網(wǎng)頁不友好,一個(gè)新網(wǎng)頁的一般入鏈相對較少,即使它的內(nèi)容質(zhì)量很高,要成為一個(gè)高PR值的頁面仍需要很長時(shí)間的推廣。1.3Web結(jié)構(gòu)分析圖神經(jīng)網(wǎng)絡(luò)圖是對對象及其相互關(guān)系的一種簡潔抽象的直觀數(shù)學(xué)表達(dá)。具有相互關(guān)系的數(shù)據(jù)—圖結(jié)構(gòu)數(shù)據(jù)在眾多領(lǐng)域普遍存在,并得到了廣泛應(yīng)用。隨著大量數(shù)據(jù)的涌現(xiàn),傳統(tǒng)的圖算法在解決一些深層次的重要問題,如節(jié)點(diǎn)分類和鏈路預(yù)測有很大的局限性。近些年,人們對深度學(xué)習(xí)方法在圖上的擴(kuò)展越來越感興趣。研究人員借鑒了卷積網(wǎng)絡(luò)、循環(huán)網(wǎng)絡(luò)和深度自編碼器的思想,定義和設(shè)計(jì)了用于處理圖數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),由此產(chǎn)生了一個(gè)新的研究熱點(diǎn)—圖神經(jīng)網(wǎng)絡(luò)(GraphNeuralNetworks,GNN)。圖神經(jīng)網(wǎng)絡(luò)是一種直接作用于圖結(jié)構(gòu)上的神經(jīng)網(wǎng)絡(luò)。圖神經(jīng)網(wǎng)絡(luò)模型考慮了輸入數(shù)據(jù)的規(guī)模、異質(zhì)性和深層拓?fù)湫畔⒌?,能夠挖掘深層次有效拓?fù)湫畔ⅲ崛?shù)據(jù)的關(guān)鍵復(fù)雜特征和實(shí)現(xiàn)對海量數(shù)據(jù)的快速處理。例如,預(yù)測化學(xué)分子的特性,文本的關(guān)系提取,圖形圖像的結(jié)構(gòu)推理,社交網(wǎng)絡(luò)的鏈路預(yù)測和節(jié)點(diǎn)聚類,缺失信息的網(wǎng)絡(luò)補(bǔ)全和藥物的相互作用預(yù)測。1.3Web結(jié)構(gòu)分析

1.3Web結(jié)構(gòu)分析圖12-6有向圖和無向圖圖神經(jīng)網(wǎng)絡(luò)圖神經(jīng)網(wǎng)絡(luò)的模型圖神經(jīng)網(wǎng)絡(luò)是一種直接作用于圖結(jié)構(gòu)上的神經(jīng)網(wǎng)絡(luò)。圖神經(jīng)網(wǎng)絡(luò)具有以下特點(diǎn):忽略節(jié)點(diǎn)的輸入順序。在計(jì)算過程中,節(jié)點(diǎn)的表示受其周圍鄰居節(jié)點(diǎn)的影響,而圖本身連接不變。圖結(jié)構(gòu)的表示,使得可以進(jìn)行基于圖的推理。圖神經(jīng)網(wǎng)絡(luò)是對卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)的擴(kuò)展,其與卷積神經(jīng)網(wǎng)絡(luò)的區(qū)別主要體現(xiàn)在對周圍鄰居信息的吸取。圖卷積網(wǎng)絡(luò)可以分為兩種,即基于頻譜的方法和基于空間的方法。基于頻譜的方法,從圖信號處理的角度引入濾波器來定義圖卷積,進(jìn)而從圖信號中去除噪聲?;诳臻g的圖卷積方法,通過匯集鄰居節(jié)點(diǎn)的信息來構(gòu)建圖卷積。當(dāng)圖卷積在節(jié)點(diǎn)級運(yùn)作時(shí),可以將圖池化模塊和圖卷積進(jìn)行交錯(cuò)疊加,從而將圖粗化為高級的子圖。1.3Web結(jié)構(gòu)分析

1.3Web結(jié)構(gòu)分析基于頻譜的方法頻譜卷積依賴于Laplace矩陣的特征分解,存在一定的缺陷:圖的任何擾動(dòng)都會使得特征值發(fā)生變化;所學(xué)到的濾波器是依賴于域的,所以不能拓展應(yīng)用到不同結(jié)構(gòu)的圖中;特征分解的時(shí)間復(fù)雜度是N的三次方,因此對于數(shù)據(jù)量較大的圖而言,計(jì)算非常耗時(shí)。積使用相同的圖卷積層對圖進(jìn)行更新,基于組合的圖卷積使用不同的卷積層對圖進(jìn)行更新。基于空間的圖卷積方法基于空間的圖卷積網(wǎng)絡(luò)模仿傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中的卷積運(yùn)算,根據(jù)節(jié)點(diǎn)的空間關(guān)系定義圖的卷積。對于圖卷積而言,將圖中的節(jié)點(diǎn)與其鄰居節(jié)點(diǎn)進(jìn)行聚合,得到該節(jié)點(diǎn)的新表示。為了探索節(jié)點(diǎn)接收域的深度與廣度信息,通常將多個(gè)圖卷積層疊加在一起。根據(jù)卷積層的疊加方式的不同,可以將基于空間的圖卷積劃分為基于遞歸的空間圖卷積和基于合成的空間圖卷積?;谶f歸的圖卷積使用相同的圖卷積層對圖進(jìn)行更新,基于組合的圖卷積使用不同的卷積層對圖進(jìn)行更新。1.3Web結(jié)構(gòu)分析基于空間的圖卷積方法基于遞歸的空間圖卷積網(wǎng)絡(luò)主要思想是更新圖節(jié)點(diǎn)的潛在表示直至到達(dá)穩(wěn)定。通過對遞歸函數(shù)施加約束,使用門遞歸單元體系、異步地、隨機(jī)地更新節(jié)點(diǎn)的潛在表示?;诮M合的空間圖卷積通過堆疊多個(gè)不同的圖卷積層來更新節(jié)點(diǎn)的表示?;谶f歸的方法試圖獲得節(jié)點(diǎn)的穩(wěn)定狀態(tài),基于組合的方法試圖獲取圖中更高階的鄰域信息。1.3Web結(jié)構(gòu)分析圖12-7基于遞歸與基于合成的空間圖卷積

1.3Web結(jié)構(gòu)分析圖神經(jīng)網(wǎng)絡(luò)的分類圖卷積網(wǎng)絡(luò)(GraphConvolutionNetworks,GCN)圖注意力網(wǎng)絡(luò)(GraphAttentionNetworks)圖自編碼器(GraphAutoencoders)圖生成網(wǎng)絡(luò)(GraphGenerativeNetworks)圖時(shí)空網(wǎng)絡(luò)(GraphSpatial-temporalNetworks)圖神經(jīng)網(wǎng)絡(luò)的應(yīng)用和發(fā)展計(jì)算機(jī)視覺:場景圖生成、點(diǎn)云分類和分割、動(dòng)作識別。推薦系統(tǒng):將項(xiàng)目和用戶作為節(jié)點(diǎn)。交通:時(shí)空神經(jīng)網(wǎng)絡(luò)結(jié)合的圖方法。生物化學(xué):學(xué)習(xí)分子指紋,預(yù)測分子特性,推斷蛋白質(zhì)界面,并合成化學(xué)品化合物。在其他領(lǐng)域,圖神經(jīng)網(wǎng)絡(luò)也有著重要的應(yīng)用,目前初步探索將圖神經(jīng)網(wǎng)絡(luò)應(yīng)用于其他問題,如程序驗(yàn)證、程序推理、社會影響預(yù)測、對抗性攻擊預(yù)防、電子健康記錄建模、事件檢測和組合優(yōu)化。1.3Web結(jié)構(gòu)分析Web結(jié)構(gòu)分析的應(yīng)用信息檢索在信息檢索方面,傳統(tǒng)的信息檢索技術(shù)采用的是文本相似度,而在Web環(huán)境中,網(wǎng)頁間的鏈接結(jié)構(gòu)可以用來進(jìn)行信息檢索,因?yàn)閃eb環(huán)境中網(wǎng)頁的數(shù)量很大,對全部的頁面進(jìn)行鏈接分析是不現(xiàn)實(shí)的,所以可以先用基于關(guān)鍵詞的搜索引擎得到一個(gè)集合,應(yīng)用PageRank算法和HITS算法對集合進(jìn)行處理,得到最終的排序結(jié)果。在信息檢索領(lǐng)域的應(yīng)用還包括尋找個(gè)人主頁和相似網(wǎng)頁等,根據(jù)用戶需要查找某個(gè)網(wǎng)頁,找出與之相關(guān)的網(wǎng)頁。社區(qū)識別網(wǎng)絡(luò)上存在大量的具有不同主題的社區(qū)。虛擬社區(qū)是基于某個(gè)特定主題的、相互連接的Web頁面集,且社區(qū)內(nèi)頁面的鏈接密度大。PageRank算法本身是一個(gè)著名的頁面排序算法,排序原理與頁面主題無關(guān)。1.3Web結(jié)構(gòu)分析Web結(jié)構(gòu)分析的應(yīng)用社區(qū)識別Haveliwala認(rèn)為用戶瀏覽的模型是基于主題的,提倡選擇任意一個(gè)與感興趣的主題相關(guān)的頁面,然后沿著鏈接到達(dá)與該主題相關(guān)的其他頁面。根據(jù)上述思想,他把PageRank算法改造為與主題相關(guān)的算法。該算法可以發(fā)現(xiàn)與主題相關(guān)的社區(qū)。網(wǎng)站優(yōu)化網(wǎng)頁之間鏈接的數(shù)量應(yīng)與超文本的內(nèi)容相匹配,數(shù)量過多容易使用戶迷失方向。。利用訪問時(shí)間、訪問次數(shù)和訪問人數(shù)等信息可以計(jì)算出頁面流行度和關(guān)注程度,進(jìn)而調(diào)整Web頁面的鏈接結(jié)構(gòu),把更受關(guān)注的頁面放置到網(wǎng)站更容易被訪問到的位置,以獲得更好的訪問效果。Web結(jié)構(gòu)分析還用于對Web頁面或結(jié)點(diǎn)進(jìn)行分類。傳統(tǒng)方法是用人工進(jìn)行分類、編輯,這種方法費(fèi)時(shí)費(fèi)力,而且很難做到全面、準(zhǔn)確。通過對網(wǎng)站結(jié)構(gòu)的分析,網(wǎng)站人員可以對網(wǎng)站內(nèi)相似的頁面進(jìn)行統(tǒng)一修改,或者對相似的鏈接進(jìn)行統(tǒng)一的重新定位,不僅能夠節(jié)省用戶的信息查找時(shí)間,而且還便于網(wǎng)站的維護(hù)。1.3Web結(jié)構(gòu)分析Web使用分析是指從用戶訪問日志中獲取有價(jià)值的信息,因此也被稱為Web日志分析。Web使用分析能通過分析Web日志數(shù)據(jù),發(fā)現(xiàn)用戶訪問Web頁面的習(xí)慣與偏好,識別并提取用戶的興趣,獲取用戶訪問網(wǎng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論