




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、決策支持系統(tǒng)案例層次分析模型的決策應(yīng)用層次分析法(Analytic Hierarchy Process,AHP )是美國運(yùn)籌學(xué)家、匹茲堡大學(xué)薩第(T. L. Saaty)教授于 20 世紀(jì) 70 年代提出的一種系統(tǒng)分析方法,80年代初引進(jìn)我國,是一種定性與定量分析相結(jié)合的多目標(biāo)屬性決策分析方法。運(yùn)用層次分析法進(jìn)行決策的過程包括建立層次結(jié)構(gòu)模型、構(gòu)造判斷模型等內(nèi)容。具體而言,層次分析法分析過程包括步:建立層次結(jié)構(gòu)模型;決定各層指標(biāo)的權(quán)重,將同一層的指標(biāo)與上一層中某個(gè)指標(biāo)進(jìn)行兩兩成對比較,采用定性和定量標(biāo)度其重要程度,構(gòu)造出判斷模型,計(jì)算出各層指標(biāo)的權(quán)重,并通過計(jì)算判斷矩陣的一致性來驗(yàn)證權(quán)重是否合
2、理;計(jì)算出待選方案的相對權(quán)重并排序,完成決策。層次分析模型2022/9/144層次分析法的基本步驟建立層次結(jié)構(gòu)模型;構(gòu)造判斷矩陣;層次單排序及一致性檢驗(yàn);層次總排序及一致性檢驗(yàn)。2022/9/145多級遞階結(jié)構(gòu)一般可以分成三層,即目標(biāo)層,準(zhǔn)則層和方案層。目標(biāo)層:解決問題要想達(dá)到的目標(biāo)。準(zhǔn)則層:針對目標(biāo),評價(jià)各方案時(shí)所考慮的各個(gè)子目標(biāo)(因素或準(zhǔn)則),可以逐層細(xì)分。方案層:解決問題的方案。分解法:目的 分目標(biāo)(準(zhǔn)則) 指標(biāo)(子準(zhǔn)則) 方案 解釋結(jié)構(gòu)模型化方法(ISM法)建立層次結(jié)構(gòu)模型2022/9/147判斷矩陣是層次分析法的基本信息,也是計(jì)算各要素權(quán)重的重要依據(jù)。建立判斷矩陣假設(shè)在準(zhǔn)則H下要素
3、的權(quán)重分別為即判斷矩陣2022/9/148 表示以判斷準(zhǔn)則H 的角度考慮要素 對 的相對重要程度。對于準(zhǔn)則H,對下一層的n個(gè)要素進(jìn)行兩兩比較,來確定矩陣的元素值, 滿足: 2022/9/1410標(biāo)度含義1兩個(gè)要素相比,具有同樣重要性3兩個(gè)要素相比,前者比后者稍微重要5兩個(gè)要素相比,前者比后者明顯重要7兩個(gè)要素相比,前者比后者強(qiáng)烈重要9兩個(gè)要素相比,前者比后者極端重要2,4,6,8上述相鄰判斷的中間值倒數(shù)兩個(gè)要素相比,后者比前者的重要性標(biāo)度判斷矩陣標(biāo)度定義2022/9/1411在應(yīng)用層次分析法進(jìn)行系統(tǒng)評價(jià)和決策時(shí),需要知道Ai關(guān)于H 的相對重要度,也就是Ai關(guān)于H 的權(quán)重相對重要度及判斷矩陣的最
4、大特征值的計(jì)算(單排序)2022/9/1412由于判斷矩陣A的最大特征值所對應(yīng)的特征向量即為W,為此,可先求出判斷矩陣的最大特征值所對應(yīng)的特征向量,再經(jīng)過歸一化處理,即可求出Ai關(guān)于H的相對重要度求A的最大特征值和其對應(yīng)的特征向量單位化權(quán)重向量W2022/9/1414(b)方根法(幾何平均法) A的元素按行相乘開n次方歸一化2022/9/1415(c)特征根方法 由正矩陣的Perron定理可知 存在且唯一,W的分量均為正分量,可以用冪法求出 及相應(yīng)的特征向量W。該方法對AHP的發(fā)展在理論上有重要作用。2022/9/1417根據(jù)矩陣?yán)碚?,判斷矩陣在滿足上述一致性的條件下,n階矩陣具有唯一非零的、
5、也是最大的特征值 ,其余特征值均為零。 W 是矩陣A 的對應(yīng)于特征值n 的特征向量。 相容性(一致性)判斷2022/9/1418由于判斷矩陣的三個(gè)性質(zhì)中的前兩個(gè)容易被滿足,第三個(gè)“一致性“則不易保證。如判斷矩陣A被判斷為A有偏差,則稱A為不相容判斷矩陣,這時(shí)就有 若矩陣A 完全相容,則有max=n ,否則maxn 這樣就提示我們可以用max-n的關(guān)系來度量偏離相容性的程度。2022/9/1419度量相容性的指標(biāo)為C.I. 一般情況下,若C.I.0.10,就可認(rèn)為判斷矩陣A有相容性,據(jù)此計(jì)算的W 是可以接受的,否則重新進(jìn)行兩兩比較判斷。一致性檢驗(yàn):2022/9/1420判斷矩陣的維數(shù)n越大,判斷
6、的一致性將越差,為克服一致性判斷指標(biāo)隨n增大而明顯增大的弊端,于是引入修正值R.I. ,見下表:n12345678910R.I.000.520.891.121.261.361.411.461.49R.I.是同階平均隨機(jī)一致性指標(biāo)2022/9/1421 C.R .作為衡量判斷矩陣一致性的指標(biāo)更為合理的 C.R.0.1時(shí),便認(rèn)為判斷矩陣具有滿意的一致性2022/9/1422最終歸結(jié)為最低層(方案、措施、指標(biāo)等)相對于最高層(總目標(biāo))相對重要程度的權(quán)值或相對優(yōu)劣的次序。綜合重要度的計(jì)算2022/9/1424兩兩對比的判斷矩陣列于下,試對此問題決策。 最佳地點(diǎn) A1 A2 A3 A4 A5 A6 A1
7、 1 1 4 3 3 4 A2 1 1 1/3 5 1 1/3 A3 1/4 3 1 7 1/5 1 A4 1/3 1/5 1/7 1 1/5 1/6 A5 1/3 1 5 5 1 3 A6 1/4 3 1 6 1/3 12022/9/1425 A1 D1 D2 D3 D1 1 1/3 1/2 D2 3 1 3 D3 2 1/3 1 A2 D1 D2 D3 D1 1 9 7 D2 1/9 1 1/5 D3 1/7 5 1 A3 D1 D2 D3 D1 1 1 1 D2 1 1 1 D3 1 1 1 A5 D1 D2 D3 D1 1 1/2 1 D2 2 1 2 D3 1 1/2 1 A6 D1
8、 D2 D3 D1 1 6 4 D2 1/6 1 1/3 D3 1/4 3 1 A4 D1 D2 D3 D1 1 5 1 D2 1/5 1 1/5 D3 1 5 12022/9/1427 第二層到第三層:A1-A6與各方案的權(quán)重分別為 一致性檢驗(yàn)相關(guān)數(shù)據(jù)結(jié)果依次為: 2022/9/1428 各判斷矩陣一致性檢驗(yàn)系數(shù)均小于0.1,認(rèn)為判斷矩陣具有滿意的一致性。 最后,各方案對總目標(biāo)的權(quán)重為: =(0.37 0.38 0.25) 第二個(gè)方案的權(quán)重最大,因此選擇地點(diǎn)D2最佳。 層次分析法在圖書館設(shè)備采購決策中的應(yīng)用某高校圖書館為了擴(kuò)展讀者培訓(xùn)的服務(wù)范圍,提高服務(wù)檔次,欲采購一批筆記本電腦用作培訓(xùn)用計(jì)
9、算機(jī),構(gòu)建采購決策的層次結(jié)構(gòu)模型。判斷模型Web挖掘與個(gè)性化決策支持?jǐn)?shù)據(jù)挖掘概念:數(shù)據(jù)挖掘是運(yùn)用計(jì)算機(jī)及信息技術(shù),從大量的、不完全的數(shù)據(jù)集中獲取隱含在其中的有用知識的高級過程。數(shù)據(jù)挖掘涉及的學(xué)科領(lǐng)域和方法很多,有多種分類法。數(shù)據(jù)挖掘分類法根據(jù)挖掘?qū)ο蠓郑宏P(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫、時(shí)序數(shù)據(jù)庫、DNA數(shù)據(jù)庫、多媒體數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫、遺產(chǎn)數(shù)據(jù)庫以及Web數(shù)據(jù)庫等;根據(jù)挖掘方法分:機(jī)器學(xué)習(xí)方法、統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法等;a.機(jī)器學(xué)習(xí)方法可細(xì)分為:歸納學(xué)習(xí)方法(決策樹、規(guī)則歸納等)、基于范例學(xué)習(xí)、遺傳算法等。數(shù)據(jù)挖掘分類法b.統(tǒng)計(jì)方法可細(xì)分為:回歸分析(多元回歸、自回歸等)、
10、判別分析(貝葉斯判別、費(fèi)歇爾判別、非參數(shù)判別等)、聚類分析(系統(tǒng)聚類、動態(tài)聚類等)、探索性分析(主元分析法、相關(guān)分析法等)等。c.神經(jīng)網(wǎng)絡(luò)方法可細(xì)分為:前向神經(jīng)網(wǎng)絡(luò)(BP算法等)、自組織神經(jīng)網(wǎng)絡(luò)(自組織特征映射、競爭學(xué)習(xí)等)等。數(shù)據(jù)挖掘分類法根據(jù)挖掘任務(wù)分:可分為關(guān)聯(lián)規(guī)則、分類、聚類、時(shí)間序列預(yù)測模型發(fā)現(xiàn)和時(shí)序模式發(fā)現(xiàn)等。關(guān)聯(lián)規(guī)則案例:美國沃爾瑪連鎖店超市將尿布和啤酒赫然擺在一起出售。該舉措使尿布和啤酒的銷量雙雙增加。沃爾瑪擁有世界上最大的數(shù)據(jù)倉庫系統(tǒng),為了能夠準(zhǔn)確了解顧客在其門店的購買習(xí)慣,沃爾瑪對其顧客的購物行為進(jìn)行購物籃分析,想知道顧客經(jīng)常一起購買的商品有哪些。沃爾瑪數(shù)據(jù)倉庫里集中了其各
11、門店的詳細(xì)原始交易數(shù)據(jù)。在這些原始交易數(shù)據(jù)的基礎(chǔ)上,沃爾瑪利用數(shù)據(jù)挖掘方法對這些數(shù)據(jù)進(jìn)行分析和挖掘。一個(gè)意外的發(fā)現(xiàn)是:跟尿布一起購買最多的商品竟是啤酒!經(jīng)過大量實(shí)際調(diào)查和分析,揭示了一個(gè)隱藏在尿布與啤酒背后的美國人的一種行為模式:在美國,一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布,而他們中有30%40%的人同時(shí)也為自己買一些啤酒。產(chǎn)生這一現(xiàn)象的原因是:美國的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們在買尿布后又隨手帶回了他們喜歡的啤酒。關(guān)聯(lián)規(guī)則舉例關(guān)聯(lián)規(guī)則定義定義一:設(shè) ,是m個(gè)不同的項(xiàng)目的集合,每個(gè)ik稱為一個(gè)項(xiàng)目。項(xiàng)目的集合I稱為項(xiàng)集。其元素的個(gè)數(shù)稱為項(xiàng)集的長度,長度為k的項(xiàng)集稱
12、為k-項(xiàng)集。上例中每個(gè)商品就是一個(gè)項(xiàng)目,項(xiàng)集為I=bread, beer, cake, cream, milk, tea,I的長度為6。關(guān)聯(lián)規(guī)則定義定義二:每筆交易T是項(xiàng)集I的一個(gè)子集。對應(yīng)每一個(gè)交易有一個(gè)唯一標(biāo)識交易號,記作TID。交易全體構(gòu)成了交易數(shù)據(jù)庫D,|D|等于D中交易的個(gè)數(shù)。上例中包含10筆交易,因此|D|=10。關(guān)聯(lián)規(guī)則定義定義三:對于項(xiàng)集X,設(shè)定count(XT)為交易集D中包含X的交易的數(shù)量,則項(xiàng)集X的支持度為: support(X)= count(XT) /| D |上例中X=bread, milk出現(xiàn)在T1,T2,T5,T9和T10中,所以支持度為0.5。關(guān)聯(lián)規(guī)則定義定義
13、四:最小支持度是項(xiàng)集的最小支持閥值,記為SUPmin,代表了用戶關(guān)心的關(guān)聯(lián)規(guī)則的最低重要性。支持度不小于SUPmin 的項(xiàng)集稱為頻繁集,長度為k的頻繁集稱為k-頻繁集。如果設(shè)定SUPmin為0.3,上例中bread, milk的支持度是0.5,所以是2-頻繁集。關(guān)聯(lián)規(guī)則定義定義五:關(guān)聯(lián)規(guī)則是一個(gè)蘊(yùn)含式:R:XY其中XI,YI,并且XY=。表示項(xiàng)集X在某一交易中出現(xiàn),則導(dǎo)致Y以某一概率也會出現(xiàn)。用戶關(guān)心的關(guān)聯(lián)規(guī)則,可以用兩個(gè)標(biāo)準(zhǔn)來衡量:支持度和可信度。關(guān)聯(lián)規(guī)則定義定義六:關(guān)聯(lián)規(guī)則R的支持度是交易集同時(shí)包含X和Y的交易數(shù)與|D|之比。即: support(XY)=count(XY)/|D|支持度反
14、映了X、Y同時(shí)出現(xiàn)的概率。關(guān)聯(lián)規(guī)則的支持度等于頻繁集的支持度。關(guān)聯(lián)規(guī)則定義定義七:對于關(guān)聯(lián)規(guī)則R,可信度是指包含X和Y的交易數(shù)與包含X的交易數(shù)之比。即:confidence(XY)=support(XY)/support(X)可信度反映了如果交易中包含X,則交易包含Y的概率。一般來說,只有支持度和可信度較高的關(guān)聯(lián)規(guī)則才是用戶感興趣的。關(guān)聯(lián)規(guī)則定義定義八:設(shè)定關(guān)聯(lián)規(guī)則的最小支持度和最小可信度為SUPmin和CONFmin。規(guī)則R的支持度和可信度均不小于SUPmin和CONFmin ,則稱為強(qiáng)關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則挖掘的目的就是找出強(qiáng)關(guān)聯(lián)規(guī)則,從而指導(dǎo)商家的決策。關(guān)聯(lián)規(guī)則舉例TID網(wǎng)球拍網(wǎng)球運(yùn)動鞋羽毛
15、球111102110031000410105011161100關(guān)聯(lián)規(guī)則舉例顧客購買記錄的數(shù)據(jù)庫D,包含6個(gè)事務(wù)。項(xiàng)集I=網(wǎng)球拍,網(wǎng)球,運(yùn)動鞋,羽毛球。考慮關(guān)聯(lián)規(guī)則(頻繁二項(xiàng)集):網(wǎng)球拍與網(wǎng)球,事務(wù)1,2,3,4,6包含網(wǎng)球拍,事務(wù)1,2,6同時(shí)包含網(wǎng)球拍和網(wǎng)球,XY=3, D=6,支持度 (X Y)/D=0.5;X=5, 置信度(X Y)/X=0.6。若給定最小支持度=0.5,最小置信度=0.6,認(rèn)為購買網(wǎng)球拍和購買網(wǎng)球之間存在關(guān)聯(lián)。關(guān)聯(lián)規(guī)則的挖掘過程關(guān)聯(lián)規(guī)則挖掘過程主要包含兩個(gè)階段:第一階段必須先從資料集合中找出所有的高頻項(xiàng)目組(Frequent Itemsets),第二階段再由這些高頻項(xiàng)目
16、組中產(chǎn)生關(guān)聯(lián)規(guī)則(Association Rules)。 Apriori 算法Apriori算法是對于事務(wù)處理數(shù)據(jù)序進(jìn)行頻繁項(xiàng)集挖掘和關(guān)聯(lián)規(guī)則的一種經(jīng)典算法。算法從尋找單一頻繁項(xiàng)集開始,逐漸往K-頻繁項(xiàng)集擴(kuò)展,只要項(xiàng)集出現(xiàn)的比例高于設(shè)定的最小支持度閾值,就一直擴(kuò)展卜去。這些頻繁項(xiàng)集中滿足置信度參數(shù)即為強(qiáng)關(guān)聯(lián)規(guī)則,否則為弱關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則挖掘就是在頻繁項(xiàng)集中找到所冇強(qiáng)關(guān)聯(lián)規(guī)則。Apriori算法得到的關(guān)聯(lián)規(guī)則可以確定在數(shù)據(jù)庫中突出的總體趨勢。Apriori 算法的具體步驟C1,即1-項(xiàng)頻繁項(xiàng)集候選集:掃描數(shù)據(jù)庫,對每個(gè)單獨(dú)的項(xiàng)進(jìn)行計(jì)數(shù)得到C1 。L1,即1-項(xiàng)頻繁項(xiàng)集:從C1中刪除支持度小于最
17、小支持度的項(xiàng)得到L1 。Ck+1,即K+1項(xiàng)頻繁集候選集: Ck+1由Lk與自身連接得到,連接條件是參與連接的兩個(gè)K項(xiàng)集前K-1項(xiàng)相同,第K項(xiàng)不同。LK+1, K+1項(xiàng)頻繁集:從CK+1中刪除支持度小最小支持度的項(xiàng),刪除CK+1中K項(xiàng)自己不在LK中的項(xiàng)。分類規(guī)則數(shù)據(jù)挖掘的一個(gè)重要任務(wù)是對海量數(shù)據(jù)進(jìn)行分類。數(shù)據(jù)分類是基于一組數(shù)據(jù)的某些屬性的值進(jìn)行的。數(shù)據(jù)分類的方法很多,包括決策樹方法、統(tǒng)計(jì)學(xué)方法、神經(jīng)網(wǎng)絡(luò)方法、最近鄰居方法等等。其中,基于決策樹的分類方法與其它的分類方法比較起來,具有速度較快、較容易轉(zhuǎn)換成簡單的并且易于被理解的分類規(guī)則、較易轉(zhuǎn)換成數(shù)據(jù)庫查詢語言、友善、可得到更高的準(zhǔn)確度等優(yōu)點(diǎn)。決
18、策樹算法決策樹(Decision Tree)是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過構(gòu)成決策樹來求取凈現(xiàn)值的期望值大于等于零的概率,評價(jià)項(xiàng)目風(fēng)險(xiǎn),判斷其可行性的決策分析方法,是直觀運(yùn)用概率分析的一種圖解法。由于這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。決策樹的組成部分決策點(diǎn),是對幾種可能方案的選擇,即最后選擇的最佳方案。如果決策屬于多級決策,則決策樹的中間可以有多個(gè)決策點(diǎn),以決策樹根部的決策點(diǎn)為最終決策方案。1狀態(tài)節(jié)點(diǎn),代表備選方案的經(jīng)濟(jì)效果(期望值),通過各狀態(tài)節(jié)點(diǎn)的經(jīng)濟(jì)效果的對比,按照一定的決策標(biāo)準(zhǔn)就可以選出最佳方案。由狀態(tài)節(jié)點(diǎn)引出的分支稱為概率枝,概率枝的數(shù)目表示可能出現(xiàn)的自然狀態(tài)
19、數(shù)目每個(gè)分枝上要注明該狀態(tài)出現(xiàn)的概率。1結(jié)果節(jié)點(diǎn),將每個(gè)方案在各種自然狀態(tài)下取得的損益值標(biāo)注于結(jié)果節(jié)點(diǎn)的右端。決策樹算法舉例決策樹預(yù)備定義信息墑熵是無序性(或不確定性)的度量指標(biāo)。假如事件A的全概率劃分是(A1,A2,.,An),每部分發(fā)生的概率是(p1,p2,.,pn),那信息熵定義為:通常以2位底數(shù),所以信息墑的單位是bit。ID3算法構(gòu)造決策樹構(gòu)造樹的基本想法是隨著樹深度的增加,節(jié)點(diǎn)的熵迅速地降低。熵降低的速度越快越好,目標(biāo)是得到一棵高度最矮的決策樹。例子中在沒有給定任何天氣信息時(shí),根據(jù)歷史數(shù)據(jù),我們只知道新的一天打球的概率是9/14,不打的概率是5/14。此時(shí)的熵為:確定決策樹的節(jié)點(diǎn)4
20、個(gè)屬性outlook,temperature,humidity,windy。首先要決定哪個(gè)屬性作樹的根節(jié)點(diǎn)。對每項(xiàng)指標(biāo)分別統(tǒng)計(jì):在不同的取值下打球和不打球的次數(shù)。計(jì)算各屬性的信息墑計(jì)算當(dāng)已知變量outlook的值時(shí),信息熵為多少。outlook=sunny時(shí),2/5的概率打球,3/5的概率不打球。entropy=0.971outlook=overcast時(shí),entropy=0outlook=rainy時(shí),entropy=0.971而根據(jù)歷史統(tǒng)計(jì)數(shù)據(jù),outlook取值為sunny、overcast、rainy的概率分別是5/14、4/14、5/14,所以當(dāng)已知變量outlook的值時(shí),信息熵為
21、:5/14 0.971 +4/14 0 +5/14 0.971 = 0.693系統(tǒng)熵就從0.940下降到了0.693,信息增溢gain(outlook)為0.940-0.693=0.247得到根節(jié)點(diǎn)同樣可以計(jì)算出gain(temperature)=0.029,gain(humidity)=0.152,gain(windy)=0.048。gain(outlook)最大(即outlook在第一步使系統(tǒng)的信息熵下降得最快),所以決策樹的根節(jié)點(diǎn)就取outlook。接下來要確定N1取temperature、humidity還是windy?在已知outlook=sunny的情況,根據(jù)歷史數(shù)據(jù),我們作出類似
22、table 2的一張表,分別計(jì)算gain(temperature)、gain(humidity)和gain(windy),選最大者為N1。依此類推,構(gòu)造決策樹。當(dāng)系統(tǒng)的信息熵降為0時(shí),就沒有必要再往下構(gòu)造決策樹了,此時(shí)葉子節(jié)點(diǎn)都是純的-這是理想情況。最壞的情況下,決策樹的高度為屬性(決策變量)的個(gè)數(shù),葉子節(jié)點(diǎn)不純(這意味著我們要以一定的概率來作出決策)。聚類對數(shù)據(jù)進(jìn)行分析的過程中,在考慮數(shù)據(jù)間的“距離”的同時(shí),更側(cè)重考慮某些數(shù)據(jù)間具有類的共同內(nèi)涵。數(shù)據(jù)聚類是對一組數(shù)據(jù)進(jìn)行分組,這種分組基于如下的原理:最大的組內(nèi)相似性與最小的組間相似性。聚類的一般步驟聚類的一般步驟的細(xì)節(jié)如下:(1)特征選擇。必
23、須適當(dāng)?shù)剡x擇特征,盡可能多的包含任務(wù)關(guān)心的信息。在特征中,信息多余減少和最小化是主要目的。(2)相似性度量。用于定量度量兩個(gè)特征向量之間如何“相似”或“不相似”。一個(gè)簡單的度量如歐氏距離經(jīng)常被用來反應(yīng)兩個(gè)特征向量之間的非相似性。(3)聚類算法。已經(jīng)選擇了合適的相似性度量,這步涉及到選擇特定的聚類算法,用于揭示數(shù)據(jù)集中的聚類結(jié)構(gòu)。聚類的一般步驟(4)結(jié)果驗(yàn)證。一旦用聚類算法得到結(jié)果,就需要驗(yàn)證其正確性。(5)結(jié)果判定。在許多情況下,應(yīng)用領(lǐng)域的專家必須用其他實(shí)驗(yàn)數(shù)據(jù)和分析判定聚類結(jié)果,最后做出正確的結(jié)論。聚類在圖情領(lǐng)域中的應(yīng)用基于聚類的詞表自動構(gòu)建UCINET社會化網(wǎng)絡(luò)分析軟件時(shí)序規(guī)則挖掘時(shí)間序列
24、(Time series)是指按時(shí)間順序取得的一系列觀測值。時(shí)序數(shù)據(jù)挖掘就是從大量的時(shí)序數(shù)據(jù)中提取潛在的有用的知識。時(shí)序關(guān)聯(lián)規(guī)則,就是對時(shí)序數(shù)據(jù)庫采用某種數(shù)據(jù)挖掘算法,得到具有時(shí)間約束的關(guān)聯(lián)規(guī)則。與一般的布爾型關(guān)聯(lián)規(guī)則最大的區(qū)別在于時(shí)序關(guān)聯(lián)規(guī)則與時(shí)間或時(shí)態(tài)是密切相關(guān)的.除此之外,還可以把數(shù)據(jù)挖掘的概念,支持度、置信度等等一些相關(guān)概念運(yùn)用到挖掘時(shí)序關(guān)聯(lián)規(guī)則的過程中。基本概念基本概念基本概念例子Web日志時(shí)序關(guān)聯(lián)規(guī)則挖掘模型首先明確如何根據(jù)Web日志提取出需要分析的頁面序列。Web日志記錄了每一天對某個(gè)網(wǎng)站服務(wù)器的訪問情況,包括訪問的時(shí)間、頁面、停留時(shí)間。對于訪問網(wǎng)站的每個(gè)用戶,由其自己的ocok
25、ie來決定他訪問了那些頁面,這些頁面是否可以通過其它頁面的鏈接來訪問。如果通過頁面上的鏈接來訪問其它頁面,前后的頁面就可以構(gòu)成一個(gè)頁面序列??梢詫⒃L問頁面序列及其訪問時(shí)間記錄到數(shù)據(jù)庫中作為Web時(shí)序關(guān)聯(lián)規(guī)則挖掘的對象。Step1 整理數(shù)據(jù)以“天”作為時(shí)序數(shù)據(jù)的時(shí)間單位,每一天的數(shù)據(jù)將對應(yīng)著數(shù)據(jù)庫表中的一個(gè)元組。設(shè)置一個(gè)時(shí)間段,如10天、30天等等,把這個(gè)時(shí)間段稱為一個(gè)“時(shí)間窗口”,窗口長度就是時(shí)間段的長度。時(shí)間窗口從起始時(shí)間開始,每過一天,向后滑動一個(gè)單位,生成新的時(shí)間窗口。Step2計(jì)算窗口變化率將某個(gè)頁面訪問序列在某個(gè)時(shí)間窗口的變化率計(jì)算出來,就可以將時(shí)序數(shù)據(jù)庫轉(zhuǎn)化為一般的關(guān)系數(shù)據(jù)庫,而且
26、關(guān)系的屬性都是數(shù)值型的。Step2計(jì)算窗口變化率設(shè)一個(gè)數(shù)值序列P=P1,P2,P3,,Pn,設(shè)時(shí)間窗口的大小為i,in, P1,P2,P3,,Pi為第一個(gè)時(shí)間窗口T1中的元素, P2,P3,,Pi +1為第二個(gè)時(shí)間窗口Ti中的元素,依此類推, Pn-i+1,Pn-i+2, Pn, 為最后一個(gè)時(shí)間窗口(即第n一i+1個(gè)時(shí)間窗口)Tn-i+1中的元素。要計(jì)算第j個(gè)時(shí)間窗口中屬性的變化率,按照下面的公式進(jìn)行計(jì)算:監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí)又稱為分類(Classification)或者歸納學(xué)習(xí)(Inductive Learning)。監(jiān)督學(xué)習(xí)中一種典型的類型:學(xué)習(xí)一個(gè)目標(biāo)函數(shù)從而用于預(yù)測實(shí)例的類屬性值。監(jiān)督學(xué)習(xí)
27、通過發(fā)現(xiàn)數(shù)據(jù)屬性和類別屬性之間的關(guān)聯(lián)模式,并通過利用這些模式來預(yù)測未知數(shù)據(jù)實(shí)例的類別屬性。這些類別通常表示一些現(xiàn)實(shí)世界中的預(yù)測或分類問題?;靖拍钜粋€(gè)用于學(xué)習(xí)的數(shù)據(jù)集就是一張關(guān)系表,表里的每條記錄描述了一條“以往的經(jīng)驗(yàn)”。在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的詞匯中,一條數(shù)據(jù)記錄又稱作一個(gè)樣例、一個(gè)實(shí)例、一個(gè)用例或者一個(gè)向量。一個(gè)數(shù)據(jù)集就是包括一系列樣例的集合?;靖拍罱o出一個(gè)數(shù)據(jù)集D,機(jī)器學(xué)習(xí)任務(wù)的目標(biāo)就是產(chǎn)生 一個(gè)聯(lián)系屬性值集合A和類標(biāo)集合C的分類/預(yù)測函數(shù)(Classification/Prediction Function),這個(gè)函數(shù)可以用于預(yù)測新的屬性集合(數(shù)據(jù)實(shí)例)的類標(biāo)。這個(gè)函數(shù)又被稱為分類模型
28、(Classification Model)、預(yù)測模型(Predictive Model),或者簡稱為分類器(Classifier)。分類其可以是任何形式的,決策樹、規(guī)則集、貝葉斯模型或者一個(gè)超平面。樸素貝葉斯分類例 假設(shè)訓(xùn)練數(shù)據(jù)有兩個(gè)屬性A和B,類別C。計(jì)算所有必須的概率值學(xué)習(xí)一個(gè)樸素貝葉斯分類器。學(xué)習(xí)過程由經(jīng)驗(yàn)數(shù)據(jù)可以得出P(C=t)=1/2 P(C=f)=1/2P(A=m|C=t)=2/5 P(A=g|C=t)=2/5 P(A=h|C=t)=1/5P(A=m|C=f)=1/5 P(A=g|C=f)=2/5 P(A=h|C=f)=2/5P(B=b|C=t)=1/5 P(B=s|C=t)=2
29、/5 P(B=q|C=t)=2/5P(B=b|C=f)=1/5 P(B=s|C=f)=1/5 P(B=q|C=f)=2/5預(yù)測一個(gè)測試樣例 A=m B=q C=?P(C=t)*P(A=m|C=t)*P(B=q|C=t)=1/2*2/5*2/5=2/25P(C=f)*P(A=m|C=f)*P(B=q|C=f)=1/2*1/5*2/5=1/25C=t的可能性更大,測試樣例的預(yù)測類別就是t。樸素貝葉斯文本分類文本分類是指如何從訓(xùn)練文本中學(xué)習(xí)得到分類模型的問題,并且用獲得的模型來對新的文檔進(jìn)行分類。例如將新聞報(bào)道分為三個(gè)類別:Sport、Politics和Science,目標(biāo)是學(xué)習(xí)一個(gè)分類器,能夠?qū)⒁?/p>
30、后的新聞報(bào)道分門別類到這三個(gè)類別中。樸素貝葉斯文本文檔模型一個(gè)文本文檔包括一系列句子,每個(gè)句子又包含一連串的單詞。樸素貝葉斯分類將每篇文檔看作一個(gè)詞匯(word)的集合。生成模型基于以下假設(shè):文檔中的詞匯都是獨(dú)立于語境生成的。也就是說當(dāng)給定類別后,每個(gè)詞匯的生成和別的詞匯是相互獨(dú)立的。單詞被生成的概率與它在文檔中的位置無關(guān)。文檔的長度與類別無關(guān)。根據(jù)以上假設(shè),每個(gè)文檔服從單詞的二項(xiàng)分布。單詞都是從一個(gè)給定的詞典V=w1,w2,w|v|中提取,|V|是詞典中單詞總數(shù)。二項(xiàng)分布說明說明無監(jiān)督學(xué)習(xí)如果數(shù)據(jù)的類別屬性缺失,用戶希望通過瀏覽數(shù)據(jù)來發(fā)現(xiàn)其中的某些內(nèi)在結(jié)構(gòu)。聚類(Clustering)就是一
31、種發(fā)現(xiàn)內(nèi)在結(jié)構(gòu)的技術(shù)。聚類把全體數(shù)據(jù)實(shí)例組織成一些相似組,這些相似組被稱為聚類(Cluster)。處于相同聚類中的數(shù)據(jù)實(shí)例彼此相似,處于不同聚類中的實(shí)例則彼此不同。聚類技術(shù)通常被稱為無監(jiān)督學(xué)習(xí)。聚類應(yīng)用實(shí)例聚類應(yīng)用實(shí)例聚類應(yīng)用實(shí)例分析從以上的例子可以看到聚類需要一個(gè)相似度函數(shù)來度量兩個(gè)數(shù)據(jù)點(diǎn)(對象)的相似程度,或者說利用一個(gè)距離函數(shù)(Distance Function)來度量兩個(gè)數(shù)據(jù)點(diǎn)之間的距離。聚類的目的就是通過使用某個(gè)聚類算法和某個(gè)距離函數(shù)來發(fā)現(xiàn)數(shù)據(jù)中內(nèi)在的分組結(jié)構(gòu)。距離函數(shù)Web使用日志挖掘基于web的組織在日常運(yùn)作中收集大量的點(diǎn)擊流(ClickStream)和用戶數(shù)據(jù)(UserData
32、)。對這些數(shù)據(jù)的分析可以幫助這些組織決定客戶的生命周期、設(shè)計(jì)產(chǎn)品和服務(wù)的交叉營銷策略、評估促銷活動的效果、優(yōu)化Web應(yīng)用程序的功能、為訪問者提供更個(gè)性化的內(nèi)容以及為自己的Web空間找到最有效的邏輯結(jié)構(gòu)。概念Web使用記錄挖掘是指自動發(fā)現(xiàn)和分析模式,這些模式來自于收集的點(diǎn)擊流和相關(guān)數(shù)據(jù)或用戶與一個(gè)或多個(gè)網(wǎng)站互動的結(jié)果。其目標(biāo)是捕捉、建模并分析用于與網(wǎng)站交互的行為模式和模型。所發(fā)現(xiàn)的模式經(jīng)常被表示成有著共同需求或興趣的一群用戶頻繁訪問的頁面、對象或者資源的集合。挖掘過程數(shù)據(jù)收集和預(yù)處理模式發(fā)現(xiàn)模式分析數(shù)據(jù)預(yù)處理階段確定數(shù)據(jù)的來源和類型使用記錄數(shù)據(jù):Web服務(wù)器和應(yīng)用服務(wù)器自動收集的日志數(shù)據(jù)是Web
33、使用記錄挖掘中首要的數(shù)據(jù)來源。用戶對服務(wù)器的每一次訪問相當(dāng)于一個(gè)HTTP請求,在服務(wù)器訪問日志里產(chǎn)生一條記錄。每條記錄可包含請求的時(shí)間、客戶端IP、所請求的資源、調(diào)用Web應(yīng)用服務(wù)器所使用的參數(shù)、請求的狀態(tài)、使用HTTP方法、用戶代理.數(shù)據(jù)預(yù)處理階段確定數(shù)據(jù)的來源和類型內(nèi)容數(shù)據(jù):一個(gè)站點(diǎn)的內(nèi)容數(shù)據(jù)是已傳送給用戶的對象和關(guān)系的集合。這些數(shù)據(jù)由文字材料和圖片組成,包括靜態(tài)的HTML/XML頁面、多媒體文件、由腳本動態(tài)生成的頁面片段以及來自操作數(shù)據(jù)庫的記錄集合;嵌入在網(wǎng)站或單獨(dú)頁面中的含語義的或結(jié)構(gòu)化的元數(shù)據(jù);網(wǎng)站的領(lǐng)域本體也是內(nèi)容數(shù)據(jù)的一部分,包括網(wǎng)頁內(nèi)容的概念層次等。數(shù)據(jù)預(yù)處理階段確定數(shù)據(jù)的來源
34、和類型結(jié)構(gòu)數(shù)據(jù):結(jié)構(gòu)數(shù)據(jù)展示了以設(shè)計(jì)者的角度所看到的網(wǎng)站的內(nèi)容組織結(jié)構(gòu)。通過超鏈接建立頁面間的連接結(jié)構(gòu);一個(gè)頁面內(nèi)容過標(biāo)簽形成的屬性結(jié)構(gòu);一個(gè)站點(diǎn)的資源地圖。用戶數(shù)據(jù):包括注冊用戶統(tǒng)計(jì)信息、用戶對各種對象的訪問率、用戶的購買記錄或歷史訪問記錄以及其他顯式或隱式的用戶興趣描述。數(shù)據(jù)預(yù)處理階段必要任務(wù)數(shù)據(jù)的融合清理:數(shù)據(jù)融合是指將來自多個(gè)Web和應(yīng)用服務(wù)器的日志文件合并。由于用戶的行為分析基于來自多個(gè)相關(guān)網(wǎng)站的多個(gè)日志文件,因此這一步在站間Web使用數(shù)據(jù)挖掘中很必要。數(shù)據(jù)清理通常根據(jù)站點(diǎn)不同而不同,涉及對分析不重要的或無關(guān)的嵌入式對象的引用,包括css、圖像或聲音文件。數(shù)據(jù)預(yù)處理階段必要任務(wù)頁面訪
35、問識別:頁面訪問的識別主要依賴于網(wǎng)站的頁面結(jié)構(gòu)、頁面內(nèi)容以及基礎(chǔ)站點(diǎn)領(lǐng)域知識。由于每個(gè)頁面訪問可以被看作表示特定“用戶事件”的Web對象或資源的集合。一個(gè)靜態(tài)單框架的站點(diǎn),每個(gè)HTML文件就是一個(gè)頁面訪問;靜態(tài)多框架站點(diǎn),多個(gè)文件組成一個(gè)頁面訪問;對于動態(tài)站點(diǎn),一個(gè)頁面訪問可能表示一些靜態(tài)模版和應(yīng)用程序服務(wù)器接受參數(shù)后生成的內(nèi)容結(jié)合。為了給大量數(shù)據(jù)挖掘活動提供合適的框架,每個(gè)頁面訪問記錄的屬性包括頁面訪問的ID、靜態(tài)頁面訪問類型以及其他元數(shù)據(jù)。數(shù)據(jù)預(yù)處理階段必要任務(wù)用戶識別:由于一個(gè)用戶可能多次訪問同一個(gè)網(wǎng)站,服務(wù)器日志會為每個(gè)用戶記錄多個(gè)會話,因此大多數(shù)用來區(qū)分不同訪問者的方法是使用客戶端的
36、cookies信息。以下例子是用戶IP加代理的用戶識別方式。數(shù)據(jù)預(yù)處理階段必要任務(wù)會話識別:將每個(gè)用戶的活動記錄分成一個(gè)一個(gè)會話的過程,每個(gè)會話代表一次對站點(diǎn)的訪問。會話識別的目的是從點(diǎn)擊流數(shù)據(jù)中重構(gòu)信息,以獲得一個(gè)用戶一次訪問站點(diǎn)的真實(shí)行為序列。會話識別分為面向時(shí)間的探索方法和面向?qū)Ш降奶剿鞣椒ā1探索法h-ref探索法數(shù)據(jù)預(yù)處理階段必要任務(wù)事務(wù)識別:一個(gè)事務(wù)是一個(gè)在語義上或功能上相關(guān)聯(lián)的頁面訪問所組成的會話的子集或子序列。事務(wù)識別需要自動或半自動的將頁面訪問按照功能類型或者根據(jù)領(lǐng)域本體或概念層次而來的概念類別進(jìn)行分類。數(shù)據(jù)預(yù)處理階段必要任務(wù)路徑完善:客戶端或代理端的緩存功能經(jīng)常會導(dǎo)致對那
37、些被緩存的頁面和對象的訪問引用的丟失。例如,如果一個(gè)用戶在同一個(gè)會話中返回到頁面A,第2次對A的訪問很有可能看到的是存在客戶端緩存中的A的上一個(gè)版本,因此并沒有請求向服務(wù)器發(fā)送。由于緩存而丟失的記錄可以通過路徑完善探索式的補(bǔ)全,路徑完善依靠服務(wù)器日志上站點(diǎn)結(jié)構(gòu)和引用信息完成。對于動態(tài)生成的頁面,基于表單的應(yīng)用程序使用HTTPPOST方法來處理所有或部分用戶輸入的參數(shù)。數(shù)據(jù)預(yù)處理階段必要任務(wù)數(shù)據(jù)整合:以上預(yù)處理任務(wù)最終形成用戶會話的集合,每一個(gè)對應(yīng)一個(gè)有限的頁面訪問序列。例如,在電子商務(wù)應(yīng)用中,除了整合來自多渠道的用戶數(shù)據(jù)(例如用戶統(tǒng)計(jì)信息、用戶訪問率、購物歷史記錄),還要包括產(chǎn)品屬性和目錄、購
38、物車的改變、訂單和發(fā)貨信息等。Web使用記錄挖掘的數(shù)據(jù)建模頁面權(quán)重的確定方法依賴于使用相似用戶模型給當(dāng)前用戶推薦的協(xié)同過濾中,權(quán)重可能基于用戶在某些項(xiàng)目上的訪問率。可以表示一個(gè)頁面訪問在事務(wù)訪問中存在不存在,這時(shí)權(quán)重的取值就是0和1??梢允且粋€(gè)計(jì)算頁面訪問在用戶的會話中持續(xù)時(shí)間的函數(shù)。頁面訪問序列模型的矩陣表示其他數(shù)據(jù)的整合除了頁面訪問序列外,需要整合的數(shù)據(jù)還有其他知識來源,例如Web頁面內(nèi)容的語義信息。每個(gè)頁面訪問p可以用一個(gè)r維特征向量表示,其中r是從全局詞典中抽出的來自站點(diǎn)特征(詞或概念)數(shù)量。頁面訪問特征矩陣表示用戶頁面訪問矩陣和頁面訪問特性矩陣的乘積的到一個(gè)新的矩陣TFM。這時(shí)一個(gè)用
39、戶事務(wù)被表示成一個(gè)內(nèi)容特征向量,反映了用戶在特定概念和話題上的興趣。內(nèi)容增強(qiáng)型事務(wù)數(shù)據(jù)的應(yīng)用對內(nèi)容增強(qiáng)型事務(wù)矩陣聚類發(fā)現(xiàn),從用戶導(dǎo)航行為所表明的具有不同思想但是擁有相同興趣的用戶。如果內(nèi)容特征包含與網(wǎng)站中的項(xiàng)目相關(guān)聯(lián)的關(guān)系屬性,發(fā)現(xiàn)的模式可以展示更深語義層次的用戶興趣。Web用法模式的發(fā)現(xiàn)和分析會話和訪問者分析聚類分析和訪問者分割關(guān)聯(lián)和相關(guān)度分析序列和導(dǎo)航模式分析基于Web事務(wù)的分類和預(yù)測聚類分析和訪問者分割用戶聚類用戶記錄聚類是Web使用記錄挖掘和Web分析中最普遍使用的分析任務(wù)。用戶聚類為了建立擁有相同瀏覽模式的用戶的分組。這種知識在推斷用戶統(tǒng)計(jì)信息方面特別有用,例如在電子商務(wù)中進(jìn)行市場劃
40、分或給具有相似興趣的用戶提供個(gè)性化的Web內(nèi)容。更進(jìn)一步的在用戶分組上基于用戶統(tǒng)計(jì)屬性(例如年齡、性別、收入級別等)的分析可以發(fā)現(xiàn)有價(jià)值的商業(yè)智能。K-means算法思想先從隨機(jī)選取k個(gè)數(shù)據(jù)點(diǎn)作為初始的聚類中心。然后計(jì)算每個(gè)數(shù)據(jù)點(diǎn)與各個(gè)種子聚類中心之間的距離,把每個(gè)數(shù)據(jù)點(diǎn)分配給距離它最近的聚類中心。聚類中心以及分配給他的數(shù)據(jù)點(diǎn)就代表一個(gè)聚類。如果全部數(shù)據(jù)點(diǎn)都被分配了,每個(gè)聚類的聚類中心根據(jù)聚類中現(xiàn)有的數(shù)據(jù)點(diǎn)重新計(jì)算其平均距離。以上循環(huán)退出條件:沒有(或最小數(shù)目)數(shù)據(jù)點(diǎn)被重新分配給不同的聚類;沒有(或最小數(shù)目)聚類中心再發(fā)生變化;誤差平方和局部最小。關(guān)聯(lián)與相關(guān)度分析實(shí)例序列和導(dǎo)航模式分析序列模式
41、挖掘技術(shù)用來發(fā)現(xiàn)會話之間的模式,發(fā)現(xiàn)在一個(gè)按照時(shí)間順序排列的會話或事務(wù)中存在于一個(gè)項(xiàng)目之后的另一個(gè)項(xiàng)目。例如Web銷售商可以預(yù)測未來的訪問模式,以幫助針對特定用戶組的廣告排放順序。觀點(diǎn)挖掘網(wǎng)絡(luò)提供給用戶表達(dá)觀點(diǎn)的途徑:用戶既可以在商業(yè)網(wǎng)站發(fā)布產(chǎn)品評價(jià),也可以在論壇、討論組、博客等網(wǎng)絡(luò)媒體上對幾乎任何事物發(fā)表自己的意見。這些評價(jià)和意見通常被稱為用戶生成內(nèi)容或者用戶生成媒體。這些表述為很多實(shí)際應(yīng)用提供了可測量的資源。觀點(diǎn)挖掘主要有文本評估和觀點(diǎn)搜索及觀點(diǎn)欺詐。文本評估意見分類基于特征的觀點(diǎn)挖掘和摘要比較性句子和比較關(guān)系挖掘意見分類基于意見短語的分類該算法思想的基礎(chǔ)是詞性標(biāo)注的自然語言處理技術(shù)。詞性
42、是指根據(jù)詞的句法和形態(tài)特征而定義的語言類別。英語語法中常見的詞性類別有:名詞、動詞、形容詞、副詞、代詞、介詞、連詞和感嘆詞。對詞性進(jìn)行標(biāo)注是將句子中的每個(gè)詞都標(biāo)上合適的詞性。算法步驟第一步:抽取包含有形容詞和副詞的短語。這是因?yàn)樾稳菰~和副詞是用戶意見和觀點(diǎn)很好的指示詞。但有時(shí)采用單獨(dú)的形容詞并不足以確定它的語義傾向。因此需要抽取兩個(gè)連續(xù)的詞組成詞對,其中一個(gè)詞是形容詞/副詞,另一個(gè)詞是上下文詞匯。例子在句子“this camera produces beautiful pictures”中,“beautiful pictures”由于滿足第一個(gè)模式被抽取。算法步驟短語的語義傾向(SO)算法步驟
43、第三步:給定一個(gè)評審,算法計(jì)算評審中所有短語的平均SO。如果平均SO是正的,那么將該評審歸為正面評價(jià),否則,歸為負(fù)面評價(jià)?;谠u分函數(shù)的意見分類基于評分函數(shù)的意見分類觀點(diǎn)挖掘和摘要用戶可以針對任何事物的任何方面發(fā)表觀點(diǎn),例如,產(chǎn)品、個(gè)人、組織、時(shí)間、主題等。這些被評價(jià)的實(shí)體稱作對象。對象包括一個(gè)組件集合和一個(gè)屬性集合。因此,該對象根據(jù)部分隸屬關(guān)系被層次化的分解,也就是說每個(gè)組件又有它的子組件。對象定義(對象):一個(gè)對象O是指一個(gè)實(shí)體。它關(guān)聯(lián)到一個(gè)有序?qū)?,O:(T,A)。一個(gè)特定的數(shù)碼相機(jī)品牌就是一個(gè)對象。它有一系列組件,包括lens、battery、view-finder;還有一系列屬性,pi
44、cture quality、size、weight。同時(shí)電池組件有它自己的屬性集合,battery life、battery size、battery weight??梢詫⒁粋€(gè)對象表示成一棵樹。例子對一個(gè)相機(jī)(以上例子樹的根結(jié)點(diǎn))表達(dá)看法,I do not like this camera;或者對它的屬性進(jìn)行評價(jià),the picture quality of this camera is poor;可以對相機(jī)的一個(gè)組件發(fā)表看法,the battery of this camera is bad;對一個(gè)組件的屬性發(fā)表看法,the battery life of this camera is to
45、o short。采用特征來統(tǒng)一表示組件和屬性。顯式和隱式特征定義(顯式和隱式特征):如果一個(gè)特征f出現(xiàn)在一個(gè)評估文本r中,那么被稱為r的一個(gè)顯示特征,如果f沒有在r中出現(xiàn),但是被暗指,那么將其稱為r的一個(gè)隱式特征。例子Battery life 在The battery life of this camera is too short是顯式特征。Size在This camera is too large中沒有出現(xiàn),但是被暗指,因此它是該句子的隱式特征。某一特征的觀點(diǎn)段定義(某一特征的觀點(diǎn)段):一個(gè)關(guān)于對象r的特征f的觀點(diǎn)段是r中一組表達(dá)了關(guān)于f的正面或負(fù)面觀點(diǎn)的連續(xù)句子。The picture
46、quality is good, but the battery life is short.顯式和隱式觀點(diǎn)定義(顯式和隱式觀點(diǎn)):一個(gè)關(guān)于特征f的顯式觀點(diǎn)是一個(gè)直接表達(dá)了正面或者負(fù)面觀點(diǎn)的主觀句子。一個(gè)關(guān)于特征f的隱式觀點(diǎn)是一個(gè)蘊(yùn)含了正面或者負(fù)面觀點(diǎn)的客觀句子。例如,the picture quality of this camera is amazing表達(dá)了一個(gè)顯式的正面觀點(diǎn);the earphone broke in two days表達(dá)一個(gè)隱式的負(fù)面觀點(diǎn)?;谔卣鞯恼樱僭O(shè)總結(jié)某一數(shù)碼相機(jī),difital_camera_1的評審摘要對象特征的抽取評審格式:格式1-區(qū)分正面、負(fù)面
47、以及細(xì)節(jié)的評審對象特征的抽取評審格式:格式2-區(qū)分正面、負(fù)面的評審對象特征的抽取評審格式:格式3-自由格式格式1中正面和負(fù)面評價(jià)的特征抽取特征抽取基于以下的規(guī)定:每個(gè)正面和負(fù)面評價(jià)中的句子片段只包含一個(gè)特征。句子片段通過逗號、句號、分好、連字號、&、and 、but分開。例如格式2、3中正面和負(fù)面評價(jià)的特征抽取第一步:找到所有高頻名詞和名詞短語,通過詞性標(biāo)注工具來識別。第二步:利用意見詞找到不頻繁出現(xiàn)的特征。第三步:觀點(diǎn)傾向分類。觀點(diǎn)欺詐觀點(diǎn)欺詐指的是人們故意誤導(dǎo)讀者和自動觀點(diǎn)挖掘系統(tǒng)的行為。寫欺詐性評審的目的主要有兩個(gè):推銷某些目標(biāo)對象;損害某些其他目標(biāo)對象的聲譽(yù)。結(jié)構(gòu)化數(shù)據(jù)抽取Web信息抽取是從網(wǎng)頁中抽取出目標(biāo)信息。Web上的結(jié)構(gòu)話數(shù)據(jù)一般是從后臺數(shù)據(jù)庫獲取的數(shù)據(jù)記錄,按照一定的模版被展現(xiàn)在網(wǎng)頁上。抽取結(jié)構(gòu)化的數(shù)據(jù)能夠獲取和整合來自多個(gè)來源(網(wǎng)站或者網(wǎng)頁)的數(shù)據(jù),以提供增值服務(wù)。預(yù)備知識富含數(shù)據(jù)的網(wǎng)頁主要有兩種:列表頁;詳情頁。列表頁每個(gè)列表頁都包含有多個(gè)對象。一般從布局角度來看,可以在列表頁上看到不同的數(shù)據(jù)區(qū)域(Data Region)。在每一個(gè)區(qū)域中,數(shù)據(jù)記錄根據(jù)同一種模板被格式化。不同區(qū)域所采用的模板一般不同。詳情頁側(cè)重描述一個(gè)對象。一般包括產(chǎn)品的所有細(xì)節(jié),如名稱、
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 高頻變壓器故障診斷技術(shù)-洞察及研究
- 微流控芯片毒性分析-洞察及研究
- 鄉(xiāng)鎮(zhèn)工作總結(jié)匯報(bào)課件
- 超高壓聲學(xué)特性-洞察及研究
- (標(biāo)準(zhǔn))家電調(diào)貨協(xié)議書
- 智能決策支持系統(tǒng)在人身保險(xiǎn)業(yè)中的應(yīng)用與競爭策略-洞察及研究
- 學(xué)生心理健康促進(jìn)活動方案
- 少年宮興趣小組書法課程計(jì)劃
- 校園防火防震應(yīng)急預(yù)案與演練方案
- 小學(xué)生國旗下講話演講稿范本匯編
- 專利資產(chǎn)評估指導(dǎo)意見講解
- 3-4歲幼兒園小學(xué)美術(shù)PPT課件教案教程創(chuàng)意幼教手工《解不開的九連環(huán)》
- 建筑拆除施工方案
- 乳制品制造業(yè)人工智能技術(shù)應(yīng)用
- 病例討論甲狀腺乳頭狀癌
- 設(shè)立房地產(chǎn)公司商業(yè)計(jì)劃書
- 福建省永春一中、培元中學(xué)、季延中學(xué)、石光中學(xué)四校2024屆高一數(shù)學(xué)第一學(xué)期期末經(jīng)典模擬試題含解析
- 病歷書寫基本規(guī)范國家衛(wèi)健委2021年
- 應(yīng)用PDCA管理工具提高病案歸檔率
- 考研英語閱讀理解精讀100篇
- 對蝦產(chǎn)品質(zhì)量分級要素及評價(jià)技術(shù)課件
評論
0/150
提交評論