




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)與數(shù)據(jù)挖掘-文本挖掘大數(shù)據(jù)與數(shù)據(jù)挖掘-文本挖掘文本挖掘的背景數(shù)據(jù)挖掘大部分研究主要針對結(jié)構(gòu)化數(shù)據(jù),如關(guān)系的、事務(wù)的和數(shù)據(jù)倉庫數(shù)據(jù)?,F(xiàn)實中大部分?jǐn)?shù)據(jù)存儲在文本數(shù)據(jù)庫中,如新聞文章、研究論文、書籍、WEB頁面等。存放在文本數(shù)據(jù)庫中的數(shù)據(jù)是半結(jié)構(gòu)化數(shù)據(jù),文檔中可能包含結(jié)構(gòu)化字段,如標(biāo)題、作者、出版社、出版日期等,也包含大量非結(jié)構(gòu)化數(shù)據(jù),如摘要和內(nèi)容等。1、文本挖掘概述文本挖掘的背景數(shù)據(jù)挖掘大部分研究主要針對結(jié)構(gòu)化數(shù)據(jù),如關(guān)系的文本挖掘概念文本挖掘旨在通過識別和檢索令人感興趣的模式,進(jìn)而從數(shù)據(jù)源中抽取有用的信息。文本挖掘的數(shù)據(jù)源是文本集合,令人感興趣的模式不是從形式化的數(shù)據(jù)庫記錄里發(fā)現(xiàn),而是從非結(jié)構(gòu)化的數(shù)據(jù)中發(fā)現(xiàn)。文本挖掘概念文本挖掘旨在通過識別和檢索令人感興趣的模式,進(jìn)而文本挖掘的過程預(yù)處理文檔建模相似性計算信息檢索文本分類文本聚類模型評價文本挖掘的過程預(yù)處理預(yù)處理把中文的漢字序列切分成有意義的詞,就是中文分詞,也稱為切詞?!拔沂且粋€學(xué)生”分詞的結(jié)果是:我是一個學(xué)生。和平民主和平、民主;和、平民、主提高人民生活水平提高、高人、人民、民生、生活、活水、水平大學(xué)生活象白紙大學(xué)、生活、象、白紙大學(xué)生、活象、白紙預(yù)處理把中文的漢字序列切分成有意義的詞,就是中文分詞,也稱為最大匹配分詞法S1="計算語言學(xué)課程是三個課時"設(shè)定最大詞長MaxLen=5S2=""最大匹配分詞法S1="計算語言學(xué)課程是三個課時"(1)S2=“”;S1不為空,從S1左邊取出候選子串W="計算語言學(xué)";(2)查詞表,“計算語言學(xué)”在詞表中,將W加入到S2中,S2=“計算語言學(xué)/”,并將W從S1中去掉,此時S1="課程是三個課時";(3)S1不為空,于是從S1左邊取出候選子串W="課程是三個";(4)查詞表,W不在詞表中,將W最右邊一個字去掉,得到W="課程是三";(5)查詞表,W不在詞表中,將W最右邊一個字去掉,得到W="課程是";(1)S2=“”;S1不為空,從S1左邊取出候選子串商務(wù)智能理論與應(yīng)用9-文本挖掘(11)查詞表,W不在詞表中,將W最右邊一個字去掉,得到W="是三"(12)查詞表,W不在詞表中,將W最右邊一個字去掉,得到W=“是”,這時W是單字,將W加入到S2中,S2=“計算語言學(xué)/課程/是/”,并將W從S1中去掉,此時S1="三個課時";(21)S2=“計算語言學(xué)/課程/是/三/個/課時/”,此時S1=""。(22)S1為空,輸出S2作為分詞結(jié)果,分詞過程結(jié)束。(11)查詞表,W不在詞表中,將W最右邊一個字去掉,得到W=停用詞指文檔中出現(xiàn)的連詞,介詞,冠詞等并無太大意義的詞。英文中常用的停用詞有the,a,it等中文中常見的有“是”,“的”,“地”等。停用詞消除可以減少term的個數(shù),降低存儲空間。停用詞的消除方法:(1)查表法:建立一個停用詞表,通過查表的方式去掉停用詞。(2)基于DF的方法:統(tǒng)計每個詞的DF,如果超過總文檔數(shù)目的某個百分比(如80%),則作為停用詞去掉。停用詞指文檔中出現(xiàn)的連詞,介詞,冠詞等并無太大意義的詞。文檔建模特征表示是指以一定的特征項如詞條或描述來代表文檔信息。特征表示模型有多種,常用的有布爾邏輯型、向量空間型等文檔建模特征表示是指以一定的特征項如詞條或描述來代表文檔信息向量空間模型中,將每個文本文檔看成是一組詞條(T1,T2,T3,…,Tn)構(gòu)成,對于每一詞條Ti,根據(jù)其在文檔中的重要程度賦予一定的權(quán)值,可以將其看成一個n維坐標(biāo)系,W1,W2,…,Wn為對應(yīng)的坐標(biāo)值,因此每一篇文檔都可以映射為由一組詞條矢量構(gòu)成的向量空間中的一點,對于所有待挖掘的文檔都用詞條特征矢量(T1,W1;T2,W2;T3,W3;…;Tn,Wn)表示。向量空間模型將文檔表達(dá)為一個矢量,看作向量空間中的一個點。向量空間模型中,將每個文本文檔看成是一組詞條(T1,T2,T文檔的向量空間模型文檔的向量空間模型W權(quán)值計算方法TF-IDF
目前廣泛采用TF-IDF權(quán)值計算方法來計算權(quán)重,TF-IDF的主要思想是,如果某個詞或短語在一篇文章中出現(xiàn)的頻率TF高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語具有很好的類別區(qū)分能力,適合用來分類。
TF詞頻(TermFrequency)指的是某一個給定的詞語在該文件中出現(xiàn)的次數(shù)。
IDF逆文檔頻率(InverseDocumentFrequency)是全體文檔數(shù)與包含詞條文檔數(shù)的比值。如果包含詞條的文檔越少,IDF越大,則說明詞條具有很好的類別區(qū)分能力。在完整的向量空間模型中,將TF和IDF組合在一起,形成TF-IDF度量:TF-IDF(d,t)=TF(d,t)*IDF(t)W權(quán)值計算方法TF-IDFTF度量在一份給定的文件里,詞頻(termfrequency,TF)指的是某一個給定的詞語在該文件中出現(xiàn)的頻率。這個數(shù)字是對詞數(shù)(termcount)的歸一化,以防止它偏向長的文件。(同一個詞語在長文件里可能會比短文件有更高的詞數(shù),而不管該詞語重要與否。)對于在某一特定文件里的詞語
來說,它的重要性可表示為:
以上式子中
是該詞在文件中的出現(xiàn)次數(shù),而分母則是在文件中所有字詞的出現(xiàn)次數(shù)之和。TF度量在一份給定的文件里,詞頻(termfrequencIDF度量逆向文件頻率(inversedocumentfrequency,IDF)是一個詞語普遍重要性的度量。某一特定詞語的IDF,可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目,再將得到的商取對數(shù)得到:?|D|:語料庫中的文件總數(shù)?:包含詞語的文件數(shù)目(即的文件數(shù)目)如果該詞語不在語料庫中,就會導(dǎo)致被除數(shù)為零,因此一般情況下使用IDF度量逆向文件頻率(inversedocumentf關(guān)鍵詞與網(wǎng)頁的相關(guān)性計算在某個一共有一千詞的網(wǎng)頁中“大數(shù)據(jù)”、“的”和“應(yīng)用”分別出現(xiàn)了2次、35次和5次,那么它們的詞頻就分別是0.002、0.035和0.005。三個數(shù)相加,其和0.042就是相應(yīng)網(wǎng)頁和查詢“大數(shù)據(jù)的應(yīng)用”相關(guān)性的一個簡單的度量。概括地講,如果一個查詢包含關(guān)鍵詞w1,w2,...,wN,它們在一篇特定網(wǎng)頁中的詞頻分別是:TF1,TF2,...,TFN。(TF:termfrequency)。那么,這個查詢和該網(wǎng)頁的相關(guān)性就是:TF1+TF2+...+TFN。關(guān)鍵詞與網(wǎng)頁的相關(guān)性計算在某個一共有一千詞的網(wǎng)頁中“大數(shù)據(jù)”詞“的”站了總詞頻的80%以上,它對確定網(wǎng)頁的主題幾乎沒有用。在度量相關(guān)性時不應(yīng)考慮它們的頻率。刪除后,上述網(wǎng)頁的相似度就變成了0.007,其中“大數(shù)據(jù)”貢獻(xiàn)了0.002,“應(yīng)用”貢獻(xiàn)了0.005?!皯?yīng)用”是個很通用的詞,而“大數(shù)據(jù)”是個很專業(yè)的詞,后者在相關(guān)性排名中比前者重要。因此我們需要給漢語中的每一個詞給一個權(quán)重,這個權(quán)重的設(shè)定必須滿足下面兩個條件:一個詞預(yù)測主題能力越強,權(quán)重就越大,反之,權(quán)重就越小。我們在網(wǎng)頁中看到“大數(shù)據(jù)”這個詞,或多或少地能了解網(wǎng)頁的主題。我們看到“應(yīng)用”一次,對主題基本上還是一無所知。因此,“原子能“的權(quán)重就應(yīng)該比應(yīng)用大。應(yīng)刪除詞的權(quán)重應(yīng)該是零。詞“的”站了總詞頻的80%以上,它對確定網(wǎng)頁的主題幾乎沒如果一個關(guān)鍵詞只在很少的網(wǎng)頁中出現(xiàn),我們通過它就容易鎖定搜索目標(biāo),它的權(quán)重也就應(yīng)該大。反之如果一個詞在大量網(wǎng)頁中出現(xiàn),我們看到它仍然不很清楚要找什么內(nèi)容,因此它應(yīng)該小。概括地講,假定一個關(guān)鍵詞w在Dw個網(wǎng)頁中出現(xiàn)過,那么Dw越大,w的權(quán)重越小,反之亦然。在信息檢索中,使用最多的權(quán)重是“逆文本頻率指數(shù)”(Inversedocumentfrequency縮寫為IDF),它的公式為log(D/Dw)其中D是全部網(wǎng)頁數(shù)。如果一個關(guān)鍵詞只在很少的網(wǎng)頁中出現(xiàn),我們通過它就容易鎖定搜索假定中文網(wǎng)頁數(shù)是D=10億,應(yīng)刪除詞“的”在所有的網(wǎng)頁中都出現(xiàn),即Dw=10億,那么它的IDF=log(10億/10億)=log(1)=0。假如專用詞“大數(shù)據(jù)”在兩百萬個網(wǎng)頁中出現(xiàn),即Dw=200萬,則它的權(quán)重IDF=log(500)=6.2。又假定通用詞“應(yīng)用”,出現(xiàn)在五億個網(wǎng)頁中,它的權(quán)重IDF=log(2)則只有0.7。也就只說,在網(wǎng)頁中找到一個“大數(shù)據(jù)”的比配相當(dāng)于找到九個“應(yīng)用”的匹配。利用IDF,上述相關(guān)性計算個公式就由詞頻的簡單求和變成了加權(quán)求和,即TF1*IDF1+
TF2*IDF2+...+TFN*IDFN。在上面的例子中,該網(wǎng)頁和“原子能的應(yīng)用”的相關(guān)性為0.0159,其中“大數(shù)據(jù)”貢獻(xiàn)了0.0124,而“應(yīng)用”只貢獻(xiàn)了0.0035。這個比例和我們的直覺比較一致假定中文網(wǎng)頁數(shù)是D=10億,應(yīng)刪除詞“的”在所有的網(wǎng)頁中都出算例1詞頻(TF)是一詞語出現(xiàn)的次數(shù)除以該文件的總詞語數(shù)。假如一篇文件的總詞語數(shù)是100個,而詞語“大數(shù)據(jù)”出現(xiàn)了3次,那么“大數(shù)據(jù)”一詞在該文件中的詞頻就是3/100=0.03。一個計算逆文件頻率(IDF)的方法是測定有多少份文件出現(xiàn)過“大數(shù)據(jù)”一詞,然后除以文件集里包含的文件總數(shù)。所以,如果“大數(shù)據(jù)”一詞在1,000份文件出現(xiàn)過,而文件總數(shù)是10,000,000份的話,其逆向文件頻率就是log(10,000,000/1,000)=4。最后的TF-IDF的分?jǐn)?shù)為0.03*4=0.12。算例1詞頻(TF)是一詞語出現(xiàn)的次數(shù)除以該文件的總詞語數(shù)算例2關(guān)鍵字k1,k2,k3與文檔的相關(guān)性可用TF1*IDF1+TF2*IDF2+TF3*IDF3來表示。比如文檔1所包含詞匯總量為1000,k1,k2,k3在文檔1中出現(xiàn)的次數(shù)是100,200,50。包含了k1,k2,k3的文檔總量分別是1000,10000,5000。文檔的總量為10000。TF1=100/1000=0.1;TF2=200/1000=0.2;TF3=50/1000=0.05;IDF1=log(10000/1000)=log(10)=2.3;IDF2=log(10000/100000)=log(1)=0;IDF3=log(10000/5000)=log(2)=0.69這樣關(guān)鍵字k1,k2,k3與文檔1的相關(guān)性=0.1*2.3+0.2*0+0.05*0.69=0.2645,其中k1比k3的比重在文檔1要大,k2的比重是0.算例2關(guān)鍵字k1,k2,k3與文檔的相關(guān)性可用TF1*IDF文檔相似性計算根據(jù)一個文檔集合d和一個項集合t,可以將每個文檔表示為在t維空間R中的一個文檔特征向量v。向量v中第j個數(shù)值就是相應(yīng)文檔中第j個項的量度。計算兩個文檔相似性可以使用上面的公式余弦計算法(cosinemeasure)文檔相似性計算根據(jù)一個文檔集合d和一個項集合t,可以將每個文計算步驟(1)使用TF-IDF算法,找出兩篇文章的關(guān)鍵詞;(2)每篇文章各取出若干個關(guān)鍵詞,合并成一個集合,計算每篇文章對于這個集合中的詞的詞頻;(3)生成兩篇文章各自的詞頻向量;(4)計算兩個向量的余弦相似度,值越大就表示越相似。計算步驟文檔相似性計算示例句子A:我喜歡看電視,不喜歡看電影。句子B:我不喜歡看電視,也不喜歡看電影。文檔相似性計算示例句子A:我喜歡看電視,不喜歡看電影。第一步,分詞句子A:我/喜歡/看/電視,不/喜歡/看/電影。句子B:我/不/喜歡/看/電視,也/不/喜歡/看/電影。第二步,列出所有的詞我,喜歡,看,電視,電影,不,也。第三步,計算詞頻句子A:我1,喜歡2,看2,電視1,電影1,不1,也0。句子B:我1,喜歡2,看2,電視1,電影1,不2,也1。第四步,寫出詞頻向量句子A:[1,2,2,1,1,1,0]句子B:[1,2,2,1,1,2,1]第一步,分詞商務(wù)智能理論與應(yīng)用9-文本挖掘信息檢索信息檢索研究的是大量基于文本的文檔信息的組織和檢索,如聯(lián)機圖書館系統(tǒng)、聯(lián)機文檔管理系統(tǒng)和WEB搜索引擎。數(shù)據(jù)庫系統(tǒng)關(guān)注結(jié)構(gòu)化數(shù)據(jù)段查詢和事務(wù)處理。
信息檢索研究的典型問題是根據(jù)用戶查詢(描述所需信息的關(guān)鍵詞),在文檔中定位相關(guān)文檔。信息檢索文本檢索的基本度量查準(zhǔn)率(Precision)是檢索到的文檔中的相關(guān)文檔占全部檢索到的文檔的百分比,它所衡量的是檢索系統(tǒng)的準(zhǔn)確性查全率(Recall)是被檢索出的文檔中的相關(guān)文檔占全部相關(guān)文檔的百分比,它所衡量的是檢索系統(tǒng)的全面性文本檢索的基本度量查準(zhǔn)率(Precision)是檢索到的文檔信息檢索的度量方式{relevant}:與某查詢相關(guān)的文檔的集合。{retrieved}:系統(tǒng)檢索到的文檔的集合。{relevant}∩{retrieved}:既相關(guān)又被檢索到的實際文檔的集合。查準(zhǔn)率(precision):既相關(guān)又被檢索到的實際文檔與檢索到的文檔的百分比。查全率(recall):既相關(guān)又被檢索到的實際文檔與查詢相關(guān)的文檔的百分比。信息檢索的度量方式{relevant}:與某查詢相關(guān)的文檔的模型質(zhì)量的評價實例{relevant}={A,B,C,D,E,F,G,H,I,J}=10{retrieved}={B,D,F,W,Y}=5{relevant}∩{retrieved}={B,D,F}=3查準(zhǔn)率:precision=3/5=60%查全率:recall=3/10=30%B,D,F相關(guān)并被檢索到的文檔所有文檔A,C,E,G,H,I,J相關(guān)的文檔
W,Y被檢索到的文檔模型質(zhì)量的評價實例{relevant}={A,B,C,D,文本挖掘舉例文本挖掘舉例文檔向量化文檔向量化查詢:相關(guān)度查詢:相關(guān)度文檔間相似度(余弦定理)文檔間相似度(余弦定理)3.文本的維度規(guī)約對于任何一個非平凡的文檔數(shù)據(jù)庫,詞的數(shù)目T和文檔數(shù)目D通常都很大,如此高的維度將導(dǎo)致低效的計算,因為結(jié)果頻度表大小為T*D。高維還會導(dǎo)致非常稀疏的向量,增加監(jiān)測和探查詞之間聯(lián)系的難度。維度歸約使用數(shù)據(jù)編碼或變換,以便得到原數(shù)據(jù)的歸約或“壓縮”表示。如果原數(shù)據(jù)可以由壓縮數(shù)據(jù)重新構(gòu)造而不丟失任何信息,則該數(shù)據(jù)歸約是無損的。如果我們只能重新構(gòu)造原數(shù)據(jù)的近似表示,則該數(shù)據(jù)歸約是有損的。3.文本的維度規(guī)約對于任何一個非平凡的文檔數(shù)據(jù)庫,詞的數(shù)目T文本挖掘方法文本挖掘功能層次關(guān)鍵詞相似檢索詞語關(guān)聯(lián)分析自然語言處理文本聚類文本分類文本挖掘功能層次文本挖掘方法文本挖掘功能層次關(guān)鍵詞相似檢索詞語關(guān)聯(lián)分析自然(1)關(guān)鍵詞檢索關(guān)鍵詞建立倒排文件索引,與傳統(tǒng)的信息檢索使用的技術(shù)類似。(2)相似檢索找到相似內(nèi)容的文本。(3)詞語關(guān)聯(lián)分析聚焦在詞語(包括關(guān)鍵詞)之間的關(guān)聯(lián)信息分析上。(4)文本聚類和文本分類實現(xiàn)文本的聚類和分類。(5)自然語言處理揭示自然語言處理技術(shù)的語義,進(jìn)行文本語義挖掘。(1)關(guān)鍵詞檢索關(guān)聯(lián)分析挖掘在文本數(shù)據(jù)庫中,每一文本被視為一個事務(wù),文本中的關(guān)鍵詞組可視為事務(wù)中的一組事務(wù)項。即文本數(shù)據(jù)庫可表示為:{文本編號,關(guān)鍵詞集}文本數(shù)據(jù)庫中關(guān)鍵詞關(guān)聯(lián)挖掘的問題就變成事務(wù)數(shù)據(jù)庫中事務(wù)項的關(guān)聯(lián)挖掘。
關(guān)聯(lián)分析挖掘可以用于找出詞或關(guān)鍵詞間的關(guān)聯(lián)。關(guān)聯(lián)分析挖掘在文本數(shù)據(jù)庫中,每一文本關(guān)聯(lián)分析挖掘輸入語義信息,如事件、事實或信息提取發(fā)現(xiàn)的實體輸入是標(biāo)記的集合輸入是文檔中關(guān)鍵詞或詞的集合基于關(guān)鍵詞的方法標(biāo)記方法信息提取方法關(guān)聯(lián)分析挖掘基于關(guān)鍵詞的方法標(biāo)記方法信息提取方法關(guān)聯(lián)分析挖掘關(guān)聯(lián)分析過程:對文本數(shù)據(jù)進(jìn)行分析、詞根處理、去除停詞等預(yù)處理,再調(diào)用關(guān)聯(lián)挖掘算法基于關(guān)鍵詞的關(guān)聯(lián)技術(shù):收集頻繁出現(xiàn)的關(guān)鍵詞或詞匯,找出其關(guān)聯(lián)或相互關(guān)系關(guān)聯(lián)挖掘關(guān)聯(lián)挖掘有助于找出符合關(guān)聯(lián),即領(lǐng)域相關(guān)的術(shù)語或短語關(guān)聯(lián)分析挖掘關(guān)聯(lián)分析過程:基于關(guān)鍵詞的關(guān)聯(lián)技術(shù):收集頻繁出關(guān)聯(lián)分析挖掘基于關(guān)鍵字的關(guān)聯(lián)分析基于關(guān)鍵字關(guān)聯(lián)分析就是首先收集頻繁一起出現(xiàn)的項或者關(guān)鍵字的集合,然后發(fā)現(xiàn)其中所存在的關(guān)聯(lián)性關(guān)聯(lián)分析對文本數(shù)據(jù)庫進(jìn)行預(yù)處理,生成關(guān)鍵字向量,根據(jù)關(guān)鍵字查詢向量與文檔向量之間的相關(guān)度比較結(jié)果輸出文本結(jié)果,然后調(diào)用關(guān)聯(lián)挖掘算法關(guān)聯(lián)分析挖掘基于關(guān)鍵字的關(guān)聯(lián)分析基于關(guān)鍵字關(guān)聯(lián)分析就是首先收文檔分類分析文檔分類分析文檔分類分析自動文檔分類是指利用計算機將一篇文章自動地分派到一個或多個預(yù)定義的類別中文檔分類的關(guān)鍵問題是獲得一個分類模式,利用此分類模式也可以用于其他文檔的分類有了一個模式之后,需要進(jìn)行人工標(biāo)記和訓(xùn)練,以確定這個模式的參數(shù),然后才能進(jìn)行自動的文檔分類文檔分類分析自動文檔分類是指利用計算機將一篇文章自動地分派到文檔分類分析應(yīng)用領(lǐng)域門戶網(wǎng)站(網(wǎng)頁)圖書館(電子資料)…自動分類優(yōu)點:減小人工分類的繁雜工作提高信息處理的效率
減小人工分類的主觀性文檔分類分析應(yīng)用領(lǐng)域文檔分類分析步驟定義分類體系將預(yù)先分類過的文檔作為訓(xùn)練集從訓(xùn)練集中得出分類模型(需要測試過程,不斷細(xì)化)用訓(xùn)練獲得出的分類模型對其它文檔加以分類文檔分類分析步驟文檔分類分析文本分類基本步驟文檔分類分析文本分類基本步驟文檔分類分析文本分類過程文檔分類分析文本分類過程文檔分類分析特征選擇
方法貝葉斯分類最近鄰分類相似文檔具有相似文檔向量,將每個文檔關(guān)聯(lián)到相應(yīng)的類標(biāo)號將文檔分類看做計算文檔在特定類中的統(tǒng)計分布文檔分類支持向量機使用數(shù)表示類,構(gòu)建從詞空間到類變量的直接映射函數(shù)(在高維空間中運行良好,最小二乘線性回歸方法區(qū)分能力較強)基于關(guān)聯(lián)的、頻繁出現(xiàn)的文本模式集對文檔分類基于關(guān)聯(lián)的
分類刪除文檔中與與類標(biāo)號統(tǒng)計不相關(guān)的非特征詞文檔分類分析特征選擇最近鄰分類相似文檔具有相似文檔向量,將文檔聚類分析文本聚類是根據(jù)文本數(shù)據(jù)的不同特征,將其劃分為不同數(shù)據(jù)類的過程其目的是要使同一類別的文本間的距離盡可能小,而不同類別的文本間的距離盡可能的大文檔聚類分析文本聚類是根據(jù)文本數(shù)據(jù)的不同特征,將其劃分為不同文檔聚類分析文檔自動聚類的步驟(1)獲取結(jié)構(gòu)化的文本集(2)執(zhí)行聚類算法,獲得聚類譜系圖。聚類算法的目的是獲取能夠反映特征空間樣本點之間的“抱團”性質(zhì)(3)選取合適的聚類IA值。在得到聚類譜系圖后,領(lǐng)域?qū)<覒{借經(jīng)驗,并結(jié)合具體的應(yīng)用場合確定閾值(4)執(zhí)行聚類算法,獲得聚類結(jié)果文檔聚類分析文檔自動聚類的步驟文檔聚類分析混合模型聚類使用潛在語義標(biāo)引聚類(LSI)光譜聚類對原始數(shù)據(jù)進(jìn)行維度歸約,運用傳統(tǒng)的聚類方法(如k均值,缺點是計算昂貴)對文本數(shù)據(jù)和先驗知識估計模型參數(shù),基于參數(shù)推斷聚類最小化全局重構(gòu)誤差下,找到原文檔空間的最佳子空間近似文檔聚類
分析使用保持局部性標(biāo)引聚類(LPI)發(fā)現(xiàn)局部幾何結(jié)構(gòu),具有更強的區(qū)分能力文檔聚類分析混合模型聚類使用潛在語義光譜聚類對原始數(shù)據(jù)進(jìn)行維文檔聚類分析文檔自動聚類的類型平面劃分法:對包含n個樣本的樣本集構(gòu)造樣本集的k個劃分,每個劃分表示一個聚簇層次聚類法:層次聚類法對給定的樣本集進(jìn)行層次分解。根據(jù)層次分解方向的不同可分為凝聚層次聚類和分裂層次聚類基于密度的方法:根據(jù)樣本點臨近區(qū)域的密度進(jìn)行聚類,使在給定區(qū)域內(nèi)至少包含一定數(shù)據(jù)的樣本點基于網(wǎng)格的方法:采用多分辨率的網(wǎng)格數(shù)據(jù)結(jié)構(gòu),將樣本空間量化為數(shù)量有限的網(wǎng)格單元,所有聚類操作都在網(wǎng)格上進(jìn)行基于模型的方法:為每個簇假定一個模型,然后通過尋找樣本對給定模型的最佳擬合進(jìn)行聚類文檔聚類分析文檔自動聚類的類型文檔聚類分析平面劃分法將文檔集D={d1,…,di,…,dn}水平地分割為的若干類,具體過程:1.確定要生成的類的數(shù)目k;2.按照某種原則生成k個聚類中心作為聚類的種子S={s1,…,sj,…,sk};3.對D中的每一個文檔di,依次計算它與各個種子sj的相似度sim(di,sj
);4.選取具有最大的相似度的種子argmaxsim(di,sj
),將di歸入以sj為聚類中心的類Cj,從而得到D的一個聚類C={c1,…,ck};5.重復(fù)步驟2~4若干次,以得到較為穩(wěn)定的聚類結(jié)果。該方法速度快,但k要預(yù)先確定,種子選取難文檔聚類分析平面劃分法文檔聚類分析層次聚類法具體過程將文檔集D={d1,…,di,…,dn}中的每一個文檔di看作是一個具有單個成員的類Ci={di},這些類構(gòu)成了D的一個聚類C={c1,…,ci,…,cn};計算C中每對類(ci,cj
)之間的相似度sim(ci,cj
);選取具有最大相似度的類對argmaxsim(ci,cj
),并將ci和cj合并為一個新的類ck=ci∪cj
,從而構(gòu)成D的一個新的類C={c1,…,cn-1};重復(fù)上述步驟,直到C中只剩下一個類為止。……文檔聚類分析層次聚類法……THANKYOU!THANKYOU!大數(shù)據(jù)與數(shù)據(jù)挖掘-文本挖掘大數(shù)據(jù)與數(shù)據(jù)挖掘-文本挖掘文本挖掘的背景數(shù)據(jù)挖掘大部分研究主要針對結(jié)構(gòu)化數(shù)據(jù),如關(guān)系的、事務(wù)的和數(shù)據(jù)倉庫數(shù)據(jù)?,F(xiàn)實中大部分?jǐn)?shù)據(jù)存儲在文本數(shù)據(jù)庫中,如新聞文章、研究論文、書籍、WEB頁面等。存放在文本數(shù)據(jù)庫中的數(shù)據(jù)是半結(jié)構(gòu)化數(shù)據(jù),文檔中可能包含結(jié)構(gòu)化字段,如標(biāo)題、作者、出版社、出版日期等,也包含大量非結(jié)構(gòu)化數(shù)據(jù),如摘要和內(nèi)容等。1、文本挖掘概述文本挖掘的背景數(shù)據(jù)挖掘大部分研究主要針對結(jié)構(gòu)化數(shù)據(jù),如關(guān)系的文本挖掘概念文本挖掘旨在通過識別和檢索令人感興趣的模式,進(jìn)而從數(shù)據(jù)源中抽取有用的信息。文本挖掘的數(shù)據(jù)源是文本集合,令人感興趣的模式不是從形式化的數(shù)據(jù)庫記錄里發(fā)現(xiàn),而是從非結(jié)構(gòu)化的數(shù)據(jù)中發(fā)現(xiàn)。文本挖掘概念文本挖掘旨在通過識別和檢索令人感興趣的模式,進(jìn)而文本挖掘的過程預(yù)處理文檔建模相似性計算信息檢索文本分類文本聚類模型評價文本挖掘的過程預(yù)處理預(yù)處理把中文的漢字序列切分成有意義的詞,就是中文分詞,也稱為切詞?!拔沂且粋€學(xué)生”分詞的結(jié)果是:我是一個學(xué)生。和平民主和平、民主;和、平民、主提高人民生活水平提高、高人、人民、民生、生活、活水、水平大學(xué)生活象白紙大學(xué)、生活、象、白紙大學(xué)生、活象、白紙預(yù)處理把中文的漢字序列切分成有意義的詞,就是中文分詞,也稱為最大匹配分詞法S1="計算語言學(xué)課程是三個課時"設(shè)定最大詞長MaxLen=5S2=""最大匹配分詞法S1="計算語言學(xué)課程是三個課時"(1)S2=“”;S1不為空,從S1左邊取出候選子串W="計算語言學(xué)";(2)查詞表,“計算語言學(xué)”在詞表中,將W加入到S2中,S2=“計算語言學(xué)/”,并將W從S1中去掉,此時S1="課程是三個課時";(3)S1不為空,于是從S1左邊取出候選子串W="課程是三個";(4)查詞表,W不在詞表中,將W最右邊一個字去掉,得到W="課程是三";(5)查詞表,W不在詞表中,將W最右邊一個字去掉,得到W="課程是";(1)S2=“”;S1不為空,從S1左邊取出候選子串商務(wù)智能理論與應(yīng)用9-文本挖掘(11)查詞表,W不在詞表中,將W最右邊一個字去掉,得到W="是三"(12)查詞表,W不在詞表中,將W最右邊一個字去掉,得到W=“是”,這時W是單字,將W加入到S2中,S2=“計算語言學(xué)/課程/是/”,并將W從S1中去掉,此時S1="三個課時";(21)S2=“計算語言學(xué)/課程/是/三/個/課時/”,此時S1=""。(22)S1為空,輸出S2作為分詞結(jié)果,分詞過程結(jié)束。(11)查詞表,W不在詞表中,將W最右邊一個字去掉,得到W=停用詞指文檔中出現(xiàn)的連詞,介詞,冠詞等并無太大意義的詞。英文中常用的停用詞有the,a,it等中文中常見的有“是”,“的”,“地”等。停用詞消除可以減少term的個數(shù),降低存儲空間。停用詞的消除方法:(1)查表法:建立一個停用詞表,通過查表的方式去掉停用詞。(2)基于DF的方法:統(tǒng)計每個詞的DF,如果超過總文檔數(shù)目的某個百分比(如80%),則作為停用詞去掉。停用詞指文檔中出現(xiàn)的連詞,介詞,冠詞等并無太大意義的詞。文檔建模特征表示是指以一定的特征項如詞條或描述來代表文檔信息。特征表示模型有多種,常用的有布爾邏輯型、向量空間型等文檔建模特征表示是指以一定的特征項如詞條或描述來代表文檔信息向量空間模型中,將每個文本文檔看成是一組詞條(T1,T2,T3,…,Tn)構(gòu)成,對于每一詞條Ti,根據(jù)其在文檔中的重要程度賦予一定的權(quán)值,可以將其看成一個n維坐標(biāo)系,W1,W2,…,Wn為對應(yīng)的坐標(biāo)值,因此每一篇文檔都可以映射為由一組詞條矢量構(gòu)成的向量空間中的一點,對于所有待挖掘的文檔都用詞條特征矢量(T1,W1;T2,W2;T3,W3;…;Tn,Wn)表示。向量空間模型將文檔表達(dá)為一個矢量,看作向量空間中的一個點。向量空間模型中,將每個文本文檔看成是一組詞條(T1,T2,T文檔的向量空間模型文檔的向量空間模型W權(quán)值計算方法TF-IDF
目前廣泛采用TF-IDF權(quán)值計算方法來計算權(quán)重,TF-IDF的主要思想是,如果某個詞或短語在一篇文章中出現(xiàn)的頻率TF高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語具有很好的類別區(qū)分能力,適合用來分類。
TF詞頻(TermFrequency)指的是某一個給定的詞語在該文件中出現(xiàn)的次數(shù)。
IDF逆文檔頻率(InverseDocumentFrequency)是全體文檔數(shù)與包含詞條文檔數(shù)的比值。如果包含詞條的文檔越少,IDF越大,則說明詞條具有很好的類別區(qū)分能力。在完整的向量空間模型中,將TF和IDF組合在一起,形成TF-IDF度量:TF-IDF(d,t)=TF(d,t)*IDF(t)W權(quán)值計算方法TF-IDFTF度量在一份給定的文件里,詞頻(termfrequency,TF)指的是某一個給定的詞語在該文件中出現(xiàn)的頻率。這個數(shù)字是對詞數(shù)(termcount)的歸一化,以防止它偏向長的文件。(同一個詞語在長文件里可能會比短文件有更高的詞數(shù),而不管該詞語重要與否。)對于在某一特定文件里的詞語
來說,它的重要性可表示為:
以上式子中
是該詞在文件中的出現(xiàn)次數(shù),而分母則是在文件中所有字詞的出現(xiàn)次數(shù)之和。TF度量在一份給定的文件里,詞頻(termfrequencIDF度量逆向文件頻率(inversedocumentfrequency,IDF)是一個詞語普遍重要性的度量。某一特定詞語的IDF,可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目,再將得到的商取對數(shù)得到:?|D|:語料庫中的文件總數(shù)?:包含詞語的文件數(shù)目(即的文件數(shù)目)如果該詞語不在語料庫中,就會導(dǎo)致被除數(shù)為零,因此一般情況下使用IDF度量逆向文件頻率(inversedocumentf關(guān)鍵詞與網(wǎng)頁的相關(guān)性計算在某個一共有一千詞的網(wǎng)頁中“大數(shù)據(jù)”、“的”和“應(yīng)用”分別出現(xiàn)了2次、35次和5次,那么它們的詞頻就分別是0.002、0.035和0.005。三個數(shù)相加,其和0.042就是相應(yīng)網(wǎng)頁和查詢“大數(shù)據(jù)的應(yīng)用”相關(guān)性的一個簡單的度量。概括地講,如果一個查詢包含關(guān)鍵詞w1,w2,...,wN,它們在一篇特定網(wǎng)頁中的詞頻分別是:TF1,TF2,...,TFN。(TF:termfrequency)。那么,這個查詢和該網(wǎng)頁的相關(guān)性就是:TF1+TF2+...+TFN。關(guān)鍵詞與網(wǎng)頁的相關(guān)性計算在某個一共有一千詞的網(wǎng)頁中“大數(shù)據(jù)”詞“的”站了總詞頻的80%以上,它對確定網(wǎng)頁的主題幾乎沒有用。在度量相關(guān)性時不應(yīng)考慮它們的頻率。刪除后,上述網(wǎng)頁的相似度就變成了0.007,其中“大數(shù)據(jù)”貢獻(xiàn)了0.002,“應(yīng)用”貢獻(xiàn)了0.005?!皯?yīng)用”是個很通用的詞,而“大數(shù)據(jù)”是個很專業(yè)的詞,后者在相關(guān)性排名中比前者重要。因此我們需要給漢語中的每一個詞給一個權(quán)重,這個權(quán)重的設(shè)定必須滿足下面兩個條件:一個詞預(yù)測主題能力越強,權(quán)重就越大,反之,權(quán)重就越小。我們在網(wǎng)頁中看到“大數(shù)據(jù)”這個詞,或多或少地能了解網(wǎng)頁的主題。我們看到“應(yīng)用”一次,對主題基本上還是一無所知。因此,“原子能“的權(quán)重就應(yīng)該比應(yīng)用大。應(yīng)刪除詞的權(quán)重應(yīng)該是零。詞“的”站了總詞頻的80%以上,它對確定網(wǎng)頁的主題幾乎沒如果一個關(guān)鍵詞只在很少的網(wǎng)頁中出現(xiàn),我們通過它就容易鎖定搜索目標(biāo),它的權(quán)重也就應(yīng)該大。反之如果一個詞在大量網(wǎng)頁中出現(xiàn),我們看到它仍然不很清楚要找什么內(nèi)容,因此它應(yīng)該小。概括地講,假定一個關(guān)鍵詞w在Dw個網(wǎng)頁中出現(xiàn)過,那么Dw越大,w的權(quán)重越小,反之亦然。在信息檢索中,使用最多的權(quán)重是“逆文本頻率指數(shù)”(Inversedocumentfrequency縮寫為IDF),它的公式為log(D/Dw)其中D是全部網(wǎng)頁數(shù)。如果一個關(guān)鍵詞只在很少的網(wǎng)頁中出現(xiàn),我們通過它就容易鎖定搜索假定中文網(wǎng)頁數(shù)是D=10億,應(yīng)刪除詞“的”在所有的網(wǎng)頁中都出現(xiàn),即Dw=10億,那么它的IDF=log(10億/10億)=log(1)=0。假如專用詞“大數(shù)據(jù)”在兩百萬個網(wǎng)頁中出現(xiàn),即Dw=200萬,則它的權(quán)重IDF=log(500)=6.2。又假定通用詞“應(yīng)用”,出現(xiàn)在五億個網(wǎng)頁中,它的權(quán)重IDF=log(2)則只有0.7。也就只說,在網(wǎng)頁中找到一個“大數(shù)據(jù)”的比配相當(dāng)于找到九個“應(yīng)用”的匹配。利用IDF,上述相關(guān)性計算個公式就由詞頻的簡單求和變成了加權(quán)求和,即TF1*IDF1+
TF2*IDF2+...+TFN*IDFN。在上面的例子中,該網(wǎng)頁和“原子能的應(yīng)用”的相關(guān)性為0.0159,其中“大數(shù)據(jù)”貢獻(xiàn)了0.0124,而“應(yīng)用”只貢獻(xiàn)了0.0035。這個比例和我們的直覺比較一致假定中文網(wǎng)頁數(shù)是D=10億,應(yīng)刪除詞“的”在所有的網(wǎng)頁中都出算例1詞頻(TF)是一詞語出現(xiàn)的次數(shù)除以該文件的總詞語數(shù)。假如一篇文件的總詞語數(shù)是100個,而詞語“大數(shù)據(jù)”出現(xiàn)了3次,那么“大數(shù)據(jù)”一詞在該文件中的詞頻就是3/100=0.03。一個計算逆文件頻率(IDF)的方法是測定有多少份文件出現(xiàn)過“大數(shù)據(jù)”一詞,然后除以文件集里包含的文件總數(shù)。所以,如果“大數(shù)據(jù)”一詞在1,000份文件出現(xiàn)過,而文件總數(shù)是10,000,000份的話,其逆向文件頻率就是log(10,000,000/1,000)=4。最后的TF-IDF的分?jǐn)?shù)為0.03*4=0.12。算例1詞頻(TF)是一詞語出現(xiàn)的次數(shù)除以該文件的總詞語數(shù)算例2關(guān)鍵字k1,k2,k3與文檔的相關(guān)性可用TF1*IDF1+TF2*IDF2+TF3*IDF3來表示。比如文檔1所包含詞匯總量為1000,k1,k2,k3在文檔1中出現(xiàn)的次數(shù)是100,200,50。包含了k1,k2,k3的文檔總量分別是1000,10000,5000。文檔的總量為10000。TF1=100/1000=0.1;TF2=200/1000=0.2;TF3=50/1000=0.05;IDF1=log(10000/1000)=log(10)=2.3;IDF2=log(10000/100000)=log(1)=0;IDF3=log(10000/5000)=log(2)=0.69這樣關(guān)鍵字k1,k2,k3與文檔1的相關(guān)性=0.1*2.3+0.2*0+0.05*0.69=0.2645,其中k1比k3的比重在文檔1要大,k2的比重是0.算例2關(guān)鍵字k1,k2,k3與文檔的相關(guān)性可用TF1*IDF文檔相似性計算根據(jù)一個文檔集合d和一個項集合t,可以將每個文檔表示為在t維空間R中的一個文檔特征向量v。向量v中第j個數(shù)值就是相應(yīng)文檔中第j個項的量度。計算兩個文檔相似性可以使用上面的公式余弦計算法(cosinemeasure)文檔相似性計算根據(jù)一個文檔集合d和一個項集合t,可以將每個文計算步驟(1)使用TF-IDF算法,找出兩篇文章的關(guān)鍵詞;(2)每篇文章各取出若干個關(guān)鍵詞,合并成一個集合,計算每篇文章對于這個集合中的詞的詞頻;(3)生成兩篇文章各自的詞頻向量;(4)計算兩個向量的余弦相似度,值越大就表示越相似。計算步驟文檔相似性計算示例句子A:我喜歡看電視,不喜歡看電影。句子B:我不喜歡看電視,也不喜歡看電影。文檔相似性計算示例句子A:我喜歡看電視,不喜歡看電影。第一步,分詞句子A:我/喜歡/看/電視,不/喜歡/看/電影。句子B:我/不/喜歡/看/電視,也/不/喜歡/看/電影。第二步,列出所有的詞我,喜歡,看,電視,電影,不,也。第三步,計算詞頻句子A:我1,喜歡2,看2,電視1,電影1,不1,也0。句子B:我1,喜歡2,看2,電視1,電影1,不2,也1。第四步,寫出詞頻向量句子A:[1,2,2,1,1,1,0]句子B:[1,2,2,1,1,2,1]第一步,分詞商務(wù)智能理論與應(yīng)用9-文本挖掘信息檢索信息檢索研究的是大量基于文本的文檔信息的組織和檢索,如聯(lián)機圖書館系統(tǒng)、聯(lián)機文檔管理系統(tǒng)和WEB搜索引擎。數(shù)據(jù)庫系統(tǒng)關(guān)注結(jié)構(gòu)化數(shù)據(jù)段查詢和事務(wù)處理。
信息檢索研究的典型問題是根據(jù)用戶查詢(描述所需信息的關(guān)鍵詞),在文檔中定位相關(guān)文檔。信息檢索文本檢索的基本度量查準(zhǔn)率(Precision)是檢索到的文檔中的相關(guān)文檔占全部檢索到的文檔的百分比,它所衡量的是檢索系統(tǒng)的準(zhǔn)確性查全率(Recall)是被檢索出的文檔中的相關(guān)文檔占全部相關(guān)文檔的百分比,它所衡量的是檢索系統(tǒng)的全面性文本檢索的基本度量查準(zhǔn)率(Precision)是檢索到的文檔信息檢索的度量方式{relevant}:與某查詢相關(guān)的文檔的集合。{retrieved}:系統(tǒng)檢索到的文檔的集合。{relevant}∩{retrieved}:既相關(guān)又被檢索到的實際文檔的集合。查準(zhǔn)率(precision):既相關(guān)又被檢索到的實際文檔與檢索到的文檔的百分比。查全率(recall):既相關(guān)又被檢索到的實際文檔與查詢相關(guān)的文檔的百分比。信息檢索的度量方式{relevant}:與某查詢相關(guān)的文檔的模型質(zhì)量的評價實例{relevant}={A,B,C,D,E,F,G,H,I,J}=10{retrieved}={B,D,F,W,Y}=5{relevant}∩{retrieved}={B,D,F}=3查準(zhǔn)率:precision=3/5=60%查全率:recall=3/10=30%B,D,F相關(guān)并被檢索到的文檔所有文檔A,C,E,G,H,I,J相關(guān)的文檔
W,Y被檢索到的文檔模型質(zhì)量的評價實例{relevant}={A,B,C,D,文本挖掘舉例文本挖掘舉例文檔向量化文檔向量化查詢:相關(guān)度查詢:相關(guān)度文檔間相似度(余弦定理)文檔間相似度(余弦定理)3.文本的維度規(guī)約對于任何一個非平凡的文檔數(shù)據(jù)庫,詞的數(shù)目T和文檔數(shù)目D通常都很大,如此高的維度將導(dǎo)致低效的計算,因為結(jié)果頻度表大小為T*D。高維還會導(dǎo)致非常稀疏的向量,增加監(jiān)測和探查詞之間聯(lián)系的難度。維度歸約使用數(shù)據(jù)編碼或變換,以便得到原數(shù)據(jù)的歸約或“壓縮”表示。如果原數(shù)據(jù)可以由壓縮數(shù)據(jù)重新構(gòu)造而不丟失任何信息,則該數(shù)據(jù)歸約是無損的。如果我們只能重新構(gòu)造原數(shù)據(jù)的近似表示,則該數(shù)據(jù)歸約是有損的。3.文本的維度規(guī)約對于任何一個非平凡的文檔數(shù)據(jù)庫,詞的數(shù)目T文本挖掘方法文本挖掘功能層次關(guān)鍵詞相似檢索詞語關(guān)聯(lián)分析自然語言處理文本聚類文本分類文本挖掘功能層次文本挖掘方法文本挖掘功能層次關(guān)鍵詞相似檢索詞語關(guān)聯(lián)分析自然(1)關(guān)鍵詞檢索關(guān)鍵詞建立倒排文件索引,與傳統(tǒng)的信息檢索使用的技術(shù)類似。(2)相似檢索找到相似內(nèi)容的文本。(3)詞語關(guān)聯(lián)分析聚焦在詞語(包括關(guān)鍵詞)之間的關(guān)聯(lián)信息分析上。(4)文本聚類和文本分類實現(xiàn)文本的聚類和分類。(5)自然語言處理揭示自然語言處理技術(shù)的語義,進(jìn)行文本語義挖掘。(1)關(guān)鍵詞檢索關(guān)聯(lián)分析挖掘在文本數(shù)據(jù)庫中,每一文本被視為一個事務(wù),文本中的關(guān)鍵詞組可視為事務(wù)中的一組事務(wù)項。即文本數(shù)據(jù)庫可表示為:{文本編號,關(guān)鍵詞集}文本數(shù)據(jù)庫中關(guān)鍵詞關(guān)聯(lián)挖掘的問題就變成事務(wù)數(shù)據(jù)庫中事務(wù)項的關(guān)聯(lián)挖掘。
關(guān)聯(lián)分析挖掘可以用于找出詞或關(guān)鍵詞間的關(guān)聯(lián)。關(guān)聯(lián)分析挖掘在文本數(shù)據(jù)庫中,每一文本關(guān)聯(lián)分析挖掘輸入語義信息,如事件、事實或信息提取發(fā)現(xiàn)的實體輸入是標(biāo)記的集合輸入是文檔中關(guān)鍵詞或詞的集合基于關(guān)鍵詞的方法標(biāo)記方法信息提取方法關(guān)聯(lián)分析挖掘基于關(guān)鍵詞的方法標(biāo)記方法信息提取方法關(guān)聯(lián)分析挖掘關(guān)聯(lián)分析過程:對文本數(shù)據(jù)進(jìn)行分析、詞根處理、去除停詞等預(yù)處理,再調(diào)用關(guān)聯(lián)挖掘算法基于關(guān)鍵詞的關(guān)聯(lián)技術(shù):收集頻繁出現(xiàn)的關(guān)鍵詞或詞匯,找出其關(guān)聯(lián)或相互關(guān)系關(guān)聯(lián)挖掘關(guān)聯(lián)挖掘有助于找出符合關(guān)聯(lián),即領(lǐng)域相關(guān)的術(shù)語或短語關(guān)聯(lián)分析挖掘關(guān)聯(lián)分析過程:基于關(guān)鍵詞的關(guān)聯(lián)技術(shù):收集頻繁出關(guān)聯(lián)分析挖掘基于關(guān)鍵字的關(guān)聯(lián)分析基于關(guān)鍵字關(guān)聯(lián)分析就是首先收集頻繁一起出現(xiàn)的項或者關(guān)鍵字的集合,然后發(fā)現(xiàn)其中所存在的關(guān)聯(lián)性關(guān)聯(lián)分析對文本數(shù)據(jù)庫進(jìn)行預(yù)處理,生成關(guān)鍵字向量,根據(jù)關(guān)鍵字查詢向量與文檔向量之間的相關(guān)度比較結(jié)果輸出文本結(jié)果,然后調(diào)用關(guān)聯(lián)挖掘算法關(guān)聯(lián)分析挖掘基于關(guān)鍵字的關(guān)聯(lián)分析基于關(guān)鍵字關(guān)聯(lián)分析就是首先收文檔分類分析文檔分類分析文檔分類分析自動文檔分類是指利用計算機將一篇文章自動地分派到一個或多個預(yù)定義的類別中文檔分類的關(guān)鍵問題是獲得一個分類模式,利用此分類模式也可以用于其他文檔的分類有了一個模式之后,需要進(jìn)行人工標(biāo)記和訓(xùn)練,以確定這個模式的參數(shù),然后才能進(jìn)行自動的文檔分類文檔分類分析自動文檔分類是指利用計算機將一篇文章自動地分派到文檔分類分析應(yīng)用領(lǐng)域門戶網(wǎng)站(網(wǎng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- Lesson 2 Spending Habits說課稿-2025-2026學(xué)年初中英語九年級上冊上海新世紀(jì)版
- 達(dá)標(biāo)測試人教版八年級上冊物理物態(tài)變化《升華和凝華》同步測評試卷(含答案解析)
- 建筑工程監(jiān)理工作實施方案
- 難點詳解人教版八年級上冊物理《聲現(xiàn)象》章節(jié)測評試卷(含答案詳解版)
- 裝配式戶用光伏支架節(jié)點性能研究與優(yōu)化
- 基于負(fù)剛度和TVMD的建筑結(jié)構(gòu)的抗震性能研究
- 防水工程施工流程優(yōu)化方案
- 城市污水排水管道改造方案
- 難點詳解人教版八年級上冊物理《聲現(xiàn)象》難點解析練習(xí)題(含答案詳解)
- 難點解析人教版八年級上冊物理聲現(xiàn)象《聲音的產(chǎn)生與傳播》專項攻克試題(詳解)
- 胰腺假性囊腫治療指南
- 2025年(完整版)(高級)政工師理論考試題庫與答案
- 江西三校單招試題及答案
- 首鋼職務(wù)職級管理辦法
- 2025國家保安員資格考試題庫及答案
- 2025年黑龍江省齊齊哈爾市中考英語試卷
- 醫(yī)藥代表商務(wù)禮儀培訓(xùn)課程
- 小班科學(xué)《叭叭叭車來了》課件
- 2025至2030招投標(biāo)行業(yè)產(chǎn)業(yè)運行態(tài)勢及投資規(guī)劃深度研究報告
- 光熱發(fā)電技術(shù)課件
- 2025年入團考試時事熱點及試題與答案
評論
0/150
提交評論