




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
掌握關(guān)鍵詞提取
初識文本基礎(chǔ)處理關(guān)鍵詞提取概述關(guān)鍵詞提取算法關(guān)鍵詞提取概述關(guān)鍵詞:能夠反映文本主題或內(nèi)容的詞語。關(guān)鍵詞提?。簡蝹€文本或一個語料庫中,根據(jù)核心詞語的統(tǒng)計和語義分析,選擇適當?shù)?、能夠完整表達主題內(nèi)容的特征項的過程。關(guān)鍵詞提取概述應(yīng)用人類用戶:要求所提取的關(guān)鍵詞具有很高的可讀性、信息性和簡約性。新聞閱讀、廣告推薦、歷史文化研究、論文索引。機器用戶:文本聚類、文本分類、機器翻譯、語音識別。關(guān)鍵詞提取概述實用性表現(xiàn)——可讀性由于中文的字與字之間是沒有空格隔開的,需要分詞工具對文本進行切分。
分詞工具對于專有名詞的切分準確率還很低。詞的表達能力也非常有限。
“市場/經(jīng)濟”“市場”或“經(jīng)濟”任何一個詞都無法表達整個短語的含義。關(guān)鍵詞提取概述實用性表現(xiàn)——高速性系統(tǒng)應(yīng)具有較快的速度,能夠及時處理大量的文本。針對各類新聞的關(guān)鍵詞提取系統(tǒng):新聞產(chǎn)生后,應(yīng)能在數(shù)秒內(nèi)提取出該新聞的關(guān)鍵詞,以保證新聞的實時性。關(guān)鍵詞提取概述實用性表現(xiàn)——學(xué)習(xí)性系統(tǒng)應(yīng)能處理非常廣泛的領(lǐng)域的文本。未登錄詞、網(wǎng)絡(luò)新詞頻頻出現(xiàn)。系統(tǒng)應(yīng)具有較強的學(xué)習(xí)能力。關(guān)鍵詞提取概述實用性表現(xiàn)——健壯性系統(tǒng)應(yīng)具有處理復(fù)雜文本的能力。中、英文混雜的文本,文字、圖表、公式混雜的文本。關(guān)鍵詞提取概述關(guān)鍵詞提取算法關(guān)鍵詞提取算法常見的關(guān)鍵字提取算法:算法說明TF-IDF算法TF-IDF算法是基于統(tǒng)計的算法,擁有簡單又迅速的優(yōu)點。TF-IDF算法的主要思想是字詞的重要性隨著它在文檔中出現(xiàn)次數(shù)的增加而上升,并隨著它在語料庫中出現(xiàn)頻率的升高而下降TextRank算法TextRank算法是一種基于圖的文本排序算法,它可以用于自動摘要和提取關(guān)鍵詞。與TF-IDF算法相比,TextRank算法不同之處在于,它不需要依靠現(xiàn)有的文檔集提取關(guān)鍵詞,只需利用局部詞匯之間的關(guān)系對后續(xù)關(guān)鍵詞進行排序,隨后從文本中提取詞或句子,實現(xiàn)提取關(guān)鍵詞和自動摘要。TextRank算法的基本思想來自Google的PageRank算法主題模型算法主題模型算法認為文檔是由主題組成的,而主題是詞的一個概率分布,即每個詞都是通過“文檔以一定的概率選擇某個主題,再在這個主題中以一定的概率選擇某個詞”這一過程得到的。主題模型算法能自動分析每個文檔,統(tǒng)計文檔內(nèi)的詞語,根據(jù)統(tǒng)計的信息斷定當前文檔含有哪些主題,以及每個主題所占的比例各為多少。常見的主題模型算法主要有LSA、概率潛在語義分析(ProbabilisticLatentSemanticAnalysis,PLSA)、LDA,以及基于深度學(xué)習(xí)的lda2vec等TF-IDFTF-IDF:權(quán)重。思想:如果一個詞在某個文檔中出現(xiàn)次數(shù)較多,同時在其他文檔中出現(xiàn)次數(shù)較少,那么這個詞能很好地反映該文檔的內(nèi)容。組成詞頻(TF):某詞在文檔中出現(xiàn)的次數(shù)/文檔中的總詞數(shù)。逆文檔頻率(IDF):所有文檔的總數(shù)/包含該詞的文檔數(shù),取對數(shù)。TF-IDF=TF×IDFTF-IDFTF-IDF流程計算TF:計算IDF:計算TF-IDF:TF-IDFTF-IDF示例文檔1:“科技/公司/推出/新款/智能手機/系統(tǒng)/更新/用戶/體驗/功能/優(yōu)秀/產(chǎn)品/創(chuàng)新/”。文檔2:“農(nóng)民/種植/蔬菜/水果/收獲/銷售/產(chǎn)量/農(nóng)業(yè)/市場/價格/波動/農(nóng)產(chǎn)品/投入/”。文檔3:“教授/發(fā)表/研究/論文/探討/人工智能/技術(shù)/應(yīng)用/領(lǐng)域/優(yōu)秀/成果/創(chuàng)新/科研/”。TF-IDF以文檔1為例,計算TF:計算每個詞在文檔1中的TF值。詞TF值科技1/13公司1/13推出1/13新款1/13智能手機1/13系統(tǒng)1/13更新1/13用戶1/13體驗1/13功能1/13優(yōu)秀1/13產(chǎn)品1/13創(chuàng)新1/13TF-IDF計算IDF例如,“科技”的計算方法。詞IDF值科技0.405公司0.405推出0.405新款0.405智能手機0.405系統(tǒng)0.405更新0.405用戶0.405體驗0.405功能0.405優(yōu)秀0產(chǎn)品0.405創(chuàng)新0TF-IDF計算TF-IDF例如,“科技”的計算方法。詞TF-IDF值科技0.031公司0.031推出0.031新款0.031智能手機0.031系統(tǒng)0.031更新0.031用戶0.031體驗0.031功能0.031優(yōu)秀0產(chǎn)品0.031創(chuàng)新0TF-IDF
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中國跨國企業(yè)技術(shù)并購:現(xiàn)狀、案例剖析與策略轉(zhuǎn)型研究
- 兩性離子液體構(gòu)筑的凝膠-液晶體系及其電化學(xué)性能:從基礎(chǔ)到應(yīng)用的深度剖析
- Rho激酶在心肌細胞缺血再灌注損傷凋亡中的作用機制及干預(yù)研究
- GPU硬件加速賦能虛擬室內(nèi)場景輻射度光照算法的深度剖析與實踐
- 培訓(xùn)教育計劃增強人才綜合素質(zhì)
- 2024年中遠海運博鰲有限公司東嶼島旅游度假區(qū)招聘真題
- 2024年泉州洛江區(qū)消防救援大隊招聘政府專職消防員真題
- 2024年海南師范大學(xué)招聘真題
- 2024年甘肅公務(wù)員真題
- 2024年北京門頭溝區(qū)事業(yè)單位招聘真題
- 雙重預(yù)防機制構(gòu)建-隱患排查治理(中石化中原油田天然氣廠)
- 二年級下冊音樂《每天》教案
- 音樂美學(xué).課件
- 心肺復(fù)蘇說課比賽課件模板(一等獎)
- 健康體檢證明
- 2021年江西外語外貿(mào)職業(yè)學(xué)院教師招聘試題及答案解析
- 外科學(xué)肺部疾病教案(共18頁)
- 電魚機的相關(guān)知識與各級電路的電路圖
- 公司閑置資產(chǎn)及廢舊物資盤活處置管理辦法
- 幼兒園簡介范文
- 專業(yè)技術(shù)職務(wù)任職資格評審表2009
評論
0/150
提交評論