




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
基于TipDM數(shù)據(jù)挖掘建模平臺(tái)實(shí)現(xiàn)垃圾短信識(shí)別1實(shí)現(xiàn)垃圾短信識(shí)別目錄平臺(tái)簡介2TipDM大數(shù)據(jù)挖掘建模平臺(tái)是由廣東泰迪智能科技股份有限公司自主研發(fā),面向大數(shù)據(jù)挖掘項(xiàng)目的工具。平臺(tái)使用Java語言開發(fā),采用B/S結(jié)構(gòu),用戶不需要下載客戶端,可通過瀏覽器進(jìn)行訪問。平臺(tái)提供了基于Python、R以及Hadoop/Spark分布式引擎的大數(shù)據(jù)分析功能。平臺(tái)支持工作流,用戶可在沒有Scala、Python、R等編程語言基礎(chǔ)的情況下,通過拖曳的方式進(jìn)行操作,以流程化的方式將數(shù)據(jù)輸入輸出、統(tǒng)計(jì)分析,數(shù)據(jù)預(yù)處理、分析與建模等環(huán)節(jié)進(jìn)行連接,從而達(dá)成大數(shù)據(jù)分析的目的。讀者可通過訪問平臺(tái)查看具體的界面情況,訪問平臺(tái)的具體步驟如下。微信搜索公眾號(hào)“泰迪學(xué)院”或“TipDataMining”,關(guān)注公眾號(hào)。關(guān)注公眾號(hào)后,回復(fù)“建模平臺(tái)”,獲取平臺(tái)訪問方式。平臺(tái)簡介平臺(tái)的界面如圖所示。平臺(tái)簡介本章將以垃圾短信識(shí)別案例為例,介紹如何使用平臺(tái)實(shí)現(xiàn)案例的流程。在介紹之前,需要引入平臺(tái)的幾個(gè)概念。算法:將建模過程涉及的輸入/輸出、數(shù)據(jù)探索及預(yù)處理、建模、模型評(píng)估等算法分別進(jìn)行封裝,每一個(gè)封裝好的算法模塊稱之為算法。實(shí)訓(xùn):為實(shí)現(xiàn)某一數(shù)據(jù)分析目標(biāo),將各算法通過流程化的方式進(jìn)行連接,整個(gè)數(shù)據(jù)分析流程稱為一個(gè)實(shí)訓(xùn)。模板:用戶可以將配置好的實(shí)訓(xùn),通過模板的方式,分享給其他用戶,其他用戶可以使用該模板,創(chuàng)建一個(gè)無需配置算法便可運(yùn)行的實(shí)訓(xùn)。平臺(tái)簡介TipDM大數(shù)據(jù)挖掘建模平臺(tái)主要有以下幾個(gè)特點(diǎn)。平臺(tái)算法基于Python、R以及Hadoop/Spark分布式引擎,用于數(shù)據(jù)分析。Python、R以及Hadoop/Spark是目前最為流行的用于數(shù)據(jù)分析的語言,高度契合行業(yè)需求。用戶可在沒有Python、R或者Hadoop/Spark編程基礎(chǔ)的情況下,使用直觀的拖曳式圖形界面構(gòu)建數(shù)據(jù)分析流程,無須編程。提供公開可用的數(shù)據(jù)分析示例實(shí)訓(xùn),一鍵創(chuàng)建,快速運(yùn)行。支持挖掘流程每個(gè)節(jié)點(diǎn)的結(jié)果在線預(yù)覽。Python算法包可分為10大類:統(tǒng)計(jì)分析、預(yù)處理、腳本分類、聚類、回歸、時(shí)間序列、關(guān)聯(lián)規(guī)則、文本分析、繪圖。Spark算法包可分為6大類:預(yù)處理、統(tǒng)計(jì)分析、分類、聚類、回歸、協(xié)同過濾。R語言算法包可分為8大類:統(tǒng)計(jì)分析、預(yù)處理、腳本、分類、聚類、回歸、時(shí)間序列、關(guān)聯(lián)規(guī)則。下面將對(duì)平臺(tái)【實(shí)訓(xùn)庫】【數(shù)據(jù)連接】【實(shí)訓(xùn)數(shù)據(jù)】【我的實(shí)訓(xùn)】【系統(tǒng)算法】和【個(gè)人算法】6個(gè)模塊進(jìn)行介紹。平臺(tái)簡介登錄平臺(tái)后,用戶即可看到【實(shí)訓(xùn)庫】模塊系統(tǒng)提供的示例實(shí)訓(xùn)(模板),如圖所示。實(shí)訓(xùn)庫【實(shí)訓(xùn)庫】模塊主要用于標(biāo)準(zhǔn)大數(shù)據(jù)分析案例的快速創(chuàng)建和展示。通過【實(shí)訓(xùn)庫】模塊,用戶可以創(chuàng)建一個(gè)無須導(dǎo)入數(shù)據(jù)及配置參數(shù)就能夠快速運(yùn)行的實(shí)訓(xùn)。同時(shí),每一個(gè)模板的創(chuàng)建者都具有模板的所有權(quán),能夠?qū)δ0暹M(jìn)行管理。用戶可以將自己搭建的數(shù)據(jù)分析實(shí)訓(xùn)生成為模板,顯示在【實(shí)訓(xùn)庫】模塊,供其他用戶一鍵創(chuàng)建。實(shí)訓(xùn)庫【數(shù)據(jù)連接】模塊支持從DB2、SQLServer、MySQL、Oracle、PostgreSQL等常用關(guān)系型數(shù)據(jù)庫導(dǎo)入數(shù)據(jù),如圖所示。數(shù)據(jù)連接【實(shí)訓(xùn)數(shù)據(jù)】模塊主要用于數(shù)據(jù)分析實(shí)訓(xùn)的數(shù)據(jù)導(dǎo)入與管理。支持從本地導(dǎo)入任意類型數(shù)據(jù)。如圖所示。實(shí)訓(xùn)數(shù)據(jù)【我的實(shí)訓(xùn)】模塊主要用于數(shù)據(jù)分析流程化的創(chuàng)建與管理,如圖所示。通過【實(shí)訓(xùn)】模塊,用戶可以創(chuàng)建空白實(shí)訓(xùn),進(jìn)行數(shù)據(jù)分析實(shí)習(xí)的配置,將數(shù)據(jù)輸入輸出、數(shù)據(jù)預(yù)處理、挖掘建模、模型評(píng)估等環(huán)節(jié)通過流程化的方式進(jìn)行連接,達(dá)到數(shù)據(jù)分析的目的。對(duì)于完成的優(yōu)秀的實(shí)訓(xùn),可以將其保存為模板,讓其他使用者學(xué)習(xí)和借鑒。我的實(shí)訓(xùn)【系統(tǒng)算法】模塊主要用于大數(shù)據(jù)分析內(nèi)置常用算法的管理,提供Python、R語言、Spark三種算法包,如圖所示。系統(tǒng)算法Python算法包可分為10大類,具體如下?!窘y(tǒng)計(jì)分析】類提供對(duì)數(shù)據(jù)整體情況進(jìn)行統(tǒng)計(jì)的常用算法,包括因子分析、全表統(tǒng)計(jì)、正態(tài)性檢驗(yàn)、相關(guān)性分析、卡方檢驗(yàn)、主成分分析和頻數(shù)統(tǒng)計(jì)?!绢A(yù)處理】類提供對(duì)數(shù)據(jù)進(jìn)行清洗的算法,包括數(shù)據(jù)標(biāo)準(zhǔn)化、缺失值處理、表堆疊、數(shù)據(jù)篩選、行列轉(zhuǎn)置、修改列名、衍生變量、數(shù)據(jù)拆分、主鍵合并、新增序列、數(shù)據(jù)排序、記錄去重和分組聚合?!灸_本】類提供一個(gè)Python代碼編輯框。用戶可以在代碼編輯框中粘貼已經(jīng)寫好的程序代碼并直接運(yùn)行,無須再額外配置成算法?!痉诸悺款愄峁┏S玫姆诸愃惴ǎ闼刎惾~斯、支持向量機(jī)、CART分類樹、邏輯回歸、神經(jīng)網(wǎng)絡(luò)和K最近鄰。【聚類】類提供常用的聚類算法,包括層次聚類、DBSCAN密度聚類和K-Means。系統(tǒng)算法【回歸】類提供常用的回歸算法,包括CART回歸樹、線性回歸、支持向量回歸和K最近鄰回歸?!緯r(shí)間序列】類提供常用的時(shí)間序列算法,包括ARIMA?!娟P(guān)聯(lián)規(guī)則】類提供常用的關(guān)聯(lián)規(guī)則算法,包括Apriori和FP-Growth?!疚谋痉治觥款愄峁?duì)文本數(shù)據(jù)進(jìn)行清洗、特征提取與分析的常用算法,包括TextCNN、seq2seq、jieba分詞、HanLP分詞與詞性、TF-IDF、doc2vec、word2vec、過濾停用詞、LDA、TextRank、分句、正則匹配和HanLP實(shí)體提取?!纠L圖】類提供常用的畫圖算法,包括柱形圖、折線圖、散點(diǎn)圖、餅圖和詞云圖。系統(tǒng)算法Spark算法包可分為6大類,具體如下?!绢A(yù)處理】類提供對(duì)數(shù)據(jù)進(jìn)行清洗的算法,包括數(shù)據(jù)去重、數(shù)據(jù)過濾、數(shù)據(jù)映射、數(shù)據(jù)反映射、數(shù)據(jù)拆分、數(shù)據(jù)排序、缺失值處理、數(shù)據(jù)標(biāo)準(zhǔn)化、衍生變量、表連接、表堆疊、啞變量和數(shù)據(jù)離散化。【統(tǒng)計(jì)分析】類提供對(duì)數(shù)據(jù)整體情況進(jìn)行統(tǒng)計(jì)的常用算法,包括行列統(tǒng)計(jì)、全表統(tǒng)計(jì)、相關(guān)性分析和卡方檢驗(yàn)?!痉诸悺款愄峁┏S玫姆诸愃惴?,包括邏輯回歸、決策樹、梯度提升樹、樸素貝葉斯、隨機(jī)森林、線性支持向量機(jī)和多層感知神經(jīng)網(wǎng)絡(luò)。【聚類】類提供常用的聚類算法,包括K-Means聚類、二分K均值聚類和混合高斯模型?!净貧w】類提供常用的回歸算法,包括線性回歸、廣義線性回歸、決策樹回歸、梯度提升樹回歸、隨機(jī)森林回歸和保序回歸?!緟f(xié)同過濾】類提供常用的智能推薦算法,包括ALS算法。系統(tǒng)算法R語言算法包可分為8大類,具體如下?!窘y(tǒng)計(jì)分析】類提供對(duì)數(shù)據(jù)整體情況進(jìn)行統(tǒng)計(jì)的常用算法,包括卡方檢驗(yàn)、因子分析、主成分分析、相關(guān)性分析、正態(tài)性檢驗(yàn)和全表統(tǒng)計(jì)?!绢A(yù)處理】類提供對(duì)數(shù)據(jù)進(jìn)行清洗的算法,包括缺失值處理、異常值處理、表連接、表堆疊、數(shù)據(jù)標(biāo)準(zhǔn)化、記錄去重、數(shù)據(jù)離散化、排序、數(shù)據(jù)拆分、頻數(shù)統(tǒng)計(jì)、新增序列、字符串拆分、字符串拼接、修改列名和衍生變量?!灸_本】類提供一個(gè)R語言代碼編輯框。用戶可以在代碼編輯框中粘貼已經(jīng)寫好的程序代碼并直接運(yùn)行,無須再額外配置成算法。系統(tǒng)算法【分類】類提供常用的分類算法,包括樸素貝葉斯、CART分類樹、C4.5分類樹、BP神經(jīng)網(wǎng)絡(luò)、KNN、SVM和邏輯回歸?!揪垲悺款愄峁┏S玫木垲愃惴ǎ↘-Means、DBSCAN和系統(tǒng)聚類。【回歸】類提供常用的回歸算法,包括CART回歸樹、C4.5回歸樹、線性回歸、嶺回歸和KNN回歸?!緯r(shí)間序列】類提供常用的時(shí)間序列算法,包括ARIMA、GM(1,1)和指數(shù)平滑?!娟P(guān)聯(lián)分析】類提供常用的關(guān)聯(lián)規(guī)則算法,包括Apriori。系統(tǒng)算法【個(gè)人算法】模塊主要為了滿足用戶的個(gè)性化需求。在用戶使用過程中,可根據(jù)自己的需求定制算法,方便使用。目前個(gè)人算法支持通過Python和R語言進(jìn)行個(gè)人算法的定制,如圖所示。個(gè)人算法1實(shí)現(xiàn)垃圾短信識(shí)別目錄平臺(tái)簡介2在TipDM數(shù)據(jù)挖掘建模平臺(tái)上配置垃圾短信識(shí)別案例的總體流程如圖所示。實(shí)現(xiàn)垃圾短信識(shí)別在TipDM數(shù)據(jù)挖掘建模平臺(tái)上配置垃圾短信識(shí)別案例的主要步驟如下。導(dǎo)入數(shù)據(jù)。在TipDM數(shù)據(jù)挖掘建模平臺(tái)導(dǎo)入80萬條短信數(shù)據(jù)。文本預(yù)處理。對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,對(duì)其進(jìn)行缺失值檢測(cè)、去重、脫敏、分詞、去停用詞、詞頻統(tǒng)計(jì)等操作。分類。采用自定義樸素貝葉斯函數(shù),實(shí)現(xiàn)樸素貝葉斯分類,最終結(jié)果將與測(cè)試集進(jìn)行比較,得到模型的分類情況和準(zhǔn)確率。模型評(píng)價(jià)。使用處理好的測(cè)試集進(jìn)行預(yù)測(cè),對(duì)比真實(shí)值與預(yù)測(cè)值,獲得準(zhǔn)確率并進(jìn)行結(jié)果分析。實(shí)現(xiàn)垃圾短信識(shí)別在平臺(tái)上配置得到的最終流程如圖所示實(shí)現(xiàn)垃圾短信識(shí)別本章的數(shù)據(jù)為一份短信信息(CSV文件),兩份自建詞庫(TXT文件)和一張背景圖片(JPG文件),使用TipDM數(shù)據(jù)挖掘建模平臺(tái)導(dǎo)入數(shù)據(jù)的方式類似,以CSV文件為例,步驟如下。
新增數(shù)據(jù)集。單擊【實(shí)訓(xùn)數(shù)據(jù)】,在【我的數(shù)據(jù)集】中選擇【新增數(shù)據(jù)集】,如圖所示。數(shù)據(jù)源配置配置新增數(shù)據(jù)集參數(shù)。隨意選擇一張封面圖片,在【名稱】中填入“自然語言處理”,【有效期(天)】項(xiàng)選擇【永久】,【描述】中填入“自然語言處理”,【訪問權(quán)限】項(xiàng)選擇【私有】,單擊【點(diǎn)此上傳】選擇【message80W.csv】文件,如圖所示。等待合并成功后,單擊【確定】按鈕,即可上傳。數(shù)據(jù)源配置數(shù)據(jù)上傳完成后,新建一個(gè)命名為【自然語言處理】的空白工程,配置【輸入源】算法,步驟如下。拖曳【輸入源】算法。在【實(shí)訓(xùn)】左下方的【算法】欄中,找到【系統(tǒng)算法】模塊下的【輸入/輸出】類。拖曳【輸入/輸出】類中的【輸入源】算法至工程畫布中。配置【輸入源】算法。單擊畫布中的【輸入源】算法,然后單擊工程畫布右側(cè)【參數(shù)設(shè)置】欄中的【數(shù)據(jù)集】框,輸入【自然語言處理】,在彈出的下拉框中選擇【自然語言處理】,并勾選【message80W.csv】項(xiàng)。如圖所示。右鍵單擊【輸入源】算法,選擇【重命名】并輸入“message”。數(shù)據(jù)源配置預(yù)覽短信數(shù)據(jù)。單擊畫布中的【message】算法,在工程畫布右側(cè)【參數(shù)設(shè)置】欄中,單擊【文件列表】項(xiàng)下的圖標(biāo)查看數(shù)據(jù)集明細(xì),如圖所示。數(shù)據(jù)源配置通過預(yù)覽短信數(shù)據(jù)可以發(fā)現(xiàn),數(shù)據(jù)列名不符合要求,需要進(jìn)行修改,步驟如下。連接【修改列名】算法。拖曳【系統(tǒng)算法】模塊下的【預(yù)處理】類中的【修改列名】算法至工程畫布中,并與【message】算法相連接。配置【修改列名】算法。在【列索引名】中填寫“index,類別,短信”,如圖所示。數(shù)據(jù)源配置運(yùn)行【修改列名】算法。右鍵單擊【修改列名】算法,選擇【運(yùn)行該節(jié)點(diǎn)】,如圖修改列名后的數(shù)據(jù)所示。數(shù)據(jù)源配置文本預(yù)處理主要是對(duì)短信信息數(shù)據(jù)進(jìn)行。修改列名。數(shù)據(jù)采樣。數(shù)據(jù)缺失值處理。數(shù)據(jù)去重。文本數(shù)據(jù)脫敏。去停用詞。表堆疊。數(shù)據(jù)篩選等操作。文本預(yù)處理由于原始數(shù)據(jù)量過大,為了方便后續(xù)建模與分類,采用簡單隨機(jī)抽樣的方式抽取百分之一的數(shù)據(jù),步驟如下。連接【數(shù)據(jù)采樣】算法。拖曳【系統(tǒng)算法】模塊下的【預(yù)處理】類中的【數(shù)據(jù)采樣】算法至工程畫布中,并與【修改列名】算法相連接。配置【數(shù)據(jù)采樣】算法。在【采樣比例】中填寫采樣比例“0.01”,如圖所示。運(yùn)行【數(shù)據(jù)采樣】算法。文本預(yù)處理1.數(shù)據(jù)采樣由于建模數(shù)據(jù)不允許存在缺失值,因此需要進(jìn)行缺失值檢測(cè),在平臺(tái)中可通過【缺失值處理】算法實(shí)現(xiàn)缺失值的檢測(cè)并進(jìn)行缺失值處理,步驟如下。連接【缺失值處理】算法。拖曳【系統(tǒng)算法】模塊下的【預(yù)處理】類中的【缺失值處理】算法至工程畫布中,并與【數(shù)據(jù)采樣】算法相連接。配置【缺失值處理】算法。在字段設(shè)置中,單擊【特征】項(xiàng)下的圖標(biāo),選擇全部字段;在參數(shù)設(shè)置中,選擇【處理缺失值方式】為【按行刪除】,如圖所示。文本預(yù)處理2.
缺失值處理運(yùn)行【缺失值處理】算法。運(yùn)行成功后,右鍵單擊【缺失值處理】算法,選擇【查看日志】,如圖所示。文本預(yù)處理由于重復(fù)記錄數(shù)會(huì)對(duì)模型的精度造成影響,因此需要對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)去重操作,步驟如下。連接【記錄去重】算法。拖曳【系統(tǒng)算法】模塊下的【預(yù)處理】類中的【記錄去重】算法至工程畫布中,并與【缺失值處理】算法相連接。配置【記錄去重】算法。在字段設(shè)置中,單擊【特征】項(xiàng)下的圖標(biāo),選擇全部字段。單擊【根據(jù)哪些特征去重】項(xiàng)下的圖標(biāo),選擇全部字段;在參數(shù)設(shè)置中,選擇【去重方式】為【False】,如圖所示。文本預(yù)處理3.數(shù)據(jù)去重運(yùn)行【記錄去重】算法。運(yùn)行成功后,右鍵單擊【記錄去重】算法,選擇【查看日志】,如圖所示。文本預(yù)處理由于原始數(shù)據(jù)中的敏感信息已用統(tǒng)一字符替換,因此進(jìn)行脫敏時(shí)只需減去相應(yīng)的字符即可,步驟如下。連接【脫敏】算法。拖曳【系統(tǒng)算法】模塊下的【文本分析】類中的【文本預(yù)處理】子類中的【脫敏】算法至工程畫布中,并與【記錄去重】算法相連接。配置【脫敏】算法。單擊【特征】項(xiàng)下的圖標(biāo),選擇“短信”字段,如圖所示。運(yùn)行【脫敏】算法。文本預(yù)處理4.文本數(shù)據(jù)脫敏采用jieba分詞來切分短信內(nèi)容,由于分詞的過程中會(huì)將部分有用信息切分開來,因此需要加載自定義詞典newdic1.txt來避免過度分詞,文件中包含了短信內(nèi)容的幾個(gè)重要詞匯。結(jié)巴分詞步驟如下。配置【輸入源】算法。拖曳【輸入源】算法,并重命名為“newdic1”,導(dǎo)入自定義詞典。連接【jieba分詞】算法。拖曳【系統(tǒng)算法】模塊下的【文本分析】類中的【文本預(yù)處理】子類中的【jieba分詞】算法至工程畫布中,并與【newdic1】算法和【脫敏】算法相連接。配置【jieba分詞】算法。單擊【特征】項(xiàng)下的圖標(biāo),選擇【短信】字段,如圖所示。運(yùn)行【jieba分詞】算法。文本預(yù)處理5.
結(jié)巴分詞對(duì)分詞后的結(jié)果過濾停用詞,步驟如下。配置【輸入源】算法。拖曳【輸入源】算法,并重命名為“stopword”,導(dǎo)入“停用詞”數(shù)據(jù)。連接【去停用詞】算法。拖曳【系統(tǒng)算法】模塊下的【文本分析】類中的【文本預(yù)處理】子類中的【去停用詞】算法至工程畫布中,并與【jieba分詞】算法和【stopword】算法相連接。配置【去停用詞】算法。單擊【選擇需要過濾停用詞的字段】項(xiàng)下的圖標(biāo),選擇【短信】字段,如圖所示。運(yùn)行【去停用詞】算法。文本預(yù)處理6.
去停用詞預(yù)覽數(shù)據(jù)可以發(fā)現(xiàn),分詞后的結(jié)果不存在類別標(biāo)簽數(shù)據(jù),需要進(jìn)行數(shù)據(jù)合并,步驟如下。連接【表堆疊】算法。拖曳【系統(tǒng)算法】模塊下的【預(yù)處理】類中的【表堆疊】算法至工程畫布中,并與【去停用詞】和【記錄去重】算法相連接。配置【表堆疊】算法。單擊【表1特征】項(xiàng)下的圖標(biāo),選擇【短信】字段。單擊【表2特征】項(xiàng)下的圖標(biāo),選擇【類別】字段。在參數(shù)設(shè)置中,選擇【合并方式】為【按列合并】,如圖所示。運(yùn)行【表堆疊】算法。文本預(yù)處理7.
表堆疊對(duì)垃圾短信和非垃圾短信的特征進(jìn)行分析,需要將數(shù)據(jù)根據(jù)類別進(jìn)行篩選,步驟如下。連接【數(shù)據(jù)篩選】算法。拖曳【系統(tǒng)算法】模塊下的【預(yù)處理】類中的【數(shù)據(jù)篩選】算法至工程畫布中,與【表堆疊】算法相連接,并重命名為“非垃圾短信數(shù)據(jù)”。配置【非垃圾短信數(shù)據(jù)】算法。在字段設(shè)置中,單擊【特征】項(xiàng)下的圖標(biāo),選擇全部字段。在參數(shù)設(shè)置中,選擇【過濾的列】為【類別】,設(shè)置【表達(dá)式】為【等于】,設(shè)置【過濾條件的比較值】為【0】,篩選非垃圾短信數(shù)據(jù),如圖所示。文本預(yù)處理8.
數(shù)據(jù)篩選連接【數(shù)據(jù)篩選】算法。再次拖入【數(shù)據(jù)篩選】算法,并重命名為“垃圾短信數(shù)據(jù)。配置【垃圾短信數(shù)據(jù)】算法。將【過濾條件的比較值】設(shè)置為【1】,其余操作與步驟(2)相同。運(yùn)行【垃圾短信數(shù)據(jù)】和【非垃圾短信數(shù)據(jù)】算法。文本預(yù)處理通過自定義函數(shù)來統(tǒng)計(jì)詞頻,將空格作為詞與詞之間的分隔符,整合得到一個(gè)詞匯序列再進(jìn)行切分,統(tǒng)計(jì)每個(gè)詞出現(xiàn)的頻次。垃圾短信和非垃圾短信均保留詞頻大于5的詞。分別對(duì)垃圾短信數(shù)據(jù)與非垃圾短信數(shù)據(jù)繪制詞云圖,查看短信內(nèi)容分布情況。繪制垃圾短信數(shù)據(jù)詞云圖的步驟如下。配置【輸入源】算法。拖入【輸入源】算法,并重命名為“背景圖”,導(dǎo)入詞云圖背景圖片數(shù)據(jù)。連接【詞云圖1】算法。拖曳【系統(tǒng)算法】模塊下的【繪圖】類中的【詞云圖】算法至工程畫布中,與【垃圾短信數(shù)據(jù)】算法相連接,并重命名為“詞云圖1”。文本預(yù)處理9.
詞頻統(tǒng)計(jì)配置【詞云圖1】算法。單擊【特征】項(xiàng)下的圖標(biāo),選擇【短信】字段。在詞云圖設(shè)置中保留默認(rèn)設(shè)置,在圖片模板設(shè)置中,選擇【是否使用圖片中的顏色】為【是】,如圖所示。運(yùn)行【詞云圖1】算法。配置【詞云圖2】算法。再次拖入【詞云圖】算法并重命名為“詞云圖2”,其余操作與繪制垃圾短信詞云圖的操作相同。文本預(yù)處理自定義的樸素貝葉斯函數(shù),包括以下5個(gè)步驟,每個(gè)步驟對(duì)應(yīng)一個(gè)自定義函數(shù)。loadDataSet函數(shù)用于加載數(shù)據(jù)。按照8:2的比例、采用簡單隨機(jī)抽樣來劃分訓(xùn)練集和測(cè)試集,將數(shù)據(jù)集中的標(biāo)簽和短信內(nèi)容兩列內(nèi)容拆分開來,生成訓(xùn)練集和測(cè)試
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國高柔性導(dǎo)熱石墨薄膜行業(yè)市場(chǎng)分析及投資價(jià)值評(píng)估前景預(yù)測(cè)報(bào)告
- 2025年新能源汽車市場(chǎng)生物質(zhì)能燃料應(yīng)用現(xiàn)狀與趨勢(shì)報(bào)告
- 二、一元一次方程和它的解法教學(xué)設(shè)計(jì)初中數(shù)學(xué)北京版2024七年級(jí)上冊(cè)-北京版2024
- 2025年儲(chǔ)能電池在電網(wǎng)儲(chǔ)能市場(chǎng)中的儲(chǔ)能電站投資分析與決策建議報(bào)告
- 2025年新能源汽車充電設(shè)施建設(shè)與城市規(guī)劃協(xié)同發(fā)展報(bào)告
- 九年級(jí)信息技術(shù)第一學(xué)期機(jī)器人編程(仿真)軟件簡介說課稿 青島版
- 2025年中國高仿珠寶首飾行業(yè)市場(chǎng)分析及投資價(jià)值評(píng)估前景預(yù)測(cè)報(bào)告
- 醫(yī)療氣體安全知識(shí)培訓(xùn)課件
- 2025年環(huán)保產(chǎn)業(yè)技術(shù)創(chuàng)新與產(chǎn)業(yè)升級(jí)技術(shù)創(chuàng)新模式創(chuàng)新案例報(bào)告
- 口腔前臺(tái)專業(yè)知識(shí)培訓(xùn)課件
- 2024年南昌市公安局東湖分局招聘警務(wù)輔助人員考試真題
- 4.1 認(rèn)識(shí)厘米 課件 人教版數(shù)學(xué)二年級(jí)上冊(cè)
- 人身意外險(xiǎn)理賠細(xì)則手冊(cè)
- 高三試卷:2025屆浙江省新陣地聯(lián)盟高三10月聯(lián)考?xì)v史試題
- 2025公務(wù)員考試時(shí)事政治題庫(含答案)
- 2025年度云南省成人高考專升本《教育理論》高頻考題庫匯編及答案
- 保溫人員安全培訓(xùn)課件
- 本科教學(xué)審核評(píng)估匯報(bào)
- 《直線方程的兩點(diǎn)式》教學(xué)設(shè)計(jì)
- 01 華為采購管理架構(gòu)(20P)
- 望洞庭教學(xué)課件
評(píng)論
0/150
提交評(píng)論