




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
基于深度學習的網絡新聞評論系統(tǒng)的設計與實現(xiàn)摘要1前言 錯誤!未定義樣式。-前言研究背景和意義網絡新聞評論是指通過互聯(lián)網就最近期的新聞和熱點事件表述的個人主觀的評價性意見。因為互聯(lián)網的普及率的上升,除了網絡媒體在網絡上發(fā)表的評論外,越來越多的素質不一的網民尤其未成年人等一些心智不成熟的人也參與到熱點事件的評論中,他們容易受到一些“意見領袖”的誤導,容易對某件事和某個人發(fā)生偏執(zhí)。更壞的是他們逐漸變成了網絡新聞評論的主體,這樣子就不利于社會的和諧穩(wěn)定?;ヂ?lián)網為公眾提供了一個自由平等的話語平臺,但信息的紛繁繚繞使得公眾難以辨別信息的真實性,影響了對新聞事件的客觀看待。因此,在網絡時代,我們應該加強對網絡新聞評論的研究,更好地引導網絡新聞評論發(fā)揮相應的輿論引導作用,使公眾能夠更加客觀、理性地對待新聞事件,促進新聞事件的有序發(fā)展。國內外研究現(xiàn)狀在網絡輿情研究發(fā)面,ZhouZhipeng等就基于階段和區(qū)域兩個維度,研究一個分析框架,用于數(shù)據豐富時代的大型基礎設施主題建模和情感分析ADDINCNKISM.Ref.{5C0AF2F5E77A402cB84B10E97C9210A8}[1]。LianruiJia概述了中國網絡輿論興起的行業(yè)概況,并考察了人民輿論辦公室的政治經濟學ADDINCNKISM.Ref.{6AD9AA11BD4A488cB6A5533BAFFDBBF0}[2]。YanWu等分析高校網絡輿論得出應從網絡輿論引導機構建設、意見領袖培養(yǎng)、預警機制完善、高校網絡素養(yǎng)提高、校園媒體引導等方面構建清晰的網絡空間ADDINCNKISM.Ref.{7798149182C0407f8E6970B3D19EB711}[3]。hongzhizhou等為了大大提高我國網絡媒體輿情自動預測的測量精度和計算準確率,建立了一種基于自動灰色機和支持自動向量機的新型網絡媒體輿情自動預測計算模型ADDINCNKISM.Ref.{2988DDDA407445c5A79BEF9D837FF948}[4]。SuYingLi研究了輿情分析的關鍵技術ADDINCNKISM.Ref.{B9070B61DD544f58BDFACBA34F359160}[5]。孫倬等研究網絡輿情研究進展及其主題關聯(lián)關系路徑分析ADDINCNKISM.Ref.{6EF27F71E29749249B7F4010B23362D0}[6]。黃晶綜述了網絡輿情事件中網民行為與特征文獻ADDINCNKISM.Ref.{D19CC9F1ED8B4882940F97BD12006A92}[7]。趙曉霞等研究了我國高校網絡輿情研究的可視化分析ADDINCNKISM.Ref.{A342C503F40641fcAD46C3FB48933CA0}[8]。滿媛媛等分析了國內突發(fā)事件網絡輿情研究進展ADDINCNKISM.Ref.{4130268BD3414f87B4652F6158B4F075}[9]。張晉等分析了大數(shù)據對大學生網絡輿情研究的意義ADDINCNKISM.Ref.{F6D7BA213D024cf7A357DAEF0FF4598A}[10]。趙蕾分析研究了我國網絡輿情研究的知識圖譜——基于CiteSpace軟件的可視化分析ADDINCNKISM.Ref.{F6D7BA213D024cf7A357DAEF0FF4598A}[10]。論文主要工作本論文主要分為四個部分。主要部分在于設計分析,設計過程和設計實現(xiàn)這三個章節(jié)。設計分析主要講述的是論文中涉及到的主要技術,主要涵蓋網絡爬蟲、輿情分析和深度學習的相關技術等。設計過程主要講述的是各個模塊的設計構造圖,簡要介紹了NLP中的深度學習技術的四種模型框架。詳細描述了本實驗中運用的CNN。設計實現(xiàn)就是將在網絡上爬取的數(shù)據,處理得到數(shù)據集,輸入到深度學習模型中再運用激勵函數(shù)和優(yōu)化器得出實驗結果。本章小結本章主要介紹了本實驗的研究意義和國內外現(xiàn)狀,說明了論文的主要工作。設計分析運行環(huán)境和技術介紹Python語言Python它是由一個荷蘭數(shù)學與計算機科學研究協(xié)會的成員Guidovanrossum。在20世紀90年代早期首先進行設計開發(fā)出來,作為一種正式名叫為CABC編程語言的另一種語言選擇。Python除了可以提供高效的高級數(shù)據結構,還提供可以很容易地對其進行面向對象的數(shù)據編程。Python的動態(tài)語法和其他應用動態(tài)編程語言的多種類型,以及其他可解釋性動態(tài)語言的一些特點,使它已經發(fā)展成為多數(shù)在軟件平臺上自動撰寫軟件腳本和快速自動實現(xiàn)軟件應用的一種軟件開發(fā)編程應用語言,隨著最近幾個語言版本的不斷更新和應用軟件編程語言中各種新技術功能的持續(xù)增強和不斷增添,它逐漸被廣泛應用于各種獨立的大型工程軟件開發(fā)中。Python的解釋器在代碼設計上非常易于被允許人們進行擴展,它基本可以直接通過使用它和C或者它的C++(或者其他一些原本可以直接通過C或C++來進行調用的高級編程腳本語言)代碼來進行拓寬新的代碼功能和大量的數(shù)據類型。python還使它可以廣泛應用在一些基本可進行定制和優(yōu)化的應用軟件中,并作為一種可以擴展的可編程腳本語言。python豐富的文件標準庫,提供了一個可以適用于各個主要的文件系統(tǒng)操作平臺的標準源代碼或者可以是各個機器的源代碼。網絡爬蟲網絡網頁爬蟲(我們也可以稱之為聯(lián)系網絡搜索蜘蛛或網絡搜索機器人的簡稱。在許多FOAF在線社區(qū)中,我們可以更經常地稱之為聯(lián)系網絡信息跟蹤器或追蹤器),是自動地從萬維網上捕捉到網頁信息的一種應用程序或者說是編程腳本。不過得按照一種一定的操作規(guī)則和思維方式,其他一些很少廣泛使用的文件名稱也可能包括了搜索螞蟻,自動程序搜索,模擬操作過程或搜索蠕蟲。網絡搜索爬蟲應用軟件本身就是一個自動輕松地直接提取萬維以上網頁的爬蟲應用程序,它為了能夠讓整個搜索結果引擎從萬維網上直接提取下載萬維網頁,它是全數(shù)搜索引擎的重要性能之一。爬蟲從一個或多個初始的爬蟲上抓取網頁,在開始進行URL抓取時,獲取開始抓取網頁上的每個URL。在爬蟲對初始頁面進行抓取的整個進程中,爬蟲會自動從眼前的初始頁面從頭進行抓取,提煉新的webULR并將其納入整個抓取隊列中,直至系統(tǒng)的抓取暫停要求基本滿足。而后,它會依據某個網站的搜索被捕獲,從整個系統(tǒng)的網站搜索隊列中取這個策略,在任何網站選擇中找到最終搜索需要被搜索引擎抓取的網站目標這個網頁的URL,并反復進行重復上述的搜索過程。直到整個網站搜索抓取站點達到整個系統(tǒng)的特殊搜索工作處理要求時該抓取點才主動終止。數(shù)據清洗規(guī)則表達式,我們翻譯過來稱之為正則表達式(RegularExpression)。經常簡寫為(regexp,regex,RE),是當代計算機編程技術的一個關鍵本原性函數(shù)概念。正則表達式其實就是對一個規(guī)則字符號或串符號進行過濾操作的一種所謂邏輯過濾公式,就是我們利用事先已經設置和邏輯界說好的一些特殊規(guī)定的字符、及這些特殊規(guī)定的字符的彼此組合,輸出一個“規(guī)則”字符串。它是我們作為用于表明對一個規(guī)則字符串的一種具備邏輯思維性質的篩選。鑒于正則表達式主要被廣泛應用的文本對象都已經是大型文本,因此它在各類大型文本格式編輯器的應用場合都已經完全具備了廣泛的實際應用。二十世紀中旬,一篇題目是《神經網事件的表示法》的論文,應用叫之為“正則集合”的數(shù)學符號來刻畫此模型,并且引進了正則表達式的觀點。而這篇論文的作者是一位名叫StephenKleene的數(shù)學科學家,他是在WarrenMcCulloch和WalterPitts這兩位科學家工作的根基之上深入研究的。正則表達式可以寬泛用來描繪多數(shù)人以為的“正則集的代數(shù)”的一種數(shù)學表達式。它被廣泛地當作一類術語。正則表達式是根據正規(guī)語言(formallanguage)和自動機理論(automatatheory)生長而來的。正則表達式是由常數(shù)和運算子所組成的,分別表示了字符串的集合和對這些集合的運算操作ADDINCNKISM.Ref.{393997C0EA3D4b9685E42F0B427F1EE5}[11]。分詞技術分詞是把貫串的詞序列遵循一定的標準重新連合成詞序列的流程。在英語中,空格就像是兩個單詞之間的自然邊界,而在現(xiàn)代漢語中,只有一個單詞、句子和部分可以通過明顯的自然邊界進行劃分。只有正式單詞才能具體。雖然現(xiàn)代英語也存在著詞匯劃分方式上的困難,但是漢語比普通的英語在詞匯上復雜得多,難度也大得多。中文英語分詞的應用方法不僅不能局限于簡體中文的單詞應用,還廣泛地可以應用于繁體英文的單詞處理,例如英文手寫體的準確識別,單詞之間的所在位置和作用空間邊界并非很清晰,中文英語分詞的應用方法確實能夠有效地起到幫助我們準確識別每個英文單詞的空間邊界。中文的分詞技術是歸納到了屬于大學生自然語言處理的技術之中。對于一個簡單的句子,人們就是可以通過自身的知識去認清哪些詞是,或不是,但如何能夠讓計算機更好地理解呢?這個簡單的過程是分詞算法?,F(xiàn)有的英語分詞解析算法主要類型可以詳細劃分如下為三種分詞類型:基于不同字符串類型匹配的解析分詞、基于語言認知的解析分詞及基于數(shù)據統(tǒng)計的解析分詞。根據綜合分詞標注法操作是否完全與綜合詞性分析標注的整個操作過程是否進行有機結合,可以分別劃分出較為簡易的綜合分詞標注法、簡易的綜合分詞詞性標注兩種基本一體化的操作方法。文本表示和特征選擇文本表示一般就是把文本的非數(shù)字化的字面的數(shù)據轉換成機器看的懂的矩陣化的數(shù)字數(shù)據。簡單地一句話說,就是不把文本看作是一個字符串,而把它看作是一個在數(shù)學上進行處理得起來較為方便地使用的矢量。而如何把一個字符串轉換為一個向量,就是當前進行文本顯示時的一個核心問題。首先在文本預處理之后要完成的任務是將文本字符處理成計算機可以直接處理的情形,所以我們的一般化處理結構化數(shù)據都是以向量的方式展示出來。很重要的是處理前后我們希望得到效果的是語義關系不變,即向量化前后能夠維持詞的相似性不變。關于這個有很多種,一般文本表示基于類型分為長表示,短表示(句子)和詞表示?;诒硎痉椒ǚ譃殡x散表示,具體操作為One-hot表示,Multi-hot表示,分布式表示,基于矩陣的基于降維表示和基于聚類表示和基于神經網絡的CBOW(ContinuousBag-of-WordsModel),Skip-gram(跳字模型),NNLM,C&W。更加專業(yè)的分類就是將文本表示分為深層表示和淺層表示。不做特征提取直接導入在分類模型中的表示稱之為淺層表示,慣用的有概率模型(ProbabilisticModel),布爾模型(BooleanModel)等。比如常用的淺層表示模型有獨熱編碼(one-hot)的詞袋模型BOW和TF-IDF模型。當然深層表示就是要抽取數(shù)字特征信息后的表示,例如詞嵌入表示,它是指將一個詞映射到N維向量空間中,其能夠得當?shù)谋硎疚谋旧舷挛恼Z義關系。深層表示的優(yōu)點就是更加接近人的思維方式來學習訓練,同時具有很強的特征表述能力,還可以學習到詞之間的上下文語義信息,而這些學習到的文本特征很貼合于后面運用深度學習做相應的NLP任務。如下表2-1所示。很明了的展示了各個方法的優(yōu)缺點。表2-1各文本表示方法的優(yōu)缺點文本表示方法缺點優(yōu)點布爾模型精確度偏低,結構簡單易懂,可解釋性強無法很好的區(qū)分文檔之間的重要程度概率模型參數(shù)的估計難度大并且文檔表達能力弱斟酌了上下文的語義銜接關系向量空間模型忽略了語義之間的聯(lián)系可操作性可計算性強,并且擁有優(yōu)秀的文檔表達能力除了文本表示,有時要選擇合適的選擇特征以此來提高分類器的分類效果。我們知道一般情況下的文本的特征項會很多,尤其是長文本的新聞信息數(shù)據,如果不經過特征選擇,在處理的時候經常會出現(xiàn)重復的不相關的特征屬性。通過特征選擇可以剔除對分類準確率生成不良影響的噪音,從而達到降少維數(shù)和計算量的效果ADDINCNKISM.Ref.{39205AE82F5E45beB5CDF985003E598F}[12]。FSS(FeatureSubsetSelection)特征子集選擇簡單稱之為特征選擇(FeatureSelection),或屬性選擇(AttributeSelection)。它指的是自已有的W個特性(Feature)中遴選M個特性(Feature),使得其特定指標最優(yōu)化,是從初始特性中擇取出某些最有用的特質以此來降低數(shù)據集維數(shù)的歷程,是在模式識別進程中最為重要的一個數(shù)據信息預處理的措施,也是優(yōu)化算法指標的一個關鍵方法。此外,還需要進行特征提取。特征提取(featureextraction)主要是一種泛指通過利用對己經具體的特征進行計算而獲得一個比其他物體具有相當于現(xiàn)實特征的數(shù)據集,也是一種泛指通過計算方式而得到特征的算法。特征選擇過程一般包括孕育過程,評介函數(shù),停止標準,過程考證這四個部分。一般而言,特征的選取也可以被看成一個搜索和優(yōu)化的問題。例如對于大小為N的特征集,搜索空間由2N-1個可能狀態(tài)構成。Davies等人證明了最小特征子集的搜索是NP問題,即除窮舉搜索外,不能保證找到最優(yōu)解。在實際情況中,當特征個數(shù)較多時,由于計算量較多,簡單的窮舉搜索就無法應用了,所以大家都盡力來運用啟發(fā)式搜索(Heuristicsearch)算法來找尋次優(yōu)解。一般特征選擇算法必須明確下面四個要素:1)搜索方向和起點;2)搜索方法;3)特征評價函數(shù);4)停止準則。子集評價子集生成子集評價子集生成原始數(shù)據 特征子集停止準則停止準則結果驗證否是結果驗證圖2-1特征選擇的基本架構從特征搜索選擇的基本工作框架中我們已經可以清楚地明顯看出,特征搜索選擇的工作方法中主要有4個基本的工作步驟:候選集和特征搜索子集的數(shù)據產生(采用網絡特征搜索候選策略)、評估目標準則、暫停評估準則和特征檢測值的驗證。目前關于搜索特征類型選擇分析方法的理論研究主要方向是重點集中在應用搜索選擇策略與應用評價目標準則兩個不同方面,因而,一般來說是從應用搜索選擇策略與應用評價目標準則兩個不同維度對各種搜索特征類型選擇分析方法的應用重要性分別進行了具體分類。特征選擇的一般過程:(1)孕育過程(GenerationProcedure)產生的搜索過程就是負責搜索一個評價特征函數(shù)子集的一個摸索進程,控制搜索給出一個評估特征函數(shù)時所選取必要的評介特征這個子集。(2)評介函數(shù)(EvaluationFunction)評判一個函數(shù)被寬泛認可為是以一種評估某一函數(shù)特征及其子集的功能好壞有用水平的關鍵準繩。(3)停止標準(StoppingCriterion)停止查找準則普遍認為是與一個評介量度函數(shù)臨界值有關的,大家都認同的一個標準是評價一個臨界值,當一個評介衡量函數(shù)的該臨界值通常大于或者達到該評價閾額的值后便停止即使你可以暫且地選取停止它并進行信息搜索。(4)過程考證(Processresearch)在未被驗證的一個數(shù)據集中對被驗證所有的篩選顯示出來的一個作為特征集的子集無論是否被認為有效。比較常用的特征選擇算法有:卡方統(tǒng)計,信息增益以及詞頻(termfrequency,TF)-逆文檔頻率(inversedocumentfrequency,IDF)等ADDINCNKISM.Ref.{EB478A3A84E147a4A2DAA3FEE52CBDAA}[13]。文本向量化NLP所能學習理解和達到的數(shù)學問題仍然需要被轉化成人類機器所能學習理解到的物理問題,第一步必須做出肯定的事就是我們仍然需要不斷尋求一種新的數(shù)學方法將這些自然符號形式進行綜合數(shù)學化。單詞定義向量技術是詞泛指在大多數(shù)中國人眼中認為是在互聯(lián)網基礎信息技術服務背后常見的一種基礎性信息技,它通常是基于搜索管理引擎、廣告管理系統(tǒng)、推薦管理系統(tǒng)等各類型的互聯(lián)網基礎信息技術服務的背后。它分為詞的分布式表示distributedrepresentation——獨熱表示(One-hotRepresentation)、基于迭代的方法——Word2vec等三類。(1)獨熱表示(One-hotRepresentation)這種方式是將各個詞體現(xiàn)成一個很長的向量。這個向量的維數(shù)是詞表大小,個中遠超過半數(shù)元素為0,僅有一個維數(shù)的值為1,這個維數(shù)就代表了此刻的這個詞。這種方法比較簡單,然而其也存在著一個關鍵的問題,即“詞匯鴻溝”情景。其解釋為隨意兩個詞之間都是孤立的。從數(shù)學上解釋,正交基的積為0。參數(shù):input(Variable)--輸入指數(shù),最后維度必須為1depth(scalar)--整數(shù),定義one-hot維度的深度返回:輸入的one-hot表示返回類型:變量(Variable)例如:有如下三個特征屬性:性別:[“male”,”female”]地區(qū):[“Europe”,”US”,”Asia”]瀏覽器:[“firefox”,”chrome”,”safari”,”internetexplorer”]。對于這類特征,如果我們進行數(shù)字化的學習就要運用采用機器學習的方式,就需要對它們進行特征的數(shù)字化。importpaddle.fluidasfluidimportnumpylabel=fluid.layers.data(name="X",shape=[1],dtype="int64")one_hot_label=fluid.layers.one_hot(input=label,depth=10)如果以瀏覽器為例:“Firefox”,”Chrome”,”Safari”,”InternetExplorer”,分別對應數(shù)值:0,1,2,3,如“InternetExplorer"的對應值3采用one-hot函數(shù)轉換,可以得到,如下:[0.,0.,0.,1.,0.,0.,0.,0.,0.,0.]。結果說明如下:我們現(xiàn)在可以直接通過一個采用One-Hot編碼的樣本形式示例對上面所有的小樣本“[“male”,”US”,”internetexplorer”]”編碼,“male”則對應著[1.,0.,0.,0.,0.,0.,0.,0.,0.,0.],同理“US”對應著[0.,1.,0.,0.,0.,0.,0.,0.,0.,0.]。這樣導致的一個結果就是數(shù)據會變得非常的稀疏。(2)基于迭代的方法—Word2vec(其基本構造思想就是將自然語言的各個單詞,表達組合成一個具有統(tǒng)一的意義和統(tǒng)一維度的簡短向量)兩個算法:continuousbag-of-words(cbow)和skip-gram。Cbow指的是給定上下文環(huán)境時,預測到該環(huán)境中間的那個中心字。skip-gram正好與之相反,對一個中心字單詞在上下文環(huán)境中的分布進行了預測。兩個訓練方法:負采樣(negativesampling)和分層softmax。word2vec的實現(xiàn)形式有兩種現(xiàn)實形式,即連續(xù)詞袋模型(continuousbag-of-wordsmodel,CBOW)與跳字模型(skip-gram)。CBOWCBOW的結構如圖2-2所示。輸入層直接使用低緯稠密表示,而且用詞向量的求和(平均)值來替代各個拼接的詞向量,這樣會忽略掉目標詞的上下文的順序信息。輸入層隱藏層輸出層輸入層隱藏層輸出層W(v-2)W(v-1)W(v+1)W(v+2)SUMW(v)圖2-2CBOW結構圖Skip-gramskip-gram相對于CBOW技術的架構相反,CBOW是根據前后篇來預測下一個詞語出現(xiàn)的概率,并使得該條件概率越大,而skip-gram則是根據當前的詞語來預測上下文出現(xiàn)的概率,其目標函數(shù)是上下文詞的概率求和,該架構圖如下2-3所示。輸入層輸入層隱藏層輸出層W(v-2)W(v-1)W(v+1)W(v+2)SUMW(v)圖2-3Skip-gram架構圖接下來下表2-2列出了這幾種基于神經網絡的詞向量分布式表示法的上下文表示與目標詞之間的關系,如圖所示。表2-2下文表示與目標詞之間的關系模型上下文表示下文t與目標詞c之間的關系CBOW上下文詞向量的求和(平均)上下文t去估計目標詞cSkip-gram一個詞向量當前詞c去估計其上下文t深度學習和基于深度學習的算法深度學習人工智能(artificialintelligence),英文中人的簡稱也可縮寫為人或人工智能或ai。它主要指的也就是專門用于研究、開發(fā)一門能夠用于設計模擬、拓展和優(yōu)化擴充機器人的工業(yè)智能化工程理論、方法、技術和實際應用知識體系的一門全面而高度符合現(xiàn)代化的智能技術管理課程。人工智能技術是人類現(xiàn)代化和計算機信息科學的一個重要技術分支,它正在試圖深入地研究了解各類人工自然智能的技術本質,并且正在試圖研究制造設計出一種新型的并且能以與其他人類人工智能相似的計算手段和操作方式對其進行處理做出精確響應的圖像智能化處理機器,該核心技術研究領域的主要學術研究領域內容主要有:視覺機器人、語言視覺識別、圖像視覺辨認、自然語言處理和專家系統(tǒng)。自從基于人工智能從2000年誕生以來,理論和應用技術日益成熟,應用覆蓋范圍也在逐步得到擴展,我們似乎可以清晰預見一種設想,未來幾年內由基于人工智能所開發(fā)帶來的許多高新技術和智能產品,將會很有可能發(fā)展成為整個現(xiàn)代人類乃至智慧社會發(fā)展的“容器”。而且這種人工智能技術能夠幫助模擬一個人的自我認知、思考生活中的各種信息以及流行中的過程。雖然它的人工智能本身并非僅僅是任何其他現(xiàn)代人的人工智能,但它卻是既有可能如同其他任何現(xiàn)代人那么認真地進行思考、也是具有可能遠遠能夠超過任何其他現(xiàn)代人的人工智能。人工智能技術是一門具有極富技術挑戰(zhàn)性的科學,從事該技術的每個人都必須掌握計算機的基礎知識,心理學和社會哲學。人工智能技術是一種包含了十分廣泛的技術和科學,它由不同的領域共同組成,如機器深度學習,計算機視覺等等??偟膩碇v,人工智能技術研究的一個主要目標就是為了使得機器人員能夠輕松地勝任一些往往需要利用人類的智能技術才可以完成的復雜技術工作。然而不同的時期、不同的人們對于這種"復雜工作"有著不同的認識。如圖2-4所示我們可以清晰的看出,人工智能、機器學習、深度學習這三者之間的確有著一種相互包含的關系。深度學習Deeplearning機器學習Machinelearning人工智能圖2-4三者的包含關系深度學習把多而雜亂、龐雜的信息資料經由多層隱秘層進行多重線性或多重非線性算數(shù)而自動形成代表資料特質的特性。本篇中的學術研究方法是基于最近過去的幾年中最受矚目的AI算法即深度學習(DeepLearning)。深度學習主要功能指的是通過學習海量樣本信息數(shù)據的內在變化規(guī)律和具有代表性知識層次,這些深度學習數(shù)據過程中所需要收集和得到的樣本信息分析可以對于進行諸如海量文字,圖像和視頻聲音等大量樣本數(shù)據的綜合理解分析有很好地應用幫助。它的根本發(fā)展目標就是要使你的機器學習能夠真正做到不再像普通人那么完全擁有自己必須具備的數(shù)據分析和機器學習數(shù)據能力,并且機器還要做到能夠自動識別收集包括各種文字、圖像以及各種聲音在內的所有敏感數(shù)據。深度機器學習分析算法其實是一個復雜的新型機器深度學習分析算法,在分析語音和圖像識別兩個科學領域上都已經成功取得了巨大的成功,遠遠地要高于先前的其他相關科學技術。深度學習網絡中使其總層次函數(shù)大致分為三層的新型的神經網絡,這些被寬泛稱為新的深度學習三層神經網絡(deepneuralnetwork,DNN)。它是一種在實際科學應用中用途多多。例如長短期記憶網絡(longshort-termmemory,LSTM),遞歸神經網絡(recurrentneuralnetwork,RNN),卷積神經網絡(convolutionneuralnetwork,CNN)、等多種框架。深度學習能為學習研究者提供很高的準確度,但是需要通過大量的樣本資料,當使用的訓練與測試數(shù)據越多,在模型訓練后的神經網絡才能表示更加準確的分辨結果。當然在實驗語料數(shù)量龐雜的情況下,需要耗費非常多的運算資源。尤其體現(xiàn)在深度學習在訓練(training)和優(yōu)化(optimization)的進程中。還有需要謹記的是,需要先對這些資料進行標記(Labeldata),才能對這些資料進行深度學習神經網絡的訓練。本文主要需要進行網絡文本的正負傾向分析,其根本就是在尋找一個函數(shù),讓電腦能夠判別出來正向、負向、或者中性的文本的情感傾向。尤其是在網絡詞匯非常繁復的如今,更需要連系上下文對文本進行更細膩的剖析,這時候就得讓電腦能夠有自主研究學習的能力,還得擁有記憶功能。標記數(shù)據標記數(shù)據訓練數(shù)據測試數(shù)據模型結果深度學習圖2-5深度學習體系結構圖基于深度學習的NLP算法以及架構圖詞嵌入算法以詞嵌入的基本概念而言,是將一個維度為所有詞的數(shù)量的高維空間嵌入到一個維度低得多的連串向量空間中,每個單詞或詞組被映射為R域上的向量。它是NLP中表征學習方法與語言模型的統(tǒng)稱。詞嵌入的基礎技術主要實現(xiàn)有人工神經網絡,實現(xiàn)代詞矩陣的特定詞匯,概率模型和語義降維,并且其所處上下文中的顯式語義表述等。很明顯看出極大提升了NLP中語法分析儀和文本情感分析等的效果。這部分在文本表示和詞向量里提起過這里不再說明。卷積神經網絡卷積神經網絡(convolutionalneuralnetworks,CNN)是用于深度學習(deeplearning)的一個重要且具有代表性學習算法,它是一種主要用于具有一個深度結構的前饋神經網絡(feedforwardneuralnetworks)并且同時一個包含卷積機器學習系統(tǒng)計算。卷積網絡由于它本身具有了準確表征各種機器神經學習(representationlearning)的強大能力,并且它幾乎可以按其中各個不同階級的神經結構對所有直接輸入的神經信息都分別進行了一個平移不變的綜合分類(shift-invariantclassification),因此也被我們經常統(tǒng)稱稱其為“大型平移運動不變人工神經網絡(shift-invariantartificialneuralnetworks,siann)”。簡單的來說CNN主要結構是由數(shù)據輸入管理層、卷積管理層、池化數(shù)據管理系統(tǒng)層和數(shù)據輸出池化管理層四個子部分共同組成。其中,類似于針對圖像信號處理的“濾波器運算即“卷積運算方式”。還有為了有效裁減長,高兩個不同方向的運算空間而需要進行簡化運算而進行池化(pooling)。卷積池化層與池化層不同,當然我們也沒有必須的去學習的其他的相關參數(shù),只需要從每個層的目標學習空間中任意選取一個平均值。輸入和輸出數(shù)據與硬件輸出之間的任何通路偏差次數(shù)都不會隨之產生太大改變,這是在通過屢次的電池化后的歸納運算,輸入的輸出的數(shù)據之間也只是產生了輕微的通路誤差。圖2-6基于自然語言處理的CNN遞歸神經網絡(RNN)遞歸神經網絡(recursiveneuralnetwork,RNN)是深度學習(deeplearning)算法之一。它是一種網絡結點按照其聯(lián)接序次對輸入數(shù)據進行遞歸并且擁有不同樹狀階級架構的人工神經網絡(ArtificialNeuralNetwork,ANN)。在1990年,最早就有人提出遞歸神經網絡(recursiveneuralnetwork,RNN),它馳名中外作為一種具有循環(huán)遞歸性的神經網絡。其一直都被視為循環(huán)神經網絡(recurrentneuralnetwork)的推廣。當遞歸神經網絡的每個父結點都僅與一個子結點聯(lián)接時,其架構就等價于全聯(lián)接的循環(huán)神經網絡。由于其架構擁有一種拓撲化的架構和無數(shù)種可變性而又因為相互關系共享其權重易于調配,遞歸神經網絡在數(shù)學領域和自然語言處理(naturallanguageprocessing,NLP)方面有受到關注。它被普遍使用在于一些已經包含了許多種結構性彼此關系的大型機器語言學習和數(shù)學研究進度。例如最簡單的RNN,x是一個向量,它表示輸入層的值。s是一個向量,它表示隱藏層的值。U是輸入層到隱藏層的權重矩陣,o也是一個向量,它表示輸出層的值;V是隱藏層到輸出層的權重矩陣。如圖2-7所示。圖2-7RNN簡單表示深度學習平臺tensorflow這是一個基于谷歌數(shù)據庫的流程式編程(dataflowprogramming)的一種符號類型數(shù)學學習系統(tǒng),被廣泛應用于各種網絡機器算法學習(machinelearning)和各種神經網絡機器算法的數(shù)據編程和計算實現(xiàn),其技術前身被稱為來自谷歌的一個神經網絡和機器算法數(shù)據庫--distbelief。tensorflow具備一個多層企業(yè)級軟件架構,它不僅可以直接自動部署在各種軟件服務器、pc移動終端及各種網頁上,并且可以支持基于gpu和tpu的高性能根據數(shù)值分析計算,被廣泛地可以應用在基于谷歌內部的軟件產品開發(fā)及其他各個領域的基礎科學研究探索技術研究中。tensorflow由來自谷歌多個人工智能開發(fā)團隊組成谷歌人工大腦(googlebrain)專門負責軟件開發(fā)和維護運行以及維護,擁有了多個包括軟件tensorflowhub、tensorflowlite、tensorflowresearchcloud等多個開發(fā)項目以及各種類型的谷歌應用程序開發(fā)接口(applicationprogramminginterface,api)。從2015年11月9日起,tensorflow基于阿帕奇授權代碼協(xié)議(apache2.0opensourcelicense)成為開放共享源代碼。本章小結本章介紹了搭建需要的技術和NLp相關的理論知識,講述了一般文本分類的流程和文本的向量化方法,然后簡單列舉了幾種常見的統(tǒng)計文本分類算法,最后重點分析了深度學習神經網絡框架。設計過程實現(xiàn)架構設計如下圖3-1所示,總共有四個主要步驟。一是爬蟲模塊。顧名思義,根據從一個網站上直接傳來的url鏈接,分配數(shù)據到任何一個線程,然后通過開始搜索啟動該線程,調用各種爬蟲搜索方式進行搜索和通過爬蟲獲取整個本站網頁。然后下載一個開源網頁,對這些開源網站的所有標簽文本以及內容標簽進行提取處理,例如標簽過濾和抽取刪除標簽功能,抽取特殊的html等等標簽的提取功能,分析和跟蹤收集相關數(shù)據。再次記錄存儲在您的網頁中被所有下載文件保護了以及將所有數(shù)據記錄下來的再次存儲數(shù)據容器,并為您網站提供了一個可以自動生成網頁索引的所有目標數(shù)據資源。二是使用正則表達式進行數(shù)據清洗,得到干凈的句子預處理模塊深度學習模塊爬蟲模塊微博爬蟲預處理模塊深度學習模塊爬蟲模塊微博爬蟲數(shù)據數(shù)據清洗實驗語料分詞詞向量轉化訓練集,驗證集劃分深度學習參數(shù)調試圖3-1系統(tǒng)整體框架圖三是對得到的數(shù)據進行分詞處理,進行詞向量轉化,將文本轉換為數(shù)字列表,然后截長補短,轉化為計算機可進行計算的矩陣。句子或單詞文件在第一次進行輸入時所有的需要再次經歷的embedding(word2vec或者woglove)過程都會被直接把它表示成作為一個列的矢量矩陣,其中每個行分別直接表示一個輸入單詞,行的每個總計長度就是一個輸入句子的單詞長度,列的總數(shù)和計算就是這個列的維度。比如一個矩陣可以設計包含十個維的話題和十條句子的一維矩陣,使用100維的函數(shù)embedding,最后我們就這樣設計和給出了一個一維矩陣的基本輸入值函數(shù)為10x100。四是建立模型,模型訓練。為了在訓練過程中實時觀察訓練情況,我們可以定義一個正確率和損失率得到折線圖觀察情況。爬蟲模塊爬蟲調度端爬蟲調度端URL管理器網頁解析器網頁下載器價值數(shù)據發(fā)現(xiàn)目標URL圖3-2爬蟲總體圖URL輸入URL輸入網頁下載器URL管理URL抓取優(yōu)化圖3-3URL管理器URL輸入URL輸入線程1線程2線程N爬取規(guī)則網頁解析器輸出HTML圖3-4網頁下載器輸入HTML輸入HTML線程1線程2線程NURL管理器價值數(shù)據解析內容是否為目標URL是否為價值數(shù)據是否是圖3-5網頁解析器預處理模塊主要包括三部分,如下圖3-6流程圖網頁選擇及數(shù)據處理網頁選擇及數(shù)據處理建立關鍵詞庫對比,進行人工判定正負圖3-6預處理模塊流程圖然后進行數(shù)據抓取,在實現(xiàn)過程中我選用的目標網站是微博。我們需要從中提煉有價值的信息數(shù)據,但是每個網站都有自己固定不變的操作準則,因此,正則表達式也不盡相仿。微博網址(/?topnav=1&wvr=6)的正則表達式,分為內容網址標題正則表達式(</?.*?>|\s|.{5})和列表頁正則表達式(<pclass="txt"node-type="feed_list_content"nick-name="(.*?)">(.*?)</p>)。緊接著就是確立關鍵詞庫。比如以哈爾濱夜市為例,要建立與黑龍江哈爾濱夜市有關聯(lián)的關鍵詞庫,其關鍵詞就是黑龍江,哈爾濱,夜市,以及和哈爾濱有關的事宜。所以要把這些作為關鍵詞全部保存。對正則表達式和關鍵字比較后得到的文本內容進行正負判斷。爬網語料庫的正負判斷為1,負判斷為0,存儲在數(shù)據庫中。到這語料庫的準備工作全部完成。接下來是找到最適合系統(tǒng)的深度學習框架,而這個的前提就是要對語料數(shù)據庫進行剖析。深度學習模塊建立深度學習模型再訓練模型進行參數(shù)調試建立深度學習模型再訓練模型進行參數(shù)調試實驗數(shù)據分詞詞向量轉化訓練集,驗證集劃分LSTMGRUBLSTMCNN圖3-7深度學習模型架構共分為四步。一是進行分詞。在NLP內,詞是最小的單位。實驗過程使用結巴分詞的技術來切割句子。二是詞向量轉化。最先應用標簽將庫文本轉化為數(shù)字表格,然后在嵌入層將數(shù)字表轉化為向量表。再次,將數(shù)據集分為訓練集和驗證集。第四,進行訓練和驗證,為了找出最佳的學習效果而選擇激活函數(shù)和優(yōu)化器。本章小結本章主要介紹系統(tǒng)整體的設計框架,詳細介紹了爬蟲的原理和數(shù)據預處理。以及簡要深度學習常用的四種模型。下面在實現(xiàn)部分講詳細介紹本實驗中用的模型CNN。設計實現(xiàn)實驗環(huán)境實驗硬件配備:處理器使用Intel(R)Core(TM)i5-8250UCPU。在實驗中需要的各種庫有:用于處理中文分詞的jieba技術,有Keras庫基于TensorFlow的深度學習,有numpy用于高效處理大型多維數(shù)組,用于模型搭建完參看的tensorboard。深度學習平臺:TensorFlow實驗數(shù)據本文的訓練數(shù)據是通過爬取新浪微博對應的網絡評論,總共包括25000條?;谏疃葘W習框架的實驗結果分析NLP中的CNN深度學習卷積神經網絡CNN結構。主流來看,CNN主要是應用在計算機視覺領域,并且可以說由于CNN的出現(xiàn),因此CV的研究與應用都有了質的飛躍。目前對NLP的研究分析應用最多的就是RNN系列的框架,例如RNN,GRU,LSTM等,再加上注意,基本可以認為是NLP的標配套餐了。RNN,CNN的重建和訓練更為簡單和快速,并且效果也不差,所以仍然會有一些研究。那么,CNN是如何在NLP上應用的。下面給出了介紹。句子或文檔在輸入時經歷embedding(word2vec或者Glove)會被表示成矢量矩陣,其中每個行表示一個詞,行的總計是句子的長度,列的總數(shù)就是維度。例如一個包含十個句子的句子,使用了100維的embedding,最后我們就有一個輸入為10x100的矩陣。在CV中,過濾器以一個補?。ㄈ我忾L度x任意寬度)的形式滑過遍歷整個圖像,但是在NLP中,過濾器會覆蓋到所有的尺寸,也就是形狀為[filter_size,embed_size]。更加具體地理解可以看下圖,輸入為一個7x5的矩陣,filters的高度分別為2,3,4,寬度和輸入矩陣一樣為5。每個filter對輸入矩陣進行卷積操作得到中間特征,然后通過pooling提取,最終得到一個包含6個值的特征向量。圖4-1CNN具體結構模型框架直至目前為止,我們的模型框架都已經建成并且完工,可以直接使用Tensorboardd來瞧瞧它到底有個什么樣子。圖4-2模型框架可視化結果模型訓練出現(xiàn)的結果。這只是很少的一部分截圖。圖4-3訓練模型結果圖4-4正確率圖圖4-4損失率圖本章小結本章主要介紹了所使用的實驗情況以及所需要的實驗資料與最終實驗成果的分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 給水管網擴建方案
- 教資素養(yǎng)(教育教學方法)試題及答案大全
- 2025成都學位外語考試真題及答案
- 2025朝花夕拾考試真題及答案
- 2025年2025 年安全生產月安全檢查標準試題及答案
- 建筑裝飾工程水管施工與改造方案
- 高蛋白生物飼料生產加工項目風險評估報告
- 工程設備施工管理與控制方案
- 城市景觀公園提升設計
- 景觀施工質量評估方法
- 2025年貴州高考生物試卷真題及答案詳解(精校打印版)
- 2025四川成都高新投資集團有限公司選聘中高層管理人員4人筆試參考題庫附答案解析
- 湖南省九校聯(lián)盟2026屆高三上學期9月第一次聯(lián)考物理試題(含答案)
- 水利工程水利工程施工技術規(guī)范
- 健康安全緊急培訓內容課件
- 從安全感缺失剖析《榆樹下的欲望》中愛碧的悲劇根源與啟示
- 2025中證金融研究院招聘11人考試參考題庫及答案解析
- 2025年保密觀考試題庫及答案
- 遼寧省名校聯(lián)盟2025年高三9月份聯(lián)合考試政治(含答案)
- 國產美妝品牌完美日記短視頻營銷策略研究
- 漁業(yè)現(xiàn)場執(zhí)法培訓課件
評論
0/150
提交評論