




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第2課 自然語言描述算法 浙教版五年級(jí)上冊01.描述算法的常用方法。02.用自然語言描述算法。目錄第一節(jié)1.描述算法的常用方法。
算法的描述方法把求解問題的方法及其步驟用一種規(guī)范、可讀性強(qiáng)的方式描述出來稱為算法的描述,常用的描述方法有自然語言描述、流程圖描述、偽代碼描述等第一種:流程圖流程圖是描述代碼的一種很好的工具,利用流程圖,可以很好的表現(xiàn)出秩序執(zhí)行過程中的三種基本結(jié)構(gòu)組成一順序結(jié)構(gòu)、選擇結(jié)構(gòu)、循環(huán)結(jié)構(gòu)等。需要注意的是,在使用流程圖時(shí),規(guī)定需要使用一些基本圖形。流程圖(N-S圖)還有一種流程圖,叫做N-S圖,是在以前的流程圖的基礎(chǔ)上重新進(jìn)行了改變,去掉了流程線,并且算法的每一步都用一個(gè)框進(jìn)行描述,最終的執(zhí)行是將所有的矩形框按照順序連接起來。第二種:偽代碼偽代碼是一種介于我們編寫的由機(jī)器執(zhí)行的語言,但是又不受語法約束的代碼。這種語言時(shí)無法被機(jī)器執(zhí)行的,但是和流程圖一樣,也是一種常用的描述算法的方法。偽代碼主要是用來表示代碼之間的邏輯關(guān)系,并不能交由計(jì)算機(jī)執(zhí)行。因此,主要使用對(duì)象是設(shè)計(jì)師和程序員,是用來表達(dá)在編碼前對(duì)算法執(zhí)行過程中的一些想法的工具。第三種:自然語言算法的第三種表述,就是使用自然語言進(jìn)行描述。自然語言比較符合我們的閱讀習(xí)慣,是一種我們都能夠理解的方式。不過,這種方式的缺點(diǎn)是無法很準(zhǔn)確的描述循環(huán)、選擇等結(jié)構(gòu)。1、理解問題。2、分析問題。 3、確定適當(dāng)數(shù)據(jù)結(jié)構(gòu)和流程控制結(jié)構(gòu)。4、用偽代碼表述算法。5、思考算法正確性與效率。如何寫好算法第二節(jié)2.用自然語言描述算法。
用自然語言描述算法
1.收集數(shù)據(jù):文本信息的常見來源包括-商品評(píng)價(jià)、用戶產(chǎn)出的內(nèi)容(推文、帖子、提問等)、問題解決方案等2.清洗數(shù)據(jù):去除一切不相關(guān)的字符-比如任何非數(shù)字字母的字符(針對(duì)英文);標(biāo)記文本,并拆分為獨(dú)立的單詞;去除不相關(guān)的詞語;所有字母轉(zhuǎn)換為小寫;將拼錯(cuò)的單詞或者多種拼法的單詞與某個(gè)特定的表達(dá)綁定;考慮詞形還原
3.找到好的數(shù)據(jù)表達(dá)方式(one-hotrepresentation):例如可以為數(shù)據(jù)集中的所有單詞制作一張?jiān)~表,將每個(gè)單詞和一個(gè)唯一的索引關(guān)聯(lián)。每個(gè)句子都是由一串?dāng)?shù)字組成(詞表中獨(dú)立單詞對(duì)應(yīng)的個(gè)數(shù))。通過列表的索引,可以統(tǒng)計(jì)出句子中某個(gè)單詞出現(xiàn)的次數(shù)(即詞袋模型),完全忽略句子中單詞的順序4.分類
5.檢驗(yàn)
6.解釋詞語結(jié)構(gòu):在詞袋模型的基礎(chǔ)上進(jìn)行TF-IDF評(píng)分.
7.利用語義:
模型部署之后很有可能遇到在訓(xùn)練集中沒有出現(xiàn)過的單詞,那么模型可能就無法準(zhǔn)確的為這些推文分類。需要獲取到詞語的語義來解決這個(gè)問題(比如:Word2Vec詞向量-用來為單詞尋找連續(xù)嵌入的技術(shù)),也就是說我們需要理解“good”和“positive”比“apricot”和“continent”更接近。8.Word2Vec通過讀取大量文本并記憶出現(xiàn)在相似上下文中的單詞進(jìn)行學(xué)習(xí),在經(jīng)過足夠的訓(xùn)練后,它會(huì)為詞表中的每個(gè)單詞生成生成一個(gè)100-300維的向量,具有相似含義的單詞會(huì)靠的更近
NLP關(guān)鍵的實(shí)際應(yīng)用
1.識(shí)別不同使用者/用戶的客戶群(預(yù)測用戶流失、生命周期價(jià)值、產(chǎn)品偏好)
2.精準(zhǔn)檢測和提取反饋分類(正負(fù)面的評(píng)論觀點(diǎn)、對(duì)衣服尺寸或舒適度等一些特別屬性的提及)
3.根據(jù)意圖進(jìn)行文本分類(請(qǐng)求普通幫助、緊急問題處理)
NLP關(guān)鍵的實(shí)際應(yīng)用
4.對(duì)微博信息進(jìn)行分析,通過社交輿情看關(guān)注點(diǎn)
5.對(duì)郵件分析,結(jié)合貝葉斯算法判斷哪些是垃圾郵
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 全國輔警招聘面試題庫及答案精 編
- 2025年洛寧縣輔警考試練習(xí)題庫(含答案)
- 2025年遼寧省地礦集團(tuán)招聘考試筆試試題(含答案)
- 平安基礎(chǔ)知識(shí)培訓(xùn)課件
- 茶藝學(xué)考試題庫及答案
- 廣西理化考試題庫及答案
- 常見安全知識(shí)培訓(xùn)課件
- 常用工具分類課件
- 帶班工作基礎(chǔ)知識(shí)培訓(xùn)課件
- 安徽省阜陽市成效中學(xué)2024-2025學(xué)年八年級(jí)下學(xué)期第一次月考道德與法治試卷(含答案)
- 2025年靜寧縣城區(qū)學(xué)校選調(diào)教師考試筆試試卷【附答案】
- 2025年乒乓球二級(jí)裁判考試題及答案
- 2025年樂清輔警考試題庫及答案
- 血標(biāo)本采集考試試題附有答案
- 浙江省溫州市龍灣區(qū)2024-2025學(xué)年七年級(jí)下學(xué)期學(xué)業(yè)水平期末檢測數(shù)學(xué)試題
- 北京卷2025年高考語文真題
- 2025年江蘇省蘇豪控股集團(tuán)有限公司校園招聘筆試備考試題及答案詳解(必刷)
- (完整)中小學(xué)“學(xué)憲法、講憲法”知識(shí)競賽題庫及答案
- 2025年行政執(zhí)法人員執(zhí)法證考試必考多選題庫及答案(共300題)
- 2024年自投光伏安裝合同范本
- 乳制品配送服務(wù)應(yīng)急處理方案
評(píng)論
0/150
提交評(píng)論