


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
電子商務(wù)的智能搜索引擎技術(shù)的研究
一、搜索引擎的現(xiàn)狀當前搜索引擎數(shù)據(jù)庫檢索和應(yīng)用性差,不利于用戶使用;排序技術(shù)指標單一,查找到的信息有效性低;信息分類類目和標準不統(tǒng)一,導(dǎo)致界而友好性低;自身搜索技術(shù)不成熟,誤檢率高,不利于電子商務(wù)使用。搜索引擎主要由搜索器、索引器、檢索器和用戶接口四部分組成。搜索器一般采用一種被稱為Spider的網(wǎng)絡(luò)自動跟蹤索引程序。索引器的功能是理解搜索器所索引的信息,從中抽取索引項、建立起自己的物理索引數(shù)據(jù)庫。檢索器的功能是根據(jù)用戶的查詢在索引庫中快速檢索出文檔,進行文檔與查詢的相關(guān)度評價,對將要輸出的結(jié)果進行排序,并實現(xiàn)某種用戶相關(guān)性反饋機制。用戶接口的作用是輸人用戶查詢,顯示查詢結(jié)果,提供用戶相關(guān)性反饋機制。目前搜索引擎根據(jù)構(gòu)建時的不同策略,大致可以分為三種模式:一、建立在分類基礎(chǔ)上的搜索引擎,優(yōu)點是準確率比較高,不足是查全率不是很好。二、建立在索引文檔基礎(chǔ)上的搜索引擎,優(yōu)點是搜索網(wǎng)絡(luò)信息效率高,查全率好于第一種,但查準率不及第一種;三、建立在概念的基礎(chǔ)上,突破了傳統(tǒng)搜索引擎中相對比較簡單的基于關(guān)鍵詞的匹配,它借助數(shù)據(jù)字典擴展條件,通過模式的提取和識別抽象化搜索條件與文檔之間的聯(lián)系,這種搜索引擎的查準率較差,而查全率是三者中最高的。利用人工智能先進技術(shù)重新設(shè)計搜索引擎,使搜索引擎更具智能化,使檢索結(jié)果更能反映用戶的需求,這類搜索引擎稱為智能搜索引擎。把信息檢索從目前基于關(guān)鍵詞層面提高到基于知識層面,是解決問題的根本和關(guān)鍵。二、智能檢索技術(shù)的分析研究1.網(wǎng)絡(luò)Robot的智能技術(shù)分析研究網(wǎng)絡(luò)Robot是一種軟件,它完成任務(wù)必須具備一定的智能,可以概括為以下幾個方面:(1)提取網(wǎng)頁中的有效鏈接智能Robot從分析一組指定的URL開始,按照電子商務(wù)的電子詞典對文檔的相關(guān)性進行判斷提取超鏈,濾去不適宜的文檔,降低索引的混亂程度,滿足條件的超鏈按照標題或單詞建立索引并產(chǎn)生本地數(shù)據(jù)庫,使搜索結(jié)果更加純凈。(2)識別訪問過的鏈接,剔除廣告等無意義的鏈接智能Robot排除掉那些在目標URL中已被訪問過的URL;由于WWW的巨大規(guī)模,為避免Robot搜索得太深,從而回不到原處的情況發(fā)生,必須對搜索的深度進行限制;剔除圖像、音頻、視頻等無法進行索引的文檔。(3)確定搜索策略Robot的搜索策略是指當Robot搜索到一個文檔后,下一步應(yīng)當轉(zhuǎn)移到哪個文檔的方法問題。它主要有以下幾種搜索策略:①IP地址搜索策略。它實現(xiàn)的方法是先賦予Robot一個起始的IP地址,然后根據(jù)IP地址遞增的方式搜索本IP地址段后的每一個WWW地址中的文檔。優(yōu)點是搜索全面,缺點是不適宜大規(guī)模的搜索。②深度優(yōu)先搜索策略。它是從起始節(jié)點出發(fā),一直搜索到那些不包含任何超級鏈接的文件為止,然后再返回某一文檔,再繼續(xù)選擇該文檔中的其他超級鏈接。優(yōu)點是便于發(fā)現(xiàn)新的站點,但信息面增長相對慢一些。③廣度優(yōu)先搜索策略。它是先搜索完一個Web頁面中所有的超級鏈接,然后再繼續(xù)下一層的搜索,直到最底層為止。它能夠很好地解決搜索面的問題,缺點是對于深層Web文檔要花很長的時間才能到達。我們采取深度與廣度相結(jié)合的策略來采集文檔,滿足條件的文檔放到搜索數(shù)據(jù)庫并建立索引數(shù)據(jù)庫,針對鏈接內(nèi)容發(fā)生變化,采取迅速、及時的更新機制,建立的索引庫供檢索數(shù)據(jù)使用。2.搜索條件的獲取和智能分析研究通常搜索引擎支持最多的是關(guān)鍵詞搜索和在此基礎(chǔ)上的邏輯運算,在初步搜索結(jié)果中再搜索和限制條件較為復(fù)雜的高級搜索,這種簡單的用戶信息獲取方式勢必直接影響著搜索結(jié)果的準確性和相關(guān)性。目前,由于各類電子商務(wù)站點使用的搜索引擎都是基于關(guān)系數(shù)據(jù)庫的檢索引擎,它無法處理在用戶看來是非常普通的常識性知識,更不能處理個性化知識、區(qū)域性知識以及專業(yè)性知識等。造成上述種種信息檢索困難的原因在于搜索引擎缺乏知識處理能力和理解能力,對要檢索的信息僅僅采用機械的關(guān)鍵詞匹配來實現(xiàn)。智能搜索引擎檢索的內(nèi)容應(yīng)該是知識而不是信息,它對查詢條件的智能分析主要包括以下兩種:(1)提取查詢條件中的有效成分,包括詞匯和邏輯關(guān)系。(2)建立電子商務(wù)知識庫來獲取關(guān)鍵詞的同義詞、近義詞及相關(guān)詞,如計算機、電腦和微機是同義關(guān)系,建立概念之間復(fù)雜的語義關(guān)系及常識上的聯(lián)系,如相機與膠卷存在常識上的聯(lián)系。根據(jù)語義關(guān)系和常識性聯(lián)系對用戶查詢進行相關(guān)性聯(lián)想,提供引導(dǎo)用戶進行下一步查詢的線索。這樣一步步地在與用戶交互過程中誘導(dǎo)用戶“表達”出他真正想找的東西,從而實現(xiàn)對查詢的智能導(dǎo)航。三、結(jié)論互聯(lián)網(wǎng)智能搜索是一個新興的極具魅力的研究領(lǐng)域,它不但為商務(wù)主體提供了迅速接人Internet搜索自己所需商品的智能技術(shù),而且也免除了交易雙方對象尋找進
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- java網(wǎng)絡(luò)原理面試題及答案
- 五防培訓(xùn)考試試題及答案
- 果實類型試題及答案
- 醫(yī)院內(nèi)勤考試試題及答案
- 錦州電信面試題及答案
- 老年健康自查技巧大公開
- 家電公司質(zhì)量標準管理規(guī)章
- 保安知識講座培訓(xùn)總結(jié)課件
- 便利餐盒采購方案(3篇)
- 惡意劃車賠償方案(3篇)
- GB/T 29912-2024城市物流配送汽車選型技術(shù)要求
- 《信息安全技術(shù) 網(wǎng)絡(luò)攻擊定義及描述規(guī)范》
- 《酒店客戶關(guān)系管理 》課件-項目三 酒店客戶關(guān)系管理制度
- 四代住宅的施工難點
- 企業(yè)貸后檢查報告范文
- 高考英語3500詞頻表
- 《腫瘤溶解綜合征》課件
- 電瓶車以租代購協(xié)議書范文范本
- 2024年六西格瑪黃帶認證考試練習題庫(含答案)
- 健康證記錄表-自動提示過期功能
- 商用車背車裝載技術(shù)要求編制說明
評論
0/150
提交評論