




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1信息檢索的概念與類型2信息檢索的途徑3信息檢索技術(shù)4信息檢索方法5信息檢索檢索步驟與策略第2章信息檢索原理及技術(shù)方法1信息檢索的概念與類型1.1信息檢索的概念1.2信息檢索的類型1.3信息檢索的流程廣義:信息檢索包括信息的存儲和信息的檢索,又稱為“信息存儲與檢索”兩個過程:信息組織是依據(jù)信息資源的主題內(nèi)容或者外部特征,將無序的信息資源組織為有序集合的過程。
信息檢索是根據(jù)檢索的要求,從檢索系統(tǒng)中檢索出相應信息資源的過程。狹義:信息檢索是指從存儲的信息集合中獲取特定所需的信息。1.1信息檢索的概念手工信息檢索:通過手工方式利用檢索工具來處理和查找文獻的過程。如:文摘、目錄、參考工具書等。脫機批處理信息檢索:指定期由專職檢索人員把許多用戶課題匯總,批量處理提問要求并把結(jié)果提供給用戶。聯(lián)機信息檢索:用戶使用終端設備,通過通信線路與中央計算機連接,直接與計算機對話進行檢索,結(jié)果由終端輸出。光盤信息檢索:光盤信息檢索又稱光盤數(shù)據(jù)庫檢索,即采用計算機作為手段、以光盤作為信息存儲載體和檢索對象進行的信息檢索,是目前應用較為廣泛的一種計算機信息檢索。分為單機檢索和局域網(wǎng)內(nèi)的聯(lián)機光盤檢索。網(wǎng)絡信息檢索:用戶在自己的客戶端上,通過互聯(lián)網(wǎng)和瀏覽器界面對網(wǎng)絡信息進行檢索。包括對通過網(wǎng)絡進行數(shù)據(jù)庫檢索。按檢索方式劃分:手工檢索和計算機檢索計算機檢索又包括脫機批處理檢索、聯(lián)機檢索、光盤檢索和網(wǎng)絡檢索。1.2信息檢索的類型按檢索對象的性質(zhì)劃分:文獻信息檢索、數(shù)據(jù)信息檢索、事實信息檢索。
文獻檢索:從一個文獻集合中查找出專門包含所需信息內(nèi)容的文獻,是以文獻為檢索對象的信息檢索類型。
數(shù)據(jù)檢索:以特定數(shù)據(jù)為檢索對象和檢索目的的信息檢索類型稱為數(shù)據(jù)檢索。
事實檢索:是獲取以事物的實際情況為基礎而集合生成新的分析結(jié)果的一類信息檢索。1.3信息檢索的流程信息存儲過程信息檢索過程著錄標引比較匹配分析選定編制信息資源信息選擇收集信息主題數(shù)據(jù)庫記錄及信息特征標識信息用戶信息需求信息主題檢索提問式及提問標識信息檢索檢索結(jié)果評價/反饋檢索語言分析不滿意滿意輸出2信息檢索的途徑信息檢索途徑是由提取信息源的外部與內(nèi)部特征形成的,又稱為檢索點或者檢索入口。1.內(nèi)容特征指由分析構(gòu)成文獻信息源的信息內(nèi)容要素的特征與學科屬性形成的,主要形成分類、主題兩種。內(nèi)容特征途徑:從文獻包含的信息內(nèi)容特征來檢索信息的途徑。2.外表特征指從構(gòu)成文獻信息源的載體、符號系統(tǒng)、記錄方式三要素中提取出的特征構(gòu)成。外表特征途徑:利用文獻的外表特征來檢索文獻信息的途徑。分類途徑主題途徑2.1內(nèi)容特征途徑一種按照文獻資料所屬學科(專業(yè))類別進行檢索的途徑。檢索工具的分類表為我們提供了從分類角度進行檢索的途徑。是通過文獻資料的內(nèi)容主題進行檢索的途徑,主題途徑依據(jù)的是各種主題索引或關(guān)鍵詞索引,主題索引或關(guān)鍵詞索引按檢索詞的字順排列,檢索者只要根據(jù)課題確定了檢索詞(主題詞或關(guān)鍵詞),便可以像查字典那樣,按照字順去逐一查找,從檢索詞下的索引款目,找到所需文獻的線索?!吨袊鴪D書館圖書分類法》1999年推出了第四版,共分5大部類22個基本大類。22個基本大類是在5在部類的基礎上第一次劃分得到的,稱為一級類目,分別對應一個英文字母;從基本大類起,再連續(xù)劃分3次,得到二級、三級、四級類目。采用漢語拼音字母和數(shù)字相結(jié)合的方式對圖書進行分類,是目前國內(nèi)各公共圖書館和高校圖書館普遍使用的圖書分類法,我館藏書也是按照該分類法進行排架。按照學科范疇及知識之間的關(guān)系列出類目,并用數(shù)字、字母符號對類目進行標識的一種語言體系,也稱分類法。目前常用的分類法有《中國圖書館圖書分類法》(簡稱中圖法)、《美國國會圖書館分類法》、《杜威分類法》、《國際專利分類表》。分類途徑中圖法簡表比如H319.4,H表示“英語”大類,319.4代表的是“英語對照讀物”中國圖書館分類法樣例索書號舉例F123.16/W61F123.16-2/Z24/2F123.17/Z89/(2)F123.2/L66-2F12/Y30
專利分類法《國際專利分類表》
《國際專利分類表》(InternationalClassificationofPatentforInvention,簡稱Int.Cl或IPC)1968年9月1日在國際范圍生效,以后每5年修訂一次。
《IPC》按照技術(shù)主題來設立類目表。首先將與發(fā)明專利有關(guān)的全部技術(shù)領(lǐng)域劃分為八個部,部號分別用大寫英文字母A到H來表示。各部(Section)按等級形式再細分為大類(Class)、小類(Subclass)、主組(Maingroup)、分組(Subgroup),形成五級分類的結(jié)構(gòu)形式。
《IPC》由9個分冊組成,1~8分冊分別對應八個部,第9分冊是《使用指南》。在《IPC》中,八個部分別是:
A:生活必需
B:作業(yè)運輸
C:化學與冶金
D:紡織與造紙
E:固定建筑物
F:機械工程;
G:物理
H:電學
用于檢索信息的特點具有等級結(jié)構(gòu),便于擴大和縮小檢索范圍。用分類號做檢索標識,不存在文種的限制。分類表中的類目不能隨時變化,不能及時反映新的學科技術(shù),邊緣交叉學科只能從學科門類進行檢索。隸屬于一個門類下,造成漏檢。例如:查找“軍事”類文獻圖書期刊分類主題詞:以規(guī)范化的詞匯來表達文獻內(nèi)容的主題的詞語。如何提取主題詞:詞意應該具體意義廣泛的詞不應作為檢索詞技術(shù)方面的少數(shù)課題,可直接用課題名稱中包含的具有檢索意義的概念或者代碼關(guān)鍵詞:對表征文獻主題內(nèi)容具有實質(zhì)意義的或?qū)沂疚墨I內(nèi)容來說是重要的、關(guān)鍵性的、只做少量規(guī)范化處理或不做規(guī)范化處理的自然詞語。主題途徑1例如:課題是“經(jīng)濟體制改革有關(guān)資料(1998-1999),如何確定檢索標識?主題詞:國企改革、所有制改革、國有資產(chǎn)管理與制度改革、金融改革、社會保障改革、勞動就業(yè)改革等。2例如:檢索“甲殼素水解制殼聚糖”,如何提取關(guān)鍵詞?關(guān)鍵詞:甲殼素、水解、殼聚糖、制備題名途徑著者途徑文獻編號途徑其它途徑2.2外部特征途徑是根據(jù)文獻的題名來查找文獻的途徑,它依據(jù)的是題名索引。是根據(jù)已知文獻著者來查找文獻的途徑,它依據(jù)的是著者索引,包括個人著者索引和機關(guān)團體索引。是以編號為特征,編排和檢索文獻的途徑,如專利文獻的檢索可根據(jù)“專利號索引”進行檢索。有些檢索工具還附有一些特殊索引,可以通過特殊途徑找到所需文獻的線索。如專用符號代碼索引(分子式,元素符號),專用名詞術(shù)語索引(地名等)。中國現(xiàn)當代文學基礎譚浩強機械工業(yè)出版社1布爾邏輯檢索2截詞檢索4位置檢索常用檢索技術(shù)3全文檢索
計算機信息檢索過程實際上是將檢索提問詞與文獻記錄標引詞進行對比匹配的過程。為了提高檢索效率,計算機檢索系統(tǒng)常采用一些運算方法,從概念相關(guān)性、位置相關(guān)性等方面對檢索提問實行技術(shù)處理。檢索式(formula,profile,statement)是檢索策略的邏輯表達式,是用來表達用戶檢索提問的,由基于檢索概念產(chǎn)生的檢索詞和各種組配算符構(gòu)成。3信息檢索技術(shù)1.布爾邏輯檢索邏輯“與”(用and或*表示)邏輯“或”(用OR或+表示)邏輯“非”(用NOT或-表示)1.布爾邏輯檢索
在檢索實踐中,檢索提問涉及的概念往往不止一個,而同一個概念又往往涉及多個同義詞或相關(guān)詞。為了正確地表達檢索提問,系統(tǒng)中采用布爾邏輯運算符將不同的檢索詞組配起來,使一些具有簡單概念的檢索單元通過組配成為一個具有復雜概念的檢索式,用以表達用戶的信息檢索要求。
用and或*表示,是一種用于交叉概念或限定關(guān)系的組配,它可以縮小檢索范圍,有利于提高檢索的專指性。在網(wǎng)絡搜索引擎中習慣用空格代替。
如查同時含有概念A和概念B的文獻,可表示為:“AandB”或“A*B”。檢索結(jié)果如圖所示,圖中陰影部分即為同時包含A和B兩個概念的命中文獻。(1)邏輯“與”AandBAB
用OR或“+”表示,是用于具有并列概念關(guān)系的組配。這種組配可以擴大檢索范圍,提高查全率。
例如,檢索含有檢索項A或檢索項B的文獻,可表示為:“AORB”或“A+B”。檢索結(jié)果是將含有檢索項A的文獻集合與含有檢索項B的文獻集合相加,形成一個新的集合。檢索結(jié)果如圖1-5所示,圖中陰影部分即為包含A或B的命中文獻。圖中兩者共同的部分只計一次,故避免了命中文獻的重復出現(xiàn)。B(2)邏輯“或”AAorB(3)邏輯“非”AnotBAB用“NOT”或“-”表示,是用于從某一檢索范圍中排除不需要的概念。這種組配可以縮小檢索范圍。在搜索引擎中,常用“-”號表示。
例如,在含有概念A的文獻集合中,排除同時含有概念B的文獻,可表示為:“ANOTB”或“A-B”。檢索結(jié)果如圖所示,圖中空白部分即為包含A且排除B的命中文獻。在上述邏輯算符中,其運算優(yōu)先級順序為NOT,AND,OR,但是可以用括號改變它們之間的運算順序。例如,(AORD)ANDB,表示先執(zhí)行“AORD”的檢索,再與B進行AND運算。
如:以google搜索工具,檢索“重慶除冬季外汽車和可吸入顆粒造成的空氣污染狀況”。重慶空氣污染(汽車+可吸入顆粒)-冬天布爾邏輯檢索可以看出,利用上述演算符,組成邏輯復雜的演算方式,對信息資源進行確切的查找。這對于具有海量信息的檢索系統(tǒng)中信息資源的查找十分有效。截詞檢索:指在檢索詞的適當位置截斷,用截斷的詞的一個局部加上截詞符號所進行的檢索,并認為凡滿足這個詞局部中的所有字符(串)的文獻,都為命中的文獻。是計算機檢索系統(tǒng)中應用非常普遍的一種技術(shù),可以作為擴大檢索范圍的手段,是防止漏檢的有效技術(shù),在西文信息檢索中,應用更為廣泛。
根據(jù)檢索的需要,截詞檢索可分為:后截詞、前截詞、中間截詞、前后截詞。不同的系統(tǒng)所用的截詞符也不同,常用的有?、$、*等。分為有限截詞(即一個截詞符只代表一個字符)和無限截詞(一個截詞符可代表多個字符)。2.截詞檢索后截詞——即將截詞符號置于檢索詞詞干的右方,以允許右方有多個字符的變化,也稱為前方一致檢索。例1.comput*——computer、computerized、computers、computer-based等的文獻。例2.生產(chǎn)?——生產(chǎn),生產(chǎn)力,生產(chǎn)工具,生產(chǎn)方式等。前截詞——即將截詞符號置于檢索詞詞干的左方,以允許左方有多個字符的變化,也稱為后方一致檢索。例1.*ment——attachment、establishment、equipment等例2.?英語考試——四級英語、六級英語、研究生英語考試等前后截詞——即同時將截詞符號置于檢索詞詞干的左右兩側(cè),以允許兩側(cè)有多個字符的變化,也稱為中間一致檢索。例1.*computer——computer、computers、computerized、microcomputer、minicomputer等詞的全部文獻記錄。例2.?考試?——英語考試、考試試題、計算機等級考試指南等。中截詞——即將截詞符號置于檢索詞的中間,以允許檢索詞中間有多個字符的變化,檢索時,只要檢索詞兩側(cè)的字符相同,該詞所在的文獻即為命中,也稱為前后方一致檢索。例1.wom*n——women和woman等的文學記錄。例2.信息?類型——信息資源類型,信息交流類型等是利用記錄中的自然語言進行檢索,詞與詞之間的邏輯關(guān)系用位置算符組配,對檢索詞之間的相對位置進行限制。是一種可以不依賴主題詞表而直接使用自由詞進行檢索的技術(shù)方法,通常只出現(xiàn)在西文數(shù)據(jù)庫中,在全文檢索中較多。不同的檢索系統(tǒng)其位置算符的表示方法不盡相同,通常情況下位置算符的用法意義如下:(nW)—nWords(N)—Near(nN)—nNear(S)—Subfield(F)—Field(W)—With位置檢索3.全文檢索4.位置檢索限定了檢索詞與檢索詞之間的位置關(guān)系
(W)-表示該算符兩側(cè)的檢索詞相鄰,且兩者之間只允許只有一個空格或標點符號,不允許有任何字母或詞,順序不能顛倒。(W)也可以簡寫為()。例:Aircraft()design可檢索出含有Aircraftdesign的文獻記錄。Computer()aided()design可檢索出含有Computeraideddesign的文獻記錄。(nW)--表示在此算符兩側(cè)的檢索詞之間最多允許間隔n個詞(實詞或虛詞),且兩者的相對位置不能顛倒。不同的數(shù)據(jù)庫的表示不一樣,在EBSCO數(shù)據(jù)庫中用(Wn)。例1:laser(w1)printer可檢出含有l(wèi)aserprinter和lasercolorprinter的文獻記錄。(N)表示該算符兩側(cè)的檢索詞相鄰,但兩者的相對位置可以顛倒。例如:computer(N)network可檢出含有computernetwork、networkcomputer形式的文獻記錄。(nN)表示此算符兩側(cè)的檢索詞之間允許間隔最多n個詞,且兩者的順序可以顛倒。例如computer(2N)system可檢出含有computersystem,computercodesystem,computeraideddesignsystem,systemusingmoderncomputer等形式的文獻記錄。(S)表示其兩側(cè)的檢索詞必須是在文獻記錄的同一子字段中,而不限定它們在該子字段中的相對次序和相對位置的距離。在文摘字段中,一個句子就是一個子字段。例如computer()control(s)system可檢出文摘中含有“Thispaperisconcernedwithanapplicationofthecomputercontroltechniqueinaintelligentsystemfortestinginnerwallsofpipes.”這樣一句話的文獻記錄。(F)表示其兩側(cè)的檢索詞必須是在文獻記錄的同一字段中,而它們在該字段中的相對次序和相對位置的距離不限。例如:water()pollution(F)control表示在同一個字段中(如篇名、文摘、敘詞等)同時含有waterpollution和control的文獻記錄均可檢索出來.
通過規(guī)定檢索范圍,針對性的選擇相應的對象檢索。如:(以搜索引擎Google為例來講)
1規(guī)定檢索對象是網(wǎng)站還是網(wǎng)頁2規(guī)定檢索的對象是文摘、題名等3檢索的語言、地區(qū)、時間等4檢索對象的范圍,如新聞、產(chǎn)品、教育、政府等5根據(jù)檢索對象的學科分類5.限定范圍檢索4信息檢索的方法信息檢索的方法是根據(jù)檢索課題的需要與檢索系統(tǒng)的現(xiàn)狀靈活選定的。4.1常用法又稱直接法,是指直接利用檢索工具(系統(tǒng))檢索文獻信息的方法,這是文獻檢索中最常用的一種方法。根據(jù)具體的檢索需要,可分為3種情況:順查法、倒查法和抽查法。4.2追溯法4.3綜合法順查法含義:按照時間的順序,由遠及近地利用檢索系統(tǒng)進行文獻信息檢索的方法。優(yōu)點:漏檢,誤檢率低缺點:但勞動量較大。重點:能收集到某一課題的系統(tǒng)文獻,用于較大課題的文獻檢索。優(yōu)點:可以最快地獲得新資料,概括了前期的成果,反映了最新水平和動向,這種方法勞動量較小。倒查法含義:是由近及遠,從新到舊,逆著時間的順序利用檢索工具進行文獻信息檢索的方法。重點:在近期文獻,只需查到基本滿足需要時為止??捎糜谛抡n題立項前的調(diào)研缺點:容易造成漏檢。抽查法重點:適合于檢索某一領(lǐng)域研究高潮很明顯的,某一學科的發(fā)展階段很清晰的,某一事物出現(xiàn)頻率在某一階段很突出的課題。含義:抽查法是針對檢索課題的特點,選擇有關(guān)該課題的文獻信息最可能出現(xiàn)或最多出現(xiàn)的時間段,利用檢索工具進行重點檢索的方法。優(yōu)點:花費較少時間能查得較多有效文獻的一種檢索方法。
含義:指不利用一般的檢索工具,而是利用已經(jīng)掌握的文獻末尾所列的參考文獻,進行逐一地追朔查找“引文”的一種最簡單的擴大情報來源的方法。
優(yōu)點:它還可以從查到的“引文”中再追朔查找“引文”,依據(jù)文獻間的引用關(guān)系,獲得越來越多的內(nèi)容相關(guān)文獻。這些內(nèi)容相關(guān)的文獻反映著某一課題的立論依據(jù)和背景,也在某種程度上反映著某課題或其中的某一觀點,某種發(fā)現(xiàn)的發(fā)展過程。
缺點:原文著者引用的參考文獻是有限的,誤檢,漏檢的可能性大。4.2追溯法
含義:又稱為循環(huán)法,它是把上述兩種方法加以綜合運用的方法。綜合法既要利用檢索工具進行常規(guī)檢索,又要利用文獻后所附參考文獻進行追朔檢索,分期分段地交替使用這兩種方法。即先利用檢索工具(系統(tǒng))檢到一批文獻,再以這些文獻末尾的參考目錄為線索進行查找,如此循環(huán)進行,直到滿足為止。因為參考文獻一般都是引用5年以內(nèi)的重要文獻,所以交替期可定為5年。
優(yōu)點:綜合法兼有常用法和追朔法的優(yōu)點,可以查得較為全面而準確的文獻,是實際中采用較多的方法,尤其適用于對那些過去年代內(nèi)文獻較少的課題。4.3綜合法5信息檢索的步驟與策略
信息檢索是根據(jù)即定的課題要求,利用檢索工具(或系統(tǒng)),按照一定的方法和步驟把符合需求的文獻挑選出來的過程。
檢索步驟:
1、分析研究課題,明確文獻需求2、選擇檢索工具,確定檢索方法3、確定檢索途徑和檢索標識4、優(yōu)化檢索提問與策略5、分析檢索結(jié)果6、索取原文1、分析研究課題,明確文獻需求(1)明確檢索目的(2)明確課題的主題或主要內(nèi)容(3)課題涉及的學科范圍(4)所需信息數(shù)量、語種、年代范圍、類型等具體指標。例:我們要查找關(guān)于“納米氧化鋁制備技術(shù)”方面的資料。
在著手檢索前,要明確檢索目的,了解檢索課題的內(nèi)容及性質(zhì),明確學科或?qū)I(yè)范圍等。最后分析哪些是已知檢索線索,了解和掌握有關(guān)學科的專家學者以及研究機構(gòu)等目前的有關(guān)課題,為檢索提供充分而有利的條件。經(jīng)過分析得知,納米功能氧化鋁的制備技術(shù)涉及的主題概念有:納米、超細材料、氧化鋁、制備工藝。2、選擇檢索工具,確定檢索方法
通??刹捎脙煞N方法:一是瀏覽圖書館檢索工具室內(nèi)陳列的全部檢索刊物,從中挑選確定;二是通過查閱國內(nèi)外出版的檢索工具指南,從中挑選確定。為了迅速,準確地查找文獻,還必須針對某一課題的具體情況選用適宜的檢索方法,是使用常用法,綜合法,還是使用其它方法,這些都是應該在檢索前確定下來。
我們可選擇如下檢索工具:手工檢索工具:《中國機械工程文摘》《中國學術(shù)期刊文摘》《有色金屬文摘》《中國化學文摘》《中國物理文摘〉
網(wǎng)絡數(shù)據(jù)庫:《中國期刊全文數(shù)據(jù)庫》《CNKI》《中文科技期刊數(shù)據(jù)庫》《維譜資訊》《萬方數(shù)據(jù)資源系統(tǒng)》3、確定檢索途徑和檢索標識
文獻檢索可以利用文獻的內(nèi)容特征和外表特征。當我們拿到一項課題后,具體先用哪一條或哪幾條檢索途徑,這需要從課題對文獻本身的特定要求和已掌握的線索而定。1.如系統(tǒng)查找某一課題的文獻資料,一般應選擇內(nèi)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 校園防盜安全知識培訓課件
- 新測繪法試題及答案
- 校園安防消防知識培訓課件
- 防腐廉潔面試題及答案
- 編導運營面試題及答案
- 報賬員考試題及答案
- 球館分級考試題及答案
- 流管員面試題及答案
- 方程運算面試題及答案
- 2025年福建福州工會招聘工會社會工作者考試筆試試題(含答案)
- 2025至2030中國婚慶行業(yè)發(fā)展趨勢分析與未來投資戰(zhàn)略咨詢研究報告
- 2025年職業(yè)病診斷醫(yī)師資格考試(職業(yè)性化學中毒)歷年參考題庫含答案詳解(5卷)
- 2025年安徽高考生物試題及答案
- 2025年高校機房管理試題及答案
- ESG基礎知識培訓課件
- 泌尿系統(tǒng)常見疾病科普講座
- 2025年中國南海研究院招聘事業(yè)編制人員考試筆試試題
- 2025廣西公需科目真題續(xù)集(附答案)
- DL∕T 5776-2018 水平定向鉆敷設電力管線技術(shù)規(guī)定
- (正式版)SH∕T 3548-2024 石油化工涂料防腐蝕工程施工及驗收規(guī)范
- GA/T 1073-2013生物樣品血液、尿液中乙醇、甲醇、正丙醇、乙醛、丙酮、異丙醇和正丁醇的頂空-氣相色譜檢驗方法
評論
0/150
提交評論