




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1信息檢索與信息系統(tǒng)-第2章-信息存儲(chǔ)與檢索基本原理21信息存儲(chǔ)過程
1.1信息的搜集與選擇
1.2信息的著錄加工
1.3信息的標(biāo)引加工
1.4信息的結(jié)構(gòu)編排31.1信息的搜集與選擇1、確定收集的原則
收集的學(xué)科范圍主題范圍覆蓋面信息種類2、收集的途徑3、選擇所需信息文種時(shí)間跨度收集的數(shù)量摘儲(chǔ)率41.2信息的著錄加工1、著錄目的目的是把一篇文獻(xiàn)變成一條著錄,壓縮后必須能體現(xiàn)文獻(xiàn)的外表特征和內(nèi)容特征。外部特征——指文獻(xiàn)上顯而易見的,一般情況下不反映文獻(xiàn)實(shí)質(zhì)意義的那些特征,如書名、人名、各種符號(hào)標(biāo)識(shí)(專利號(hào),標(biāo)準(zhǔn)號(hào),文獻(xiàn)號(hào)等)、機(jī)構(gòu)名等。內(nèi)容特征——指表征文獻(xiàn)實(shí)質(zhì)意義的特征,如主題詞(敘詞,單元詞、關(guān)鍵詞)、分類號(hào)、化學(xué)符號(hào)等。2、著錄內(nèi)容
外表特征:篇名,作者,工作單位,號(hào)碼,文種出處:發(fā)表在什么刊物,刊號(hào),卷,期,頁數(shù)內(nèi)容特征:摘要3、著錄格式5圖書著錄館藏號(hào): 4418391文摘類型: RISBN號(hào): 92-828-556-S語種: Ger中圖類號(hào): TD94文獻(xiàn)題名: NMR——SpekeropiezurstofflichenCharakterisierungvonBraunkohlenbeiderhydrierendenVeredlung作者: Michel,D團(tuán)體作者: EuropeanCommission國別: BE縮稱: CEC出版日期: 1999頁: 164S6期刊著錄記錄標(biāo)識(shí): 9807001記錄來源: JX文獻(xiàn)類型: 刊文獻(xiàn)題名: 機(jī)械零件組成編碼頻率分析及設(shè)計(jì)規(guī)范化通用標(biāo)準(zhǔn)化作者: 鮑子強(qiáng)作者單位: 長沙重型機(jī)器廠母體文獻(xiàn): 礦山機(jī)械卷期頁碼: 1997,No.12,p.39~42出版單位: 洛陽礦山機(jī)械研究所分類號(hào): 97*TD-3*12主題詞: 標(biāo)準(zhǔn)化,成組技術(shù),機(jī)械零件,設(shè)計(jì)文摘: (略)7專利著錄發(fā)明名稱: 蓖麻脫皮篩選機(jī)范疇: B07B1/20范疇分類: 27F33A13A國別: 省市: 12申請(qǐng)人: 劉國喜通訊地址: (300011)天津市河西區(qū)三水南里126幢發(fā)明人: 劉國喜代理人: 閆俊芬代理機(jī)構(gòu): 12100天津市專利事務(wù)所專利代理服務(wù)部代理機(jī)構(gòu)地址: (300051)天津市和平區(qū)成都道116號(hào)法律狀態(tài): 授權(quán)說明書頁數(shù): 003附圖頁數(shù): 02權(quán)項(xiàng)數(shù): 003文摘: (略)8會(huì)議文獻(xiàn)著錄論文題名: 從更寬闊的視野觀察與思考冶金反應(yīng)工程學(xué)問題作者: 曲英<地址>:北京科技大學(xué),李士琦<地址>:北京科技大學(xué)會(huì)議名稱: 第七屆全國冶金反應(yīng)工程學(xué)術(shù)會(huì)議會(huì)議屆次: 7會(huì)議時(shí)間: 19980515會(huì)議地點(diǎn): 沈陽會(huì)議主辦者: 東北大學(xué)母體文獻(xiàn): 東北大學(xué)學(xué)報(bào)(自然科學(xué)版)(第19卷增刊)出版地: 沈陽出版單位: 《東北大學(xué)學(xué)報(bào)》編輯部出版時(shí)間: 19980500頁碼: 1~3館藏號(hào): H043339分類號(hào): TF01,N94關(guān)鍵詞: 反映工程@,冶金@,系統(tǒng)工程,可持續(xù)發(fā)展文摘: (略)9標(biāo)準(zhǔn)文獻(xiàn)著錄標(biāo)準(zhǔn)號(hào): GB/T1990.2-98發(fā)布日期: 1998-11-13標(biāo)準(zhǔn)狀態(tài): ST實(shí)施日期: 1999-05-01起草單位: 中國標(biāo)準(zhǔn)化與信息分類編碼研究所標(biāo)準(zhǔn)名稱: 質(zhì)量管理和質(zhì)量保證標(biāo)準(zhǔn)第2部分:GB/T19001、GB/T19002和GB/T19003實(shí)施通用指南正文語種: 漢語英文名稱: Qualitymanagementandqualityassurancestandards-part2:GenericguidelinesfortheapplicationofGB/T19001、GB/T19002and
GB/T19003稽核項(xiàng): 0中國標(biāo)準(zhǔn)分類號(hào): A0010標(biāo)準(zhǔn)文獻(xiàn)著錄(續(xù))采用關(guān)系: ISO9000-2-97.IDT主題詞: 質(zhì)量管理,質(zhì)量保證,質(zhì)量英文主題詞: QUALITYASSURANCEQUALITYMANAGEMENTQUALITY國別: 中國申請(qǐng)?zhí)枺?98249276公告號(hào): 申請(qǐng)日: 19981209公告日: 審定公告日: 19991110授權(quán)日: 授權(quán)公告日: 1999111011學(xué)位論文著錄論文題目: 自控式同步電機(jī)機(jī)端電壓位置監(jiān)測器數(shù)字控制作者: 劉波授予學(xué)位: 碩士導(dǎo)師姓名: 李永東授予學(xué)位單位: 清華大學(xué)分類號(hào): TM762.3館藏號(hào): Y248534論文頁數(shù): 97出版時(shí)間: 1999.3主題詞: 自控式同步電機(jī)機(jī)端電壓位置監(jiān)測器數(shù)字控制文摘: (略)12科技報(bào)告著錄TITLE: Humanfactorsinaviationmaintenance,phase4DocumentID: 19950021275N(95N27696): NASATechnicalReportsReportNumber: DOT/FAA/AM-95/14SalesAgency&Price: CASIHardcopyA09CASIMicroficheA02Authors: Shepherd,WilliamT.(FederalAviationAdministration)Published: May01,1995CorporateSource: FederalAviationAdministration(Washington,DC,UnitedStates)GalaxyScientificCorp.(Atlanta,GA,Unitedstates)Pages: 176ContractNumber: DTFA01-94-C-01013NASASubjectCategory: MAN/SYSTEMTECHNOLOGYANDLIFESUPPORT131.3信息的標(biāo)引加工1、定義把文獻(xiàn)的主要內(nèi)容用非常簡明的標(biāo)識(shí)(即標(biāo)志)表示出來。標(biāo)識(shí)可以是號(hào)碼(分類號(hào)),也可以是科技名詞或詞組(主題詞),也可以是其它的。2、作用1)、相同內(nèi)容的文獻(xiàn)集中在一起,不同內(nèi)容的區(qū)分開來2)、形成有序的序列,即按一定規(guī)律排列,把存儲(chǔ)進(jìn)檢索工具的著錄按照一定的規(guī)律排列起來,形成有序的排檢系統(tǒng),這樣可以提供檢索途徑。3、標(biāo)引加工的類型分類法標(biāo)引用分類號(hào)作為標(biāo)識(shí)主題法標(biāo)引用代表文獻(xiàn)主題內(nèi)容的實(shí)質(zhì)性的詞匯作為標(biāo)識(shí)
141.4信息的結(jié)構(gòu)編排一般有三種排列方式1、一條著錄給一個(gè)順序編碼,號(hào)碼是唯一的,按號(hào)碼順序排列。號(hào)碼可以表示存儲(chǔ)地址,但通過號(hào)碼文獻(xiàn)的邏輯內(nèi)容體現(xiàn)不出來2、分類編排,按分類號(hào)的順序3、按主題詞的字母順序152.信息存儲(chǔ)與檢索基本原理2.1信息檢索的過程1、分析主題內(nèi)容、明確檢索需要2、提出檢索提問3、用檢索語言標(biāo)引檢索提問4、提問標(biāo)識(shí)與系統(tǒng)中存儲(chǔ)的標(biāo)識(shí)進(jìn)行匹配比較5、閱讀著錄6、符合要求的輸出7、檢索原始文獻(xiàn)162.2信息的存儲(chǔ)與檢索的基本原理信息存儲(chǔ)收集選擇著錄加工標(biāo)引加工存儲(chǔ)標(biāo)識(shí)信息檢索分析需求檢索提高提供標(biāo)識(shí)檢索標(biāo)識(shí)檢索語言存儲(chǔ)與檢索系統(tǒng)進(jìn)行匹配輸出17外部特征內(nèi)部特征存儲(chǔ)過程檢索過程文獻(xiàn)的表面信息,如題名(書名或篇名)、著者、機(jī)構(gòu)、ISBN號(hào)、專利號(hào)、報(bào)告號(hào)等。如按照篇名、著者、機(jī)構(gòu)名稱的字順或漢語拼音字母順序排列;按專利號(hào)或報(bào)告號(hào)的數(shù)字順序進(jìn)行排列等,就形成了以文獻(xiàn)外表為特征的檢索途徑。文獻(xiàn)內(nèi)容中所論述的主題、觀點(diǎn)、見解和結(jié)論等。如分類途徑、主題途徑等。把大量的原始文獻(xiàn),根據(jù)其外部特征和內(nèi)容特征進(jìn)行歸類、標(biāo)引,形成一定的檢索系統(tǒng),如對(duì)文獻(xiàn)信息進(jìn)行主題分析,形成主題概念,將主題概念轉(zhuǎn)換成主題標(biāo)引詞,對(duì)文獻(xiàn)信息中的語言進(jìn)行規(guī)范,形成標(biāo)準(zhǔn)的檢索語言,存儲(chǔ)在檢索系統(tǒng)中。根據(jù)檢索需要,對(duì)檢索課題進(jìn)行主題分析,把所涉及的檢索范圍明確起來,形成能代表信息需求的主題概念,并將主題概念轉(zhuǎn)換成信息檢索語言標(biāo)識(shí),然后與存儲(chǔ)在系統(tǒng)中的檢索標(biāo)識(shí)相比較,兩者相一致時(shí),才能達(dá)到檢索目的。182.3匹配指概念的邏輯關(guān)系的匹配1)概念邏輯的方法2)概念的外延3)概念的內(nèi)涵4)概念的外延關(guān)系相容關(guān)系:同一關(guān)系從屬關(guān)系交叉關(guān)系不相容關(guān)系193信息的揭示與組織3.1檢索語言及其作用3.2信息的揭示與組織的方法203.1檢索語言及其作用1、檢索語言的概念
檢索語言是應(yīng)文獻(xiàn)信息的加工、存儲(chǔ)和檢索的共同需要而編制的專門語言,是表達(dá)一系列概括文獻(xiàn)信息內(nèi)容和檢索課題內(nèi)容的概念及其相互關(guān)系的一種概念標(biāo)識(shí)系統(tǒng)。簡言之,檢索語言是用來描述信息源特征和進(jìn)行檢索的人工語言,可分為規(guī)范化語言(例如,用詞表來規(guī)范)和非規(guī)范化語言(自然語言)兩類。2、檢索語言的作用檢索語言在信息檢索中起著極其重要的作用,它是溝通信息存儲(chǔ)與信息檢索兩個(gè)過程的橋梁。1)標(biāo)引文獻(xiàn)信息內(nèi)容及其外表特征,保證不同標(biāo)引人員表征文獻(xiàn)的一致性。2)對(duì)內(nèi)容相同及相關(guān)的文獻(xiàn)信息加以集中或揭示其相關(guān)性。3)使文獻(xiàn)信息的存儲(chǔ)集中化、系統(tǒng)化、組織化,便于檢索者按照一定的排列次序進(jìn)行有序化檢索。214)便于將標(biāo)引用語和檢索用語進(jìn)行相符性比較,保證不同檢索人員表述相同文獻(xiàn)內(nèi)容的一致性,以及檢索人員與標(biāo)引人員對(duì)相同文獻(xiàn)內(nèi)容表述的一致性5)保證檢索者按不同需要檢索文獻(xiàn)時(shí),都能獲得最高查全率和查準(zhǔn)率。3、檢索語言的基本要求1)表達(dá)性2)簡潔性3)經(jīng)濟(jì)性4)動(dòng)態(tài)性5)對(duì)于規(guī)范化語言的唯一性6)對(duì)于非規(guī)范化語言,用自然語言也可作為檢索語言,但唯一性比較差,用于計(jì)算機(jī)檢索還可以,因?yàn)檫\(yùn)行速度非??臁?223期刊的外部特征舉例:期刊的外表特征:期刊名、出版者、出版地、出版日期、卷期號(hào)、ISSN(國際標(biāo)準(zhǔn)刊號(hào))、國內(nèi)統(tǒng)一刊號(hào)(CN)、郵發(fā)代號(hào)、價(jià)格等。
ISSN號(hào)(InternationalSeriesStandardNumber)是國際標(biāo)準(zhǔn)刊號(hào)的簡稱,由8位數(shù)字分2段組成。如英文期刊參考文獻(xiàn)著錄格式:Y.Gong.①Speechrecognitioninnoisyenvironments:ASurvey[J].②SpeechCommum.③Vol.16,no.3④,pp.261-291⑤,Apr.1995⑥
其中:①論文著者;②論文題名;③刊名(外文期刊多數(shù)為斜體);④卷、期號(hào);⑤起止頁碼;⑥出版日期再如中文期刊標(biāo)準(zhǔn)著錄格式:胡翠華①.證券信息服務(wù)商業(yè)化運(yùn)作研究[J]②.情報(bào)科學(xué)③,2005(9)④
:1281~1286⑤
24圖書的外部特征舉例如圖書參考文獻(xiàn)著錄格式:徐天秀①.信息檢索[M]②.北京③:科學(xué)出版社④,2006.2⑤參考文獻(xiàn)中出現(xiàn)的圖書著錄格式:
C.MBishop.①NeuralNetworksforPatternRecognition[M]②.Oxford,U.K③:Clarendon,④1995⑤參考文獻(xiàn)中會(huì)議論文集的論文著錄:
R.Cole,R.Stern,andM.Lasry.⑥Performingfinephoneticdistinctions:Templatesvs.features[J].⑦
in
InferenceandVariabilityofSpeechProcesses②.J.PerkellandD.Klatt①.NewYork③:LawrenceErlbaum④,1986⑤,pp.325-341⑧.
例中:①著(編)者;②書名(一般用斜體);③出版地;④出版社名稱;⑤出版時(shí)間;⑥論文著者;⑦論文題名;⑧起止頁碼。更多參見著錄格式GB/T7714-2005253.2信息的揭示與組織的方法分類法-一種以直線性序列組織與揭示文獻(xiàn)的方法主題法-一種以字順序列組織和揭示文獻(xiàn)的方法超文本-一種基于知識(shí)單元的組織與揭示信息的方法261、分類法分類法是一種先組式檢索語言,即按一種預(yù)先行為構(gòu)造的規(guī)范模式-直線序列展示類目之間的分層等級(jí)關(guān)系。它作為檢索語言能較好體現(xiàn)概念的族性關(guān)系的一面。27分類法在揭示和組織文獻(xiàn)過程中的線形序列可以采用以下方法:根系法關(guān)系法縮行法字形法字號(hào)法參照符號(hào)28常用分類法《中國圖書館分類法》(《中國圖書館圖書分類法》),簡稱《中圖法》我國大陸地區(qū)使用最廣泛,使用此法的圖書館占90%以上,5部22大類。類號(hào)采用“字母數(shù)字混合制”標(biāo)記,一個(gè)或兩個(gè)拉丁字母和一串阿拉伯?dāng)?shù)字來代表一個(gè)具體的類目。如:F0——經(jīng)濟(jì)學(xué)、TB9——計(jì)量學(xué)層累制,分類號(hào)每三位用.空格,標(biāo)記清晰;輔助符號(hào)增強(qiáng)標(biāo)記功能,如a推薦號(hào),-總論復(fù)分號(hào),/起止符號(hào),[]交替類號(hào),;組配;()國家區(qū)分號(hào),=時(shí)代區(qū)分號(hào)等。有單機(jī)版和網(wǎng)絡(luò)版,網(wǎng)絡(luò)版見29《中國科學(xué)院圖書館圖書分類法》,簡稱《科圖法》中科院圖書館編制。主要用戶為中國科學(xué)院系統(tǒng)下屬圖書館和資料部門。用戶數(shù)居全國第二位。類號(hào)標(biāo)記采用純數(shù)字制,5部25大類。如:27.1——政治經(jīng)濟(jì)學(xué)總表見:常用分類法30《杜威十進(jìn)分類法》簡稱DDC。由美國著名圖書館學(xué)專家杜威(MevilDewey)于1876年編制。目前已出版第21版。在世界上擁有最多的用戶。各國的十進(jìn)分類法基本上以《杜威法》為參照模式,9類,用1~9表示,綜合性的為0。我國1966年以前亦用于西文圖書分類。網(wǎng)上可查到:√21版千分表:哈爾濱工業(yè)大學(xué)(威海分校)圖書館提供
√20版千分表:一位非專業(yè)人員在其個(gè)人網(wǎng)站提供
√13簡版:加拿大NearNorthDistrictSchoolBoard圖書館提供
據(jù)OCLCNewsReleases
1997年7月號(hào)說明,13簡版(1997年出版)與21版(1996年出版)兼容。但經(jīng)對(duì)比,該13簡版內(nèi)容似乎與20版更相近。特別之處在于,此表提供多至4位的類號(hào),在網(wǎng)上很少見,參考性更高些。網(wǎng)上免費(fèi)的大概只能詳細(xì)到4位類號(hào)了。如果付費(fèi),DDC的東家OCLC可以提供完整的聯(lián)機(jī)電子版,即WebDewey。中文參見:常用分類法31《美國國會(huì)圖書館圖書分類法》簡稱LCC。是世界上類目最多的一部圖書分類法,21個(gè)大類。目前廣泛應(yīng)用于北美大中型圖書館,特別是學(xué)術(shù)性圖書館。它的類號(hào)配置是字母、數(shù)字混合制,字母1~3個(gè)不等,數(shù)字1~9999的整數(shù),有時(shí)有小數(shù),用.隔開。美國國會(huì)編制的機(jī)讀目錄數(shù)據(jù)中采用此分類法。參見:常用分類法32《國際十進(jìn)分類法》簡稱UDC,UDC是以美國《杜威十進(jìn)分類法》(DDC)為基礎(chǔ)編制而成的,10個(gè)大類。用阿拉伯?dāng)?shù)字表示,從一般到特殊編制,每大類逐級(jí)細(xì)分。我國出版的標(biāo)準(zhǔn)出版物上提供有UDC分類號(hào)。
位于荷蘭海牙的UDCConsortium目前負(fù)責(zé)維護(hù)《國際十進(jìn)分類法》,在其主頁UDCWebsite上有與UDC相關(guān)的豐富信息。當(dāng)然,也有簡表,多個(gè)通用復(fù)分表。中文參見:常用分類法33分類法的優(yōu)缺點(diǎn)優(yōu)點(diǎn):1)體現(xiàn)學(xué)科的系統(tǒng)性,反映事物的派生、隸屬與平行的關(guān)系2)從學(xué)科專業(yè)的角度檢索資料,比較方便,便于族性檢索,尤其適合于鳥瞰本學(xué)科的全貌3)擴(kuò)大、縮小檢索范圍方便4)簡單明了缺點(diǎn):1)特性檢索功能較差,從主題的角度要檢查某一特定主題內(nèi)容的文獻(xiàn)不容易查全2)更新、修改不方便3)邊緣學(xué)科、交叉學(xué)科的出現(xiàn),用直線序列的分類法難以反映多元性的知識(shí)空間4)不能使文獻(xiàn)得到多方面的標(biāo)引5)不適合于專指度高的即狹窄主題的文獻(xiàn)檢索34使用分類號(hào)檢索要注意以下幾點(diǎn):《中圖法》產(chǎn)生于1974年。一般情況下,1975年后編目的中文書刊有中圖號(hào)。《科圖法》產(chǎn)生于1958年。主要用于我國科學(xué)院系統(tǒng)的文獻(xiàn)收藏單位。在國家圖書館發(fā)行的機(jī)讀目錄中也有部分?jǐn)?shù)據(jù)提供科圖號(hào)。在我國,西文圖書可用中圖分類號(hào)、杜威分類號(hào)、美國國會(huì)分類號(hào)等進(jìn)行檢索。35舉例例:學(xué)科體系分類根據(jù)科學(xué)學(xué)科之間的邏輯歸屬關(guān)系,采用層次型或樹杈型結(jié)構(gòu),列舉人類所有的知識(shí)類別,并對(duì)每一知識(shí)分別標(biāo)以相對(duì)固定的類碼,從而形成類表。學(xué)科體系分類分類表通常指一種從總到分、從一般到具體、層層劃分、逐級(jí)展開并具有某種符號(hào)代碼體系的知識(shí)體系表。學(xué)科體系分類是以數(shù)字、字母或字母與數(shù)字結(jié)合作為基本字符,采用字符直接連接并以圓點(diǎn)(或其它符號(hào))作為分隔符的書寫法,以基本類目作為基本詞匯,以類目的從屬關(guān)系來表達(dá)復(fù)雜概念。另外還有:功能分類應(yīng)用分類主題分類等等36舉例例如:
O數(shù)理科學(xué)與化學(xué)
O1數(shù)學(xué)
O11古典數(shù)學(xué)…….
O15代數(shù)、數(shù)論、組合理論151代數(shù)方程式論、線性代數(shù)151.1代數(shù)方程式論、151.2線性代數(shù)再如:英國《科學(xué)文摘》的分類6000COMMUNICATION6100
INFORMATIONANDCOMMUNICATIONTHEORY6110Informationtheory6120Modulationmethods6120Bcodes
372、主題法主題法與以學(xué)科概念體系為中心的分類法不同,是以揭示事物對(duì)象及其特征為出發(fā)點(diǎn)的。主題法的詞語是以規(guī)范化為基礎(chǔ)的,如同義詞的優(yōu)選、近義詞的合并,多義詞的注釋、反義詞的聯(lián)系等就是規(guī)范化所采取的一系列措施。以主題詞來描述和表達(dá)信息內(nèi)容,主題詞是表征文獻(xiàn)主題內(nèi)容特征的名詞術(shù)語或詞組、短語,用以標(biāo)識(shí)文獻(xiàn)。一般按照主題詞的字母順序進(jìn)行排列目前常用的主題語言有:關(guān)鍵詞語言、敘詞語言。38以主題詞來描述和表達(dá)信息內(nèi)容,主題詞是表征文獻(xiàn)主題內(nèi)容特征的名詞術(shù)語或詞組、短語,用以標(biāo)識(shí)文獻(xiàn)。一般按照主題詞的字母順序進(jìn)行排列目前常用的主題語言有:關(guān)鍵詞語言、敘詞語言。1)關(guān)鍵詞語言:是一種自然語言,關(guān)鍵詞是出現(xiàn)在文獻(xiàn)標(biāo)題、文摘、正文中,對(duì)表征文獻(xiàn)主題內(nèi)容具有實(shí)質(zhì)意義的語詞。有:簡單關(guān)鍵詞;詞對(duì)式關(guān)鍵詞;帶上下文的關(guān)鍵詞等2)敘詞語言:是一種人工語言,經(jīng)過規(guī)范化和優(yōu)選處理的語言。選做的敘詞具有概念性、描述性、組配性,還具有語義的關(guān)聯(lián)性、動(dòng)態(tài)性、直觀性。39主題檢索語言情報(bào)檢索語言按其標(biāo)識(shí)的使用方法劃分:先組式組配方式:標(biāo)引前預(yù)先在詞表中固定組配好,多用于手工檢索。后組式組配方式:文獻(xiàn)標(biāo)識(shí)在檢索時(shí)才組配起來,多用于計(jì)算機(jī)檢索。主題檢索語言根據(jù)其結(jié)構(gòu)原理分為:標(biāo)題詞檢索語言:單元詞檢索語言敘詞檢索語言關(guān)鍵詞檢索語言40標(biāo)題詞標(biāo)題詞語言是采用規(guī)范化了的自然語言,即經(jīng)過標(biāo)準(zhǔn)化處理的名詞術(shù)語作為標(biāo)識(shí),來表達(dá)文獻(xiàn)所論述或涉及的事物--主題,并將全部標(biāo)識(shí)按字順排列。是規(guī)范化、先組式的主題檢索語言。例如一篇關(guān)于計(jì)算機(jī)的設(shè)計(jì)和另一篇計(jì)算機(jī)維修的文章,都可以直接用“計(jì)算機(jī)”來作標(biāo)題詞。它們在標(biāo)題詞系統(tǒng)中都是按“計(jì)”字排列集中在一起的。
但是,如果一篇文章用“微型計(jì)算機(jī)”這個(gè)術(shù)語來敘述它的研究對(duì)象,另一篇文章用“微型電腦”這個(gè)術(shù)語來敘述它的研究對(duì)象,第三篇文章用“微機(jī)”這個(gè)術(shù)語來敘述,雖然都表示同一概念,這時(shí)就不能直接用“微型電腦”或“微機(jī)”來作標(biāo)題詞了,這三篇文章都必須用“微型計(jì)算機(jī)”作標(biāo)題詞(根據(jù)詞表決定)。因?yàn)檫@三個(gè)術(shù)語是等同概念,如果同時(shí)用三個(gè)術(shù)語來標(biāo)引,便會(huì)導(dǎo)致文獻(xiàn)被分散。當(dāng)然,讀者若從“微型電腦”或“微機(jī)”入手檢索時(shí),都可以在標(biāo)題詞表中看到“見:微型計(jì)算機(jī)”的參照指示。
41單元詞是最基本不能再分的獨(dú)立概念的詞。如“教學(xué)設(shè)備”就不是單元詞,可以再分為“教學(xué)”和“設(shè)備”兩個(gè)基本概念,可以利用單元詞進(jìn)行標(biāo)引輪排組配。靈活性,提供很多的檢索入口,通過組配來擴(kuò)大或縮小檢索范圍,表達(dá)各種不同概念,但也有不穩(wěn)定性和多義性。主題詞法是主題法的一個(gè)類型,代表了最典型的主題法特點(diǎn)。
單元詞42敘詞敘詞是從信息內(nèi)容中提取的經(jīng)過規(guī)范化處理能表達(dá)信息基本概念的詞語。敘詞檢索是一種后組式的檢索方法。敘詞檢索語言是以規(guī)范化名詞術(shù)語為基礎(chǔ),以字順和分類系統(tǒng)為詞匯顯示的基本手段,以語詞的概念組配為重要特征的一種標(biāo)引和檢索信息的方法。優(yōu)點(diǎn):采用了組配分類法。代替單元詞檢索信息的單詞組配的基本原理;代替了字面組配;語詞規(guī)范方法采用了標(biāo)題法;體系分類法采用的就是敘詞分類索引(范疇索引)和等級(jí)索引(詞族索引)方法。如“體育學(xué)?!北磉_(dá)這個(gè)學(xué)校的形式,或者體育活動(dòng),但是在敘詞表中必須把這個(gè)關(guān)系表達(dá)清楚。概念組配,詞間是有關(guān)系的,可能是屬分關(guān)系(上位類和下位類),同位類關(guān)系,用代關(guān)系。43關(guān)鍵詞關(guān)鍵詞語言:是一種自然語言,不受詞表控制的非規(guī)范化語言,關(guān)鍵詞是出現(xiàn)在文獻(xiàn)標(biāo)題、文摘、正文中,對(duì)表征文獻(xiàn)主題內(nèi)容具有實(shí)質(zhì)意義的語詞。有:簡單關(guān)鍵詞;詞對(duì)式關(guān)鍵詞;帶上下文的關(guān)鍵詞等如美國《化學(xué)文摘》(ChemicalAbstracts,CA)的關(guān)鍵詞索引。
應(yīng)用非常普遍,如學(xué)術(shù)論文的關(guān)鍵詞提取就非常重要。44《漢語主題詞表》
我國編制的第一部大型綜合性詞表,主要供各類型圖書館、科技情報(bào)部門建立計(jì)算機(jī)信息檢索系統(tǒng),也可用來組織卡片式主題目錄或書本式主題目錄,為建立我國統(tǒng)一的計(jì)算機(jī)信息檢索體系奠定了基礎(chǔ)。其體系結(jié)構(gòu):
45主題法的優(yōu)點(diǎn)1)直接、直觀。直接利用反映主題內(nèi)容的詞進(jìn)行檢索;例:軸承可直接用其檢索如果用分類語言,則應(yīng)考慮“軸承”屬于“機(jī)械”大類下的“機(jī)械零件”小類,再下屬的“旋轉(zhuǎn)機(jī)械零件”小小類2)準(zhǔn)確、靈活。是建立在文字基礎(chǔ)上的,不像分類號(hào)是個(gè)代碼;最新的學(xué)科也能表達(dá)出來;專指度高,可以減少漏查例:激光焊接視網(wǎng)膜3)更新容易,隨著新學(xué)科的產(chǎn)生,可以很容易地添加新詞或減少新詞;4)特性檢索能力較分類語言強(qiáng),專指度高,可以提高查準(zhǔn)率。所有該主題詞有關(guān)的內(nèi)容都集中在該主題詞下,適合特定的課題檢索。例:橡膠如果用分類它屬于化學(xué)物質(zhì)中的聚合物類,同時(shí)還屬于電工材料類,要兩個(gè)類都查才能查全有關(guān)橡膠的文獻(xiàn)。如果用主題語言則直接用其檢索即可465)有一定的族性檢索能力,用倒置標(biāo)題、參見等方法來克服因字順序列而造成的內(nèi)容分散問題
主題法的缺點(diǎn)族性檢索能力不如分類語言,瀏覽一個(gè)學(xué)科的文獻(xiàn)不如用分類。47分類-主題法檢索語言
將分類法和主題法結(jié)合的一種檢索語言,利用兩者優(yōu)勢,取長補(bǔ)短,《中國分類主題詞表》體現(xiàn)了分類主題檢索的特點(diǎn)。它是在《中圖法》和《漢語主題詞表》的基礎(chǔ)上編制的分類法主題法一體化的詞表,是我國兩種使用最廣的分類法標(biāo)識(shí)系統(tǒng)和主題法標(biāo)識(shí)系統(tǒng)的兼容。共兩卷六冊,第一卷為“分類號(hào)-主題詞對(duì)應(yīng)表”(共兩冊),第二卷為“主題詞-分類號(hào)對(duì)應(yīng)表”(共四冊)。48自然語言檢索在計(jì)算機(jī)檢索中發(fā)揮了獨(dú)特的作用,如在google中輸入“信息組織與檢索課程”,能夠得到包含“信息”、“組織”、“檢索”、“課程”幾個(gè)單元詞不同組配方式的檢索結(jié)果。它們可以歸納為以下幾點(diǎn):(1)關(guān)鍵詞索引以關(guān)鍵詞為檢索標(biāo)識(shí)的文獻(xiàn)題錄數(shù)據(jù)庫(數(shù)據(jù)庫的關(guān)鍵詞檢索標(biāo)識(shí)來自人工自由標(biāo)引,或略加人工輔助的計(jì)算機(jī)抽詞,或借助于詞典的自動(dòng)抽詞)檢索。關(guān)鍵詞的來源:文獻(xiàn)題名、數(shù)據(jù)庫某些字段的文本、全文本等;(2)全文數(shù)據(jù)庫檢索;
(3)搜索引擎由搜索引擎自動(dòng)建立的網(wǎng)絡(luò)資源數(shù)據(jù)庫檢索。(全文關(guān)鍵詞匹配)49超文本技術(shù)將文本信息存儲(chǔ)在無數(shù)結(jié)點(diǎn)(node)上,一個(gè)結(jié)點(diǎn)就是一個(gè)相對(duì)獨(dú)立的“信息塊”,結(jié)點(diǎn)之間用“鏈”(link)連接,組成信息網(wǎng)絡(luò)。它同樣可以鏈接聲音、圖像(形)、影視等多媒體信息,構(gòu)成超維檢索點(diǎn)。3、超文本504信息檢索方法4.1檢索方法的種類4.2選擇檢索方法的原則4.3提問檢索式構(gòu)造514.1檢索方法的種類1、常用的查找方法,直接利用檢索工具檢索。順查:課題起始年代為起點(diǎn),由遠(yuǎn)而近,查全、查準(zhǔn)率較高,但費(fèi)時(shí)、費(fèi)力倒查:由近及遠(yuǎn),查準(zhǔn)率較高,查到前面一定時(shí)間不查了,所以漏查率較順查高,但省事抽查:針對(duì)學(xué)科發(fā)展最快,文獻(xiàn)發(fā)表最多的年代查,省時(shí),但必須熟悉學(xué)科發(fā)展特點(diǎn)2、追溯查找法,利用文獻(xiàn)末所附的參考文獻(xiàn)進(jìn)行追溯3、循環(huán)法,直接法和追溯法的結(jié)合,交替使用。4、原始法,分散性檢索,利用原始文獻(xiàn)直接瀏覽524.2選擇檢索方法的原則1、要看檢索條件檢索工具缺乏而原始文獻(xiàn)收藏豐富宜用追溯法,有成套檢索工具則宜用直接法,其查全率、查準(zhǔn)率都比追溯法高。2、要看檢索要求1)要求收集某一課題的系統(tǒng)資料,要求全面,不能有重大遺漏,最好用順查法2)要解決某一課題的關(guān)鍵性技術(shù),不要求全面,只要能解決這個(gè)關(guān)鍵問題就行,要快,針對(duì)性強(qiáng),要準(zhǔn),宜用倒查法,迅速查得最新資料3、要看檢索學(xué)科的特點(diǎn)古老學(xué)科,開始年代很早,只好用倒查法,新興學(xué)科,起始年代不遠(yuǎn),可用順查法,波浪發(fā)展的學(xué)科,可選擇發(fā)展高峰,用循環(huán)法534.3提問檢索式構(gòu)造1、檢索詞、提問檢索式與關(guān)系算符檢索詞可以是敘詞(descriptors)、標(biāo)題詞(subjectheadings)、自由標(biāo)引詞(identifier)、關(guān)鍵詞(keyword)和全文檢索自由詞(freeterms)以及一些表示信息形式特征的詞。敘詞和標(biāo)題詞都是由各種敘詞表和標(biāo)題詞表規(guī)定好的規(guī)范詞,大規(guī)模的數(shù)據(jù)庫都有自己的專用詞表。如EICompendexPlus使用的是SHE詞表,INSPEC使用的是INSPEC詞表。最簡單的檢索式(項(xiàng))由一個(gè)檢索詞和一個(gè)字段名(字段標(biāo)識(shí))構(gòu)成。如InformationScience/Ti關(guān)系算符有邏輯算符或位置算符等。54提問檢索式構(gòu)造規(guī)則1、布爾邏輯算符與(and或*)、或(or或+)、非(not或-)優(yōu)先執(zhí)行順序?yàn)閚ot、and、or2、位置邏輯算符位置算符不僅可用來組配帶有前綴或后綴的檢索詞,也可用來組配帶有邏輯算符的檢索式。常用的位置算符有:(1)(w)或()with算符表示在檢索結(jié)果中(w)算符兩側(cè)的檢索詞必須按此前后鄰接的順序排列,順序不可顛倒,同時(shí)兩個(gè)檢索詞之間不允許有其他詞或字母,但可留有空格或連字符。如查找相關(guān)矩陣(CorrelationMatrix)方面的資料,用Correlation(w)Matrix55(2)(nW)算符標(biāo)識(shí)在此算符兩側(cè)的檢索詞之間允許插入n個(gè)實(shí)詞或虛詞,但兩個(gè)檢索詞的詞序不允許顛倒。如查詢“檢索委托單”,F(xiàn)orm(nW)requestForm(1W)request,Form(2W)request可得到Formofrequest和Formofa
request
(3)(N)Near算符由(N)連接的檢索詞在記錄中出現(xiàn)的順序可以調(diào)換,但必須彼此相鄰。(4)(nN)算符標(biāo)識(shí)算符兩側(cè)的檢索詞之間允許插入n個(gè)詞,但兩個(gè)檢索詞的位置可以調(diào)換。例如,經(jīng)濟(jì)衰退econom?(2N)decline,檢索結(jié)果中允許有如下記錄:Economicdecline,economyonthedecline,declineoftheeconomy提問檢索式構(gòu)造規(guī)則56(5)(F)Field算符表示兩側(cè)的檢索詞必須同時(shí)出現(xiàn)在文獻(xiàn)記錄的同一字段中,如同一文摘或同一標(biāo)題字段、同一題名字段等。算符兩側(cè)的檢索詞序不變,夾在其間的其他詞數(shù)量也不限。如檢索項(xiàng)control(F)pollution,可能命中題名為“Controlandmanagementofindustrialpollution”的文獻(xiàn)記錄。提問檢索式構(gòu)造規(guī)則57提問檢索式構(gòu)造規(guī)則(6)(S)SubField算符表示算符兩側(cè)的檢索詞必須同時(shí)出現(xiàn)在文獻(xiàn)記錄的相同子字段內(nèi),其檢索詞的順序不限,夾在其間的詞匯數(shù)量也不限,子字段通常由數(shù)據(jù)庫確定,如標(biāo)題子字段、主題子字段、文摘子字段等,各字段在記錄中經(jīng)常用分號(hào)分開或單獨(dú)成行。(7)(L)Link算符表示算符兩側(cè)的檢索詞是從屬關(guān)系,前者為上位概念,后者為下位概念;或算符左側(cè)為主敘詞,右側(cè)為副敘詞。因此,(L)算符用于具有主、副標(biāo)題敘詞表的數(shù)據(jù)庫,檢索效果最佳。58(8)(C)Citation算符兩側(cè)的檢索詞可以不分字段、不按順序,只要同時(shí)出現(xiàn)在一篇文獻(xiàn)記錄中即為命中,相當(dāng)于and。(9)(X)和(nX)算符,其中(X)表示兩個(gè)相鄰且詞形相同的檢索詞作為詞組進(jìn)行檢索,其間只能是”-”號(hào)而不得有其他字母或詞。例如”gas(X)gas”可用來檢索”gas-gas”。(nX)表示兩個(gè)詞形相同的檢索詞,其間夾有n-1個(gè)其他詞時(shí),可作為詞組進(jìn)行檢索。例如WordbyWord可用檢索式Word(2X)Word表示。此外,位置算符的前面加上not即可構(gòu)成位置算符的邏輯(非),產(chǎn)生相反的意義。思考下面算符的含義:(notW)、(notN)、(notS)、(notF)、(notL)???提問檢索式構(gòu)造規(guī)則593、檢索字段限定符將輸入的檢索單元(單個(gè)檢索詞或整個(gè)檢索式)與索引文檔的索引詞類比與匹配限定在一定的字段中進(jìn)行,此類檢索稱為限定檢索??s小檢索范圍的措施。(1)基本索引字段的限定檢索(后綴)。反映文檔內(nèi)容特征的字段稱為基本索引字段。在檢索詞(式)后加斜杠”/”,再加上所限定的字段標(biāo)識(shí)。如,/ti(題名),/ab(文摘),/de(敘詞),/id(自由標(biāo)引詞),/nt(注釋),/sh(類目標(biāo)題),多個(gè)限定范圍用逗號(hào)隔開。如Laser/ti,de,abEarthquake(W)resistance(F)Measure/ti,ab(Legalandliabilityormalpractice)/ti是什么意思呢?提問檢索式構(gòu)造規(guī)則60提問檢索式構(gòu)造規(guī)則(2)輔助索引字段的限定檢索(前綴)。在檢索項(xiàng)(詞)的前面加上字段標(biāo)識(shí)與一個(gè)等號(hào)。例如,au=peter,Jacso.N,常見前綴代碼:前綴代碼限定的字段名稱前綴代碼限定的字段名稱au=authorSo=sourcepublicationCs=corporatesourceLa=languageDt=documenttypePy=publicationyearJn=journalnameUd=UpdateCo=companySp=Conferencesponsorcc=classificationcode614、截詞檢索算符后截?cái)嗲敖財(cái)嘀薪財(cái)嗲昂蠼財(cái)嘤邢藿財(cái)嗯c無限截?cái)嗵釂枡z索式構(gòu)造規(guī)則62提問檢索式的構(gòu)造(1)句子切分,如“網(wǎng)絡(luò)|與|當(dāng)代|社會(huì)|文化|的|關(guān)系”(2)詞匯剔除,如“網(wǎng)絡(luò)|社會(huì)|文化”(3)概念替換,如水質(zhì)細(xì)菌的計(jì)算方法——水質(zhì)污染計(jì)算方法(4)概念限定與補(bǔ)充,如計(jì)算機(jī)+電腦(同義詞補(bǔ)充),食物+食品(近義詞補(bǔ)充)(5)組合成檢索式,如“網(wǎng)絡(luò)資源檢索”可組合成:網(wǎng)絡(luò)資源*檢索+資源檢索*網(wǎng)絡(luò)+網(wǎng)絡(luò)檢索*資源(邏輯“或”、“與”)網(wǎng)絡(luò)資源檢索+檢索網(wǎng)絡(luò)資源+資源網(wǎng)絡(luò)檢索(邏輯“或”)635信息檢索效率5.1衡量信息檢索效率的指標(biāo)5.2檢索效率的基本
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)水電維修合同(標(biāo)準(zhǔn)版)
- 境外房產(chǎn)資料守秘承諾書4篇
- 古詩文經(jīng)典誦讀活動(dòng)設(shè)計(jì):激發(fā)學(xué)生學(xué)習(xí)興趣
- 2025-2030化妝品行業(yè)氣候承諾與碳足跡管理報(bào)告
- 2025-2030化妝品級(jí)費(fèi)托蠟純度標(biāo)準(zhǔn)與國際認(rèn)證體系對(duì)標(biāo)分析報(bào)告
- 2025-2030化妝品不良反應(yīng)監(jiān)測體系完善與企業(yè)應(yīng)對(duì)策略報(bào)告
- 反詐騙安全測試題選擇及答案解析
- 技術(shù)研發(fā)項(xiàng)目立項(xiàng)評(píng)審工具集
- 2025-2030冷鏈物流行業(yè)市場發(fā)展現(xiàn)狀與投資戰(zhàn)略規(guī)劃分析報(bào)告
- 2025-2030冷鏈物流行業(yè)發(fā)展機(jī)遇與資本運(yùn)作策略研究報(bào)告
- 《發(fā)現(xiàn)雕塑之美》第4課時(shí)《加法與減法的藝術(shù)》
- 澳門立法會(huì)間接選舉制度及其實(shí)踐
- 1-5年級(jí)英語單詞
- GA 1551.3-2019石油石化系統(tǒng)治安反恐防范要求第3部分:成品油和天然氣銷售企業(yè)
- 2023年吉林省金融控股集團(tuán)股份有限公司招聘筆試題庫及答案解析
- 類風(fēng)濕關(guān)節(jié)炎的中醫(yī)治療演示文稿
- 食品安全BRCGS包裝材料全球標(biāo)準(zhǔn)第六版管理手冊及程序文件
- 熱工保護(hù)聯(lián)鎖投退管理規(guī)定
- (中職)旅游概論第四章 旅游業(yè)課件
- 齊魯醫(yī)學(xué)可用于普通食品的新資源食品及藥食兩用原料名單
- GB∕T 12234-2019 石油、天然氣工業(yè)用螺柱連接閥蓋的鋼制閘閥
評(píng)論
0/150
提交評(píng)論