当前位置:>> 首页 >> 网络信息资源检索
返回上一层
4.2  网络信息资源检索
阅读人数:4743       

 4.2.1网络信息资源检索的一般方法

用户在网上获取信息,一般有以下几种检索方法:
1)浏览。用户在网络上随意地浏览,将一些意外发现的有用信息的网站地址,主要是一些网上期刊、数据库以及信息机构等的网址记录下来,进而获取网络资源,这是一种日常对URL(网址)进行积累的方法。
2)通过网络资源指南查找信息。是指利用由专业人员开发出来的网络资源主题指南来检索信息的办法。如Yahoo!就是广为人知的综合性主题分类树体系的网络资源指南。
3)利用网络信息检索工具查找信息。网络信息检索工具为网上查询信息提供了诸多途径。查询不同类型的资源要使用不同类型的检索工具,如典型的传统信息检索工具有Go-pher,目前流行的是WWW检索工具一一搜索引擎。
4.2.2网络信息检索技术
网络信息检索技术是指应用信息检索过程的原理、方法、策略、设备条件和检索手段等因素的总称。下面介绍主要的既适用于网络信息检索、也适用于光盘数据库检索的计算机检索技术。
1.布尔逻辑检索技术布尔逻辑检索是建立最早的检索理论,也是检索系统中应用最广泛的检索技术。它通过对布尔逻辑运算符进行组配,形成检索式,以表达用户的检索需求,并通过一定的算法和手段进行检索。
布尔逻辑运算符有三种形式:逻辑与(AND)、逻辑或(OR)和逻辑非(NOT)。
逻辑与(AND)是一种用于交叉概念或限定关系的组配,可以缩小检索范围,提高查准率。→般使用"*"或"&"表示。检索表达式为"A AND B"或"A*B",表示被检索的文献记录中必须同时含有A和B才能被命中。例如:希望了解数控机床的产品信息,检索式可表达为:"数控机床*产品目录"或"数控机床AND产品目录"。
逻辑或(OR)是一种用于并列关系的组配,可以扩大检索范围,提高查全率。一般使用"+"来表示。其检索表达式为"A OR B"或"A+B",表示检索记录中含有A或B中的任意一词即被命中。例如,检索计算机算法或程序语言的相关文献,检索式可表达为:"计算机算法OR计算机程序设计语言"。
逻辑非(NOT)是一种表示排斥关系的组配,用于从原来的检索范围中排除不需要的概念或影响检索结果的概念。一般使用"-"来表示。其检索表达式为:"A NOT B"或"A-B",表示检索结果中含有A但不含有B的记录。例如,检索除因特网之外的计算机相关文献,则检索式应表达为:"computer-Internet"或"Computer NOT Internet"。布尔逻辑关系可用国4-1表示。
 
利用布尔逻辑关系可以构造多层次的布尔逻辑检索式,以表达复杂的检索需求,大大提高检索的查全率和查准率。在执行检索过程中,逻辑运算有其特定顺序,运算符优先顺序为NOT,AND,OR。也可以利用括号改变其执行顺序。
例如:"工业模具设计与制造",布尔逻辑关系检索式表示为:工业AND (模具设计OR模具制造)。
布尔算符中的逻辑"与"只要求两个检索词必须同时出现在同一篇文献中,而没有限定算符两侧检索词之间的位置关系,!有时难免造成误检。例如,查找"细菌对染料破坏"方面的文献,检索词:细菌、破坏、染料,用逻辑"与"组配后,检索结果:命中同时用这三个词标引的文献有"细菌对染料的破坏"方面的文献,也会有"染料对细菌的破坏"方面的文献,要排除后一部分的文献,就需用位置算符限定词与词之间的位置关系。
2.位置算符位置算符表示连接的两个检索词之间的位置关系,常用的有(W)、(nW)、(N)、(nN)、(S)、(F)。
1)(W)或()算符:是"With"的缩写,用"(W)"或"()"表示两个检索词词序不许颠倒,两词之间不许插词,只许空格或连字符号。例如检索式为CD (W)ROM时,将命中CD ROM或CD-ROM;检索式‘为:solar()energy时,检出solar energy或solar-em-gy。
nW)算符是"n words"的缩写,(nW)是从(W)算符引伸出来,检索词之间允许插入0~n个词,词序不许颠倒。例anticorrosion(1W)paint可检出anticorrosion paint和anticorrosion of paint。
2)(N)算符:是"Near"的缩写,(N)表示其连接的两个检索词的顺序可以颠倒,但两词之间不许插词,例cross (N)section可检出cross section和section crosso。
nN)算符是从(N)算符引伸出来的,检索词之间允许插入O~n个词,词序可以颠倒。
3)(F)算符:是"Field"的缩写,(F)表示其连接的两个检索词必须在同一字段内,词序及两词间插入的词数不限。例digital (F)computer
4)(S)算符:是"Sentence"和"Sub-fleld"的缩写,算符两侧的检索词必须在同一句子,词序及两词间插入的词数不限。
5)P算符:是"paragraph"的缩写,检索式为A(P)B,表示两个概念A、B必须同时在同一自然段中出现。例如:environment (P)pmteethno
上述位置算符可以混合用于同一检索式中,由于检索系统是按从左到右的顺序处理检索式的,因此,应将限制最严的算符放在最左边。
3.截词符截词是指检索者将检索词在他认为合适的地方截断。截词检索是指使用截词的一个局部进行检索的一种方法。即凡满足这个词局部中的所有字符(串)的文献,都为命中的文献。按截断的位置来分,截词有后截断、前截断、中截断3种类型,截词符可分别用?、$、*等来表示。截词检索分为有限截词(即一个截词符只代表一个字符)和无限截词(一个截词符可代表多个字符)。
1)后截断:后截断有无限截断和有限截断两种:无限截断是在一个词尾加一个"?"表示在其后可增加任意多个字符,这些词都被作为检索词进行检索。如:com?,它将对若干个词进行检索,包括:come、computer、computers、computimv.....;有限截断是在词尾加有限个"?",n个"?"号表示其后可添加的字符少于等于n个。如Smok??,它将对Smoke、Smoked、Smoker等进行检索。
2)前截断:前截断与后截断相反,将截词符放在一个词的前面,以表示其右边不管
截去有限或无限个字符,只要数据库中具有与截词符号后面部分字符串相同的检索词的信
息,即为命中信息。如:?computer,它将对macrocomputer,minicomputer,microcomputer等进行检索。
3)中截断:中截断只允许有限截断,是指在一个词中间有若干个"?"号,表示可插入若干个字符。如:analy?er,它将对analyzer,analyser等进行检索。
4.限制检索限制检索就是对检索词范围(时间、国别、语种、信息类型等)进行约束或限定的方法,它大多通过检索系统的限制符号或限制命令来实现。
5.全文检索技术全文检索是对文献全文内容进行的字符串的匹配检索,包括字符串检索、截词检索、位置检索、同义词控制以及后控词表等技术。全文检索技术使用原文中任何一个有实际意义的词作为检索人口,而且得到的检索结果是源文献而不是文献的线索。
6.构造检索式构造检索式是检索策略的具体表达,是将表达主体内容的检索词之间的逻辑关系、位置关系等用检索系统规定的各种算符连接起来,成为计算机可识别和执行的命令形式。检索式作为人一机交流的人工语言,对检索效率的高低有直接影响,一般分为简单检索式和复合检索式。简单检索式是指单独使用一个检索词所进行的检索;复合检索式是指将两个或两个以上的检索词用各种逻辑运算符、位置运算符及系统认可的其他符号组配起来的表达式。在计算机检索中,广泛使用复合检索式,以提高检索效率。
构造检索式分两个步骤:
1)选择检索词:是计算机检索成败的关键。因此,在执行检索前需从课题的名称及其描述出发,认真分析,提取供检索使用的词或词组,再对这些词或词组进行规范处理,如删除多余的修饰成分,最终使得检索使用的词成为最能概括主题概念的、最精炼的检索词。如课题"CAD在机械制造中的应用",通过分析"CAD"和"机械制造"为最能概括主题概念的、最精炼的检索词。
2)组配检索词:利用各种运算符对所选择的检索词进行组配,提高其查准率。注意在不同的检索系统中,提供使用的运算符不同,不是每个检索系统均支持所有运算符的组配。因此,检索者在组配检索式之前,需先通过每个系统所提供的检索帮助了解各系统支持的运算符。
7.加权检索同布尔逻辑等检索方式一样,都是信息检索的基本手段。加权检索是根据用户的检索需求来确定检索词,再由每个词在检索要求中的重要程度不同,分别给予一定的数值(权数)加以区别。但加权检索除了要求检索到的记录含有检索词,还要根据已检出的记录中所包含的检索词对检索要求的重要程度来确定检索到的结果。因此,加权检索不仅含有定性检索的性质,其特点更表现在定量方面。目前流行的加权方法有词加权、词频加权和法定数检索等。
1)词加权检索:这是最常见的加权检索方法。在检索式的构造过程中,检索者根据检索需求,选定检索词,同时给定每一个检索词(概念)一个数值(权)表示其针对本次检索的重要程度。这种检索者利用主观理解给检索词加权来表达提问要求的方法,称为词加权检索。(2)词频加权检索:是根据检索词在记录中出现的频次来决定该检索词的权值,而不是由检索者指定检索词的权值。该法消除了人工干预因素,但这种加权检索方式必须建立在全文(或)文摘型数据库基础之上,否则词频加校将没有意义。
3)法定数检索:也称"数值逼近检索"。它是加权检索的一种特例,其过程实际上是自动构造布尔提问式和不断修正提问式的过程。如有检索词A,B ,C,D,E (权重序列为:A〈B 〈C 〈D 〈E)。构成提问武:A*B *C *D *E。将此提问式用于检索后将得到较小的文献量(或为零)。达不到用户指定的文献量,便舍去权重最小的检索词,如A。再用修改后的提问式(如B *C *D *E〉检索,命中的文献数将会增加,如仍达不到用户指定文献量则再舍去权重最小的检索词,如B。再用修改后的提问式(如C *D *E)再检索。直到达到或接近用户指定的文献量。
法定数检索通过放宽布尔逻辑限定条件的方法调整提问式,使检索出的文献量逐步从无到有,或从少到多,使布尔逻辑检索具有灵活性。
4.2.3网络信息资源检索工具及检索途径
1.网络信息资源检索工具一一搜索引擎
1)搜索引擎概述:网上信息大爆炸,用户要在这浩瀚的信息海洋里寻找所需求的信息,必然会像大海捞针。搜索引擎正是为了解决这个问题而出现的技术。它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。它所提供的导航服务已经成为互联网上非常重要的网络服务,搜索引擎站点也被美誉为"网络门户"。它已成为人们获取信息的必备工具,你只需输入几个关键词,搜索引擎就会将散落在世界各个角落的资讯汇集到你眼前。下面详细介绍一下"搜索引擎"的工作原理及使用方法。
2)搜索引擎的工作原理:搜索引擎的工作主要由两部分组成:信息搜集处理和信息检索输出。
1)信息的搜集处理。搜索引擎的一个重要工作就是定期搜集信息,并对搜集来的信息进行整理加工,添加至该搜索引擎所指向的数据库。搜索引擎搜集信息的主要对象是互联网上的各个网络站点,包括阿P和Gopher站点。
2)信息的检索输出。对搜集的信息进行分析、标引、加工处理后,形成可供用户检索的数据库,并以Web形式提供用户检索。用户根据个人需求,结合检索系统条件,选择适当的检索方式、语言提出检索需求。检索软件在接受用户检索需求后,由系统对该需求进行分析,并在数据库中检索出与之对应的结果,按相关度排序后返回给用户。
3)搜索引擎的分类
1)按信息覆盖范围及用户群可分为综合搜索引擎(如Yahoo!)和专业(专题)搜索引擎,如查找地图信息的MapBlast。
2)按搜索范围分为独立搜索引擎如Yahoo!、google和元搜索引擎,如中文的万维搜索引擎(http://www.windewaysearch.com)和搜星搜索引擎(http://soseen.com)。
3)按其索引方式分为目录式搜索引擎、全文机器人搜索引擎、分类全文搜索引擎、智能搜索引擎。
①目录式搜索引擎提供等级式主题目录,用户通过主题目录的指引,逐层浏览信息,直到找到与自己需求相关的信息。特别适合于希望了解某一方面或范围内信息但又没有明确搜索目的的用户使用。该类搜索引擎因为加入了人的智能化,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。有代表性的目录式搜索引擎国外有:Yahoo!、About、LooKSmart;国内有:中文Yahoo!、网易、新浪、搜狐等。
②全文(机器人)搜索引擎提供对关键词或自然语言的查询。全文搜索引擎能够对网站的每个网页中的每个单字进行搜索。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预;缺点是返回信息过多,有很多元关信息,用户必须从结果中进行筛选。有代表的全文搜索引擎国外有:A1taVista、Hotbot、 Excite、Infoseek、FAST、Google等;国内有:"google、
天网、百度、若比邻、北极星、OpedFind等。典型代表是google(http://google.com)。
③分类全文搜索引擎是在分类的基础上再进一步进行全文检索。很多搜索引擎同时提供分类和关键词两种方式的检索。
④智能搜索引擎具备符合用户实际需要的知识库,搜索时根据己有的知识库来理解检索
词的意义并由此产生联想,从而找出相关网站或网页。同时,它具有一定的推理能力,能根据知识库的知识,运用人工智能方法进行推理。目前,比较成功的智能搜索引擎有FSA,Eloise和FAQFinder和"尤里卡"(http://mw.ulib.com)。
如打开打开"尤里卡"主页,在检索输入框中输入一句"今天北京冷不冷"或"现在去黄山旅游怎么样",单击[检索]按钮,会马上得到北京的天气情况或是关于黄山旅游的相关信息。你可以以最口语化的方式随便问你关心的问题,不必担心昕不懂,给你一些你不需要的答案。这就是大连尤利卡电子商务公司最近推出的中文智能搜索引擎。与以往的以关键字为基础的搜索方法相比,该搜索引擎可以充分理解搜索者的意图,搜索结果更具有准确性、岛相关性和实用性,大大节约了搜索时间。
2。网络信息资源检索途径目前Internet上的检索工具主要提供分类目录检索和关键词检索两种途径。
1)分类目录检索:分类目录检索索引数据库通常称为目录(Catalog),该目录是由人工进行分类建立的,类似于图书馆的目录,适合于主题较宽或要求较为简单的查询。典型的分类目录检索工具如Yahoo!、新浪、搜狐、网易等。
使用分类目录进行信息搜索的基本步骤是:
1)在Web浏览器中,根据URL地址,打开搜索工具的主页。
2)通过搜索工具主页链接进入分类目录检索界面。
3)根据分类目录结构选择所需类目,单击分类目录进入所选定类目的下一级子目录,或者进入一组站点列表。
4)选择需要的站点,单击站点名称,实现链接。
5)检索结果的显示与选择。
2)关键词检索:关键词检索主要是指利用搜索索引查找网页的方法,适合于主题较为专指、细小或狭窄的查询。
使用关键词进行信息搜索的基本步骤是:
1)根据URL地址,调用该查询工具的主页,如Google。
2)在查询工具主页的信息检索输入框中,键入关键词或查询短语。
3)单击"检索"或"查询",或直接按回车进行查询提交,搜索索引立即进行实时交互式的信息查询。
4)显示搜索结果。检索结果页面通常包括一系列资源标题和相应的资源描述,以及指向这些资源的站点链接。通过资源标题和URL地址,可以进一步搜索希望得到的信息。屏幕结果依次按相关度的高低显示。
我们可以通过中文搜索引擎指南网站(http://www.sowang.com/link.htm),详尽地了解"搜索引擎"。