站内搜索

信息检索基础知识

通俗地说,信息检索( Information Retrieval )就是信息用户为了处理解决各种问题而查找、识别、获取相关的事实、数据、知识的活动及过程。其主要研究内容包括:信息检索理论,信息检索语言,信息检索工具或信息检索系统的构建及评价,信息检索技术与方法等。
  20 世纪中叶以前,由于信息的存储和传播主要是以纸制介质为载体,信息检索的活动主要围绕着相关文献的获取和利用而展开,因此“文献检索”成为信息检索的同义词而被广泛使用。到了 20 世纪 50 年代以后,社会信息传播与存储呈现多元化发展,人民不再拘泥于载体研究信息检索,于是开始广泛使用“情报检索”一词。近年来,由于汉语中“信息”一词较“情报”一词的含义更为广泛,加上英文词汇 Information 可以概括“情报”与“信息”,因此,人们越来越倾向于将文献检索和情报检索统称为信息检索这一更具兼容性的概念。
  信息检索按信息存储的载体和查找的技术手段,可分为手工检索和计算机检索。
手工检索,即通过检索者对印刷型的检索工具进行手翻、眼看、脑子做出判断而进行的,也称基础信息检索。计算机检索,简称机检,使用的计算机检索系统。检索是针对数据库进行的,数据库是计算机可读数据的集合。
  搜索引擎( Search Engines )是一种在 Web 上应用的软件系统,它以一定的策略在 Web 上搜集和发现信息,在对信息进行处理和组织后,为用户提供 Web 信息查询服务。从使用者的角度看,这种软件系统提供一个网页界面,让他通过浏览器提交一个词语或者短语,然后很快返回一个可能和用户输入内容相关的信息列表,这个列表中的每一条目代表一篇网页,每个条目至少有三个元素:标题、 URL 和摘要。
  搜索引擎从搜索结果获取的角度来看,可分为单一搜索引擎和多元搜索引擎。而多元搜索引擎可分为两种类型:搜索引擎目录和多元搜索引擎。
  所谓单一搜索引擎,即是我们常见的搜索引擎,如 Google 、百度等,它是从一个数据提供商取得搜索结果的搜索引擎。
  搜索引擎目录即检索工具的检索工具,它将主要的搜索引擎集中罗列起来,并按类型或按检索问题等编排组织成目录,将用户导引到相应的工具去检索,但检索的还是某一搜索引擎的数据库,与普通单一搜索引擎的检索是一样的,只不过多设了一层门户。通过其组织、检索界面,为用户选择适用的检索工具提供积极的帮助,以克服用户面对众多的检索工具的无所适从。
  多元搜索引擎将多个搜索引擎集成在一起,提供一个统一的检索界面,把一个检索提问同时发送给多个搜索引擎,同时检索多个数据库,再经过聚合、去重之后输出检索结果。因而又被称为“并行统一检索索引( Simultaneous Unified Search Index ,简称 SUSI )”,即在用户输入检索词后,该引擎自动地利用多种检索工具同时进行检索。它是一种集中检索的方式,与 Dialog 联机检索中的跨文档检索 OneSearch 非常类似。其最大优点就是省时,不必就同一提问一次次地访问所选定的搜索引擎,也不必每次均输入检索词等。另外,检索的是多个数据库,检索的综合性、全面性也有所提高。



制作: 图书馆技术部 Copyright©2007-2020

您是第位读者