新闻资讯
看你所看,想你所想

全文检索技术

全文检索技术

全文检索技术,就是以数据诸如文字,声音,图像等为主要内容,以检索文献资料的内容而不是外表特徵的一种检索技术·

主要全文检索系统有TRS系统·天宇系统·等

与其他搜寻引擎相比,全文搜寻引擎的显着特点是它能够以文中任何一个有检索意义的词作为检索入口,而且取得的检索结果是原始文献,而不是文献线索·

基本介绍

  • 中文名:全文检索技术
  • 原理:计算机存储设备为载体
  • 分类:结构化数据和非结构化数据
  • 包括:TRS系统·天宇系统

简介

随着计算机产业的发展,以计算机存储设备为载体的电子信息愈来愈多,这些信息大致可分为两类:结构化数据和非结构化数据,结构化数据指的是诸如企业财务帐目和生产数据、学生的分数数据等等,非结构化数据的则是一些文本数据、图象声音等多媒体数据等等。据统计,非结构化数据占有整个信息量的80%以上。

特徵

对于结构化数据,用RDBMS(关係资料库管理系统)技术来管理是目前最好的一种方式。但是由于RDBMS自身底层结构的缘故使得它管理大量非结构化数据显得有些先天不足,特别是查询这些海量非结构化数据的速度较慢。而通过全文检索技术就能高效地管理这些非结构化数据。
经过几年的发展,全文检索从最初的字元串匹配程式已经演进到能对超大文本、语音、图像、活动影像等非结构化数据进行综合管理的大型软体。由于内涵和外延的深刻变化,全文检索系统已成为新一代管理信息系统的代名词,衡量全文检索系统的基本指标也逐渐形成规範。
首先,我们关注的是查全率,即系统在进行某一检索时,检索出的相关资料量与系统资料库中相关资料总量的比率。查準率则是保证我们找到最有用资料的一个关键,是系统在进行某一检索时,检索出的有用资料数量与检索出资料总量的比率。检索速度或者说回响时间是提高工作效率的保障,指的是从提交检索课题到查出资料结果所需的时间。最基本的检索速度是应该达“千万汉字,秒级回响"。还有诸如收录範围(所查找的範围)、用户负担(用户在检索过程中付出精力的总和)、输出形式 (输出信息表现形式)等指标也是衡量全文检索系统优劣的要素。
搜寻引擎应该是全文检索技术最主要的一个套用。目前,搜寻引擎的使用已成为排在收发电子邮件之后的第二大网际网路套用技术。搜寻引擎起源于传统的信息全文检索理论,即电脑程式通过扫描每一篇文章中的每一个词,建立以词为单位的到排档案,检索程式根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的机率,对包含这些检索词的文章进行排序,最后输出排序的结果。全文检索技术是搜寻引擎的核心支撑技术。
一个好的检索引擎是一个理想站点的关键。很多人在访问一个站点时喜欢使用站点检索,站点检索应是分类目录导航和全文检索的完美结合,具体包括以下几个方面:
分类目录导航的关键是检索範围,检索範围的限制能使得检索结果不会太多、太滥;
全文检索对于站点检索是必不可少的,在通常情况下能够帮助人们很快地找到所要的网页;
有时利用分类目录导航和全文检索还很难定位到所要的信息,这时就要组合检索辅助;
必须有相关排序功能,因为当检索结果太多时,用户不可能一一浏览,大多数用户只浏览前面几条,没有相关排序,可能準确的检索结果排在后面,用户不能浏览到,而排在前面的检索结果却相关性很少,造成用户的错觉。
此外,我们还要考虑HTML/XML的特殊性、支持大量并发用户突发访问、Web站点的动态特性、要求索引维护效率很高等方面。

转载请注明出处海之美文 » 全文检索技术

相关推荐

    声明:此文信息来源于网络,登载此文只为提供信息参考,并不用于任何商业目的。如有侵权,请及时联系我们:ailianmeng11@163.com