新闻资讯
看你所看,想你所想

搜寻引擎原理

搜寻引擎原理

搜寻引擎原理

搜寻引擎,通常指的是收集了全球资讯网上几千万到几十亿个网页并对网页中的每一个词(即关键字)进行索引,建立索引资料库的全文搜寻引擎。当用户查找某个关键字的时候,所有在页面内容中包含了该关键字的网页都将作为搜寻结果被搜出来。再经过複杂的算法进行排序(或者包含商业化的竞价排名、商业推广或者广告)后,这些结果将按照与搜寻关键字的相关度高低(或与相关度毫无关係),依次排列。

基本介绍

  • 中文名:搜寻引擎原理
  • 搜寻引擎定义:关键字搜寻结果排序呈现的套用
  • 排序根据:与搜寻关键字的相关度
  • 工作原理:爬行和抓取、建立索引等
  • 核心数据结构:倒排档案
  • 分类:全文搜寻引擎、目录索引等

原理概述

在搜寻引擎的后台,有一些用于蒐集网页信息的程式。所收集的信息一般是能表明网站内容(包括网页本身、网页的URL地址、构成网页的代码以及进出网页的连线)的关键字或者短语。接着将这些信息的索引存放到资料库中。
搜寻引擎的系统架构和运行方式吸收了信息检索系统设计中许多有价值的经验,也针对全球资讯网数据和用户的特点进行了许多修改,如右图所示的搜寻引擎系统架构。其核心的文档处理和查询处理过程与传统信息检索系统的运行原理基本类似,但其所处理的数据对象即全球资讯网数据的繁杂特性决定了搜寻引擎系统必须进行系统结构的调整,以适应处理数据和用户查询的需要。

工作原理

爬行和抓取

搜寻引擎派出一个能够在网上发现新网页并抓档案的程式,这个程式通常称之为蜘蛛(Spider)。搜寻引擎从已知的资料库出发,就像正常用户的浏览器一样访问这些网页并抓取档案。搜寻引擎通过这些爬虫去爬网际网路上的外链,从这个网站爬到另一个网站,去跟蹤网页中的连结,访问更多的网页,这个过程就叫爬行。这些新的网址会被存入资料库等待搜寻。所以跟蹤网页连结是搜寻引擎蜘蛛(Spider)发现新网址的最基本的方法,所以反向连结成为搜寻引擎最佳化的最基本因素之一。搜寻引擎抓取的页面档案与用户浏览器得到的完全一样,抓取的档案存入资料库。

建立索引

蜘蛛抓取的页面档案分解、分析,并以巨大表格的形式存入资料库,这个过程即是索引(index).在索引资料库中,网页文字内容,关键字出现的位置、字型、颜色、加粗、斜体等相关信息都有相应记录。

搜寻词处理

用户在搜寻引擎界面输入关键字,单击“搜寻”按钮后,搜寻引擎程式即对搜寻词进行处理,如中文特有的分词处理,去除停止词,判断是否需要启动整合搜寻,判断是否有拼写错误或错别字等情况。搜寻词的处理必须十分快速。

排序

对搜寻词处理后,搜寻引擎程式便开始工作,从索引资料库中找出所有包含搜寻词的网页,并且根据排名算法计算出哪些网页应该排在前面,然后按照一定格式返回到“搜寻”页面。
再好的搜寻引擎也无法与人相比,这就是为什幺网站要进行搜寻引擎最佳化。没有SEO的帮助,搜寻引擎常常并不能正确的返回最相关、最权威、最有用的信息。

数据结构

搜寻引擎的核心数据结构为倒排档案(也称倒排索引),倒排索引是指用记录的非主属性值(也叫副键)来查找记录而组织的档案叫倒排档案,即次索引。倒排档案中包括了所有副键值,并列出了与之有关的所有记录主键值,主要用于複杂查询。 与传统的SQL查询不同,在搜寻引擎收集完数据的预处理阶段,搜寻引擎往往需要一种高效的数据结构来对外提供检索服务。而现行最有效的数据结构就是“倒排档案”。倒排档案简单一点可以定义为“用文档的关键字作为索引,文档作为索引目标的一种结构(类似于普通书籍中,索引是关键字,书的页面是索引目标)。

全文搜寻引擎

在搜寻引擎分类部分我们提到过全文搜寻引擎从网站提取信息建立网页资料库的概念。搜寻引擎的自动信息蒐集功能分两种。一种是定期搜寻,即每隔一段时间(比如Google一般是28天),搜寻引擎主动派出“蜘蛛”程式,对一定IP位址範围内的网际网路站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的资料库。
另一种是提交网站搜寻,即网站拥有者主动向搜寻引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程式,扫描你的网站并将有关信息存入资料库,以备用户查询。由于搜寻引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜寻引擎资料库,因此目前最好的办法是多获得一些外部连结,让搜寻引擎有更多机会找到你并自动将你的网站收录。
当用户以关键字查找信息时,搜寻引擎会在资料库中进行搜寻,如果找到与用户要求内容相符的网站,便採用特殊的算法——通常根据网页中关键字的匹配程度,出现的位置/频次,连结质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页连结返回给用户。

目录索引

与全文搜寻引擎相比,目录索引有许多不同之处。
首先,搜寻引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标準甚至编辑人员的主观印象,决定是否接纳你的网站。如果审核通过,你网页才会出现于搜寻引擎中,否则不会显示。
其次,搜寻引擎收录网站时,只要网站本身没有违反有关的规则,一般都能收录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。
此外,在登录搜寻引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录。
最后,搜寻引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。
目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键字搜寻,也可按分类目录逐层查找。如以关键字搜寻,返回的结果跟搜寻引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。
目前,搜寻引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜寻引擎现在也提供目录搜寻。

元搜寻引擎

元搜寻引擎(MetaSearchEngine)不是一种独立的搜寻引擎,它最显着的特点是没有自己的资源索引资料库,是架构在许多其他搜寻引擎之上的搜寻引擎。元搜寻引擎在接受用户查询请求时,可以同时在其他多个搜寻引擎中进行搜寻,并将其他搜寻引擎的检索结果经过处理后返回给用户。元搜寻引擎为用户提供一个统一的查询页面,通过自己的用户提问预处理子系统将用户提问转换成各个成员搜寻引擎能识别的形式,提交给这些成员搜寻引擎中,然后把各个成员搜寻引擎的搜寻结果按照自己的结果处理子系统进行比较分析,去除重複并且按照自定义的排序规则进行排序返回给用户。所以,一般的元搜寻引擎都包括三大功能结构:提问预处理子系统、检索接口代理子系统和检索结果处理子系统。

转载请注明出处海之美文 » 搜寻引擎原理

相关推荐

    声明:此文信息来源于网络,登载此文只为提供信息参考,并不用于任何商业目的。如有侵权,请及时联系我们:ailianmeng11@163.com