搜寻引擎原理

原理概述

在搜寻引擎的后台，有一些用于蒐集网页信息的程式。所收集的信息一般是能表明网站内容（包括网页本身、网页的URL地址、构成网页的代码以及进出网页的连线）的关键字或者短语。接着将这些信息的索引存放到资料库中。

搜寻引擎的系统架构和运行方式吸收了信息检索系统设计中许多有价值的经验，也针对全球资讯网数据和用户的特点进行了许多修改，如右图所示的搜寻引擎系统架构。其核心的文档处理和查询处理过程与传统信息检索系统的运行原理基本类似，但其所处理的数据对象即全球资讯网数据的繁杂特性决定了搜寻引擎系统必须进行系统结构的调整，以适应处理数据和用户查询的需要。

工作原理

爬行和抓取

搜寻引擎派出一个能够在网上发现新网页并抓档案的程式，这个程式通常称之为蜘蛛（Spider）。搜寻引擎从已知的资料库出发，就像正常用户的浏览器一样访问这些网页并抓取档案。搜寻引擎通过这些爬虫去爬网际网路上的外链，从这个网站爬到另一个网站，去跟蹤网页中的连结，访问更多的网页，这个过程就叫爬行。这些新的网址会被存入资料库等待搜寻。所以跟蹤网页连结是搜寻引擎蜘蛛（Spider）发现新网址的最基本的方法，所以反向连结成为搜寻引擎最佳化的最基本因素之一。搜寻引擎抓取的页面档案与用户浏览器得到的完全一样，抓取的档案存入资料库。

建立索引

蜘蛛抓取的页面档案分解、分析，并以巨大表格的形式存入资料库，这个过程即是索引（index).在索引资料库中，网页文字内容，关键字出现的位置、字型、颜色、加粗、斜体等相关信息都有相应记录。

搜寻词处理

用户在搜寻引擎界面输入关键字，单击“搜寻”按钮后，搜寻引擎程式即对搜寻词进行处理，如中文特有的分词处理，去除停止词，判断是否需要启动整合搜寻，判断是否有拼写错误或错别字等情况。搜寻词的处理必须十分快速。

排序

对搜寻词处理后，搜寻引擎程式便开始工作，从索引资料库中找出所有包含搜寻词的网页，并且根据排名算法计算出哪些网页应该排在前面，然后按照一定格式返回到“搜寻”页面。

再好的搜寻引擎也无法与人相比，这就是为什幺网站要进行搜寻引擎最佳化。没有SEO的帮助，搜寻引擎常常并不能正确的返回最相关、最权威、最有用的信息。

数据结构

搜寻引擎的核心数据结构为倒排档案（也称倒排索引），倒排索引是指用记录的非主属性值(也叫副键)来查找记录而组织的档案叫倒排档案，即次索引。倒排档案中包括了所有副键值，并列出了与之有关的所有记录主键值，主要用于複杂查询。与传统的SQL查询不同，在搜寻引擎收集完数据的预处理阶段，搜寻引擎往往需要一种高效的数据结构来对外提供检索服务。而现行最有效的数据结构就是“倒排档案”。倒排档案简单一点可以定义为“用文档的关键字作为索引，文档作为索引目标的一种结构（类似于普通书籍中，索引是关键字，书的页面是索引目标）。

搜寻引擎原理

搜寻引擎原理

基本介绍

原理概述

工作原理

爬行和抓取

建立索引

搜寻词处理

排序

数据结构

全文搜寻引擎

目录索引

元搜寻引擎

相关推荐