知识搜寻引擎
知识搜寻引擎(Knowledge search engine)并非单纯的是一种搜寻工具,它首先是知识管理的一种实现理念与工具,承担了“知识汇聚、知识发现、知识分类、知识聚类、知识门户的构建”,通过搜寻引擎技术完成知识管理的使命。知识搜寻引擎、知识分类体系、知识专家网路共同构成了当今世界上先进知识管理系统的主要内涵。
基本介绍
- 中文名:知识搜寻引擎
- 外文名:Knowledge search engine
- 特点:并非单纯的是一种搜寻工具
- 性质:一种实现理念与工具
CICADA知识搜寻引擎的诞生背景

企业知识迅猛增长,总量超过网际网路数据总量
根据统计,企业数据每年以200%的速度增长,其中80%以上的数据以档案、邮件、图片等非结构化数据存放在企业内计算机系统中的各个角落。而且这些数据总量远远超过了网际网路信息的总量。有数字表明,企业发布到网际网路的信息只占到信息量的1%-2%,而98%以上的信息是存储在企业内部的。
仅靠网路搜寻不能解决全部问题
网际网路搜寻引擎近年来获得快速发展,以及其覆盖网际网路人口面积的迅速扩张,使得我们一提起搜寻引擎就想到了百度、谷歌这样的网际网路搜寻引擎,有什幺疑难问题在网际网路上就可以找到答案。然而,实际上网际网路搜寻引擎不能解决全部的问题,如企业内部的规章制度、项目文档、工作经验等,作为企业的知识财富,是不可能通过网际网路获得完美答案的。
获取準确的知识成为提升企业核心能力的要件
企业或组织经过多年的运作,积累了大量的运营、工作、生产、研发的经验与知识,这些信息内容散落在企业的各个伺服器、IT系统,甚至个人的电脑中,这些宝贵的知识财富日益成为指导企业员工行动、减少操作失误、提升工作效率、降低运营成本的重要依託,如何快速、準确的让员工获得工作所需知识,已经成为企业是否能够建立快速回响机制、快捷低成本运作的重要一环。
CICADA知识搜寻引擎应运而生
知识搜寻是在搜寻引擎发展进入智慧型化阶段的过程,是建立在明确的知识来源基础上,根据明确的用户身份与诉求,回馈恰当知识结果的搜寻引擎,更为强调知识的準确、标準,强调通过互动机制如评价、交流、修改、维护等进行搜寻结果的自我学习,以达到知识搜寻的智慧型化。
深蓝海域在知识管理和知识管理技术领域拥有多年积累,依据知识管理理念推出的知识搜寻引擎正是为了解决“汇聚多类知识源,依据用户身份与诉求,回馈準确知识,指导用户行动”这一命题而生,知识搜寻引擎作为搜寻引擎的一个分支,在为企业提供準确知识获取方面将起到不可或缺的作用。
CICADA知识搜寻引擎与其他搜寻引擎辨析与任何市场和工具一样,细分是搜寻引擎的未来不可避免的趋势,就目前市场範围而言,搜寻引擎大概可以分为如下几类:
网际网路搜寻引擎:通过索引全球网际网路上的信息,为网际网路用户提供快速检索、查找、推荐的服务,其核心诉求是为用户提供更全、更快、更準的信息。
垂直搜寻引擎:网际网路搜寻引擎的一个市场分支,通过索引特定的细分网站类型,为用户提供专业领域的信息查询服务,其核心诉求是为用户提供专业、全面、快速的信息。
企业搜寻引擎:通过索引企业内部的信息源,为企业内部或企业关联的用户群提供特定的信息查询服务,其核心诉求是为用户提供企业内部信息的準确、快速定位。
知识搜寻引擎:是企业搜寻引擎的一个分支,不仅仅是要实现企业範围的信息搜寻引擎,更重要的是实现企业的知识管理以及知识发现,并将这些知识套用于协助、指导企业运作。
下面我们通过一个对比表格了解一下这几种搜寻的特徵区别:
对比项 | 网际网路搜寻 | 垂直搜寻 | 企业搜寻 | 知识搜寻 |
核心诉求 | 查全 | 专业 | 準确 | 解决问题 |
用户解析度 | 大部分要自主分辨,对比 | 专业领域的协助分辨对比 | 通过数据源减少分辨对比 | 通过知识源、知识互动、用户身份等减少解析度 |
数据源 | 网际网路上的网页及特定文档类型信息 | 专业领域的网站网页信息 | 企业内部各种IT系统的信息。 | 组织内部IT系统、知识文档、来源于岗位和部门知识等。 |
信息类型与接口 | 网际网路通讯协定 | 网际网路通讯协定 | 资料库、档案系统、oa、ERP等不同类型的接口 | 资料库、档案系统、oa、ERP等不同类型的接口 |
互动性 | 以搜寻引擎方获取用户行为为主,单项互动。 | 以搜寻引擎方获取用户行为为主,单项互动。 | 以获取用户行为、用户身份为主,单项互动。 | 以用户身份、行为、知识互动评价等作双向、多向互动。 |
安全性 | 禁止部分违法信息外,无安全考虑 | 禁止部分违法信息外,无安全考虑 | 考虑用户许可权、身份等保障信息安全 | 除许可权、身份安全外,要考虑知识套用后的结果安全 |
决策支持 | 对信息获取者提供参考 | 对信息获取者提供专业参考 | 对信息获取者提供内部参考;对决策者提供基于搜寻统计的决策支持 | 对信息获取者提供知识级、标準级参考;;对决策者提供基于知识用用的决策支持 |
身份性 | 弱,通过用户行为或注册信息获取部分身份。 | 弱,通过用户行为或注册信息获取部分身份。 | 强,通过用户的岗位、角色等信息获取身份。 | 较强,通过用户的岗位、角色、知识套用经历等获取身份。 |
CICADA知识搜寻引擎介绍
CICADA的产品介绍
CICADA,蝉,同“禅”出自佛家,故称“知了”,意即知道、理解、开悟。对于知识管理或搜寻引擎而言,能够达到让使用者“知了”的地步是一个最重要、最核心的目的。
CICADA是一款面向企业和组织套用,以知识(knowledge)源、信息(information)源为依据对象,以获取準确的、具有指导和决策意义知识信息为目的,通过知识搜寻结果指导人正确行动(action)的新一代知识搜寻引擎。基于CICADA核心引擎构建,由国内着名知识管理软体企业深蓝海域公司耗时3年研发,拥有自主智慧财产权并取得了国家颁发的软体着作权(登记号:2009SRBJ0243)。
CICADA系统技术架构採用标準的轻量级J2EE架构,核心引擎採用深蓝海域自主开发的企业级多介质搜寻引擎。能够在多种数据媒介中搜寻数据,并进行合理比对,筛选,排序,结合我们知识管理方面累积多年的专业词库,能为客户定製出更人性化、智慧型化的搜寻引擎。
CICADA已经广泛套用于金融、银行、製造、电信、汽车、电子政务、快速消费品、医药、能源、化工、房地产、服务业等行业和领域,为客户提供稳定、快速、準确的知识搜寻服务。
CICADA的核心理念与功能
CICADA的核心理念
CICADA的构建理论基于“全文搜寻+资料库检索+搜寻套用”。全文搜寻的诞生和资料库在大文本检索时的效率不高有极大的关係,在这个角度全文搜寻成为了资料库搜寻的有力补充。但是全文搜寻并不能完全代替资料库检索在企业级套用里的作用,比如在準确检索所属部门、分布时间段、作者这样的精确栏位时,或者要求按照某一栏位逻辑进行结果的排序,全文搜寻的模糊性就会带来很大的困扰和不精确性。在套用网际网路搜寻时,我们可能不存在也不可能做到这样精準的栏位要求,但在企业级套用中这种需求就比比皆是。从理论角度上来说,全文搜寻和资料库搜寻两者在套用条件不同的情况下表现互有优劣,其中一方不会被另一方完全代替,而是应该相辅相成互为补充,为用户呈现最精準的知识和信息获取。
对于企业级用户而言,仅仅是搜寻结果集的呈现还远远不够,因此CICADA提供了丰富的搜寻套用,通过丰富多彩的套用形式,为用户提供不同角度、不同体验的搜寻方式,如搜寻引擎时光隧道、个人搜寻年轮、知识关联、个性化查询器等,通过这些套用提升用户感受,强化系统和用户之间的互动关係。
CICADA的搜寻流程示意图
基于以上,CICADA提出并採用了全新的“全文搜寻+资料库检索+搜寻套用”三位一体技术与产品理念,既保证了系统通过全文搜寻获取快速、準确的结果,又通过结合资料库搜寻的方式实现时间、来源、好评度等多种资料库栏位的查询,这两者的结合使搜寻结果更为符合用户的搜寻诉求。同时加入搜寻套用的诸多功能从套用的角度为用户提供了更为得心应手的套用,从而让系统更为智慧型的为用户提供服务。而这一知识搜寻引擎的技术创新,也成为CICADA的产品发展方向与核心能力。
可维护、学习式分词技术
与英文的自然分词不同,中文分词存在着众所周知的难度,把中文的句子切分成有意义的词,就是中文分词,也称切词。目前还是一个难题———对于需要上下文区别的词以及新词(人名、地名等)很难完美的划分。国际上将同样存在分词问题的中国、日本和韩国并称为CJK(Chinese Japanese Korean)。分词机制的好坏,直接影响到用户对搜寻结果的满意度,所以如何分词是搜寻引擎的重中之重。
到目前为止,中文分词包括三种方法:1)基于字元串匹配的分词;2)基于理解的分词;3)基于统计的分词。以下是三种分词方法的比较:
分词方法 | 基于字元串匹配分词 | 基于理解的分词 | 基于统计的分词 |
歧义识别 | 差 | 强 | 强 |
新词识别 | 差 | 强 | 强 |
需要词典 | 需要 | 不需要 | 不需要 |
需要语料库 | 否 | 否 | 是 |
需要规则库 | 否 | 是 | 否 |
算法複杂性 | 容易 | 很难 | 一般 |
技术成熟度 | 成熟 | 不成熟 | 成熟 |
实施难度 | 容易 | 很难 | 一般 |
分词準确性 | 一般 | 準确 | 较準 |
分词速度 | 快 | 慢 | 一般 |
Cicada知识搜寻引擎系统採用“Cicada's wings knife”作为分词器,取其分词快捷、细緻之意。这套分词系统採用了“基于字元串匹配分词和统计分词”相结合的方式。利用统计方法进行词典的动态扩展,即对搜寻的辞彙频率进行自主的阈值设定,对于超过阈值的辞彙自动加入学习词库,从而克服了基于词典算法对"完全词典"的依赖,利用词典对统计的一些参数进行学习评估,避免了以往靠实验得到这些参数的不确定性,同时将RMM算法与统计算法结合起来。除了通过自主学习获得新词以外,也可以通过手工维护的方式对专业词库进行维护。目前,Cicada的基本分词词库已经达到50万条,金融、税务、製造、谘询等专业词库达到了20万条左右。
与目前流行的算法相比,Cicada's wings knife分词器在準确率,召回率,分词效率综合平衡上有明显优势。具体对比如下。
对比项 | Cicada's wings knife | Standard (Lucene) | CJK (Lucene) | Paoding |
分词速度 | 快 | 非常快 | 快 | 快 |
分词準确性 | 好 | 差 | 差 | 较好 |
歧义识别 | 一般 | 差 | 差 | 差 |
新词识别 | 好 | 差 | 差 | 差 |
需要词典 | 需要 | 否 | 否 | 需要 |
需要语料库 | 需要 | 否 | 否 | 否 |
需要规则库 | 否 | 否 | 否 | 否 |
算法複杂性 | 複杂 | 简单 | 简单 | 一般 |
技术成熟度 | 成熟 | 成熟 | 成熟 | 成熟 |
实施难度 | 大 | 小 | 小 | 中 |
学习能力 | 强 | 弱 | 弱 | 弱 |
可维护性 | 强 | 弱 | 弱 | 中 |
多数据源跨域搜寻
经过多年的IT建设后,组织中会存在各种IT系统,如OA、HR、ERP、CRM、PM、财务系统等,这些系统因为建设时期、项目的不同,平台异构、数据分散等特徵非常明显,形成了数据孤岛,彼此之间无法通过一个有效的纽带联繫起来,无法同时获取多个系统中的信息,Cicada知识搜寻引擎通过跨域、跨库的索引能力,实现跨库搜寻,一举构建出一个融会贯通的企业信息渠道,消除信息孤岛。
基于跨域搜寻的知识门户
基于CICADA的企业(知识)门户示意图
基于知识搜寻引擎,可以对多种数据源进行索引和查询,同时通过搜寻规则的建立可以将有指定特徵的条件信息,返回到信息门户界面上,这就形成了统一的企业(知识)门户,用户可以在这个门户上获取最新的各个IT系统和数据源的规则性信息。
基于身份与许可权的识别
在知识库系统或其他系统中,在企业级套用系统中,用户都有自己明确的身份与许可权,这决定了我们可以通过判断他们不同的身份和许可权,为其提供适合身份和许可权的搜寻套用,返回适合其身份和许可权的结果,避免越权获取信息的情况产生,而且对其身份许可权的判断能够更好的为用户推送準确信息,避免信息集合过大。
互动学习式搜寻引擎
在知识管理或企业IT套用过程中,我们对各类知识与信息的套用效果有明确的感知与评价,在CICADA中,我们将这种感知与评价通过系统的方式记录下来,反馈给搜寻引擎进行合理化处理,经过这样的互动点评知识可以综合热度、好评度、命中率等因素进行加权计算,从而提供给用户合理的结果排序,让常用的、好评度高的知识自动往前排。
基于搜寻引擎统计的决策支持
知识搜寻引擎对用户的搜寻行为,关键字的分布等进行统计分析,对知识库的重点建设、发展方向从用户的需求角度给予数据支持和决策信息。这样形成企业知识在组织层面的增值利用与决策支持。
个性化搜寻套用功能
定製搜寻範围:用户可以根据自己的要求,选择想要搜寻的知识範围,而不是每次都搜寻全部资料库,这样可以大大减少搜寻误差,可以根据业务或知识分类,定义出不同的个性化搜寻项。
搜寻推荐服务:根据搜寻过程的监控,推荐搜寻的热点辞彙;搜寻行为推荐可以推荐搜寻当前辞彙的用户,还搜寻了哪些辞彙;推荐跟当前关键字相关联的关键字。通过主动的推荐服务,让用户可以快速的找到自己所需。
搜寻联想词。记录搜寻人员常用的搜寻关键字,当用户输入关键字的时候,自动联想提示其他用户常用频率较高的搜寻关键字,以供选择。以高频率的关键字引导用户使用,提高命中率。
档案伺服器全文搜寻:对于档案伺服器,进行数据索引,并定製出一个全文搜寻引擎,能够对资料夹中的文档名称和内容进行搜寻。
多格式附属档案全文搜寻:对知识发布时所带的附属档案进行全文搜寻,可以搜寻附属档案名称和内容,按照附属档案格式进行搜寻,并实现附属档案的html格式快照,打开快照可以预览附属档案的内容。
逻辑关係高级搜寻功能:支持包含、完全包含、至少包含一个、不包含等搜寻的逻辑关係,便于用户根据自己的查询条件,设计查询公式。
在结果中搜寻功能:在搜寻的结果中,进行二次筛选式搜寻,实现递进式的搜寻命中。
个性化查询器:用户可以根据自己的使用习惯,将系统提供的查询条件进行组合后,保存为一个个性化查询器,输入关键字后,系统会按照查询器的条件组合进行搜寻。
时光隧道:用户可以按照时间轨迹对搜寻结果进行排序,查找到距离自己最近或者某个时间段的具体信息,排除其他非所需时间段的信息。
CICADA的性能指标
深蓝海域知识搜寻引擎系统基于JAVA核心,解决海量信息检索,在民生、光大等银行知识库套用中表现出优异的性能,在普通部门级单台伺服器环境下,其主要性能指标项如下:
序号 | 指标项 | 指标值 |
1 | 搜寻速度 | 1千万条记录情况下的查询速度为毫秒级,客户端回响小于2秒 |
2 | 索引能力 | 创建100万条记录的索引只需3~4分钟 |
3 | 分词能力 | 每秒分词1200k,準确率98% |
4 | 并发能力 | 支持100个并发,约2000人线上搜寻 |
5 | 準确返回率 | 所指定查找结果(TREC)应在前10条信息之内的命中率达到95%以上。 |
6 | 良好集成能力 | 与其他系统进行界面、用户和数据层的集成 |
在系统集成方面,CICADA可以通过系统集成的方式,与其他IT系统进行界面、数据、通讯层面的集成互动,从而实现无缝集成。本搜寻引擎单独部署为一个套用.通过特定的信道监听,实现索引的更新。採用webservice方式提供搜寻服务,与原知识系统解耦,避免对原有系统造成冲击,也能够更好的发挥搜寻引擎效能。
CICADA的核心採用深蓝自主研发的高性能搜寻引擎,与常见的开源搜寻引擎如luncen等对比,我们具有以下几个方面优势:
一索引效率.我们採用R-Tree数据结构和R-Tree空间索引的算法.支持高维数据空间;有效分割数据空间,来适应索引的组织;高效的实现多种查询方式系统中的统一。故在索引效率和查询效率上略优与Lucene.
二智慧型搜寻. CICADA 具备关係查询、布尔邻近查询、文档相似度比较、以及文档的自动分类等特性。Lucene要在下一个版本才提供相关支持。
三分词技术.深蓝在知识管理领域有多年的经验积累和完善专业词库的建设。CICADA採用基于字元串匹配分词和统计分词相结合的方式,对歧义识别,新词学习有独到的技术实现。
搜寻引擎使用技巧
简单查询
在搜寻引擎中输入关键字,然后点击“搜寻”就行了,系统很快会返回查询结果,这是最简单的查询方法,使用方便,但是查询的结果却不準确,可能包含着许多无用的信息。
使用双引号用(" ")
给要查询的关键字加上双引号(半角,以下要加的其它符号同此),可以实现精确的查询,这种方法要求查询结果要精确匹配,不包括演变形式。例如在搜寻引擎的文字框中输入“电传”,它就会返回网页中有“电传”这个关键字的网址,而不会返回诸如“电话传真”之类网页。
使用加号(+)
在关键字的前面使用加号,也就等于告诉搜寻引擎该单词必须出现在搜寻结果中的网页上,例如,在搜寻引擎中输入“+电脑+电话+传真”就表示要查找的内容必须要同时包含“电脑、电话、传真”这三个关键字。
使用减号(-)
在关键字的前面使用减号,也就意味着在查询结果中不能出现该关键字,例如,在搜寻引擎中输入“电视台-中央电视台”,它就表示最后的查询结果中一定不包含“中央电视台”。
使用通配符(*和?)
通配符包括星号(*)和问号(?),前者表示匹配的数量不受限制,后者匹配的字元数要受到限制,主要用在英文搜寻引擎中。例如输入“computer*”,就可以找到“computer、computers、computerised、computerized”等单词,而输入“comp?ter”,则只能找到“computer、compater、competer”等单词。
使用布尔检索
所谓布尔检索,是指通过标準的布尔逻辑关係来表达关键字与关键字之间逻辑关係的一种查询方法,这种查询方法允许我们输入多个关键字,各个关键字之间的关係可以用逻辑关係词来表示。
and,称为逻辑“与”,用and进行连线,表示它所连线的两个词必须同时出现在查询结果中,例如,输入“computer and book”,它要求查询结果中必须同时包含computer和book。
or,称为逻辑“或”,它表示所连线的两个关键字中任意一个出现在查询结果中就可以,例如,输入“computer or book”,就要求查询结果中可以只有computer,或只有book,或同时包含computer和book。
not,称为逻辑“非”,它表示所连线的两个关键字中应从第一个关键字概念中排除第二个关键字,例如输入“automobile not car”,就要求查询的结果中包含automobile(汽车),但同时不能包含car(小汽车)。
near,它表示两个关键字之间的词距不能超过n个单词。
在实际的使用过程中,你可以将各种逻辑关係综合运用,灵活搭配,以便进行更加複杂的查询。
使用括弧
当两个关键字用另外一种操作符连在一起,而你又想把它们列为一组时,就可以对这两个词加上圆括弧。
使用元词检索
大多数搜寻引擎都支持“元词”(metawords)功能,依据这类功能用户把元词放在关键字的前面,这样就可以告诉搜寻引擎你想要检索的内容具有哪些明确的特徵。例如,你在搜寻引擎中输入“title:清华大学”,就可以查到网页标题中带有清华大学的网页。在键入的关键字后加上“domainrg”,就可以查到所有以org为后缀的网站。
其他元词还包括:image:用于检索图片,link:用于检索连结到某个选定网站的页面,URL:用于检索地址中带有某个关键字的网页。
区分大小写
这是检索英文信息时要注意的一个问题,许多英文搜寻引擎可以让用户选择是否要求区分关键字的大小写,这一功能对查询专有名词有很大的帮助,例如:Web专指全球资讯网或环球网,而web则表示蜘蛛网.