知识可信度量
网路大数据中蕴含丰富的知识资源,包括描述特定事物的实体、刻画实体逻辑联繫的关係、用于语义标注实体的分类等。由于网路空间庞大且机构複杂,知识其自身会呈现出异质性、多元性和碎片化等特点。如何在网路大数据环境下对知识进行有效的融合计算,将从网路大数据中获得的知识有效组织起来是知识库构建亟待解决的技术难点和当前研究的热点。知识可信度量,也可称为知识评估,是指在知识融合中用于判断知识真伪的知识评估方法。
基本介绍
- 中文名:知识可信度量
- 外文名:knowledge validation
1、 知识可信度量的必要性
网路大数据是指“人、机、物”三元世界在网路空间中互动、融合所产生并在网际网路上可获得的大数据。这些数据具有多源异构、时效性、社会性、突发性和高噪声等特点,其背后蕴含着丰富的知识资源。然而,从单一数据源获取的知识并不全面、知识间缺乏深入的关联,给知识的理解和套用带来巨大的困难。因此,应当将网路数据中蕴含的知识进行有效的关联,将其转变成为种基础知识资源来协同提供服务,从而有效利用网路大数据的价值。
知识融合是将从网路大数据公开的碎片化数据中获取的多源异构、语义多样、动态演化的知识,通过冲突检测和一致性检查,对知识进行正确性判断,去粗取精,将验证正确的知识通过对齐关联、合併计算有机地组织成知识库,提供全面的知识共享的重要方法。由此可知,知识融合建立在知识获取的基础上,知识获取为知识融合提供知识来源。在知识融合中,如何通过知识可信度量刻画知识的质量,消除知识理解的冲突和不一致性,发现反映真实世界的事实,即知识的真值,将正确的知识更新扩充到知识库中是研究者们关注的重点。
2、 知识可信度量的方法
知识可信度量是知识融合的首要步骤,对验证为正确的知识继续进行融合计算才有意义。目前,知识可信度量的研究工作主要分为以下几类:
(1) 基于贝叶斯估计的知识评估方法
考虑到不同数据来源的知识质量可能不一定相同,基于贝叶斯模型的方法提供了一种计算假设机率的方法,基于假设的先验机率、给定假设下观察到的不同知识的机率以及观察到的知识本身而得出,计算简单、直接。然而,贝叶斯方法需要满足如下条件:不同来源的知识之间的观测是互相独立的,而且这些知识的先验机率是可预知的,这在网路大数据环境中很难的到满足,从而无法保证贝叶斯方法在具体套用中的实用性。
(2) 基于D-S证据理论的知识评估方法
基于D-S证据理论的方法主要根据数据源提供的知识和先验信息,处理流程如下:首先,利用数据挖掘等手段,提取不同观测结果的信任函式;其次,基于Dempster证据组合规则,对观测结果的信任函式进行融合;然后,得到基础机率分配,选择具有最大支持度的假设作为最优的判断,从而选择认为正确的知识。
基于D-S证据理论的方法是对贝叶斯机率论方法的进一步扩展,它具有直接表示“不知道”和“不确定”的能力,只是满足比贝叶斯机率论更弱的条件,能够很好地建模不确定性的知识,解决知识冲突的问题,但该方法与贝叶斯方法类似,也要求参与评估的知识源之间是相互独立的,其判别决策含有更多的主观性,而且当知识源间高度冲突时,往往产生相悖的结论,同时,该方法的时间複杂度随知识源数目的增加呈指数级增长。综上,基于D-S证据理论的方法难以有效处理网路大数据中大规模知识的评估问题。
(3) 基于模糊集理论的知识评估方法
该方法採用分类的局部理论,在D-S证据理论方法的基础上,进一步放宽了贝叶斯机率论方法的限制条件,採用基于模糊积分的方式找到置信度最高的知识作为正确知识。
基于模糊集理论的方法能够同时处理不精确和不确定的信息、,有效实现开放网路知识的评估。然而,基于模糊集理论的知识评估方法需要凭经验设定知识的模糊规则和隶属函式,缺乏系统性,难以保证不同知识源类型的知识评估结果的稳定性和鲁棒性。因此,基于模糊集理论的方法难以有效处理网路大数据中多源异构的知识的评估问题。
(4) 基于图模型的知识评估方法
除上述传统的知识评估方法以外,近几年比较流行的知识评估方法是基于图模型的方法。这种方法使用从其他类型的数据中获得的先验知识,如使用已有知识库中的知识来拟合先验模型,从而为知识分配一个机率,可被看作是图上的链路预测问题,也就是说,我们观察一组现有的边(连线不同实体),预测其他边存在的可能性,从而根据预测的边指导数据源中获取的知识的质量的评价。
代表性的工作,如Lao等人提出了一种基于路径排序算法(Path Ranking Algorithm,PRA)的知识先验计算方法,该方法通过利用已有的知识去预测这些知识之间的隐含信息。该方法将实体之间的关係抽象成一种路径模型:首先,枚举实体间所有的关係路径;然后,将每条路径作为训练专家,在关係路径图上执行随机游走,计算每条路径终点的机率值;最后,利用逻辑回归对所有训练专家排序。PRA通过利用已有的知识之间的关係预测它们之间可能产生的隐含的知识,从而与数据源中抽取的知识进行比对,识别不同来源知识中可能的真值。除此之外,Dong等人提出了一种基于神经网路模型的方法,该方法将上述链路预测问题转化为矩阵填充问题(matrix completion)进行求解。Zhao等人提出了一种针对数据型数据真值发现的贝叶斯机率模型——高斯真值模型(Gaussian Truth Model,GTM),该模型具有有原则地使用数值数据的特点,而且不需要任何监督信息就可以推断真值和数据源的质量。