知识图谱数据源
1,数据来源
1)百科类数据
2)结构化数据
3)搜索日志
2,从抽取图谱到知识图谱
上述所介绍的方法仅仅是从各种类型的数据源抽取构建图谱所需要的各种候选实体(概念)及其属性关联,形成了一个个孤立的抽取图谱。为了形成一个真正的知识图谱,需要将这些信息孤岛集成在一起。
1)实体对齐(数据层)
实体对齐旨在发现具有不同标识实体(ID标识符)却代表真实世界中同一对象的那些实体,并将这些实体归并为一个具有全局唯一标识的实体对象添加到知识图谱中。虽然实体对齐在数据库领域被广泛研究,但面对如此多异构数据源上上的Web规模的实体对齐,这还是第一次尝试,目前多采用聚类的方法。聚类的关键在于定义合适的相似度度量。这些相似度度量遵循如下观察:具有相同描述的实体可能代表同一实体(字符相似);具有相同属性值的实体可能代表相同对象(属性相似);具有相同邻居的实体可能指向同一个对象(结构相似)。另外,利用来自如LOD中已有人工对齐标注数据(使用OWL:sameAS关联两个实体)可以作为作为训练数据学习发现更多的实体对。无论何种自动化方法都无法保证100%的准确率,这些方法的产出结果将作为候选供人工进一步审核和过滤。
2)知识图谱Schema构建(模式层)
在之前介绍中,大部分篇幅均在介绍知识图谱中数据层(Data Level)的构建,没有涉及模式层(Schema Level)。事实上,模式是对知识的提炼,遵循预先给定的Schema有助于知识标准化,更利于知识查询等后续处理。为知识图谱构建Schema相当于为其建立本体(Ontology)。最基本的本体包括概念、概念层次、属性、属性值类型、关系、关系定义域(Domain)概念集,以及关系值域(Range)概念集。在此基础上,可以额外添加规则(Rules)或公理(Axioms)来表示模式层更复杂的约束关系。面对如此庞大且领域无关的知识库,即使是构建最基本的本体,也是非常有挑战的。
目前,大部分知识图谱建立的方法是自顶向下(Top-Down)和自底向上上(Botton-Up)相结合的方式。自顶向下的方式是指通过本体编辑器(Ontology Editor)预先构建本体。当然这里的本体构建不是从无到有的过程,而是依赖于从百科类和结构化数据得到的高质量知识中所提取的模式信息。图谱模式定义了Domain(领域)、Type(类型)和Topic(主题,即实体)。每个Domain有若干Type,每个Type包含多个Topics且和多个Properties关联,这些Properties规定了属于当前Type的那些Topics需要包含的属性和关系。另外,自底向上的方法则通过上面介绍的各种抽取技术,特别是通过搜索日志和Web Table抽取发现类别、属性和关系,并将这些置信度的模式合并到知识图谱中。评价:自顶向下的方法有利于抽取新的实例,保证抽取质量,而自底向上的方法则能发现新的模式。
自顶向下和自底向上融合问题:当融合来自不同数据源构成知识图谱时,有一些实体会同时属于两个互斥的两个类别(如男女)或某个实体所的对应的一个Property(如性别)对应多个值。这样就会出现不一致性,由于不一致性的检测要面对大规模的实体及相关事实,纯手工的方法将不再可行。一个简单有效的方法充分考虑数据源的可靠性,以及不同信息再各个数据源中出现的频度等因素来决定最终选用哪个类别或者哪个属性值。