英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料
基于形式概念分析的本体设计
Marek Obitko1, Vaacute;clav Snaacute;scaron;el2, Jan Smid3
1控制论系,捷克理工大学,布拉格,捷克
2计算机科学系,VScaron;B理工大学,斯特拉瓦,捷克
3计算机科学系,摩根州立大学,巴尔的摩,马里兰州,美国
1obitko@labe.felk.cvut.cz,2vaclav.snasel@vsb.cz,3jsmid@jewel.morgan.edu
摘要:本体,常被定义为是一种概念模型的明确的规范化说明,是知识表示和知识交换的必要条件。通常情况下,这意味着本体描述了某一领域中存在的概念和关系。为了促进知识交换,有必要以一种比分类法更好的方式来描述这些概念和关系。然而,本体设计通常始于或止于设计分类法。我们提出了一种基于形式概念分析的方法,形式概念分析是一种数据分析理论,用于识别数据集之间的概念结构。这个方法能够发现本体中新概念和新关系的必要性,这就能使得在本体中描述这些实体的方式适合于知识交换。
1 介绍
本体,常被定义为是一种概念模型的明确的规范化说明[4],是知识表示和知识交换的必要条件[6]。通常情况下,这意味着本体描述了某一领域中存在的概念和关系[5]。为了促进知识交换,有必要以一种比分类法更好的方式来描述这些概念和关系。例如,这个概念不仅应该通过其在分类(is-a)等级中的位置来描述,而且还应该通过概念的关系来描述。同样,关系可以用与之相关联的概念来描述。然而,本体设计通常始于或止于设计分类法。分类法很重要,因为它们构成本体的“骨干”,但不足以用于知识共享。
我们提出了一种基于形式概念分析的本体设计方法[3]。形式概念分析(FCA)是一种数据分析理论,用于识别数据集之间的概念结构。这种本体设计方法能够发现本体中新概念和新关系的必要性,从而使得本体能够以一种适合于知识交换或信息检索的方式描述这些实体[7]。
本文的其余部分组织如下:在下一部分,我们在大体上描述了本体,然后描述形式概念分析。在下面的部分中,我们阐述了我们提出的本体设计方法,并在下一节详细说明。之后,我们将演示如何将结果映射到当前使用的本体语言。在结论部分,我们总结了本篇论文。
2 本体
正如我们已经提到的,本体通常被定义为一个明确的规范化概念描述[4]。概念的明确规范说明意味着本体是对某一领域中存在的概念和关系的描述。
关于本体的其他相似定义在文献[6]中给出(参见文献[6]中的比较和讨论)。尽管它们并不完全相同,但它们在原则上均认为:任一本体都包含领域的概念化,如领域的可视化和建模方法;以及概念化的规范描述,如形式化描述。
另外,概念化和规范化都受建模方法(例如,框架、位置或一些描述逻辑)的影响。这也可以被认为是本体的一部分(它有时被称为元本体)。在概念层面上,我们要决定哪些对象和其关系应包含在本体中,以及将它们细化到何种程度。
在规范层面上,我们通常以某种形式语言指定形式化概念。常用的规范化形式体系包括:简单术语的简单术语表、自然语言中的非正式定义、形式上的is-a关系、框架和属性的形式化描述、值约束、以及一般的逻辑约束。很明显,形式化程度较低的本体更容易开发,而形式化程度较高的本体通常更容易被复用和共享,尤其是依靠自动化的方式。
本体定义了如何将领域中的事物以及要考虑的限制一起建模。本体应该捕捉不变的知识,而具体的事态则被捕捉在知识库中。
本体能够得以被开发和使用,是因为它们能够:
- 分享知识——分享由软件代理程序和人们共享的对信息结构的理解。
- 复用知识——本体能被复用于相似领域中运行的其他系统。
- 对领域进行明确假设——如:为了更便捷的沟通。
本体应该有良好的设计,也要有明确的定义。良好的设计是指:它们应该充分捕捉被建模的领域中的知识,对于人类用户而言便于理解,并且为机器处理提供良好的支持。明确的定义不仅指语法层面,也指语义层面。如果我们想要在本体上引入自动推理,那么形式语义就很重要。这种推理能够支持本体设计(如一致性检查,或支持更多作者开发同一个本体)、自动整合和共享本体、确定和建立本体之间的关系等。
3 形式概念分析
形式概念分析(FCA)是一种数据分析理论,它识别数据集之间的概念结构[1][3]。这些结构以图形方式表示为概念格,能够从中分析复杂结构并发现数据内的依赖关系。形式概念分析是一种具有良好数学基础的概念聚类技术,已被成功应用于医学、心理学、图书馆学、软件工程和生态学,以及在数据库中的各种数据分析、信息检索和知识发现方法。
二十年前,FCA起源于将“概念”形式化的理论。它基于一种哲学理解,即一个概念由两部分构成:概念的外延,它由属于该概念的所有对象组成;概念的内涵,包含了由这些对象共享的所有属性。这种理解能够从给定的上下文(数据表)中挖掘出所有概念,并引入包含的层次结构。
4 使用形式概念分析设计本体
目前,本体设计通常从设计相关概念的层次结构开始。所谓的分类关系,也即概念之间的is-a关系或包含关系,被视为任何本体的基础。在我们看来,这种观点主要受面向对象或基于框架的系统设计步骤影响。
作为一个典型的基于框架的系统,我们可以提及开放知识库连接(Open Knowledge Base Connectivity,OKBC)[2],这是一种应用程序接口,用以访问和修改基于框架的方式表示的知识库。OKBC可以映射到面向对象语言,因此编程语言中的类可以建立在底层本体上并用于交换信息。通用建模语言(UML)是面向对象系统建模的典型设计方法。虽然面向对象的系统并不主要使用于知识表示,但这些方法与基于框架的系统类似,并且也会出现同样的问题。
在这些系统中,设计通常始于设计类或框架的层次结构。对于现有的类或框架的层次结构,能够新增特征或属性。而后,这些特征或属性沿着包含(is-a)关系继承。这个过程会导致以下几个问题:
- 容易构建出没有明显区别的对象层次结构——对领域建模而言,建模过程中引入了许多对象,这些对象按分类排序进行组织,但没有其他属性用以区分;这会导致知识共享中出现问题。
- 一旦定义了框架及其位置(或类和其属性)就不容易改变(然而,目前在面向对象的语言中提供了所谓的重构方法作为解决这种问题的可能方案)。
为了避免这些问题,也为了带来其他优势,我们提出了另一种构建本体的方法。这种方法的主要特点是:
- 概念由属性描述。
- 属性决定了概念的层次结构;换句话说,层次结构不是由设计者明确定义的。
- 当不同概念的属性相同时,概念就是相同的。
可以描述使用FCA工具支持的本体设计过程,如图1所示。该过程的一个重要优势是它可用于协作式环境,使得更多本体设计人员针对同一个本体开展工作。如上所述,任何人都可以提出对本体进行修改的建议,由本体管理员来决定通过哪些修改建议。
1.从空的对象和属性集合开始 |
2.向概念表格中加入需要的对象和属性 |
3.使用FCA将概念格可视化 |
4.设计者根据可视化内容对本体进行修正 |
a.直接编辑(依据本体的实际需要) |
i.新增或移除对象 |
ii.新增或移除属性 |
iii.在概念中新增属性或从概念中移除属性 |
b.按本体设计工具的提示编辑 |
i.当两个概念重叠时,将两者合并或加以区分 |
ii. FCA能够直接产生由属性组成的概念,该概念是已有概念的父概念, |
但并未在二维表中出现 |
5.重复这一过程直到设计者满意为止 |
图1 基于形式概念分析的本体设计算法框架
5 本体设计实例
在这一部分,我们将使用前文描述的步骤详细说明设计水域对象本体的实例。我们从以下这些对象和属性开始:“湖泊”和“河流”作为对象,“流动的”和“静止的”作为属性。使用这些对象,构成了如图2所示的交叉表和Hasse图(这些图是使用ToscanaJ工具[8]生成的)。
流动的 |
静止的 |
|
湖泊 |
times; |
|
河流 |
times; |
流动的
静止的
河流
湖泊
图2 来自初始对象和属性的概念格
可视化图形中出现了两个概念:格的顶部与底部。顶部对应于所有概念,底部对应于非任何概念(即属性的矛盾)。因此,帮助设计本体的工具会询问一个对象是否“静止的”或“流动的”。用户会确认没有这样的对象,因为这两个属性是相反的。
然而,从我们发现的本体的预期用法来看,有必要引入对象“池塘”,它可以通过当前的“静止的”属性来描述。按照上述过程,形式背景交叉表和Hasse图如图3所示。
流动的 |
静止的 |
|
湖泊 |
times; |
|
河流 |
times; |
|
池塘 |
times; |
流动的
静止的
河流
池塘
湖泊
图3 新增“池塘”对象——建议增加新属性以区分“湖泊”和“池塘”
在可视化之后,我们容易看出,对象“湖泊”和“池塘”形成了一个概念,这基本意味着它们完全相同。如果一个概念有两个名称是没有意义的,那么按照上述程序提供的工具,我们必须考虑新增一个属性来区分这两个对象。举例来说,这样的属性可以指示对象是“自然的”还是“人工的”。在引入这两个相反的属性之后,现在的情况如图4所示。
自然的
静止的
流动的 |
静止的 |
自然的 |
人工的 |
|
湖泊 |
times; |
times; |
||
河流 |
times; |
times; |
||
池塘 |
times; |
times; |
池塘
河流
湖泊
人工的
流动的
图4 引入新概念的情况
从这种情况来看,我们看到引入一些新的概念是可行的。正如在上面的情况中所述,没有任何物体既是“自然的”也是“人工的”,并且没有物体既是“流动的”也是“静止的”。然而,仍存在物体既是“流动的”又是“人工的”——“运河”和“沟渠”。
人工的
静止的
流动的
自然的
流动的 |
静止的 |
自然的 |
人工的 |
|
湖泊 |
times; |
times; |
||
河流 |
times; |
times; |
||
池塘 |
times; |
lt;
剩余内容已隐藏,支付完成后下载完整资料 资料编号:[23966],资料为PDF文档或Word文档,PDF文档可免费转换为Word |
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。