知识获取、文本语义挖掘,以及在健康和生物医学信息的安全风险外文翻译资料

 2022-12-04 10:44:22

英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料


知识获取、文本语义挖掘,以及在健康和生物医学信息的安全风险

黄景山,窦德静,党江波,J Harold Pardue,秦晓,宦军,William T Gerthoffer,谭明。

黄景山,J Harold Pardue,南阿拉巴马大学计算机和信息科学学院,移动电话,al36688,美国。

窦德静,俄勒冈大学计算机与信息科学系,尤金,或97403,美国。

党江波,知识决策系统小组,西门子公司研究,普林斯顿,ny08540,美国。

秦晓,计算机科学和软件工程系,塞缪尔基恩工学院,安本大学,奥本,al36849,美国。

宦军,美国堪萨斯大学电气工程与计算机科学系,ks66047,美国。

William T Gerthoffer,南阿拉巴马大学生物化学系和分子生物学系,移动电话,al36688,美国。

谭明,南阿拉巴马大学细胞生物学和精神科学系米切尔癌症研究所,移动电话,al36688,美国。

作者贡献:黄景山、谭明、William T Gerthoffer组织整理整篇论文;黄景山、秦晓和宦军负责介绍、研究动机、当前的生物本体论和结束语;黄景山和秦晓负责本体论背景知识;窦德静和秦晓负责医学和生物研究本体论技术。党江波负责临床和生物医学数据部分的语义文本挖掘;J Harold Pardue负责医疗资料组的保安风险。

联系方式:黄景山,哲学博士学位,助理教授,南阿拉巴马大学计算机与信息科学学院。FCW20,独联体学院,307大学。移动电话,al36688,United.States.huang@usouthal.edu

电话: 1-251-4607612

传真: 1-251-4607274

受理:2011年10月28日

修订:2011年11月7日

承兑:2011年12月14日

网上发布:2012年2月26日

摘要:计算技术在医学和生物系统中已经被广泛采用。毫无疑问,计算方法的发展和应用将极大地帮助人们更好地理解生物医学和生物功能。生物医学、生物实验和模拟已经产生了大量的数据集。为了让研究者从原始数据中获得知识,必须进行非平凡的转换,这被认为是知识获取、共享和再利用链中的一个关键环节。所遇到的问题包括:如何在正式计算模型中高效有效地表示人类知识,如何利用语义文本挖掘技术而不是传统的句法文本挖掘技术,以及如何在知识共享和重用过程中处理安全问题,本文综述了这些研究方向的最新进展,旨在为读者介绍主要的论述主题以应用于医学和生物学研究。

copy;2012年百世登。保留所有权利。

关键词:生物医学信息学;生物信息学;知识共享;本体匹配;异构语义;语义集成;语义数据挖掘;语义文本挖掘;安全风险。

同行评审:马博勇,博士,癌症研究中心纳米生物学计划,国家工商总局弗雷德里克,美国国立癌症研究所-图特在弗雷德里克,国立卫生研究院,弗雷德里克,医学博士21702,美国

黄景山,窦德静,党江波,J Harold Pardue,秦晓,宦军,William T Gerthoffer,谭明知识获取,语义文本挖掘,以及健康和生物医学信息中的安全风险。World j biol chem 2012;3(2):27-33,可查阅网址:http://www.wjgnet.com/1949-8454/Full/v3/i2/27.htm doi:http://dx.doorg/10.4331/wjbc.v3.i2.27

导论与研究动机

将计算技术应用于医学和生物系统的模拟和分析,有着悠久的历史,可以追溯到最早的模拟计算机,甚至是机械计算机。随着现代分子技术等各种医学和生物技术带来的数据爆炸,许多研究人员越来越清楚地认识到,在更好地理解生物医学和生物功能方面的未来进展必然依赖于创新和先进的计算方法的开发和应用。生物医学和生物实验和模拟现在经常产生花瓣数据集,这是在不久的将来更大、最广泛的数据集的前奏。不幸的是,医学科学家和生物学家收集的大多数数据集不足以自己进行分析。从长远来看,数据必须转化为具有任何实际价值的知识。将数据转化为知识是一个非平凡的过程,这被认为是知识获取、共享和再利用链中的一个关键环节。医学科学家和生物学家必须获得更强的能力(1)从越来越大、越来越复杂的数据中获得知识和理解;(2)在peascale数据中进行假设检验和知识发现,只有这样,我们才有可能从根本上改变我们对人类如何从大量复杂的生物数据集中感知和获取知识的理解,这些数据集来自各种实验和极端规模的模拟。在上述从数据到知识的转换过程中,需要在计算方面取得根本的进步。在这样的转换过程中,科学家们面临着三大挑战:(1)形式化计算模型中表示人类知识的有效方法;(2)语义代替传统文本挖掘技术;(3)共享和重用原始数据集知识时的安全问题。

本文的其余部分讨论了上述三大挑战,我们首先介绍了本体的背景知识,这是知识表示中的一种形式计算模型。然后我们对当前流行的生物本体论进行了综述。接下来,我们分别总结了在医学和生物学领域、语义文本挖掘和安全风险方面的最新研究成果。最后,我们总结了本文的结束语。

本体论的背景知识

本体是世界上某些部分或领域的计算模型[1]。该模型描述了在某些感兴趣的领域中使用的术语的语义。本体通常以某种语义网络的形式捕获,即节点为概念或单个对象的图,其弧表示概念之间的关系或关联。语义网络由属性和属性、约束、功能和规则加以扩充,这些属性、约束、功能和规则控制着概念的行为。简单地说,本体是由有限的概念以及这些概念的属性和关系组成的。请注意,除了上述图形结构(也称为“模式”)之外,某些本体论还包含实例。

本体异质性是不同方面为同一(或类似)领域开发的本体的固有特征。异构语义可能在两种情况下发生。(1)不同的本体论可以用不同的术语来描述同一个概念模型,也就是说,同一概念可以使用不同的术语,不同的概念可以使用相同的术语;(2)即使两个本体对特定概念的名称相同,这个概念的社会属性和与其他概念的关系也很可能是不同的。本体匹配是一种不同的概念。

“本体模式匹配”的简称,也称为“本体对齐”或“本体映射”。它是确定来自异构本体的概念之间的对应关系的过程(通常由分布式各方设计)。这种对应包括许多关系,例如与等价类、子类、超类和兄弟姐妹之间的关系。

生物本体论现状

当数据以允许与其他数据集成的形式存在时,任何类型的数据的值都大大提高。集成的一种方法是通过使用共同控制的词汇或本体对多个数据体进行注释。因此,在这方面的研究已经导致生物本体的扩散。最成功的例子是基因本体论(GO)项目[2],它是一个主要的生物信息学倡议,旨在规范跨物种和数据库的基因和基因产物属性的表示。GO包括三个亚本体,即生物过程、细胞组分和分子功能,GO提供了用于描述基因产物特征和注释数据的术语控制词汇表,以及用于访问和处理这些数据的工具。GO的重点是描述基因产物在细胞环境中的行为。此外,还对基于本体的生物信息学数据集成进行了研究。注意,GO本身是一个更大的分类努力的一部分,开放生物医学本体(OBO)(简称OBO,以前开放的生物本体),这是一个努力创造受控词汇表,以便在不同的生物和医学领域共享使用。

生物和生物医学研究人员通常使用的其他生物本体论包括,但不限于:riboweb本体论、ecocyc本体论、schulze-kremer分子生物学本体论(Mbo)和tambis本体论(陶)。Stevens等人[3]的表一概述了这些生物本体论的组织、结构、目的和内容。面向列领域的组件包括特定领域的组件和领域泛化组件;面向列任务的组件确定了这些生物本体的结构、结构、用途和内容。特定于任务的组件和任务泛化组件;列KR演示使用的知识表示类型。

表一 几种生物本体论的内容、结构和表示概述(摘自Stevens等人[3])

本体论

应用概述

模块化的?

面向域组件

面向任务的组件

通用组件

实例

细节级别

KS

GO

数据库注释控制词汇表

部分

果蝇、小鼠和酵母基因功能基因产物功能、过程及细胞定位和结构

times;

times;

radic;

times;

EcoCyc

数据库模式

radic;

大肠杆菌基因、代谢、调节、信号转导及代谢途径

生化反应可视化与染色体基因布局

radic;

radic;

框架

MBO

社区参考

radic;

阴影

阴影

radic;

times;

times;

RiboWeb

数据库模式

radic;

核糖体组分,共价键分子,生物大分子,分子区域

实验细节,数据分析技术,出版

radic;

radic;

框架

TaO

基于公共访问本体的搜索

部分

蛋白质、酶、模体、二级和三级结构、功能和过程、亚细胞结构和化学物质,包括协同因子。较大的模型包括核酸和基因

生物信息学搜索和分析任务

radic;

times;

DLs

医学与生物学研究中的本体论技术

本体论技术已广泛应用于医学和生物学研究。本节所调查的所有七个系统都是在一些生物本体论的基础上发展起来的。我们简要介绍了六个这样的系统,最后一个系统提供了更多的生物学方面的描述,以帮助读者更好地理解生物医学和生物信息学如何促进领域专家获得生物学的洞察力。

Cantor等人[4]讨论了GO到统一医学语言系统(Umls)中映射概念的问题,这种映射可能允许利用umls语义网络,通过在GO中的注释将不同的基因连接到独特的临床输出,潜在地揭示生物关系。本研究揭示了不同方式和不同领域的专家在词汇整合方面的内在困难,以及实现这种整合所使用的不同技术的优势。

Kouml;hler等人[5]描述了实现语义元数据库(SEMEDA)的原则和方法。数据库所有者可以使用SEMEDA提供对数据库的Seman集成访问;所有者还可以协作编辑和维护本体和受控词汇表。生物学家可以使用SEMEDA实时查询集成数据库,而无需事先了解底层数据库的结构或任何技术细节。本文旨在解决数据库集成的技术问题和与语义相关的问题,如对同一项使用不同的术语,对等价的数据库属性使用不同的名称,以及在不同数据库中的相关条目之间缺少链接。

Sulman等人[6]报告了一份高分辨率的区域整合图(Compview),用于识别最小重叠缺失区域中的所有标记。使用区域体细胞杂交面板更精确地定位区域内或重叠区域内的标记,并利用克隆序列通过电子PCR验证STS含量并识别转录。结论认为,肿瘤抑制基因的注释为脑膜瘤候选基因的进一步分析提供了资源。

jakoniene等人[7]认为,在从多个生物数据源检索和集成信息的过程中,应通过本体论知识来加强方法。jakoniene等人[7]对互联网上可获得的不同类型的本体论知识进行了鉴别。根据本体论知识,他们提出了一种支持综合访问多个生物数据源的方法。他们的工作也是如此。说明了当前基于本体的集成方法只涵盖了它们提出的方法的一部分.

Birkland等人[8]提出了一个系统BioZon,以解决在生物领域中异构数据类型的集成所遇到的问题。BioZon为生物学家提供了一种新的知识资源,通过整合由多种数据类型(例如,DNA序列、蛋白质、相互作用和细胞通路)组成的多个生物数据库来导航和探索。BioZon不同于以前的努力,因为它使用了一个单一的广泛和紧密连接的图式,包括了文档和关系的层次本体。除了存储现有数据,BiZZon计算和存储新的派生数据,例如相似关系和功能预测。相似性数据的集成允许通过推理和模糊搜索来传播知识。

当数据以一种允许与其他数据集成的形式存在时,任何类型的数据的价值都会大大提高。集成的一种方法是使用常见的受控词汇表或本体对多个数据体进行注释。不

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[21573],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。