英语原文共 32 页,剩余内容已隐藏,支付完成后下载完整资料
本科生毕业论文
外文文献翻译
题 目 基于KOS和lda的癌症领域
前沿知识发现和可视化
译文:
基于KOS和lda的癌症领域前沿知识发现和可视化
Qingqiang Wu1 · Yichen Kuang1 · Qingqi Hong1 · Yingying She1
摘要:科学研究期刊在各个领域的科学研究都取得了最新的进展。然而,生物医学信息的解释和使用仍然是一个非常复杂的问题。如何用实际的方法将生物医学文献解释成结构化的数据,并将其分析成我们能理解的内容,已成为一个重要的问题。本文提出了一种基于KOS和lda的前沿知识发现模型,并将其应用于癌症领域突发话题及其语义信息关系的检测。实验表明,该模型在主题识别、进化识别和可视化中起着重要作用。此外,将KOS与lda结合使用,可以有效地去除语义层中的噪声概念,并取得良好的效果。
关键词:知识组织系统(KOS)潜在的Dirichlet分配(LDA)前沿知识主题演变
前言
随着计算机和互联网的飞速发展,科学研究期刊在各个领域的科学研究取得了最新的发展。因此,对科学期刊的研究具有重要意义。期刊主题演变是指期刊主题在时间维度上的发展过程。主要分析了期刊主题在一定时期内的变化程度和主题随时间的变化。它有助于揭示不同学科研究的变化和优先顺序。近年来,用不同的方法对研究领域的研究课题进行分析,一直是前沿热点问题的科学结构和演变趋势,新兴领域的主题和进化理论得到了识别。通过对学科结构及其演变过程的分析,可以把握学科发展、发展、转移和走向同一个方向的不同领域,有助于科学家更快地把握学科前沿和热点,有助于科学研究决策者和管理。根据决定。
根据GBD 2015(2015年全球疾病负担研究),2015年约有9050万人患有癌症。每年约有1410万例新发病例(不包括除黑色素瘤以外的皮肤癌)。它造成了约880万人死亡(15.7%的死亡率)(合作者2017年)。根据世界卫生组织的报告,男性最常见的癌症类型是肺癌、前列腺癌、结直肠癌和胃癌。在女性中,最常见的类型是乳腺癌、结直肠癌、肺癌和宫颈癌。
因此,在文本挖掘技术的背景下,癌症研究的发展是一个刻不容缓的问题。本文以生物医学中的肿瘤治疗领域为研究对象,通过对肿瘤治疗领域新兴热点和发展趋势的分析,为相关的科学决策者和管理者提供参考。
针对上述情况,本文提出了基于KOS(Zeng和Chan 2004)和LDA(Blei 等)的前沿发现研究2003)。它希望有助于发现癌症领域的新课题。
本文的组织结构如下:第二部分介绍了相关工作。在第三部分中,我们介绍了我们的集成模型和研究方法。“结果”部分给出了实验结果和性能分析。最后给出了结论和展望。
相关研究
主题检测和跟踪(TDT)
话题检测与跟踪是自然语言处理领域从一开始就存在的问题之一(Chen等人2016)。在TDT研究中,主题被定义为种子事件或活动以及与之相关的所有事件或活动(Hong等2007)。主题跟踪主要跟踪已知主题的后续报告,并使用相似性计算公式确定新主题是否属于已知主题。主要方法是基于统计知识。对文本进行信息过滤,然后利用分类策略跟踪相关主题。
TDT在许多领域都有应用。丁丁等人(2016)提出了一个半监督的狄利克雷隐形分布过程(SDHP),以处理推特中社交媒体的主题检测和跟踪。由于从网上评论中发现了顶级情感的进化趋势,Chen 等(2017)开发了一个统一的基于短语的主题和情感检测模型,并结合使用增量分层狄利克雷分配(ptsm_ihdp)的跟踪模型。王毅等人(2018)介绍了部署在云环境中的大数据TDT应用程序的多层性能分析。李等(2016)将话题检测和跟踪作为一个在线跟踪、检测和学习问题进行了阐述,结果表明其对话题检测和跟踪的有效性。
然而,以往关于话题检测和跟踪的研究主要是基于社交媒体。人们认为,在生物医学科学文献中发现和跟踪主题比在新闻或其他方面更困难。首先,利用简单的标记化技术和特征提取技术很难提取生物医学科学文献中的专有名词。
对于某些生物医学科学文献,如癌症研究、新药开发、基因研究和新治疗策略的发现,往往可以成为研究的前沿。第二,聚类分析的结果往往是模糊的,在特定领域,如癌症研究,因为没有专家知识标签的主题。
在本文中,将主题模型与知识组织系统(KOS)结合在一起,并使用“Mesh”方法(Medical Subject Headings)(Lipscomb 2000)来标示生物医学概念。
主题模型
主题模型的基本思想(Deerwester等人1990年;Hofmann 1999年;Blei等人2003)是由数据集背后隐含的主题集合生成的离散数据集(文档集合、图像集合)。主题集是特征词的概率分布。主题模型是文本文档的概率生成模型:根据主题模型指定的一组概率分布生成新的文本文档。
Deerwester等人(1990)提出了隐语义索引(LSI)模型,该模型通过奇异值分解(SVD)对单词文档矩阵进行分解。然后Hofmann(1999)提出了概率潜在语义指数(PLSI)模型。后来,布莱等人(2003)提出了潜在的Diriehlet分配(LDA)模型,该模型比其他模型具有更全面的文本生成假设。它修正了PLSI模型中的两个问题。此后,LDA成为最广泛使用的概率主题模型。
随着主题模型的兴起,如何利用主题模型研究文本语料库的演化规律已成为机器学习和文本挖掘领域的研究热点。由于主题模型能够很好地模拟大规模语料库的语义信息,因此在主题演化领域具有一定的优势。近年来,许多学者开展了一系列的拓展工作。
作者主题模型(ATM)是一种将文本内容与作者兴趣同时进行的模型,在LDA模型中添加作者信息,参考作者模型(griffiths和steyvers,2004)。动态主题模型(DTM)假设基础主题是文本可交换的(Blei和Lafferty 2006)。相关主题模型(CTM)引入了主题之间的关系,弥补了LDA模型无法直接表达主题之间的相关性(Blei和Lafferty 2005)。主题随时间模型(TOT)不仅可以获得数据的低维结构信息,而且可以获得随时间变化的结构信息(Wang和McCallum,2006)。在潜在狄利克雷分配(olda)生成一个及时更新的模型,可以显示主题内容和强度的演变(alsumait等人al)。2008)。连续时间动态主题模型(CDTM)是一种动态主题模型,它利用布朗运动通过连续的文档集合对潜在主题进行建模(Wang 等.2012)。
以往的工作更多地集中在低密度脂蛋白及其在一定程度上的改进上。除了使用LDA主题模型,我们还需要进行主题演进。吴等(2014)基于LDA模型,结合HMM和共线性理论,对2001-2012年PubMed的干细胞研究文献进行了主题分割和主题演化。同年,吴等人(2014)提出了一种在主题演化模型中检测和识别突发主题的新方法。以及Xiang等人(2014)将突发模型与LDA进行了整合,提出了一种新的主题模型——突发—LDA。突发—LDA通过用一阶马尔可夫链显式地建模每个主题的突发状态,并使用该链以逻辑正常方式生成文档的主题比例,同时发现主题并揭示其突发性。
通过主题模型和主题演进,可以发现文档中每个文档和每个概念之间的隐含关系,并跟踪主题演进的发展。然而,在特殊领域,通常无法提取准确的领域名词,这在实验中确实造成了一些麻烦。所以,把KOS和LDA结合起来。
知识组织体系
知识组织系统(KOS)可以根据其结构(从平面到多维)和主要功能(曾 2010)进行描述。此外,知识组织系统在数字信息管理和应用中发挥着至关重要的作用,通常以分类系统、同义词库、词汇数据库、本体、观察者和分类法的形式出现(Mayr 等2016)。不同结构类型的KOS如下(曾 2010)。
- UMLS(统一医学语言系统)元同义词库,美国国家医学图书馆:建立一个元同义词库,基于100多个现有的生物医学源词汇,由许多不同的组织以各种语言维护(Lindberg 1987;Humphreys 1988)。
- HILT(高级同义词库项目),英国:建立一个转换机制,以适应和促进不同社区(如档案馆、高等教育部门、图书馆、博物馆、国家学习网格、资源发现网络等)使用不同KOS的分布式服务,并涉及多种语言(Wake和Nicholson.2001)。
- UC 伯克利 “DARPA Unknown Metadata” 计划,美国:为各种系统使用的词条建立索引,以便将它们映射到搜索中输入的“查询词条”;支持英语、法语、德语、俄语或西班牙语查询(Buckland 等1999)。
- 波兰计划,波兰:为四个波兰语和英语控制词汇和分类方案建立一个一致性(Scibor和Tomasikbeck 1994)。
- Carmen(内容分析、检索、元数据:有效网络),德国:通过智能和统计方法同时关联用于索引社会科学文献的不同的德国同义词库。它还建议在杜威十进制分类法(DDC)和几个德国和美国特殊分类法(WP12 2000)之间建立一个一致性。
胡等人(2014)提出了一种基于术语聚类、潜在狄利克雷分配(lda)模型、k-均值聚类和主成分分析(pca)的专利文献库自动构建方法。基于知识库,实现了专利文献自动分类和检索结果分类细化两种应用。使用KOS,我们可以以更高的正确率轻松提取域概念和概念之间的显式关系,并计算每个概念之间的语义距离。然后,可以对主题模型、主题演化进行可视化。
前沿知识发现与可视化
知识发现(KD)是近年来发展迅速的计算机科学领域之一。研究表明,kd研究从机器学习到机器发现,再到kd阶段(Chen 2010)。随着信息时代的到来和知识经济的到来,知识库理论和技术已成为计算机应用的关键领域,知识库的研究范围不断扩大,研究热点不断上升。
前沿知识代表着学科领域现在和未来的发展方向,在学科发展中起着主导作用。及时发现和准确识别前沿知识,有助于为领域专家提供研究参考和支持,避免重复劳动,节约科研资源,协助科研管理部门制定科研等管理办法。规划和组织项目(Fan等人2016)。与前沿知识类似的概念包括研究前沿、新兴趋势、新兴、研究领域、新兴研究领域、新兴领域、新兴知识领域、新兴话题、研究热点、热点话题等。
在科学研究、数字图书馆、数据挖掘、财务数据分析、市场研究、制造业生产控制和药物发现等领域,前沿知识越来越多地作为一个关键组成部分被应用”(RAU 2005)。李等(2017)使用多种R语言功能包实现分类词和词云的可视化。为了从互联网上的大量文本信息中分析主题及其演变趋势,Lei使用lda进行主题发现、分析主题演变并可视化(Lei 2017)。
本文将KOS和lda结合起来,提出了一种在生物医学等特定领域进行前沿知识发现和可视化的方法,并从概率和语义的角度对生物医学文献的前沿知识进行了深入的挖掘。
方法
本节将从三个方面介绍热点前沿发现研究:
第一部分是基于KOS的数据预处理,包括数据预处理和概念识别。数据预处理过程包括数据采集、数据导入、数据归一化、数据分割和数据清理。概念识别包括实体识别、关系识别和类型识别,所有这些都是使用KOS实现的。数据利用目前成熟的知识组织系统对生物医学领域的科学文献进行处理,并将其转换成计算机能够识别的结构化数据语料库,从而使后续的模型能够对源数据进行处理。
第二部分是知识的进化模型,包括主题识别和进化识别。在主题识别中,我们将第一部分中的数据语料库作为输入,在每个时间窗口中识别主题。在进化识别方面,我们利用余弦相似度和语义相似度计算相邻主题之间的关系,然后识别进化类型,在主题进化图中选择几个有意义的进化路径。
第三部分是知识提取和可视化。在知识抽取中,我们选择了重要的主题,并根据第二部分有意义的进化道路,提取出内部结构关系。可视化部分可以可视化主题、进化规律和知识结构。
前沿知识发现与可视化的框架如图1所示。自下而上,数据层、数据预处理、概念识别、主题识别、主题演化、知识提取、可视化共分为七层。
数据预处理和概念识别
生物医学信息的解释和使用是一个非常复杂的问题。基因名称的混淆是生物医学文本挖掘项目中的一个关键问题。由于生物医学信息数据的特殊性,使用KOS对生物医学信息数据进行预处理尤为重要(吴等人2015)。
图1前沿发现与可视
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[20299],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。