基于语义加权网络的中文关键词提取
摘要
复杂网络理论被广泛应用于关键词提取领域。通过分析传统复杂网络关键词提取算法的不足,本文提出了一种基于语义加权网络提取汉语关键词的新方法。在K近邻耦合网络的基础上,我们根据共现频率以及词语语义相似度建立语义加权网络。我们通过计算网络中单词节点的中间路径权值、聚类系数和最短路径,从而获得每个单词的综合特征值。根据综合特征值的大小,来提取文本关键词。 实验结果表明,通过该方法提取的关键词可以更好地反映文本的主题,精度得到显著提高。
关键词:语义加权网络; 关键词提取; 中间性;综合特征值
- 引言
关键字是文本最简洁的描述,它也可以反映文本主题。自动提取关键词是文本分类、文本检索和自动摘要的基础。因此,实现自动关键字提取和提高其准确性对于自然语言处理来说至关重要。
国内外专家对自动关键词提取技术已经进行了深入研究。目前,关键词提取方法主要可以分为三类:(1)统计方法,(2)机器学习方法[1],(3)语义方法[2]。 这些方法主要分析文本中单词的独立特征。实际上,我们可以将整个文本视为一个复杂的网络,基于复杂网络的关键词提取方法已成为了研究的热点。张敏[3]提出了一种通过计算网络间距来提取关键词的方法,可以获得频率较低但意义重大的关键词。马丽[4]提出了一种通过计算最短路径变化和聚类系数来衡量单词重要性并提取复合关键词的方法。林玉玺[5]提出了一种基于字共现加权复合网络的提取算法。
然而,上述关键词提取方法只关心文本网络的结构特征,而忽略了文本网络携带的语义信息。因此,本文提出了一种基于语义加权网络的中文关键词提取方法,并根据词共现频率和语义相似度建立语义加权网络。
- 语义加权网络
考虑到任何复杂的系统都由许多小单元组成,如果我们将单元抽象为节点,将单元之间的关系抽象为边缘,则这个复杂的系统可以作为复杂网络来进行研究[6]。复杂网络具有许多独特的性质,其中最具代表性的特征之一就是“小世界”特征。 所谓的“小世界”就是平均路径最短而聚合很大的网络的缩写。
在一个未加权的网络中,我们只关心这些节点是否相互连接,而不管它们连接的密切程度如何。因此,我们引入边缘权重来区分边缘之间的差异,从而构建加权复合网络。
如果我们把这个词作为一个网络节点,并将这个词作为网络边缘的关系,那么该文本可以作为一个复杂的网络进行学习。在本文中,复杂网络以K-最近邻耦合的方式构建,在同一句话中建立一个跨度小于K的单词之间的连接边。根据Cancho和Sole [7]的研究,当K=2时,文本网络可以很好地反映出词的关联,具有明显的“小世界”特征。
然而,基本的未加权文本网络只能反映单词的基本相邻关系。我们需要对关联边给予适当的重视。传统方法是根据词的同现频率进行加权[8]。通过这种方法,词语之间的联系得到加强,但仍然缺乏对文本的语义理解。考虑到作者有可能使用具有相似意义的词来阐述文本主题,本文将词义相似性作为赋予权重的另一个因素。 根据这一点,我们构建了一个反映文本内容和结构特征的语义加权网络。
本文采用“HowNet”方法计算单词相似度[9]。 “HowNet”是中文语义词典,“Sememe”是用来描述词汇概念的基本单位。 通过计算“HowNet”字典中语义的路径长度,可以得到词和词的相似度。我们使用delta;来表示相似性阈值。对于具有大于阈值delta;的相似度的两个词,如果它们已经彼此连接,则相应边的权重增加1。否则,我们在两个单词之间创建一个连接边。
- 词语重要性度量
A.复杂网络的基本特征
本文介绍了复杂网络的一些重要特征。最短路径长度:两个节点的最短路径长度定义为连接两个节点的最短路径的边缘数,也称为节点之间的距离。网络的平均最短路径长度被定义为网络中所有节点的平均距离,其描述了网络中节点之间的分离程度,即网络有多小。 假设L表示网络的平均最短路径长度,dij表示节点i和j之间的距离,N表示网络中的节点数,则我们得到:
聚类系数:网络中节点的聚类系数反映了节点的聚合度。假设某个节点k连接到节点k周围的V个节点。V节点中最多可能有2个边。对于节点k,实际的边缘数目E与最大可能的边缘数量V之间的比率被定义为节点k的聚类系数,我们使用Ck表示,即
网络的平均聚类系数定义为所有节点的聚类系数的平均值,我们使用C表示,然后得到:
中间性:对于网络G中的任何节点i和j,nij被定义为节点i和j之间的最短路径的数量。nij(k)被定义为包含节点k的最短路径的数量。因此,节点k的中间性被定义为nij(k和nij的比率,并且由Cb(k)表示,则得到:
B综合特征值
在一篇文章中,作者经常使用语义相似的词来强调主题。这些重要的词对应于文本网络中的一些很大的聚合节点。其他单词节点聚集在这些大的聚合节点周围,并在区域中显示一种聚合。如果删除这些节点,网络的平均聚类系数将明显减少,网络的平均最短路径长度将显着增加。最终结果是网络显示出了扩展性能,节点之间的链路大大下降。因此,我们可以将最短路径变化和聚类系数变化作为单词重要性的指标。
最短路径变化:
当网络包含节点k时,网络Lk的平均最短路径为:
当网络不包含节点k时,网络L的平均最短路径为:
节点k的最短路径变化是:
聚类系数变化:
当网络包含节点k时,网络k C的平均聚类系数为:
当网络不包含节点k时,网络C的平均聚类系数为:
节点k的聚类系数变异是:
最短路径变化和聚类系数变化对于没有“小世界”特征的文本而言,差异不大。因此,本文将两者之间的区别作为区分重要词语的另一个指标。考虑到以前给出的中间性的定义,我们知道某个单词节点的中间性反映了该单词对整个文本网络的信息流的影响,因此可以用作衡量单词重要性的度量。
节点k的间隔由Cb(k)表示:
总之,本文采用最短路径变化,聚类系数变化和中间性作为衡量单词重要度的三个主要因素。 我们将上述三个因素的综合特征值作为最终指标,并用CE表示:
其中alpha;,beta;,gamma;满足相加等于1。
- 关键字提取算法
中文文本与英文文本不同,中文文字之间没有明显的分隔空间。因此,我们需要对文本进行分词预处理。本文采用中国科学院计算技术研究所开发的分析系统ICTCLAS[10]。ICTCLAS的分词精度达到了98.45%,并且支持用户字典和词性标签。
文本预处理之后,我们根据候选关键字集构造文本的网络,根据共现频率和候选关键字的语义相似度来给予权重。在语义加权网络的基础上,我们得到全面的特征值CE然后提取final关键字。
提取算法详细描述如下。
输入:中文文本。
输出:K提取关键字。
步骤一:中文分词预处理。
步骤二:同一句话中两个距离小于2的单词相连,建立基础文本网络。
步骤三:计算连接词的共现数,并给予相应边的权重。计算候选关键字集合中每两个字的语义相似度,并给出连接两个相似度大于阈值delta;的单词的边的权重。根据预测试,当我们设置delta;=0.8时,关键字提取的性能就很好了。
步骤四:对于网络中的每个节点,我们计算最短路径变化Delta;L ,聚类系数变化介于Delta;C 和Cb(k)之间,从而获得综合特征值CE=alpha;Delta;L beta;Delta;C gamma;Cb(k)。 当我们设定alpha;=0.05,beta;=0.35,gamma;=0.6时,综合特征值可以更好地反映出单词的重要性。
步骤五:根据CE值,我们按照降序对候选词排序,并将第一个K值对应的词作为最终关键词。
- 实验分析
为了验证语义加权网络模型在关键词提取中的作用,我们使用搜狗语料库(http://www.sogou.com/labs/dl/c.html)进行一些实验。这个语料库来自搜狐新闻网站,是一个很好的自然语言处理研究平台。
本文采用的文本网络最突出的特点是考虑了语义因素。因此,我们根据三个网络模型设计实验来研究关键词提取性能。这三个网络模型分别是未加权网络(见[4]),词共现加权网络(见[6])和语义加权网络(本文)。
- 单文本测试
以Sougou的IT目录C000010中的语料库12.txt为例。 本文的主题是,Dizhi Heritage Publishing Co.以低价格在网站上起诉eBay拍卖盗版“Wenyuange Siku电子版”(中文:迪志文化出版有限公司状告易趣网在其网站上低价拍卖盗版的《文渊阁四库全书电子版》)。我们使用上述三个模型来提取前10个关键字,结果如表1所示。
表1 关键词提取结果
预设的10个关键字是:“易趣网、四库全书、网上、低价、拍卖、盗版、迪志文化出版有限公司、侵权、法院、庭审”。如表1所示,只能使用未加权网络提取几个关键字的原因在于在未加权的网络中,重要的词语与普通词语的相同。与单词共现加权网络模型相比,本文采用的模型提取了更多的关键字,如“版权、四库全书”。 在文中,“版权”在语义上类似于“知识产权”,而“四库全书”在语义上类似于“图书”。 通过语义分析,构建文本网络时,这些单词的权重更大,更有可能被提取出来。
- 精密测试
为了进一步验证本文提出的方法的提取效果,我们分别从搜狗文本语料库中选出了五个类别的20个实验文本。 五大类包括汽车,IT,金融,健康和体育。 精度P作为关键字提取性能的指标,定义如下:
在公式中,n表示每个类别中的文本数,而我们在测试中设置了 n =20。 bi表示在文本i中自动提取为关键字的单词数,ai表示自动提取的单词数量,并且同时匹配预先设定的关键字。 以同样的方式,我们采用上述三个模型来计算提取精度。结果如表II所示。
本文采用的模型的平均精度比词共现模型提高了9.8%,比未加权网络模型则提高了16%。
- 结论
基于复杂网络理论,本文提出了一种语义加权网络模型来提取中文文本关键字。以K-最邻近的方式建立基本的文本网络,并且基于词同现和词语义相似度来给予网络权重,然后获得综合特征值并提取关键字。最后,我们设计了几个对比实验来证明该方法可以可靠地提取关键词,提取精度比传统方法有显着提高。然而,关键字自动提取方法还不完善,我们可以在以下几个方面进行改进:(1)本文中网络的特征值(尤其是中间性),具有较高的计算复杂度。我们需要找到更好的方法来计算网络的特征值从而提高性能。(2)词语的语义相似性可能不能完全反映文本的主题,可以用能够反映文本语义信息的其他方法来构建语义加权网络。
基于多维加权特征的中文文本的关键词提取
摘要
本文提出了一种基于汉语内在特征和多维信息加权特征值的提取方法,从而解决中文文本关键词提取不全面和低精度的问题。这种方法结合理论分析和实验计算,研究中文文本中的分词,词位,字长,语义相似性和词同现频率。通过计词频、特征值、相似度以及词共现概率相关的多维数据,我们可以出通过比较精确率、召回率和F度量而获得加权特征值,并得出此方法可以给出相比于基于词频或基本特征值方法提取关键词的更好的准确度的结论。本研究得出的结论为关键词提取和文本挖掘技术提供了参考。
关键词:加权特征值;特征提取;词频;关键词提取
- 引言
中文文本关键词提取技术正在被包括文本挖掘、文本内容的信息检索和文本内容分析等方面广泛研究。例如,张和陈 [1] 的基于TF-IDF和词相关性方法,它是通过词频和词相关提出了一种中文关键词提取方法。王和怀[2]详细介绍了基于中文语义提取关键词的方法。在文本检索中,王和王[3]提出了基于内容的中文文本检索获取关键词的方法。在文本挖掘中,松尾[4]等采用不同文本的相同关键词,根据词共现方法进行文字挖掘。然而,尽管中国和其他国家的关键词提取需求广泛,但传统的提取特征关键词的方法不足之处在于英文与中文在文本结构、语法特征和语言习惯等方面存在的巨大差异。因此,简单地采用传统方法从中文文本中有效地提取关键字是非常困难的。本文尝试基于中文特殊结构,结合国内外相关研究技术,解决中文关键词提取的准确性问题。
基于特征值的关键词提取技术[5]被广泛应用于信息检索、数据挖掘[6]、机器学习、模式识别、人工智能、统计学、计算语言学、计算机网络技术、信息科学、网络安全和行为分析等领域。在20世纪60年代初,萨尔顿等人提出了一种用于将文本文档表示为矢量空间中的矢量来运算的代数模型——经典向量空间模型(VSM)[7,其空间相似性与语义相似度相
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[140822],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。