英语原文共 4 页,剩余内容已隐藏,支付完成后下载完整资料
外文翻译
题 目 数据挖掘关联规则在图书借阅服务中的应用
作 者 Gong Lunfeng , Lei Huan , Zhu Li
发表时间_____2012年_______
二O 一九 年 四 月 二十 日
摘要:关联规则是数据挖掘中的一项重要技术。在图书馆借阅服务中,它可以用于对图书馆的借阅服务和信息进行分析和汇总,并能科学地进行建议借阅和推荐图书,以提高图书馆管理的效率。通过实例分析表明,关联规则中的apriori算法能够有效地挖掘在数据有价值信息的背后的东西,并为图书馆服务提供决策支持,帮助图书馆开展个性化信息服务。 关键词:关联规则,数据挖掘,出借业务
1.介绍
在现代社会,图书馆所处的环境发生了巨大的变化,这就要求信息越来越个性化,图书馆模式也在逐步转变,从过去的“收藏中心”改为“用户中心”。图书馆借阅服务是传统读者服务中最基本、最重要的内容服务之一。通过对文献借阅的统计分析,有助于理解读者对文学的需求,把握读者的借阅倾向,是实现深入开展在图书馆服务工作这一目标的前提。目前,绝大多数图书馆都采用了图书管理系统。这个系统每天都会产生大量的数据,但是这些数据通常只用于一般的交通统计,缺乏数据整合和分析。因此,人们渴望拥有一种能够为我们提供自动化和智能搜索的技术,而数据挖掘刚刚好满足了这方面的要求。在数据挖掘的五大功能中,关联规则分析是一个挖掘大量数据的很好的方法,发现规则和特征读者,为图书馆开展图书馆服务提供指导。
2.关联规则最小化
2.1 数据挖掘
数据挖掘这个术语最早出现在1989年8月在底特律举行的第11次人工智能联席会议上。它也被称为数据库中的知识发现。数据挖掘是隐式的提取,人们事先不知道,但是,从大量不完整、有噪声、模糊和随机的数据来看,这些信息和知识在这个过程中是潜在的有用的信息和知识。数据挖掘是数据仓库中最强大的数据分析工具,它在数据库研究领域也是一个有用的应用。它集成了数据库、人工智能、机器学习、统计学等领域的理论和技术。数据挖掘技术包括决策树技术、神经网络技术、线性规划技术、贝叶斯方法、关联规则和其他方法。在这些方法中,关联规则的不断改进,特别是apriori算法的不断改进,为人们的日常生活提供了极大的方便。
2.2 数据挖掘中的关联规则
关联规则是数据挖掘的主要形式,由Agrawal等人于1993年首次提出的一项重要研究在数据挖掘领域的内容,它一直受到数据库行业的广泛关注。所谓的关联规则就是查找数据库中数据项(属性、变量)的现有(潜在)关联。通过使用数据挖掘的关联规则,可以发现大量数据之间的未知依赖关系。
随着大量的数据被收集和存储在数据库中,关联规则在数据挖掘中变得越来越重要。从大量的历史记录中寻找有趣的关联可以帮助人们做出许多业务决策,例如分类设计、交叉购物等。“购物篮分析”是数据挖掘中关联规则的一个典型例子。通过分析顾客同时将不同商品放入购物篮的关联,可以发现顾客的购买模式。“购物篮分析”可以帮助管理人员制定营销策略,也可以使管理者同时知道客户经常购买哪些产品,这样可以重新布置商品的货架和库存安排,或者根据用户的购买情况对其进行分类。例如,在购买面包和黄油的顾客中,90%的人也会购买牛奶。这种分析的结果可以为零售商选择分配和货架安排提供依据,如牛奶和面包可以尽可能多地放在黄油旁边,以指导销售。
2.3 关联分析的概念
设I={i1,i2,i3.,im}作为一个集合,数据项为事务数据库D;T是事务,项目集I中的元素,即Tlt;I;D是事务数据库,是T的所有事务的集合。
因此,关联规则是包含形式,如Ale;B,其中Alt;I,Blt;I且Acap;B=Phi;。
关联规则有两个重要的度量,即最低支持度(Support)和最小置信度(Confidence)。Support(AB)表示在整个事务数据库中Acup;B中支持A的比例;Confidence(AB)表示A在Acup;B中支持A的比例。即:
Support ((AB) = P (A cup; B))
Confidence ((AB) = P (B | A))
在使用关联挖掘技术时,首先必须人为地设置最低支持度(Min-Support)和最小置信度(Min-Confidence)的阈值。例如,设置图书馆借阅信息的最低支持度为10%,最低置信度为80%。在对数据库中的所有出借数据进行挖掘之后,通过满足上述两类书籍A和B的要求,我们找到了“阈值”。 即:
Support(A B)ge;10%
Confidence(A B)ge;80%
Support(A B)ge;10%表明,在借阅记录中,至少有10%的人同时借用了A和B两种类型的图书;Confidence(A B)ge;80%表示所有图书A的借阅者中至少有80%的人也会借阅图书B。因此,通过设定合理的最低支持度和最小置信度,关联挖掘大量的数据将会更接近我们需要的信息。
2.4 关联规则算法
目前,关联规则算法的主流有Apriori算法、基于除法算法、FP树频繁集算法,其中最经典的算法是Apriori算法,由Agrawal等人于1993年提出。Apriori算法的核心是基于两级频率的递归算法。计算如下:
- 扫描数据库D。
- 从数据库的各种类型的集合中生成候选集C。
- 将候选集C中各数据项的频率按次数相加。
- 排除那些统计频率小于预定最低支持频率的数据项,其余数据项形成频繁项集L。
- 组合频繁项集L中的数据并形成一组新的候选C,重复第三次操作,直到L中的数据项不能再次组合为止。
- 计算得到的L的频繁项集的置信度。
3.数据挖掘关联规则在图书借阅服务中的应用
为了进一步说明数据挖掘的关联规则在图书借阅服务中的应用,本文所建立的原始图书借阅数据库是作者在一定时间内从高校图书馆社科书库中选取的。在数据库的基础上,利用关联规则进行数据挖掘。社会科学书库的文献清单见表I。
- 首先,设置Min-Support=10%,然后对原始数据库进行全局扫描,生成候选集C1(见表II)。
- 通过Apriori算法,选择项目支持大于所设置的所有条目的10%将这些项目组合成一组频繁项目集L1(见表III)。
- 重复上述(1)和(2)两个步骤,根据频繁集L1生成候选集C2(见表IV)和(见表V)。
- 重复上述步骤,根据C2、L2生成C3和L3(见表VI,表VII)。
计算频繁集L3的置信度。
可以看出,当读者在社会科学书库中借书时,有42.9%的读者借用了语言,也可以借用哲学、宗教和经济知识等教科书。58.3%的读者同时借用历史和地理书籍,同时也可以借用语言、文本和经济书籍。因此,图书馆可以把历史,地理,读者,语言,文学和经济学书籍结合在一起,读者可以更好地方便借阅。
各大图书馆每天都会产生大量的图书借阅数据,这些图书借阅数据蕴藏着丰富的知识,但目前大多数图书馆缺乏数据集成和分析功能,使图书馆的读者信息服务仍然处于相对浅薄的水平。读者将不可避免地需要跨越多个学科的学习或研究,因此,利用数据挖掘中的关联规则挖掘和分析相关数据是非常重要的,也是提高图书馆信息服务能力的必要条件。实践表明,在图书馆综合自动化系统中,图书借阅数据库中的各种复杂信息之间存在着必然的联系。而且借来的人之间有一些相关性书籍之间也存在一定程度的相关性读者和书籍。例如,正在学习计算机或从事计算机工作的人可能是更关心的是电脑类书籍。此外,在一般情况下,读者只在翻查书时才会搜寻书的位置,而通过联合挖掘图书借阅记录,可以分析不同类型读者借阅的藏书。当读者再次借阅这本书时,系统可以自动向读者提供这本书和其他相关图书在挖掘结果的基础上,从而引导图书馆服务发展到了一定程度个性化的信息服务。一些专家预测关联挖掘技术在图书馆中的应用是现代图书馆发展的一项关键技术。关联挖掘技术的应用不仅可以对图书进行分析,还重视读者数据,调整图书馆馆藏方向,合理化图书馆信息资源系统;寻找读者借阅模式;以及帮助图书馆为读者提供个性化的信息服务。
4. 结论
数据挖掘有多种方法,例如决策树分类方法、遗传算法、贝叶斯方法、人工神经网络、集合论、聚类分析、回归分析分析和关联分析,关联分析是对图书借阅信息进行汇总和分析的最合适的方法。但是在使用这个方法的过程中,我们也应该注意以下几个方面:
- 由于数据挖掘是从大量的数据中寻找规则,数据挖掘需要占用大量的系统资源在数据挖掘过程中,所以数据挖掘通常是在系统空闲时或在导出系统数据后进行的。
- 数据的时间取决于数据的大小,必须由数据的大小来决定。适当调整数据大小,确保数据处理的顺利进行。数据太小很难解释问题的普遍性,数据过大则会降低数据处理的效率。
- 原始数据需要数据清理、数据预处理和数据转换才能实现数据挖掘,并转换成所需的数据格式。例如,图书馆的读者信息库中包含着大量的读者信息,如果要确定读者的年龄、职业、教育和借阅文件之间的关联规则,我们需要关注读者的年龄、职业、教育等信息,其他可能被认为是无用的信息,如姓名、性别等,可以被认为是不相关的信息。另外,在选择数据之后清理。例如,在字段属性值或噪声不一致值中可能有一些空缺。此外,我们应该要清理干净选定的数据。例如,在字段属性值或噪声不一致值中可能有一些不一致。
- 最低支持度和最小置信度的选择是根据数据情况和用户的需要人为地设置的。最低支持表示在统计中满足项目集的最低要求。最低信任反映了满足关联规则可靠性的最小要求。如果你设置的不合理,最后的规则将是很多或很少,为了避免这种情况发生,我们在数据挖掘过程中应及时调整最低支持度和最小置信度。
因此,上述最低支持度和最小置信度的选择将影响与高低层次概念相关的产出规则和条例的数量。如果你设置得太高,它可能找不到规则,或者找不到你不感兴趣的规则;如果你设置得太低,你可能会发现许多不重要的规则。同样,权值计算公式也会影响项目集的支持程度。因此,如何选择最低支持度、最小置信度,权值计算函数生成真正有效的挖掘系统和服务系统是有待改进的后续问题,并对改进的问题进行了研究。利用并行挖掘技术处理图书借阅信息,优化图书馆信息服务水平。
参考文献
[1] Liang Li.“Library Personalized Service User Needs the Information in the Deep Excavation”, Journal of Library Science, Vol. 4. 2007, pp. 67-69.
[2] Sun Guoxia. “Under conditions of asymmetric information-based college of Library Service”, Journal of Modern Information, Vol.3. 2007, pp.159-161.
[3] Shi Zhongzhi. “Knowledge Discovery”, Beijing: Tsinghua University, 2002.
[4] Cai Huixia. “The Application of Association Rules in the System of University library”, Journal of Nanjing University of Technology, Vol. 1. 2005, pp. 85-88.
[5] Deng Hui. “The Application of Association Rules in University Libraries”, Journal of medical Information, Vol. 7.2008, pp.1062-1065.
[6] Wen Rong. “The Application of Association Rules in the Distribution of University Libraries”, Journal of Computer Era, Vol. 2.2009, pp.59-61.
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[19951],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。