在Hadoop中使用协作过滤实现大数据的可扩展产品推荐系统外文翻译资料

 2022-11-19 16:36:22

英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料


在Hadoop中使用协作过滤实现大数据的可扩展产品推荐系统

Riyaz P A, Surekha Mariam Varghese

摘要

数据和信息的增长产生了对下一代数据库和数据库工具的需求。大多数业务需要一个已经被数百万用户使用的服务推荐系统。日益增多的客户,产品和信息量迅速增长,给服务推荐系统带来了大数据分析问题。因此,当大规模处理或分析该数据时,传统的推荐者服务系统经常遭受缺乏可扩展性和效率问题的困扰。为了避免这些问题,一个使用协同过滤算法的新推荐系统正在Apache Hadoop中被作为大数据范例被实施。 Apache Hadoop是一个开放的框架,用于可以处理大量数据的分布式处理系统。它可用于离线处理,不适用于低延迟分析。将数据传输到HBase等下一代数据库并优化其性能。对于已经在使用产品推荐的亚马逊数据集。与传统工具相比,推荐框架的的表现更好。

关键词:大数据;推荐;产品; Hadoop; MapReduce; Hbase;协同;

  1. 介绍

电子商务建立他们的服务和业务来快速扩张,但他们生成的数据仍然保留了一些难以解决的固有特征和复杂性。产品数据集不断变大,因此独立系统越来越难以处理产品数据。网络上以评分,排名,评论,意见,抱怨,评论,反馈和备注等形式提供的大量数据项目(产品,事件,个人和服务)可以用于做出正确的决定。

在网络上可以找到很多网络用户可以发表他们的观点,评论和关于物品的意见的博客论坛。根据评分和项目相关文本摘要的建议可用于决策。电子商务网站和在线业务的增长正在增强强大的推荐系统的要求。现在,每天有数百万用户从网上购物网站购买产品。了解产品大数据(PBD)背后的逻辑对于设计可用于推荐服务的电子商务应用(EA)具有重要意义。

图1显示了大数据的功能。大数据,大量的数据和快速增长的数据让传统系统难以处理。开源软件现在相当可用,主要是ApacheHadoop为多个集群节点上的TB级数据仓库提供框架,从而使用MapReduce编程模型实现可扩展和分布式产品大数据分析。

图 1 大数据的四个v

在本文中,实时推荐产品或服务,预测应准确并提供可扩展性,这些是主要目标。我们开发了基于Hadoop的[1]应用程序,基于Hadoop应用于大数据的使用协同过滤算法的产品推荐软件,以智能方式处理带有三节点Hadoop节点的产品大数据,以执行分布式MapReduce算法。与单节点算法相比,我们的多节点或分布式算法有助于实现高效的产品大数据处理。此外,通过产品大数据分析,我们可以对作为NoSQL数据库的HBase进行优化,以提供更好的读取性能,这可能获得更好的低延迟分析。

  1. 相关成果

Zhiyang Jia和 Wei Gao提出推荐系统应该被构建为一个能为游客生成个性化能够为旅游者生成个性化的偏好景点列表的在线的应用程序 [2]。经典推荐系统的现代技术,如协同过滤被认为在旅游领域得到有效采用。

在协同过滤原则的基础上,旅游景区的推荐过程分为三个步骤。第一步是用户(旅游者)信息的表示(旅游者对景点的访问历史需要进行分析和建模)。

Jyoti Gupta提出了一个系统,该系统预测使用基于项目的协作过滤与基于人口统计的用户群的加权预测相结合的预测方法 [3]。建议的解决方案是可扩展的,同时成功解决用户冷启动。在基于项目的协作过滤(IBCF)与基于人口统计的协作过滤(DBCF)相结合的混合加权方法中。

Shunmei Meng和Wanchun Dou 等人开发了一个系统,旨在提出一个个性化的服务推荐清单,并有效地向用户推荐最合适的服务 [4]。具体而言,关键字用于指示用户的偏好,并且采用基于用户的协作过滤算法来生成适当的推荐。为了提高大数据环境下的可伸缩性和效率,KASR在Hadoop上实现,Hadoop是一个广泛采用的使用MapReduce并行处理范例的分布式计算平台。

很多作品都是将Hadoop用于可伸缩应用程序。但是在许多领域和角落还有待改进。 MapReduce中的处理过程很快,但不能用于低延迟分析。建议应该实时完成。

另一个重要的事情是使用推荐系统的用户数量。现在是数百万用户,未来可能会达到十亿。在低延迟条件下提供推荐或任何其他服务是未来的所有应用程序的主要问题。利用HBase数据库,分布式和列式,可提供低延迟分析。

  1. 系统架构

我们的基于Apache Hadoop的产品推荐系统有三个组件,如图2所示。组件包括Hadoop节点,分布式推荐引擎和Hbase存储。结合生成分布式推荐界面的应用程序。亚马逊产品数据集用于推荐产品。产品大数据可以存储在HDFS中。下面介绍每个组件的功能。

图2.推荐框架的架构

3.1数据提取

亚马逊产品数据集由评论组成。每个评论都会有与之相关的评分。每个客户都有一个客户ID。亚马逊产品数据通过MapReduce范例加载到Hadoop集群中。数据根据客户而不是产品进行更改。用户的口味与其他人进行比较。所以这些数据是以顾客的名义安排的,并且他已经购买了产品清单。 PBD利用MapReduce技术进行快速加载。

图3. MapReduce的数据提取

亚马逊数据格式化程序将解析数据集,并将关于每个亚马逊产品的数据作为键值对发送。它将键值对发送给地图功能。当地图任务收到产品数据时,它将CustomerID作为关键字和产品数据作为每位带来产品的客户的价值。然后,Hadoop收集密钥的所有值并为每个密钥调用一次Reducer。每个客户都会调用reduce函数,每个调用都会收到客户购买的所有产品。Reducer发出每个客户购买的物品列表,从而构建客户配置文件。每个项目都包含产品评级。

3.2数据分析

本部分的目标是建立一个可扩展的大数据分析系统,并在Hadoop之上实施推荐相关算法。对于数据科学部分,使用了MapReduce的python,可以扩展到大数据集。 Python是最近用于机器学习的强大语言。在我们的系统中,我们主要使用Collobartaive Filtering算法来分析存储在Hadoop集群中的Amazon Product Bigdata [6],以便为外部应用程序提供建议。

3.3算法实现

要实现协同过滤,我们需要执行以下步骤:(1)收集用户偏好,(2)根据用户的口味找到相似的项目,(3)计算推荐。首先,我们使用数据提取模块从亚马逊产品数据集中获取数据。数据需要分组到用户基础[7]。然后,我们可以从亚马逊产品数据集中收集用户偏好,并将有关用户偏好的历史信息转换为一个简单的三元组:

然后,我们使用个人相关系数(PCC)度量来计算相似度。与余弦相似度和欧几里德距离相比,PCC更好。它首先找到两个用户评分的项目。然后计算两个用户的产品评分的总和和平方和,并计算他们评级的产品总和。最后,它使用这些结果来计算个人相关系数。

然后,我们使用个人相关系数(PCC)度量来计算相似度。与余弦相似度和欧几里德距离相比,PCC更好。它首先找到两个用户评分的项目。然后计算两个用户的产品评分的总和和平方和,并计算他们评级的产品总和。最后,它使用这些结果来计算个人相关系数。

协同推荐产品已被证明比用户推荐 [8]更具可扩展性,并且能够处理大型用户群。它使用项目之间的相似性来提出建议。它基于用户的过去行为并推荐类似于过去用户喜欢的项目。项目到项目协作过滤[9]的基本思想是,如果两个项目与某些用户具有相同的评级,或者具有相同的特征,则表示它们是相似的项目,而下一次当用户喜欢这两个项目中的一项时像其他项目一样。假设项目P,Q和R被用户A类似评价,所以现在它们是类似的项目,当用户B喜欢过去的项目Q时,他将得到项目P和R的建议。

3.4数据存储

这些商店由面向用户的交互式应用程序部分使用。第二种类型用于分析工作负载,并强调写入吞吐量和顺序读取延迟或随机访问。这将强制应用程序分解为“快速路径”处理和异步分析任务。

HBase存储这些建议。 HBase使用Bloom Filters来减少磁盘上的额外搜索。 HBase的体系结构如图4所示,由HMaster管理的多个HRegionservers组成。

每个区域存储表格。基本上HBase是一个分布式数据库。 HBase的所有活动都由Zookeeper协调。

如果表中推荐数量增加,则将一个表分散到称为区域的多个切片中。不同的地区将被分配到相应的HRegion服务器进行管理,最终将数据写入HDFS(一个分布式文件系统)。 HBase为电子商务应用程序提供了低延迟。

4. 表现评估

为了评估性能,使用亚马逊产品数据集。所用系统的硬件配置是带有4 GB 1066 MHz RAM的英特尔奔腾双核2 GHz处理器。使用的操作系统是Ubuntu 15.10。 Hadoop的版本是2.6.0。在图5中,x轴表示用户的数量,而y轴表示以秒为单位的时间。当datanodes数量增加时,它逐渐提高了系统的并行处理能力。对于小尺寸的数据,少量的数据节点就足够了。对于大型数据,数据节点数量越多,系统的性能就越好。

5.结论

本文提供了一个可扩展的产品,建议在基于Hadoop的处理系统上对Bigdata进行协作过滤。经过优化的HBase具有更好的性能。对于低延迟应用程序,由于分布式体系结构和利用Apache Hadoop的强大功能,HBase是非常受欢迎的。随着数据量的增加,Hadoop通过在处理中添加更多数据节点而表现良好。协作过滤是产品推荐的最佳算法之一。

参考文献

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[23392],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。