Recommendation System of E-commerce Based on Improved Collaborative Filtering Algorithm
Xiaoying Wang
School of Software Engineering Chongqing University Chongqing,China wxyRoy@126.com
Chengliang Wang
School of Software Engineering Chongqing University Chongqing,China wcl@cqu.edu.cn
Abstract—With the rapid development of information technology, the information overload problem in e-commerce site is becoming increasingly serious. It is difficult for people to obtain their own needs from the massive items information quickly. Recommendation systems contribute to alleviating the problem of information overload that exists on the e-commerce site. Collaborative filtering algorithm is most widely used in the recommendation algorithm, but there are still sparse data problems in collaborative filtering algorithm.In this paper, an e - commerce recommendation system based on improved user- based cooperative filtering algorithm is presented, which attempt to bridge the sparsity problem by combining the characteristics of user ratings with user reviews, and using the theme LDA model based on Spark framework to extract user preference.
Keywords-e-commerce; sparsity problem; collaborative filtering; LDA; user preference
- INTRODUCTION
- Research Background
With the rapid development of information technology, e- commerce has become a part of peoples daily life. However, the increasingly prominent problem of information overload in e-commerce is coming with informationrsquo;s development. E- commerce sites provide users with a wide range of products, so that it is difficult for users to get the information from the mass of commodity information they are really interested in quickly and accurately. So, the recommendation system, as a powerful tool to solve the problem of information overload, has a wide range of applications in e-commerce.
Recommendation systems are mainly divided into 3 categories: content based recommendation, collaborative filtering based recommendation and hybrid recommendation. The most widely-used recommendation among them is collaborative filtering recommendation. However, there are still some problems in practical applications such as low accuracy, cold start and sparse data. Because the traditional collaborative filtering algorithm relies too much on the rating data, once the rating matrix is too sparse, the available rating information will be too small, and the similarity of the users or items is difficult to guarantee the accuracy.
- The Current Research Situation
In order to produce accurate recommendations, researchers have made many improvements to the traditional recommendation algorithms. Breese and others have analyzed the various collaborative filtering algorithms and its improvements [1]. Goldberg proposed a new collaborative filtering algorithm Eigentaste, they applied PCA (principal component analysis) to a dense subset of rating matrix to reduce the dimensionality of the matrix, so as to ensure the accuracy of the algorithm at the same time and reduce the complexity of the algorithm [2].
- Improved Thought of Recommender System in E- commerce
Most of the current e-commerce system support users to rate and review with brief text on what they buy, such as Dangdang and Taobao. Review texts often contain rich and valuable information resources, and they are also an effective way for businesses to obtain feedback from users [3]. Usually, the reviews given by users are mostly out of their own perception of items and their main impression. Most users will describe a few aspects which most impress them in the reviews, and that a few impressions, largely determines the user rating of items. Fig. 1 shows a product rating and review from the online store Amazon.
Traditional rating forecasting methods typically only consider user ratings, and do not deal with userrsquo;s textual review data. In fact, userrsquo;s review texts contain a lot of valuable information, such as the topic of the review, the level of attention, and the good or bad situation of these levels. Lu and others proposed a method for processing these comments to dig out the various levels and infer the scores at all levels [4]. This paper is inspired by its method. In the big data environment, this paper designed a e-commerce recommendation system which is based on improved user-based cooperative filtering algorithm in which combining the characteristics of user ratings with user reviews, and using the theme LDA model based on Spark framework to extract the theme.
978-1-5386-0497-7/17/$31.00 copy;2017 IEEE
Figure 1. Example of a Amazon user comments
- RECOMMENDATION SYSTEMS AND RELATED KNOWLEDGE
- Recommendation System Survey
Recommendation system is a kind of information service technology, which is mainly to solve the problem of difficult selection caused by massive information. It can help users find the information they want quickly. Table 1 lists some of the websites that use the recommendation technology at home and abroad.
TABLE I. EXAMPLES OF WEBSITES USING THE RECOMMENDATION TECHNOLOGY
Filed |
Website |
E-commerce |
Amazon, eBay, Taobao |
Music |
Yaboo.com, Douban |
Film |
Netflix, MovieLens, Youku |
News |
GroupLens, Google News, PHOAKS |
The working principle of the recommendation system is shown in Fig. 2 .
Figure 2. The working principle of the recommendation system
-
Collaborative Filtering Algo
剩余内容已隐藏,支付完成后下载完整资料
基于Web的电子商务推荐系统改进的协同过滤算法
摘要:随着信息技术的飞速发展,电子商务网站的信息过载问题日益突出越来越严重。人们很难获得自己的需要从大量的项目信息中快速获取。推荐系统有助于缓解问题电子商务网站上存在的信息过载问题。协同过滤算法在该领域应用最为广泛推荐算法,但仍存在稀疏数据在协同过滤算法中存在一些问题。基于改进的用户友好型商务推荐系统提出了基于算法的协作滤波算法通过结合特点来弥合稀疏问题的用户评分与用户评论,并使用主题LDA基于Spark框架的模型提取用户偏好。
关键词:电子商务;稀疏问题;共同滤波;LDA;用户偏好
I.导论
A.研究背景
随着信息技术的飞速发展,电子商务已成为人们日常生活的一部分。然而,日益突出的信息超载问题日益突出电子商务正伴随着信息的发展。电子商务网站为用户提供了广泛的产品,因此用户难以从大众中准确地获取信息他们真的很感兴趣的商品信息。所以,推荐系统,作为一个强大的解决信息过载问题的工具,具有广泛的适用性电子商务中的应用范围。
推荐系统主要分为3个类别:基于内容的推荐,协作基于过滤的推荐和混合推荐。其中最广泛使用的建议是协同过滤推荐。 但是,有在实际应用中仍然存在一些问题,如低准确性,冷启动和稀疏数据。因为传统协作过滤算法过分依赖于评分数据,一旦评级矩阵太稀疏,可用评级信息会太小,并且用户的相似性还是物品很难保证准确性。
B.目前的研究状况
为了提出准确的建议,研究人员对传统做了许多改进推荐算法。 Breese等人进行了分析各种协同过滤算法及其实现改进[1]。戈德堡提出了一项新的合作过滤算法Eigent,他们应用了PCA(校长组分分析)到一个密集的评级矩阵子集减少矩阵的维数,从而保证矩阵的维数算法的准确性同时降低算法的复杂性[2]。
- 对电子书推荐系统的改进思考
商业目前大部分电子商务系统都支持用户使用率和审查与他们买什么简短的文字,如当当和淘宝。评论文章通常包含丰富和有价值的信息资源,而且它们也是有效的企业获得用户反馈的方式[3]。通常情况下,用户给出的评论大多是他们自己的项目的感知和主要印象。大多数用户会描述在评论中给他们留下最深刻印象的几个方面,而且这几个印象在很大程度上决定了用户的评价项目。图1显示了产品的评级和评论网上商店亚马逊。传统的评级预测方法通常只有考虑用户评分,并且不处理用户的文字评论数据。实际上,用户的评论文本包含很多有价值的内容信息,如审查的主题,层次注意力以及这些水平的好坏。卢和其他人提出了处理这些评论挖掘的方法从各个层面推断出各个层次的分数[4]。这个纸张的灵感来自其方法。在大数据环境中,本文设计了一个电子商务推荐系统这是基于改进的基于用户的合作过滤结合用户特征的算法评分与用户评论,并使用主题LDA模型基于Spark框架来提取主题。
II。 建议系统与系统有关知识
A.建议系统调查
推荐系统是一种信息服务技术,这主要是解决困难的问题大量信息引起的选择。 它可以帮助用户查找他们想要的信息很快。 表1列出了一些在家使用推荐技术的网站国外。
表I.使用推荐技术的网站示例
文件
网站
电子商务
亚马逊,e湾,淘宝
音乐
Yaboo.com,豆瓣
电影
Netflix,电影镜头,优酷
新闻
Group Lens,Google新闻,PHOAKS
推荐系统的工作原理是如图2所示。
图2.推荐系统的工作原理
B.协作过滤算法调查
传统的协同过滤算法预测用户通过利用该优势和推荐项目用户的历史评级数据[5,6]。 在用户基础上协同过滤算法,用户u的预测评级有可能给物品我可以通过(1)计算:
其中N表示用户u的最近邻居集合,表示由用户u给出的项目i的评级,表示用户u和用户v分别给出的平均评分,sim(u,v)是用户u和用户v之间的Person系数。
C.传统的LDA模型
潜在狄利克雷分配(LDA)[7]是一种生成性概率模型,其目的是将文档中共同出现的单词聚类以形成主题[8]。 每个文档d都可以表示为K维主题分布theta;d,并且为每个主题k分配词分布phi;k,这意味着特定词用于主题k的概率。 如图3所示,文档可以被认为是一个有序的序列N个单词,一组包含M文档的文档。 alpha;是theta;的超参数,beta;是phi;的超参数。我们可以使用LDA在评论中发现隐藏的主题。
图3. LDA模型图
- 基于Spark的LDA
为了文件分类的目的,LDA分为两个步骤:培训和培训的过程推理过程。在大数据环境中,金额数据太大,训练后不会有很好的效果传统的LDA模型。 Spark是一个通用的并行计算Berkeley公开课Hadoop Map Reduce框架AMP实验室。分布式计算框架是基于Map Reduce算法和作业实现中间输出和最终结果可以存储在中内存,从而减少了读写的I / O消耗HDFS在一定程度上。数据量越大在处理期间需要被读取,优点就越大使用Spark。因此,系统选择执行基于LDA模型的文档主题特征提取Spark框架。
III。 基于改进协同过滤算法的电子商务推荐系统的构建
A.系统功能模块
系统分为用户信息管理模块,用户购买与审核记录模块,商品信息管理模块,推荐模块四个功能模块。 其中,推荐模块是系统的核心,分为以下两部分:
热点项目推荐模块:系统根据交易信息选择前10位商品展示给用户。 当用户进入系统时,他们可以看到热门项目的显示。
个性化推荐模块:根据用户评论和项目的信息,系统推断出用户可能感兴趣的项目,
然后选择Top-N项目以推荐给用户。
B.系统框架
该系统的总体框架如图4所示。
图4.系统框架图
IV。 系统算法的实现
该推荐系统采用基于Spark的LDA主题模型对用户评论进行分析,并生成用户偏好。接下来,使用所生成的用户偏好来计算用户偏好相似度,并将用户偏好相似度与传统用户评价相似度进行组合以产生最终用户相似度。最后,使用基于用户的协作过滤思想进行预测用户评分并生成推荐的项目。该推荐系统的算法流程图如下:
图5.算法框架图
A.用户偏好的生成
1)用户评论的预处理:原始评论数据往往带有很多用户的主观想法,其中许多与该项目无关,因此需要对其进行预处理以供评论。
2)项目特征的提取:项目的特征包括直观特征和隐藏特征。例如,“手机尺寸正确,但待机时间稍短”,其中“尺寸”是直观的功能,而“电量”是隐藏功能。目前提取隐藏特征的技术还不成熟,隐藏的特征很多在这个系统中没有考虑到,这将被视为下一个研究方向。在评论的预处理之后,我们提取名词,动词和形容词作为生成数据的特征词设置,并以矢量形式表示。这些特征词指示用户的偏好特征。
3)修剪项目的功能:一些功能从评论中频繁出现的项目中提取,但是与这些项目的功能无关。所以呢有必要修剪提取的特征。修剪过程主要是使用How Net进行查询特征词的语义来寻找语义特征词的相似性,重复和合并的文本,提供了基础主题发现。具体过程是:使用How Net来计算文件之间的语义相似度每个特征词。如果相似度为1,则删除根据概率重复特征词在这个语义中出现特征词,并且只有这些词保留更高的语义概率。删除功能,不包含在如何网络和合并语义相似性术语。当相似度大于阈值,语义相似性项被合并根据特征出现的概率语义,并保留较高概率的词。
4)评估情绪倾向:用户的评论包含许多代表他们情绪的词汇,大部分都是形容词
和副词。我们提取与之相关的情感词汇项目的评论中的功能,并使用How Net建立用于计算的情感字典情绪词的情绪化倾向。
5)发现评论的主题:我们利用基于Spark的LDA模型来生成其K维主题分布。是一个概率分布,它表示了用户u表达的该评论的主题分配。这些主题代表用户的个人喜好。
6)评估偏好的情绪强度主题:用户的每次评论通常对应于特定的评分。我们认为评论的高评分可以提供更多有价值的话题分布,并利用评论从评级信息中提取的态度。评级代表用户的态度,分数越高代表了符合该产品的特点用户的个人偏好以及相应的分配的主题可以体现用户偏好的特点[9]。我们定义审查态度如下:
其中是用户u给出的项目i的评分,表示用户u的平均评分,在范围(0,1)内。 这样,表示利用用户评价信息进行评论的态度。 当gt; 0时,它表示用户对我的项目有偏好,相反,用户有对项目i讨厌的倾向[9]。审核态度的用户偏好定义如下:
其中Du是用户u提供的所有评论的集合,Iu表示用户u审阅的所有项目的集合,并且。
- 用户偏好相似度的计算相似度计算公式有很多,如Pearson相关系数公式,广义Dice系数法等。我们在算法中使用余弦相似度公式,根据不同用户的态度计算用户偏好的相似度。用户偏好相似度的计算如下所示:
其中,puj和pvj分别表示用户和用户对j话题的偏好。
C.用户评级相似性的计算
首先,我们利用改进的余弦相似度方法计算用户的评分相似度。 如下:
其中I是项目集合,ru和rv表示用户u和v,r的平均评分 与,ru,i是用户u给出的项目i的评级,而rv,i是用户v给出的项目i的评级。
最后,使用参数alpha;来平衡用户偏好相似度和评分相似度的重要性,并计算用户的最终相似度sim(u,v)。 对于任何两个用户u和v,用户相似度sim(u,v)计算如下:
其中alpha;值从0到1。
D.评分预测并产生TOP-N建议
计算用户相似度后,我们将sim(u,v)放入(1)中计算预测评级,然后从大预测项目中选择评分较高的Top-N项目推荐给目标用户。
五,结论
本文构建了基于改进协同过滤算法的电子商务推荐系统。在系统算法中,将评论主题融入基于用户的协同过滤算法中,利用基于Spark的LDA模型生成评论主题分布,并根据评论主题建立用户偏好相似度。最后,我们建立最终的通过结合用户偏好相似度和用评级信息计算的用户评级相似度来确定用户相似度。实际应用表明,我们的系统可以提高推荐质量,并有效缓解稀疏问题未来的研究将集中在更准确地建立用户偏好和项目特征,并构建推荐结果更好的推荐系统。
[1] Breese J S, Heckerman D, Kadie C. Empirical analysis of predictive algorithms for collaborative filtering[C]// Fourteenth Conference on Uncertainty in Artificial Intelligence. Morgan Kaufmann Publishers Inc.2013:43-52.
[2] Goldberg K, Roeder T, Gupta D, et al. Eigentaste: A Constant Time Collaborative Filtering Algorithm[J]. Information Retrieval Journal,2001, 4(2):133-151.
[3] Resnick P, Iacovou N, Suchak M, et al. Group Lens: an open architecture for collaborative filtering of netnews//Proceedings of the 1994 ACM conference on Computer supported cooperative work. ACM, 1994: 175-186.
[4] Breunig M M, Kriegel H P, Ng R T, et al. LOF: identifying density-based local outliers[C]// ACM SIGMOD International Conference on Management of Data, May 16-18, 2000, Dallas, Texas, Usa. Cite Seer,2000:93-104.
[5] Resnick P, Iacovou N, Suchak M, et al. Group Lens: an open architecture for collaborative filtering of netnews[C]//Proceedings of the 1994 ACM conference on Computer supported cooperative work. ACM, 1994: 175-186.
[6] Linden G, Smith B, York J. Amazon.com recommendations: item-to-item collaborative filtering[J]. IEEE Internet Computing, 2003, 7(1):76-80.
[7] Blei D M, Ng A Y, Jordan M I. Latent dirichlet all
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[21765],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。