论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>论文范文>范文阅读
快捷分类: 通信系统论文 论文推荐 信息系统项目管理论文 旅游杂志推荐 小学生期刊推荐 论文查询系统 电子商务推荐系统论文 开题报告推荐系统 推荐系统论文 推荐系统文献综述 单片机入门系统的开题报告89s51 会计信息系统参考文献

关于推荐系统类毕业论文格式范文 跟基于推荐系统时间敏感的因子模型算法相关自考开题报告范文

分类:论文范文 原创主题:推荐系统论文 发表时间: 2024-03-22

基于推荐系统时间敏感的因子模型算法,本文是关于推荐系统类本科论文开题报告范文和系统时间敏感和因子和算法相关自考开题报告范文.

文/李忠武 王辉 魏再超

摘 要:推荐系统的协同过滤算法[1]已经得到了人们的普遍关注并取得了很大的进展.协同过滤算法在Netflix推荐系统比赛中起到了核心作用,无疑又增加了它的知名度.矩阵因子分解技术已经成为实现协同过滤算法的首选.在矩阵因子分解技术中存在用户的爱好存时间变化.同时,由于用户的爱好是不断变化的,他们甚至重新选择他们的爱好.这就导致一个因子模型的产生,该模型考虑了时间效应信息用以更好地描述用户的行为.

关键词:矩阵因子分解;基准预测;用户偏置;建模

引言

矩阵因子分解方法能很好地对时间效应建模,这样可以提高预测结果的准确度.通过把评分分解为不同的项,可以分别处理不同方面的时序影响.通过定义下面随时间变化的因子:用户偏置bu(t);物品偏好bi(t).由于物品与人类不同,它在本质上是不变的,所以我们也可明确定义物品的静态特征,原因在于我们不希望物品有很大的时序变化.

1.随时间变化的基准预测

基准预测[2]的时序变化性主要体现在两个时间效应上面.第一个时间效应体现在物品的流行度或许随时间变化.例如,在一部新电影里某位演员的出现或许就会导致该电影的流行或过时.我们的模型中把物品偏好偏置bi看作时间的函数就能说明这一点.第二个时间效应体现在随着时间变化,用户或许会改变他们的基准评分.因此,在我们的模型中,把用户偏置bu也看作时间的函数.对一个时间敏感的基准预测来说,在tm天,用户u对物品i的评分可用下面公式来计算:

bui等于μ+bu(tui)+bi(tui) (1)

式中,bu(·)和bi(·)是随时间变化的实数函数.构造这些函数最好的方法必须要考虑如何参数化涉及的时序变化性.在电影评分数据集中我们做出的(构造这些函数的)选择向大家说明了一些典型的注意事项.

周期性变化的时间效应和相对瞬息万变的时间效应是有很大区别的.在电影评分案例中,一方面,我们不希望用户对电影的偏好程度每天上下波动,而是在较长的一段时间后才发生变化.另一方面,我们注意到用户的影响每天都会变,这也反映了消费者行为不是持续不变的本质特性.对用户偏置的建模需要一个较细的时间粒度,而对与物品相关的偏置建模时选择一个相对较粗的时间粒度就可以了.

我们首先确定如何选择随时间变化的物品偏置bi(t).我们发现完全可以把物品偏置分割为不同的时间段来计算,而每一个时间段都用一个常数表示物品偏置.把时间轴划分到不同的时间段时,既希望时间粒度较细(时间段较短),又需要每个时间段包含足够的评分记录(时间较长),这就需要权衡.对电影评分数据来说,在相同准确度条件下,可选择的时间段大小的范围非常宽泛.在具体的实现中,每一个时间段对应大约连续十周的评分数据,需要30个时间段来跨度数据集中的所有天数.天数t关联着一个整数Bin(t)(在数据集中,取值为1~30),于是电影偏置就被评分为一个固定部分和一个随时间变化的部分.

bi(t)等于bi+bi,Bin(t) (2)

尽管把参数分时间段取值在物品偏置上很好,但是很难推广到用户偏置的计算上.一方面,我们希望对用户采用精细的时间粒度,用以发现非常短时间的时间效应.另一个方面,我们又不能期望每个用户都会有足够的评分数据,用以对独立的时间段做出可靠的估计.我们可以考虑用不同的函数形式来参数化随时间变化的用户行为,当然每个函数形式的复杂度和准确度都不同.

一个简单的建模选择是使用一个线性函数来模拟用户偏置可能的渐变过程.对每个用户u,定义该用户评分日期的均值为tu.现在,若用户u在t天的时候评价了一部电影,则与该评分相关的时间偏置定义为:

devu(t)等于sign(t-tu)·|t-tu|β

该公式中,|t-tu|是日期t和tu间隔的天数.我们通过交叉验证来设置的β值,这里采取β=0.4.我们为每个用户引入一个单独的新参数au,这样便得到第一个时间相关的用户偏置:

bu(1)(t)等于bu+au·devu(t) (3)

这个用来近似随时间变化的用户行为的简单线性模型需要为每一个用户u学习两个参数:βu和au.

我们也可以采用曲线来进行更灵活的参数化.假设用户u和nu条评分记录.指定ku个时间点,

这些时间点把用户评分记录日期进行了均匀的划分,并且作为核控制着下面的函数:

目前为止,我们讨论了用户偏置建模时采用平滑函数,这些平滑函数非常适合模拟逐渐观念转变的时间效应情形.然而,在很多应用中,有很多在某一天或某时间会发生瞬间变化的突变情形.为了处理这样短时间内存在的影响,我们为每一个用户和每一天指定了一个参数用以反映特定于的变化.这个参数记为bu,t.注意在一些用户中,真正采用的基本时间单位可以比一天短或长一些.

在Netflix电影评分数据中,一个用户平均在40个不同的日期对电影评分.因此,获得参数bu,t时,平均需要40个参数来描述生个用户偏置.由于bu,t缺失了所有跨度超过一天的信息,所以把任务bu,t作为单独的一个变量并不能充分地处理用户偏置.因此,把它作为前面描述过的模式中的一个附加部分.于是时间线性模型公式(3)变成:

相类似,基于曲线的模型变成下面的模型:

仅靠基准预测并不能产生个性化推荐,原因在于它忽略了用户和物品之间的所有交互.在某种意义上,它只是抓住了与建立推荐不是很相关的那部分数据.然而,为了比较与时间相关的、不同类别用户偏置的优缺点,我们在单个预测器上比较它们的准确度,为了学习模型中涉及的参数,我们用随机梯度下降算法来最小化相关的正则化平方误差.例如,在真实的实现中,我们采用规则公式(5)来对随时间变化的用户偏置建模,这样得到下面的基准预测器:

表1比较之前提出的几种基准预测器解读数据中信息的能力.与往常一样,捕获的信息是由根均方差(RMSE)[3]来度量的.在此提醒一下,由于测试案例在时间上比训练样例出现得晚,所以预测经常涉及关于时间的外推法.我们可以这样表示这些基准预测器:

上表中,随着时序建模越来越准确,预测准确也随之提高(RMSE变小).

静态模型,不考虑时间效应:bui等于μ+bu+bi.

Mov模型,只考虑与电影相关的时间效应:

bui等于μ+bu+bi+bi,Bin(tui).

线性模型,考虑用户偏置的线性模型:

bui等于μ+bu+au·devu(tui)+bi+bi,Bin(tui).

样条曲线模型,考虑用户偏置的样条曲线模型:

Linear+模型,考虑用户偏置和单天效应的线性模型:bui等于μ+bu+au·devu(tui)+bi+bu,tui+bi,Bin(tui).spline+模型,考虑用户偏置和单天效应的样条曲线模型:

表1显示,尽管考虑电影评分数据中电影的时间效应提高了预测准确度(把RMSE从0.9799降低到0.9771),但相比之下,用户偏置的变化影响更大.跟线性模型相比,建模时使用样条曲线额外的灵活性,因此提高了预测准确度.然而,由每天参数捕获的用户偏置的突变才是最重要的.事实上,当考虑这些突变时,线性模型(linear+)和样条曲线模型(spline+)的区别几乎消失了.

除捕捉目前描述的时间效应,可以通过相同的方法捕获更多的其他效应.一个主要案例是捕获季节效应.例如,一些产品或许在特定季节或者临近某些假期时才会流行.相类似,电视或者电台节目在一天的不同时间段内才会流行(也就是“分时段”).季节效应也可以在用户端出现.例如,用户或许在周六日和工作日有不同的心态或者购买模式.对这样的效应建模的一种方式是用一个参数把时间周期和用户或物品结合起来.这样,式(2)所示的物品偏置变为:

bi(t)等于bi+bi,Bin(t)+bi,period(t)

例如,如果我们试图捕获物品偏置在一年不同季节内的变化,则:period(t)∈{fall,winter,spring,summer}.相类似,我们或许可以通过把式(5)修改为下面的公式对周期性的用户影响建模:

bi(t)等于bu+au·devu(t)+bu,t+bu,period(t)

然而,尚未发现季节效应在电影评分数据集中有重要的预测能力,因此我们报告的结果并没有包含这些季节效应.另一种基准预测器范围内的时间效应是与用户评分变化相关的.尽管bi(t)是一个与用户无关的、在时刻t关于物品i价值的度量,用户却倾向于对这样的一个度量做出不同的回应.例如,不同的用户有不同的评分标准,并且是同一个用户的评分标准也会随着时间改变.于是,电影偏置的原始数据值就不是完全与用户无关的了.为了解决这个问题,我们为基准预测器增加一个与时间相关的扩展特征,记为Cu(t).因此,基准预测器式(7)变成:

bui等于μ+bu+au·devu(tui)+bu,tui+(bi+bi,Bin(tui))·Cu(tui)(8)

上面讨论的用于实现bu(t)的方法都可以用来实现Cu(t).我们设定一个随天数变化的单独参数,得到Cu(t)等于Cu+Cu,t.与往常一样,Cu是Cu(t)的稳定部分,面Cu(t)代表了特定天的变化.把Cu(t)当作一个乘法因子增加到基准预测器可以把RMSE降低到0.9555.有趣的是,只捕获主要影响而完全忽略用户一物品交互作用的基本模型,与商业的Netflix Cinematch推荐系统一样,都可以用来解释大部分的数据变化.在相同的测试集上,Netflix Cinematch推荐系统报告的RMSE为0.9514[4].

2.随时间变化的因子模型

前面讨论了时间因子对基准预测器的影响.然而,正如之前提到的那样,时间效应不仅对基准预测器有影响,也对用户的偏好有影响,从而影响用户和物品之间的交互作用.用户的偏好随着时间变化.例如,“心理惊悚片”类型的电影迷或许一年后变成“罪案片”的电影迷.相类似,人们会改变他们对特定导演和演员的看法.这种演进通过把用户因子(向量pu)作为时间的函数来建模.再一次,我们需要在面临用户评分的内置稀疏性的困境下,以每天这样的精细时间粒度来对这些变化建模.事实是,这些时间效应是最难捕获的,因为用户偏好并不像主要影响(用户偏置)那样明显,而是被分割成了许多因素.

与处理用户偏置的方式相似,我们对用户偏好的每一个组成部分进行建模,即pu(t)T等于(pu(t),...,puf(t)).在电影评分数据集中,我们发现以式(5)来建模是很有效的,如下所示:

puk(t)等于puk+auk·devu(t)+puk,t k等于1,...,f (9)

这里,puk代表因子的不变部分,auk·devu(t)是对可能随时间线性变化的那部分的近似,puk,t代表了非常局部性的、与特定天相关的变化.

这时,我们可以把所有的碎片拼凑起来并通过整合这些随时间线性变化的参数来扩展SVD[5]因子模型.得到的扩展模型记为timeSVD++,且预测规则如下所示:

随时间变化的参数bi(t)、bu(t)和pu(t)在式(1)、(2)和式(9)中有精确的定义.学习过程通过使用随机梯度下降算法来最小化数据集上相关的平方误差函数来完成.事个过程与原始的SVD++算法类似.每一次迭代时间复杂度仍然与输入大小呈线性关系,而运行时间大概是SVD++算法的两倍,原因是更新时序参数需要额外的花费.重要的是,收敛速度并没有受时序参数化的影响,大概经历30次迭代后该算法就会收敛.

3.总结

矩阵分解模型的基本形式描述了物品和用户两个方面的特征,而这是通过由物品的评分模式推导出的向量因子实现的.物品和用户因子间的高度一致性才会导致一个物品被推荐给一个用户.这些方法提供了一个内存有效的压缩模型,该模型训练起来相对容易.这些优点,加上基于梯度下降算法的矩阵分解模型实现起来很容易,使得该方法成为Netflix有奖比赛中使用的方法之一.

另一个重要方面是时间效应,这些时间效应反映了用户随时间变化的爱好.每一个用户和产品在其特征上都会潜在地经历一系列不同的变化.在随时间变化的数据中,仅仅靠旧实例的衰减不能充分地识别出公共的行为模式.我们采用的解决方法是在整个时期对时间效应建模,这样就可以智能地把瞬态因子和持续性的因子分离开.包含时间效应的模型被证明在提高预测质量方面比算法上的增强更有用.

参考文献:

[1] Goldberg D, Nichols D, Oki B M, et al. Usingcollaborative filtering to wee an information tapestry.Communications of the ACM, 1992, 35(12):61-70

[2] Koren Y, Bell R, Volinsky C. Matrix factorizationtechniques for ecommender systems. Computer, 2009,42(8):30-37

[3] 鲁权.基于协同过滤模型与隐语义模型的推荐系统研究与实现[D].湖南:湖南大学,2013:21

[4] Box,G.E.P.,Hunter,W.G.,Hunter,J.S.:Statistics forExperimenters.Wiley,New York(1978)

[5] Sarwar B M,Karypis G,Konstan J A,et al.Applicationof dimensionality reduction in recommender system-acase study[C]//Proceedings of ACM WebKDD 2000Workshop,2000.

作者简介:

李忠武,副教授,保山学院信息学院,主要从事计算机科学研究.王辉,硕士研究生,讲师,保山学院,主要研究方向:计算机应用技术.

魏再超,硕士研究生,讲师,保山学院,主要研究方向:计算机网络.

括而言之,此文为关于系统时间敏感和因子和算法方面的推荐系统论文题目、论文提纲、推荐系统论文开题报告、文献综述、参考文献的相关大学硕士和本科毕业论文.

参考文献:

1、 个性化推荐系统在E-learning中应用概述 文/郭宗奎 夏华佩 姜书浩摘要Elearning是指运用信息技术分享学习内容、材料以及拓展素材……数字化资源的过程 在当今信息爆炸的时代,面对可供选择的数量巨大的Elearning学习资源,利用个性化.

2、 人工复杂系统可计算管理概念模型 摘 要针对人工复杂系统复杂性的定量测度和管理问题,回顾了复杂性的定义、特征,不同学科领域对复杂性度量的研究现状,提出了复杂性可计算管理的概念模型,在此基础上,对复杂性可计算管理的一般实施步骤给出了具.

3、 校园足球试点县政策执行的制约因素和路径选择基于米特霍恩政策执行系统模型的视角 摘 要我国在全国范围内遴选校园足球试点县(区)的目的在于树立教育教学工作典型,汲取校园足球活动开展的先进经验,为进一步发展校园足球发挥示范及带动作用,推动校园足球大发展大繁荣 立足于法库县校园足球开.

4、 个性化推荐系统对消费者购买意愿的影响 摘要随着电子商务的快速发展,电商平台逐步增多 为更好地满足消费者需求,提高消费者的购买意愿,个性化推荐系统在电子商务活动中得到普遍应用 本文从六个维度构建个性化推荐系统的具体关系模型,通过问卷调查与数.

5、 职业学校班主任队伍建设基于系统动力学理论和洋葱模型 摘要提升班主任队伍的素质水平,不仅要从外部因素对班主任个体进行激励,更要深入挖掘其内在需求和动机 基于系统动力学理论,确定班主任胜任力的反馈控制机制,构建职业学校班主任胜任力模型,并探究职业学校班主任.

6、 能否让算法定义社会传媒社会学视角下的新闻算法推荐系统 刘存地,徐 炜摘要互联网重塑了当代的媒体版图,新媒体已成为公众最重要的社会信息来源 同时,互联网也把人类带入了信息超载时代 作为对信息超载的应对,以大数据驱动的智能算法推荐系统席卷了互联网资讯平台 .