论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>硕士论文>范文阅读
快捷分类: 国家科技图书文献中心 图书管理系统论文 图书管理系统毕业论文 图书参考文献格式 图书情报杂志 网上图书销售系统参考文献 图书管理系统文献综述 硕士论文国内图书分类号 现代图书情报技术杂志社 图书商城开题报告 图书情报投稿

关于图书方面论文范文素材 与图书类别的多层表示学习类论文范文集

分类:硕士论文 原创主题:图书论文 发表时间: 2024-01-03

图书类别的多层表示学习,本文是图书类论文范文集跟图书类别和多层和学习有关论文范例.

摘 要随着学科交叉发展,传统的中图分类法存在一定的局限性.中图法是一种树状结构的分类方法,每种分类的父类有且仅有一个,而交叉学科理应有多个父类.因此,需要在分类法中引入多层表示方式,以便正确表示图书类别,提高图书借阅时书籍推荐准确率.图书借阅信息由读者的借阅序列构成,每次借阅会包含多个图书类别.这些类别可以是中图法表示的分类号,也可以是对标题词汇进行聚类得到的词汇群.文章引入一种能提供两类关联信息(借阅序列和每次借阅中并发出现的类别)的层次结构,提出可扩展的两层神经网络框架Bib2Vec,能基于图书类别和读者借阅序列,从借阅数据中学习多层的图书类别表示方式.

关键词多层表示学习类别嵌入神经网络图书推荐

引用本文格式施航海,王琰,罗鹏杰. 图书类别的多层表示学习[J]. 图书馆论坛,2018 (8):129-134.

Multi-layer Representation Learning for Bibliographic ClassificationSHI Hanghai,WANG Yan,LUO Pengjie

Abstract In dealing with interdisciplinary development of academic subject disciplines,the Chinese LibraryClassification has certain limitations. The Chinese Library Classification is a classification method of tree structurewhich has only one parent class for each subject. In contrast,multidisciplinary subjects could he multiple parentclasses. Therefore,it is necessary to introduce the multi-layer classification method in order to correctly representthe book subjects and improve the accuracy of book recommendations. The library circulation information is madeup of readers´ borrowing history which can provide many more dimensions of a book. These dimensions can be theclassification number expressed by the Chinese Library Classification or the vocabulary group obtained byclustering the title words. A hierarchy that provides these two types of associative information (the sequence ofborrowing and the vocabularies that occur each time) can be introduced. This paper introduces an extensible twolayerneural network framework,i.e. Bib2Vec,which can learn multi-layer book classification method from thecirculation data based on book subjects and reader borrowing sequence. This method can closely relate to the way oflearning. Several experiments he proved that this method can effectively improve the accuracy of bookrecommendations. When compared with the traditional method,it can improve by 20%.

Keywords multi-layer representation learning;class embedded;neural networks;book recommendations

随着移动互联网和移动阅读的发展,高校馆纸质图书借阅率下滑,如何提升馆藏纸质资源建设和个性化图书推荐服务成为高校馆研究方向之一.精准的学科化图书推荐,依赖于宏观上洞察馆藏结构和资源分布,更需要微观上把握读者学科学习需求、使用偏好、借阅心理和借阅行为等因素.若能通过读者借阅行为揭示馆藏纸质资源的利用与需求,挖掘隐含的借阅关联演变过程,将对个性化图书推荐非常有参考价值.故此,本文从图书的主题表示法出发,提出基于读者借阅序列的多主题表示方法,在中图分类法的基础上将一个图书类别转换为多种图书类别表示的向量.通过基于序列的方式展现图书类别的变化过程,提高各类别之间关联变化的可解释性.以期

探索高校图书馆个性化图书推荐的新服务途径.

1 研究回顾

近年基于图书主题法实证研究高校馆藏资源个性化图书推荐的研究较多.彭博[1]提出引入包含用户属性和图书分类信息的三部图推荐方法,实现针对不同读者提供满足不同专业需求的借阅推荐.侯银秀等[2]使用情感分析方法对用户图书评论进行属性层文本挖掘,得到细粒度的用户偏好信息,并通过与图书属性的得分进行匹配,提升图书个性化推荐的效果.王连喜[3]通过挖掘用户的背景信息构建用户特征模型,研究多种不同的图书推荐方法,以挖掘用户的潜在信息需求,从而实现用户与图书相互关联的个性化图书推荐服务.漆月等[4]则以图书分类号为依据,构建用户个性化兴趣库及图书综合推荐库,并通过分类号的匹配形成个性化的图书检索信息及图书推荐结果.蒋小峰[5]提出结合专业需求、阅读倾向和阅读心理等进行精准的个性化图书推荐服务.郑祥云等[6]针对传统推荐算法精准度不高的问题,通过对目标借阅者的历史借阅数据与其他图书数据进行内容相似度分析,得到与目标借阅者历史借阅图书内容相似度较高的其他图书,提出了新的适用于图书推荐的数据挖掘模型.林泽鸿等[7]挖掘读者在社交论坛所在的版块、交互次数和评论等方面的喜好,实现精准图书推荐.李树青等[8]将读者借阅行为特征和图书借阅关系相结合,设计一种测度图书可推荐质量的迭代算法,提出三种不同类型的个性化图书推荐服务.然而,基于图书主题法的高校图书馆个性化推荐系统的实用性还不尽如人意,如需要读者加入标签信息;对读者需求细化不足,停留在大类和主题层次;或者以图书类别作为读者兴趣表示和推荐的依据,这些做法都没展现外借图书的序列借阅关系演变.为探索基于读者借阅行为的图书推荐模型,本文通过读者借阅图书分类、兴趣偏好和读者学科专业属性等多方面特征值构建图书类别多层表示学习方法,从而探索出更为有益和精准的个性化图书推荐方式.

2 问题定义

个人借阅数据由一段时间内个人借阅序列构成,每次的借阅行为包含多种图书相关概念,如图书分类号、图书描述词汇、读者所在专业.该层次结构提供了两类关联信息:借阅序列和同一次借阅中并发出现的图书概念.

在借阅数据集中,用C1、C2、...C|C|构成的集合C表示图书概念编码.每位读者的借阅序列(每次借阅)可用V1、V2、...VT表示,每次借阅包含图书类别概念的子集,即Vt ? C.Bib2Vec 算法的目的是学习图书类别的两类表述:(1)编码表述.目的是学习一个嵌入函数fC∶C->R+M,即将每个类别编码映射到一个维度为m 的非负实数向量;(2)借阅表述.任务是学习另一种嵌入函数fV∶V->Rn,该函数将每次借阅(图书类别的集合)映射到一个维度为n的实数向量.此处集合V是编码集合C的幂集.

2.1 Bib2Vec的结构

图1 描述了Bib2Vec 结构.给定一次借阅vt,使用一个多层感知机(MLP)生成对应的借阅表述vt.借阅Vt表示为一个二元向量xt ∈ {0,1}|C|,当且仅当ci ∈Vt时,第i项的值为1.这样xi可以转换为借阅的中间表述ut∈Rm,见公式(1).

ut等于ReLU(Wcxt+bc) (1)

其中,Wc∈Rm×|C|是编码权重矩阵;bC∈Rm是偏置矩阵;使用ReLU函数作为激活函数以提高交互性,其定义为ReLU(v)等于max(v,0).此处的max( )是个向量函数,基于各元素进行计算.为提高学习的准确性,需要加入读者基本信息,如年龄、性别、籍贯、专业、班级等.通过将ut与读者基本信息连接,得到最终的借阅表述vt∈Rn,见公式(2).

2.2 基于借阅文本表述的参数训练

利用借阅的序列信息,能训练借阅和潜在编码的表述.在训练MLP 过程时,可将读者借阅经历当作一个持续过程,而一次借阅便是其中的一个状态.因此,给定某次借阅的表述,可以用之预测过去的借阅信息,也可以用之预测未来的借阅信息.换句话说,给定一次借阅表述vt,可以训练一个softmax分类器,用来预测该读者在前后借阅窗口中所借阅书本的类别.可通过公式(3)所示的方法最小化交叉熵代价函数.

2.3 基于分类编码表述的参数训练

除了借阅序列信息外,图书借阅历史隐含的另一个重要信息是图书编码同时出现信息,即每次借阅中同时出现的图书类别.本文拟在Bib2Vec引入Skip-gram方法以获取图书类别在同一次借阅时的共现信息.Skip-gram方法是许多概念表述学习方法的基础.基于预定义大小的上下文窗口中单词的共现信息,该方法可在给定单词序列w1,w2,...,wT中学习单词的表述.具体做法是训练Wc ∈ Rm×|C|,使其第i列能表示对应的第i 个图书类别.为使习得的编码表示更易于理解,编码表示应为非负的.因此,如公式(4)(5)所示,在使用Skip-gram 算法时,本文训练的是非负权重ReLU(Wc),而非Wc.这样,所学的权重变成Wc´等于ReLU(Wc) ∈ Rm×|C|.当存在借阅序列V1,V2,...,VT,可通过最大化下列似然函数得到基于编码的概念表示:

2.4 联合训练

合并公式(4)和公式5)的目标函数,可以得到一个联合的训练框架,见公式(6).通过两个目标函数的结合,可以从同一个借阅记录学到基于中图法和基于主题法的图书类别表述,以便同时利用借阅内部的类别号并发出现信息和不同次借阅之间的序列信息.

3 实证分析

本节在厦门理工学院图书馆历年借阅数据的基础上进行实验,评估Bib2Vec 算法的有效性.笔者对实验数据集和评价指标进行描述,并对基于编码表述和借阅表述的实验结果进行讨论,总结算法的适用性.

3.1 实证数据获取与分析

(1)数据集描述.实验数据集来自厦门理工学院2010年1月1日~2013年12月31日的读者借阅数据.为对实验结果进行更准确的分析,本文从中抽取计算机相关院系的学生借阅记录作为实验数据集,包括计算机与信息工程学院、电气工程与自动化学院、光电与通信工程学院、应用数学学院.其中,用前三年的数据作为训练集,用最后一年的数据作为测试集.对于类别编码,文中使用两种,一种是中图法分类号,另一种是图书标题中所出现主题词的聚类id,总共200个聚类.中图法分类采用多层级编码,为了统一各类的细分度,笔者将编码定为5 级,5 级以下的分类号统一合并到第5级.比如,程序设计的分类号是TP311.1,为便于与其他类别作比较,将其归并到TP311.数据集的统计信息如表1所示.

(2)评价指标描述.鉴于分类号级别的评价需引入该领域的知识专家,对习得分类号进行相关性验证,工作量大.本文仅采用基于借阅的评价,根据习得分类号对未来借阅类别的预测性,评价Bib2Vec算法的准确度.以两次连续借阅Vi和Vj为例,以Vj 的中图法分类号作为预测目标y,Vi的图书类别表述(中图法和标题对应的主题聚类)作为输入x,即上下文窗口大小为1的情形.

笔者采用命中率指标HR作为预测性能的评价指标.所谓命中指预测的图书类别与用户欲借阅的图书类别一致.鉴于大学生思想活跃,容易受外部影响,借阅兴趣不够稳定,可预测性较低,实验中不使用完全命中的定义,改为topk命中:即当推荐的topk个图书类别在用户欲借阅的图书类别中,则认为本次推荐命中.这样,HR变成HR@k,具体描述见公式(7)(8),文中取k等于5和k等于10两种情况.

为增加可推广性,本文将把上下文窗口大小设为1、2、3等情形,以分析上下文窗口大小的变化对预测精度的影响.同时,将实验分为两部分,一类是仅使用中图法类别作为类别表述;另一类的类别表述中除用到中图法类别外,还附加图书主题的聚类信息.

3.2 术语聚类描述

大多数读者基于标题内容检索图书,因此,主题词选择对用户检索具有较强的指导意义.主题词是通过对训练集和测试集的图书标题进行文本分词得到,聚类时考虑主题词同时出现在一本图书的次数,通过k-means 聚类方法(实验将k设为200),得到主题聚类信息.术语聚类结果如表2所示,因篇幅问题,仅显示两个.从中可以看出,聚类较为明显地体现了用户的兴趣和图书的类别.第3个聚类显示了计算机技术方面的术语,该聚类的术语偏重于操作系统和硬件方面的内容.即便是防火墙、入侵、修复、监控等词也与网络安全相关,而网络安全方面的研究更多从操作系统层面实现.而第10 个聚类体现了对考研数学资料的检索需求,如gct(硕士专业学位研究生入学资格考试)、lingo(数学建模中的常用软件)、李永乐(考研数学辅导专家)、同济(同济大学出版的高等数学教材是高校的主流教材).由于术语聚类体现了一定的语义,因此,拟将其与分类号相结合,帮助图书馆人员更准确地对书本进行编码,提高图书推荐的准确度.

3.3 基于多层编码表述的预测

图2 和图3 显示随着上下文窗口大小的变化,基于中图法的多层表述、基于中图法+主题聚类的多层编码表述在借阅预测上的实验效果.区别在于前者用HR@5 评价准确率,而后者用HR@10.横轴为用HR表示的预测准确度,纵轴是预测的类型.实验数据集中,由于缺乏高性能的推荐系统,用户无法迅速找到要借阅的书,其实际需求可能在多次借阅以后才发现.因此,在评价预测准确性时,要取未来多次借阅的结果作为评判依据.图中所述对下两次的预测,评判结果包括了紧接的第一次和第二次借阅的书籍.每个类别都有三个实验,分别对应上下文窗口大小为1、2、3 时HR@5 和HR@10 的值.图中反映了多种现象.

现象1:相同条件下,基于中图法和主题聚类的预测结果较仅基于中图法的预测结果要高得多,基本都能提升10个百分点,最高能达到20个百分点.一方面说明增加了词汇信息对提升准确率有较大帮助;另一方面也说明,加入多层表示后,能展示图书的交叉学科属性,提高其描述准确度.

现象2:对未来两次借阅的预测精度较未来一次有大幅提升,提升幅度接近20%.该现象说明多主题表示图书的适应性.因为比较对未来两次借阅的预测和对未来一次借阅的预测,其预测内容是一样的.从HR@k 指标值的计算公式来看,{推荐的前k个图书类别}是相同的.之所以预测精度提高,是由于对未来两次借阅的预测将用户未来两次借阅图书的类别作为{用户欲借阅的图书类别},因而所预测图书类别的命中率也随之提升.这说明图书推荐系统没有将学生所需的图书一次性推荐给学生,导致学生需要多次借阅才能满足其需求.因此,加入多层学习表示有助于精确地捕获学生借阅兴趣,提高推荐准确度.

现象3:上下文窗口大小的变化与预测准确度并无直接关联.从图2和图3看出,很多情况下,窗口大小为2时,预测准确率反而比1的时候差.这种现象在纯基于中图法学习编码表述的时候最为明显.根据常理,上下文窗口越大,考虑因素越多,预测精确度会越高.此种情况更能说明采用多层主题表示的方法更能全面描述读者的图书借阅需求,有助于提升个性化图书推荐的准确率.

现象4:采用基于中图法和主题聚类的多层表示学习,预测精度最高能超过70%.这说明该方法具有一定的有效性.但是,需要注意的是,图2中HR@5体现出的推荐准确度较图3的HR@10 要低得多,这说明只推荐5 个的效果还比较差,需引入更多的信息,使得多层主题表示的结果能更好反映用户的需求.

3.4 多层编码表述的解释

通过bib2vec多层编码表述,每次借阅都被转化为由分类号和术语聚类表示的向量.每个分量对应一个分类号或主题聚类,分量的值为该次借阅与分类号和术语聚类的关联,从而根据上次借阅的信息推导出下次可能借阅哪些类别的图书.根据得到的借阅向量,进行处理后可以发现:引入聚类信息后,得出借阅过程中紧密相关的分类号和主题聚类,发现被关联到一起的分类号在中图法分类体系上不再仅仅是祖先-后代关系,还出现了横向关联.具体的例子如表3 所示,因篇幅所限,仅选出若干最具有代表性的分类号集合.这说明随着学科交叉的深入和发展,传统的树型分类体系越来越不适用,引入多层表述对图书编目和图书推荐将越来越重要.

如表3的第一层所示,该组分类号与表2的术语聚类3紧密相关,体现了计算机安全方向的借阅需求;第二层体现了软件金融方向学生的借阅需求(厦门理工学院为更好地培养金融软件系统的开发人才,特别在软件工程专业下设立该方向,要求学生既要掌握软件开发能力,又要了解金融、会计相关知识);第三层则体现了空间信息工程专业学生的借阅需求,该专业属于计算机类,学生还需要学习测绘、遥感等知识,以便解决无人机航拍数据的结构化、可视化和分析等问题.由此可见,基于多层编码表述学得的分类号群与学生的学习需求紧密相关,因此不仅能提升图书的推荐精确度,还能有效识别学生的新需求.

4 研究局限及展望

本文将多层表示学习方法引入高校图书馆的图书推荐中,它采用一个可扩展的两层神经网络框架,学习图书类别的低维表示.该方法使用在同一次借阅中图书分类号和标题词的共现信息,以及同一个读者的顺序借阅信息,以提高编码和借阅表述的准确性.通过多个实验,笔者发现该方法能有效提升厦门理工学院图书馆的推荐准确性,较传统方法提高20 个百分点.鉴于高校学生的借阅行为受所学课程、所参加竞赛、所指导教师的影响较大,本研究仅考虑了班级、专业、院系之间的影响.在今后的研究与实践中,笔者将在多层学习中引入学生与学生之间、学生与教师之间在课程、竞赛之间的社交网络信息,以进一步提升图书推荐准确性.

小结:本文论述了关于图书方面的大学硕士和本科毕业论文以及图书类别和多层和学习相关图书论文开题报告范文和职称论文写作参考文献资料.

参考文献:

1、 图书情报专业生数据素养课程设置与特征分析基于iSc 图书情报专业研究生数据素养课程设置及特征分析——基于iSchool联盟院校的调查司莉1,2姚瑞妃2(1 武汉大学信息资源研究中心湖北武汉430072)(2 武汉大学信息管理学院.

2、 立足当下,才能通向文化的未来2019年度中国文化图书盘点 文化研究是20世纪中后期波及全球的研究思潮,是有着现实关切和人文关怀的知识学术实践,是政治热情在笔尖的跳动 文化研究学者从来都不只满足于知识的生产,而是力图通过知识来参与现实,激活危机诉求,进而改变世.

3、 基于读者参和的图书资源翻转购置模式 吴玉玲(渭南师范学院图书馆,陕西 渭南 7 1 4 0 9 9 ) 摘 要 基于读者参与的图书资源翻转购置模式, 是近年来高校图书馆为应对网络数字化阅读对纸质图书构成前所未有的冲击与挑战, 致使馆藏纸.

4、 搭建图书交流平台提升阅读推广效率 关键词图书;交流平台;阅读推广;效率;讨论摘要图书交流平台是读者自由讨论的重要渠道,读者通过图书交流平台能够实现知识的有效沟通,提升对图书馆的认可度 阅读推广是将图书资源以多种形式和渠道传播给公众,让.

5、 网络环境下图书编目工作的和 关键词网络环境;图书馆编目;创新策略摘要网络的迅猛发展带动图书馆的转型发展,而最基础的图书编目工作也在网络环境下不断得到创新和优化 随着精神文明建设的推进,图书馆文化功能愈发重要,编目工作备受关注,同.

6、 基于全评价理论的图书馆员评价以新疆师范大学图书馆为例 关键词人力资源管理;图书馆员;全评价理论;评价体系摘要人才是图书馆发展的动力源泉,图书馆人力资源管理的关键是评价和激励 文章以全评价理论为基础,构建了图书馆员评价体系模式,提供了可操作的测评依据,以期.