论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>硕士论文>范文阅读
快捷分类: 大数据杂志 论文数据 论文模型 有关大数据的论文 数据挖掘论文 建筑模型论文 抄袭论文模型 如何利用数据写论文 数据挖掘技术开题报告 企业财务预警模型论文文献综述 什么是大数据论文 实证论文的数据分析

数据模型类大学毕业论文范文 与基于RDA关系的扩展中文关联书目数据模型*有关大学毕业论文范文

分类:硕士论文 原创主题:数据模型论文 发表时间: 2023-12-18

基于RDA关系的扩展中文关联书目数据模型*,该文是数据模型有关毕业论文范文与数据模型和关联和书目相关毕业论文范文.

[摘 要]网络环境下,数据的开放与关联成为大势所趋,然而CNMARC受其现有的结构及内容描述规则的影响,存在语义关系缺失,数据元素间关联性较弱等问题.对RDA中所描述揭示的各类关系进行了剖析,并总结了目前CNMARC记录如何在数据间实现实体间关联,并以此为基础构建了基于RDA关系的CNMARC的关联书目数据模型,从而增强CNMARC数据元素彼此之间以及与外部资源的关联.

[关键词]书目关系RDA CNMARC

[分类号]G250.74

1 引言

关联数据、本体以及RDF等技术在互联网领域的应用宣布语义互联时代的到来,同时改变着传统的信息资源组织方式.文档的网络在向数据的网络迈进,数据的价值越来越体现在数据本身与其他数据的关联程度.图书馆作为传统的信息资源*及提供机构,虽然拥有大量的结构化数据,典型的包括书目数据及规范数据,但是由于基于MARC格式的书目结构是单一的线性排列,彼此之间缺乏必要的关联,同时书目数据的交换与共享仍需通过相应的协议(典型的Z39.50)才能实现,难以适应当前的网络发展环境,其价值与功能也难以得到充分的体现.故图书馆界一直在努力探索,试图改变现有的资源描述环境.在资源的内容描述规则方面,经过多年探索,不断地对AACR2进行修订,于2010年6月正式发布了基于FRBR模型的RDA;在书目结构方面,美国国会图书馆分类法(LC)发布了基于关联数据的书目框架BIBFRAME,并已实现了MARC21 数据向BIBFRAME 的转换.基于RDA 及新的书目框架BIBFRAME的书目数据不再是单一的线性结构,而是彼此之间互联的立体网状结构,这样的书目数据结构能够更好地融入互联网,同时为基于图书馆资源的知识发现与获取提供极大的便利.而MARC21 与CNMARC 虽同由MARC 发展而来,但由于受文献特征差异性及制定者主观因素的影响,二者在字段的设置及功能的实现上还是存在一定的差别,故若要实现RDA 的中文化及CNMARC 的BIBFRAME 转换存在一定的困难.笔者旨在对RDA中所描述的“关系”进行分析的基础上,构建CNMARC的关联书目数据模型,从而为中文书目数据的关联式发布打下基础.

2 RDA 关于书目关系的描述

“关系”在编目学中一直占有举足轻重之位,编目是进行各类信息资源组织的基础,而最终面向用户的信息检索又正是以信息组织为基础.书目间的关系可分为内部关系及外部关系,内部关系是指书目实体内部各要素之间的关联,外部关系是指书目与书目之间的关联.内部关系满足了信息检索的精确性限定检索需求,而外部关系满足了信息检索族性检索的需求.而在语义网的环境下,对书目“关系”有了更近一层的要求,需要实现与更多外部资源的关联,一是为了突破当前书目只能进行内部信息交换的局限,改变数据孤立的局面;二是通过与外部资源的关联引导用户发现更多潜在的有价值的资源.而RDA为以上三种关系的描述与建立提供了良好的途径.

2.1 RDA概述

《资源描述与检索》(Resource Description andAccess,以下简称RDA)是为了适应当前的数字网络环境,满足当下信息用户的知识发现需求而制定的国际最新的资源描述规则.相对于AACR2,RDA展现给我们的是一种全新的世界观.与原有的基于平面线性的资源描述方式相比,RDA以FR家族为思想基础,注重对于资源实体及属性关系的揭示与表达,呈现出一种多维度的立体网状结构.前面我们提到RDA的理论基础为FR家族,包括FRBR《书目记录的功能需求》、FRAD《规范数据的功能需求》及FRSAD《主题规范数据的功能需求》,但由于RDA发布之初,FRSAD的的编制尚未完成,故RDA的基础框架主要基于FRBR及FRAD来实现.笔者主要基于FRBR的概念模型来对RDA之间的关系进行剖析.

2.2 RDA关系

RDA以FR家族为框架而构建,围绕“实体-属性-关系”模型展开.无论是FRBR、FRAD 或是FRSAD,都是以实体、属性及关系3个方面来对书目资源从内容规则角度进行描述的.实体对应于所描述资源对象及其所包含的若干数据元素;属性指实体所具有的特征;关系则是FR模型的重要内容,由两部分组成,即被关联的实体和关系类型.RDA中定义了四种关系:

(1)资源与资源之间的关系,对应于FRBR第一组实体之间的关系;

(2)资源与相关个人、家族和团体间的关系,对应于FRBR第一组实体与第二组实体的相互关系,描述了资源与责任的关系;

(3)作品、内容表达、载体表现和单件间的关系,对应于FRBR第一组实体内部间的关系;

(4)资源与概念、实物、事件和地点间的关系,对应于FRBR第一组与第三组实体间的关系,描述了资源与主题的关系.

资源与资源间的关系主要指作品与作品之间的关系,“作品”作为一个抽象的概念,指的是智力或艺术创作的行为.JSC的前主席芭芭拉.B.蒂利特把作品家族的关系划分为3类:等同关系、衍生关系及描述关系;

FRBR第一组与第二组实体之间的关系指第二组实体对于第一组实体所承担的责任方式,既包含创作者、编译者、制造者,也包含拥有者及*者等个人或团体;

FRBR第一组实体内部间关系是从抽象到具体过程,作品通过内容表达来实现,内容表达通过载体表现来实现物化,载体表现通过单件来例证;

FRBR第一组与第三组实体间的关系为主题关系,第三组实体从内容角度对第一组实体从各个方面进行揭示.

3 CNMARC 现有书目记录中关系的揭示

CNMARC对于资源的描述侧重于其全面性及规范性,而缺乏对于记录与记录间以及其内部构成元素间彼此关系的揭示.CNMARC对于系统内记录间关系的揭示主要通过“4XX”连接字段来实现.连接字段可以连接与在编文献实体有关的其他实体的记录,或是在不存在被关联的记录时,可以标识被关联文献实体本身.目前的CNMARC记录可以通过连接字段实现以下几种实体关系的连接:

(1)通过410字段实现丛编项与分丛编实体的连接;

(2)通过422字段实现补编或是增刊与其正编或是正刊之间的关联;

(3)通过423字段实现合订本与被合订作品的单独书目实体的连接;

(4)通过430/440字段实现实体之间的继承与被继承关系,主要用于连续出版物的更名,实现更名前后实体之间的连接;

(5)通过451字段实现同一载体不用版本之间实体的连接;

(6)通过452字段实现不同载体之间的实体之间的连接;

(7)通过461/462字段实现具有共同题名的总集及分集之间的连接;

(8)通过488字段实现与在编文献实体相关作品之间的连接.

而实现系统内记录与外部数据之间的关联,则可通过$2及$3子字段来实现.$2在6XX主题字段中用于实现与词表《汉语主题词表》的连接,而$3子字段出现在CNMARC的5XX、6XX及7XX等字段中,可以实现记录与其他规范档,包括主题规范档、人称规范档及地理名称规范档等的连接.不同于上述4XX字段对于实体的连接是发生于系统内部,这种连接发生于不同系统之间,虽一定程度上为实现本地书目数据与外部数据集的关联提供了基础,然而距离本地书目数据发布为关联数据还有一定距离,原因在于其目前还不符合与关联数据发布的4个基本原则,技术层面需要实现的方面还有很多.此外,目前CNMARC对于4XX字段及$3子字段的规定都是选择性使用,尤其对于$3子字段,由于国内尚未建立起相关规范档的数据集,启用的频率普遍偏低,这就导致了CNMARC对于书目数据关系描述的缺失.

4 基于RDA 关系的扩展中文书目数据关联模型构建

构建基于RDA关系的CNMARC书目数据关联模型,首先需要基于RDA 的内部及外部关系对CNMARC的各字段及子字段进行分析,在此基础之上对原有字段进行解构再与RDA中的元素进行映射,进而构建基于RDA 关系的CNMARC 书目数据关联模型.

4.1 CMMARC字段的拆分及转化

CNMARC 以ISBD 规定的著录项目为基础,设置了10大功能区来对编目资源进行描述.ISBD制定之初主要针对的是印刷型文献,虽后来为了适应网络环境下日益丰富的文献载体形式进行了增补和修订,但其本质还是为描述印刷型文献,故其规定的著录项目主要围绕印刷型文献的外部特征来进行,从若干方面来进行全部揭示,较少考虑文献的内部特征及各特征之间的关联.而RDA在沿袭了ISBD的传统之上,更是革命性的提出基于“实体-属性-关系”模型来对文献进行系统性的关联揭示,突出了所描述的资源与其他资源以及其属性之间的关联.故若要实现RDA 应用于CNMARC,必须从“实体-属性-关系”出发,对CNMARC结构中的各字段、子字段甚至标识符进行解构,进而构建基于RDA 关系的中文关联书目数据模型,从而为实现RDA的中文化打下基础.

目前,国外RDA 的网站(http://www.rdajsc.org/,http://www.rdatoolkit.org/)已经推出了基于RDA格式的MARC21数据转化工具.而同为MARC格式,CNMARC与MARC21尽管在内容方面基本一致,但是在资源描述对象的划分、字段及子字段的设置、字段标识符的取值等方面均存在差异,故若要通过CNMARC与MARC21的映射为基础,进而实现CNMARC 数据的RDA 格式转换,虽理论上存在可能性,具体实践起来还有诸多方面的问题需要考虑及解决,所以我们不妨直接进行RDA实体属性与CNMARC字段的映射,再以此为基础构建扩展的中文书目数据关联模型.

FRAD主要涉及规范数据的功能需求,参考现行最新的书目控制理论,我们可以通过建立各类规范档与书目记录进行关联,故笔者主要通过FRBR所涉及的的实体以及属性关系为基础来进行映射进而构造中文书目数据的扩展模型.

FRBR定义了三组11个实体,“作品”位于整个结构的最高层,是一个抽象的概念,该实体的范围很难确定,FRBR定义了作品间的三种关系;“内容表达”是“作品”的实现方式,位于结构的第二层,仍然是一个抽象的概念;“载体表现”是“内容表达”的具体物理表现形式,位于机构的第三层,我们现在的书目记录实际上就处于该层;“单件”是“载体表现”的单一样本,位于结构的最底层,对应于图书馆中的馆藏项;“个人”、“家族”及“团体”3个实体,可以作为作品的责任者,也可以作为作品的主题而存在;“概念”“物体”“事件”及“地点”作为FRBR的第三组实体,用来揭示作品所表达或涉及的主题,现将这RDA 记录属性、记录关系及记录间关系与CNMARC相关字段进行映射.根据需要增加3个新字段:236内容表达、237媒介类型、238载体类型.个人/家族/团体之间关系的表述在MARC21中仅存在于规范记录;概念/实物/事件/地点之间的关系为FRSAD中实体之间的关系,尚待补充;故不将这两种关系作为笔者的研究对象.表1所示为映射后的结果:

4.2 扩展中文关联书目模型的构建

基于RDA的属性关系及上述映射,同时参照关联数据发布的原理以及BIBFRAME的模型及词表,对于每个属性、取值均以URI的形式进行标识,构建了如图2的中文关联书目简化数据模型.

图2是作品层的简化模型,主要描述作品的内容信息,包括题名及主题分类;图4是载体表现层的简化模型,主要对资源从其物理载体的角度进行揭示,描述了资源的载体形态、出版发行、责任说明以及识别等相关信息;图3是单件层的简化模型,主要揭示馆藏方面的信息,包括机构排架号及*机构.3个模型可以从作品层到载体表现层再到单件层建立起纵向的层级关系,上一层的字段属性可以被下级继承.同时对于相关作品的描述,RDA定义了7种关系,分别为等同关系、描述关系、整体/部分关系、附属关系、继承关系、衍生关系及共有特性关系,这样建立了作品及相关作品的横向关系.由此整个书目模型从纵向及横向两方面建立起关联,同时记录内部,通过URI对资源的属性进行标识,建立起了有机的网状联系,突破了以往MARC的单一线性结构,对数据的描述实现了内容与载体及单件明显的区分.

4.3 模型的有效性分析

笔者选取本馆7条馆藏中文书目记录,如表3所示,从题名、著者及出版社3个属性进行书目内部关联,结果如图5所示:

图5可以看出书目1和书目2通过题名URI(ex?ample001/title)实现了关联,同样的方法书目1和书目3、书目2 和书目5 通过出版社的URI 实现了关联,责任者方面可通过本馆建立的人称规范档实现数据的关联,也可通过引入外部成熟的人称规范档资源的URI来实现.

5 结语

目前尽管英、美等RDA的编制国每年仍对RDA进行大量修订,但RDA的实施已进入实质性阶段.在国内,CALIS方面从2014年宣布开始实施RDA,实质上是对于西文书目记录在进行套录的时候采用RDA 记录,而鼓励有条件的图书馆提交原编的RDA记录.而对于RDA的中文化,国内图书馆界很多专家学者进行了相关理论及实践方面的研究,但尚未进入实质性的应用阶段.笔者对CNMARC进行了解构,并以RDA所描述的“实体-关系”为基础,构建了CNMARC的关联书目数据模型,希望能以此推动RDA在国内中文化的进程,进而促进语义网及关联数据等技术在图书馆中的应用.

总结,此文是一篇关于经典数据模型专业范文可作为数据模型和关联和书目方面的大学硕士与本科毕业论文数据模型论文开题报告范文和职称论文论文写作参考文献.

参考文献:

1、 高职院校图书馆编目外包书目数据质量控制 韦晓红(江苏商贸职业学院图书馆,江苏南通226011)摘要图书馆编目外包后缩短了编目的时间,提高了图书上架效率,但同时也存在书目数据质量无监管的情况 重视对外包书目数据的审核管理,保证图书馆书目数据质.

2、 企业资产负债和其能力的影响关系基于黑龙江省上市企业经验数据 陈富聪姜媛(哈尔滨商业大学,黑龙江 哈尔滨 150028)摘要资本结构是衡量企业强弱的重要指标之一,对黑龙江省2012年以前上市的31家企业的资本结构中的资产与负债的影响关系进行实证研究,以这些上市公.

3、 论监管风险、会计事务所关联和审计质量的关系 【摘 要】当前人们日益关注会计事务所出具的审计报告及审计质量,由于我国会计事务所起步较晚,出现频发的审计丑闻现象,显示出会计事务所审计质量中的问题 为此,要关注审计质量的研究,探讨政府监管风险与会计事.

4、 公共图书馆编目业务外包书目数据审校探究 文上海图书馆 陈刚【摘要】在公共图书馆服务体系中,信息资源建设是需要重点解决的问题之一,选择合适的建设模式,才能提高建设质量 本文首先分析了公共图书馆服务体系的特点,然后结合实际案例,阐述了信息资源的.

5、 既是界限,也是彼此的关联 凤凰村的昼与夜,黄金明著,花城出版社,2018年5月关于凤凰村的这些文字,几乎注定是要从回忆开始落笔 文学的种子从童年的乡土记忆中萌发,就像农田里长出庄稼 那时候,关于文学的梦,不是从唐诗宋词开始,也.

6、 前沿探测的效标关联效度:基于自然语言处理 研究前沿探测的效标关联效度研究基于自然语言处理周文杰(1 西北师范大学商学院甘肃兰州730070)摘要文章应用自然语言处理,以Sci2所识别的研究热点为效标,分别对基于题名、摘要、关键词和全文探测到的.