MARC 数据解析(qbit)

前言

  • MARC 是 Machine Readable Catalog(ue) 的缩写,意即“机器可读目录”,即以代码形式和特定结构记录在计算机存储载体上的、用计算机识别与阅读的目录。
  • MARC 可一次输入,多次使用,是信息技术发展和资源共享要求的产物。
  • MARC 格式最早由美国国会图书馆设计。
  • 流行的 MARC 格式有 US-MARC、MARC 21、UNI-MARC、CN-MARC

主流 MARC 格式

US-MARC

MARC 21

  • MARC 21 是结合加拿大机读编目格式(CAN/MARC)与美国机读编目格式(USMARC)两种相似格式,再排除相异性而形成。
  • MARC 21 有五种资料格式:书目格式、权威格式、馆藏格式、分类格式及社区资讯格式。
  • MARC 21 已成功地被应用于大英图书馆、美国国会图书馆及加拿大国家图书馆。
  • 美国国会图书馆维护的 MARC 21: https://www.loc.gov/marc/bibl...
  • MARC 21 书目格式概要
00X 控制字段
--------
001 控制号  
003 控制号标识  
005 最近一次处理的日期和时间  
006 定长数据元素 ── 附件特征  
007 载体形态定长字段 ── 一般信息  
007 地图  
007 电子资源  
007 球仪  
007 触摸资料  
007 放映图像  
007 缩微资料  
007 非放映图像  
007 电影  
007 多载体配套资料  
007 乐谱  
007 遥感影像  
007 录音资料  
007 文本  
007 录像  
007 未详细说明资料类型  
008 定长数据元素 —— 一般信息  
008 全部资料类型  
008 图书  
008 电子资源  
008 地图  
008 音乐  
008 连续性资源  
008 可视资料  
008 混合资料

01X─09X 号码和代码字段
---------------
010 美国国会图书馆控制号  
013 专利控制信息  
015 国家书目号  
016 国家书目机构控制号  
017 版权或呈缴号  
018 版权论文费代码  
020 国际标准书号  
022 国际标准连续出版物号  
024 其他标准标识符  
025 海外采访号  
026 指纹特征标识符  
027 标准技术报告号  
028 音乐资料出版编号  
030 科技期刊缩称代码  
032 邮政登记号  
033 事件的日期/时间和地点  
034 制图数学数据代码  
035 系统控制号  
036 计算机数据文件的原始研究号  
037 采访源  
038 记录内容许可代码  
040 编目源  
041 语种代码  
042 鉴定代码  
043 地理区域代码  
044 出版/生产实体国代码  
045 文献内容涵盖时段  
046 特殊编码日期  
047 音乐作品形式代码  
048 乐器或人声数代码  
050 美国国会图书馆索书号  
052 地理分类区域代码  
055 加拿大索书号/分类号  
060 国家医学图书馆索书号  
066 字符集表示  
070 美国国家农业图书馆索书号  
072 主题类别代码  
074 政府出版局文献号  
080 国际十进分类号  
082 杜威十进索书号  
084 其他索书号  
086 政府文献索书号  
088 报告号

1XX 主要款目标目字段
------------
100 主要款目 ── 个人名称  
110 主要款目 ── 团体名称  
111 主要款目 ── 会议名称  
130 主要款目 ── 统一题名

20X-24X 题名和与题名相关的字段
-------------------
210 缩略题名  
222 识别题名  
240 统一题名  
242 编目机构提供的翻译题名  
243 作品集统一题名  
245 题名说明  
246 变异题名  
247 先前题名  
25X-28X 版本、出版等字段  
250 版本说明  
254 音乐表现形式说明  
255 制图数学数据  
256 计算机文件特征  
257 档案资料片生产国  
260 出版发行项  
263 计划出版日期  
270 地址信息

3XX 载体形态等字段
-----------
300 载体形态  
306 播放持续时间  
307 访问或获取时间  
310 当前出版频率  
321 先前出版频率  
340 物理载体  
342 地理空间参照数据  
343 平面坐标数据  
351 资料集的组织与编排  
352 数字图形表示  
355 保密等级控制  
357 原创者传播控制  
362 出版日期和/或卷期标识

4XX 丛编说明字段
----------
440 丛编说明/附加款目 ── 题名  
490 丛编说明

5XX 附注字段
--------
500 一般性附注  
501 合订附注  
502 学位论文附注  
504 书目等附注  
505 格式化内容附注  
506 获取限定附注  
507 图示资料的比例尺附注  
508 制作与生产责任附注  
510 引文/参考附注  
511 参加者或表演者附注  
513 报告类型及日期范围附注  
514 数据质量附注  
515 编号特点附注  
516 计算机文件类型或数据附注  
518 事件发生的日期/时间和地点附注  
520 摘要等附注  
521 读者对象附注  
522 地理区域范围附注  
524 编目资料引文附注  
525 补编附注  
526 学习计划信息附注  
530 其他载体形式附注  
533 复制品附注  
534 原版附注  
535 原件/复本收藏地点附注  
536 资助信息附注  
538 系统细节附注  
540 使用与复制条件附注  
541 即时采访来源附注  
544 其他档案资料收藏地附注  
545 传记或历史数据  
546 语种附注  
547 先前题名复杂关系附注  
550 发行机构附注  
552 实体与属性信息附注  
555 累积索引/检索工具附注  
556 文件信息附注  
561 所有权与保管史  
562 复本和版本识别附注  
565 案卷特征附注  
567 方法附注  
580 连接款目复杂附注  
581 与编目文献有关的出版物附注  
583 业务处理附注  
584 累积和使用频率附注  
585 展览附注  
586 文献获奖附注  
59X 本地附注

6XX 主题检索字段
----------
600 主题附加款目 ── 个人名称  
610 主题附加款目 ── 团体名称  
611 主题附加款目 ── 会议名称  
630 主题附加款目 ── 统一题名  
648 主题附加款目 ── 年代术语  
650 主题附加款目 ── 论题性词语  
651 主题附加款目 ── 地理名称  
653 索引词 ── 非控词语  
654 主题附加款目 ── 分面主题词  
655 索引词 ── 体裁/形式  
656 索引词 ── 职业  
657 索引词 ── 功能  
658 索引词 ── 课程目标  
69X 本地主题检索字段

70X-75X 附加款目字段
--------------
700 附加款目 ── 个人名称  
710 附加款目 ── 团体名称  
711 附加款目 ── 会议名称  
720 附加款目 ── 非控制名称  
730 附加款目 ── 统一题名  
740 附加款目 ── 非控相关/分析题名  
752 附加款目 ── 各级行政区域名称  
753 检索计算机文件的系统细节  
754 附加款目 ── 学科分类标识

76X-78X 连接款目字段 ── 一般信息
----------------------
760 主丛编款目  
762 附属丛编款目  
765 原著款目  
767 译著款目  
770 补编/特辑款目  
772 正编/正刊款目  
773 主文献款目  
774 子单元款目  
775 其他版本款目  
776 其他载体形态款目  
777 合订款目  
780 先前款目  
785 后续款目  
786 数据源款目  
787 非特指连接关系款目

80X-840 丛编附加款目字段
----------------
800 丛编附加款目 ── 个人名称  
810 丛编附加款目 ── 团体名称  
811 丛编附加款目 ── 会议名称  
830 丛编附加款目 ── 统一题名  
841-88X 馆藏、交替图形文字等  
850 馆藏机构  
852 馆藏地  
856 电子定位与访问  
880 交替图形文字表示法  
886 外来机读目录信息字段  
887 非机读目录信息字段

UNI-MARC

CN-MARC

001 记录标识号:无指示符、子字段标识符,本字段数据为12个字符长
010 |aISBN号|b装订方式|d获得方式和/或定价|z错误的ISBN号
100 |a通用处理数据,定长36个字符
101 0 |a正文语种|b中间语种|c原作语种
102 |a出版或制作国|b出版地区
105 |a图书编码数据
106 |a文字资料代码—物理形态标志
200 1 |a正题名|b一般资料标识|c另一作者的正题名|d并列题名|e副题名及其他说明题名的文字|f第一责任者|g其它责任者|h分册(辑)号|i分册(辑)名|v卷册号标识|z并列题名语种|A正题名汉语拼音|E副题名、其他说明题名文字的汉语拼音|F第一责任者的汉语拼音|I分册(辑)名的汉语拼音
205 |a版本说明
210 |a出版、发行地|c出版、发行者名称|d出版、发行日期
215 |a类型标识和文献的数量及单位|c其它形态细节|d尺寸或开本|e附件
225 |a正丛编题名|d并列丛编题名|e丛编副题名及其它信息|f丛编责任者|h分册(辑)号|i分册(辑)题名
300 |a一般附注内容
303 |著录信息附注,无题名页时在些著录;据图书在版编目(CIP)数据著录
304 |a题名责任者附注
320 |a书目、索引附注
327 |a内容附注内容
330 |a本书内容简介
410 0|用来连接本著录实体所从属的丛编的有关数据,设子字段|1
5101 |a并列题名|z并列题名语种
6060 |a主标目|x主题复分|y地区复分|z年代复分
690 |a分类号|v版次
701 0或1 |a人名—等同责任者款目要素|b名称的其它部分(不包括款目要素)|4著作责任(采用《普通图书著录规则》10.1.5.10说明)|A款目要素汉语拼音
702 0或1 |a人名—次要责任者款目要素|b名称的其它部分(不包括款目要素)|4著作责任(采用《普通图书著录规则》10.1.5.10说明)|A款目要素汉语拼音
711 0或1 |a团体名称—等同责任者款目要素|4著作责任(采用《普通图书著录规则》10.1.5.10说明)|A款目要素汉语拼音
712 0或1 |a团体名称—次要责任者款目要素|4著作责任(采用《普通图书著录规则》10.1.5.10说明)|A款目要素汉语拼音
801 |a国家代码|b机构名称代码|c处理日期
905 |a收藏馆代码|b登录号|d分类号|e书次/种次号|f复本数|v入藏卷期|y年代范围

MARC 数据解析示例

  • 环境
Windows 10
Python 3.8.2
pymarc 4.0
# encoding: utf-8
# author: qbit
# date: 2020-04-23
# summary: CN-MARC 数据读取样例

import sys
import pymarc
from pymarc import MARCReader

def read_cnmarc(file): 
    with open(file, 'rb') as f:
        line = f.readline().strip(b'\r\n')
    reader = MARCReader(line, file_encoding='GBK')
    for record in reader:
        print(f">>> 标题: {record['200']['a']}")
        for field in record.fields:
            field: pymarc.field.Field
            print(field)
            
if __name__ == "__main__":
    read_cnmarc(sys.argv[1])
  • 运行
$ python3 t.py cnmarc.iso
>>> 标题: 张友渔学术论著自选集
=001  0000000008
=005  20000109203910.2
=010  \\$b平$dRMB21.00
=100  \\$a19970529d1992       y0chic0121    ea
=101  0\$achi
=105  \\$ay       000yy
=200  1\$a张友渔学术论著自选集$b专著$f张友渔著$Azyyxslzzxj
=210  \\$a北京$b北京$c北京师范大学出版社$d1992.5
=215  \\$a657页$d大32开
=690  \\$aD-5
=701  \0$a张友渔
=801  \0$aCN$bLibrary$c19970529$Usa
=801  \0$aCN$bLibrary$c20000109$Usa
=998  \\$a $bZZ$11$21$31$41$51$61$71$81$91
=905  \\$aZJXU$dD-5$e2$f1

相关格式

FRBR

  • FRBR,全称 Functional Requirements for Bibliographic Records,书目记录的功能需求,是IFLA于1998年出版的一份研究报告,对书目记录描述的对象在整个生命周期过程中不同阶段的不同实体类型进行了详细的分析。
  • 编目精灵 III 的 FRBR 相关文章

AACR

  • AACR即《英美编目条例》是1967年出版的条例,由英国、美国和加拿大三国图书馆协会,以及美国国会图书馆联合提出,C.S.斯波尔丁编。
  • AACR(Anglo-American Cataloguing Rules),中文称作英美编目条例。
  • 由于英美双方对部分规则有分歧意见,AACR1有两个版本,即英国版(British text)和北美版(North-American text)。
  • 编目精灵 III 的 AACR 相关文章

RDA

  • 《资源描述与检索》(Resource Description and Access,简称RDA)是应数字环境的发展而制定的最新国际编目规则,其目标在于满足数字环境下资源著录与检索的新要求,成为数字世界的通行标准。
  • 编目精灵 III 的 RDA 相关文章

BIBFRAME

本文出自 qbit snap

你可能感兴趣的:(python,library)