全网唯一标准王
ICS 01.140.20 CCS A 14 12 天津市 地方标准 DB12/T 1303—2024 地方志数字化加工技术规范 Technical specification for digital processing of Local Chronicles 2024 - 02 - 19发布 2024 - 03 - 19实施 天津市市场监督管理委员会 发布 DB12/T 1303 —2024 I 前言 本文件按照 GB/T 1.1 —2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定 起草。 本文件由天津市地方志编修委员会办公室提出并归口。 本文件起草单位:天津市地方志编修委员会办公室、天津市地方志馆 。 本文件主要起草人:莫洪胜、仇伟海、郝登奎、梁娜、巩志彬、朱晓飞、朱雅晶、郑佳、张迪、李 庆福、王靓、邓滢、柳杨 。DB12/T 1303 —2024 1 地方志数字化加工技术规范 1 范围 本文件规定地方志纸质文献数字化加工流程、 技术规范和地方志书籍出版的电子文件格式以及著录 元数据结构等内容。 本文件适用于地方志纸质文献数字化及出版电子书籍的加工处理。 2 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。 其中, 注日期的引用文件, 仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本 文件。 GB/T 2260 —2007 中华人民共和国行政区划代码 GB/T 22373 —2008 标准文献元数据 GB/T 31219.2 —2014 图书馆馆藏资源数字化加工规范 第2部分:文本资源 DA/T 31—2017 纸质档案数字化规范 3 术语和定义 下列术语和定义适用于本文件。 3.1 地方志 local chr onicles 包括地方志书和地方年鉴。 地方志书 是全面系统地记述某一地域或某一专门领域自然、 政治、 经济、 文化、社会和生态建设的历史与现状的资料性文献。 地方年鉴 是指全面系统记述某一地域或某一专门领 域自然、政治、经济、文化、社会和生态建设年度现状的资料性文献。 3.2 地方志资源 local chronicle resources 包括但不限于地方志书、地方年鉴、期刊、地方史等地方志书刊类资源。 3.3 数字化 digitization 利用计算机技术将模拟信号转换为数字信号的处理过程。 [DA/T 31—2017,定义3.1] 3.4 地方志数字化 digitization of paper -based records 采用扫描仪等设备对地方志资源进行数字化加工,使其转化为存储在磁带、磁盘、光盘等载体上的 数字图像、文本数据、图片数据、表格数据,并按照在纸质文献的内在联系,建立起目录数据、内容数 据、数字图像间的相互关联关系的处理过程。 3.5 分辨率 resolution 单位长度内图像包含的点数或素数,一般用 dpi表示。 3.6 准确率 precision 文本文件中正确识别的字符数与总字符数之比 ,即准确率 =(正确识别字符数 /总字符数) ×100%。 DB12/T 1303 —2024 2 3.7 光学字符识别 optical character recognition (OCR) 电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,用 字符识别方法将形状翻译成计算机文字的过程。 3.8 元数据 metadata 描述信息资源或数据的数据。 [GB/T 22373 —2008,定义3.3] 3.9 元素 element 元数据的基本语义单位,描述元数据的基本实体。 3.10 简单型 simple type 不具有子元素的元素所对应 的元素类型。 3.11 容器型 container type 具有子元素且本身不能被赋值的元素所对应的元素类型。 3.12 复合型 complex type 本身可以被赋值且在一定条件下可以具有子元素的元素所对应的元素类型。 4 地方志数字化加工流程及质量要求 基本要求 4.1 4.1.1 完整性 地方志数字化资源的类型、内容、元数据信息应保证完整。 4.1.2 规范性 地方志数字化资源的数据格式、数据文件命名、数据存储应保证规范。 4.1.3 有效性 地方志数字化资源应能通过相关软件及系统读出,不允许出现数据损坏、异常报错、无法打开,编 码混乱、图像失真等无法使用的错误。 4.1.4 准确性 地方志数字化资源的文字、图像、版式文件、资源挂接、元数据应保证准确。 4.1.5 合规性 地方志数字化资源的著作权属于作者, 出版社或数字化扫描公司未经作者同意不得将地方志数字资 源用于任何商业或其他营利性用途。 各单位向同级地方志馆移交地方志数字资源应 按照附录 A,填写 《地 方志数字资源移交登记表》 。 加工流程 4.2 包括但不限于:建立目录数据库、扫描纸质文献、 OCR识别、制作书签。 建立目录数据库 4.3 DB12/T 1303 —2024 3 目录数据库数据规则的制定应符合附录 C的要求,包括数据名称、字段类型、 取值范围 等。地方志 数字资源命名要求应符合本文件 4.7的要求。 扫描纸质文献 4.4 4.4.1 加工范围 包括封面、版权页、目录、正文、附录、插页、封底等从封面到封底的全部页面。 4.4.2 加工格式 地方志数字资源在形成过程中可采用通用格式,在归档时要转为版式文件 ,版式文件格式应与国家 允许的格式一致,目前可采用双层 OFD、双层PDF或矢量PDF格式。双层 OFD、双层PDF文件图像所使用的 图像格式为 JPG;矢量PDF文件文字使用矢量字库,图像采用高质量方式。 4.4.3 加工要求 4.4.3.1 页面要求 页面中图像层和文字层的文字对位要准确,页面完整,无缺页、重页,页码顺序颠倒等情况发生。 文字简繁体参照原书处理。 4.4.3.2 图像要求 4.4.3.2.1 图像精度不少于 300dpi,如原件质量较差或字体很小,字迹密集,可适当提高分辨率。 4.4.3.2.2 图像放大到 200%的时候, 字迹清晰, 笔画连续, 无断裂、 缺块的现象, 倾斜度不能超过 0.50。 4.4.3.2.3 含彩色插图的页面为彩色图像;含灰度插图的页面为灰度图像;其他页面,为黑白图像。 OCR识别 4.5 使用OCR相关软件对地方志文献进行文字识别。 OCR文字识别完成后需进行内容校对,采用人工检验 或计算机程序辅助检验 的方法对地方志数字资源中的 文本、图片、表格等进行抽样检测。 文本、图片准 确率应在 99%以上,表格准确率应在 95%以上。 制作书签 4.6 需包含与原书一致的书签。在出版物的封面、封面后的折页、第一次出现书名的地方、版权页、封 底前的折页、封底,添加书签“封面、前折页、书名页、版权页、后折页、封底”,其他出现与章节平 级的(如序,前言,后记等)内容,必须在版式文件出现的地方按原书内容添加书签。所有书签均按原 书实际顺序,书签能准确跳转到其对应的位置。 命名要求 4.7 地方志数字资源以其具有的唯一标识符命名,编码由 15位组成。 前2位代表地方志数字资源类型,其中“ ZS”代表志书,“ NJ”代表年鉴,“ QK”代表地方志期刊, “FS”代表地方史。 第3位代表地方志资源内容所属类别,编码规则 按照中国图书馆分类法,其中 A~X为专业性地方志 资源(包括专门年鉴和专门志书)的类别编码, Z为综合型地方志资源(包括综合年鉴和综合志书)的 类别编码。 第4~9位共6位为地方志资源所属地行政区划代码,应符合 GB/T 2260 —2007 中华人民共和国行政 区划代码的要求。 第10~13位共4位为地方志记事下限的年份。 第14~15位为卷次编号, 代表地方志资源 在该年份该区划的卷次, 00代表只有唯一一卷, 若有多卷, 则01代表第一卷、 02代表第二卷,依次类推。 示例:ZS Z 120104 2010 00 表示2010年天津市南开区志( 1979-2010) DB12/T 1303 —2024 4 出版电子书籍的加工处理 4.8 4.8.1 格式转换要求 由出版社的排版文件转换成版式文件时,必须纠正内码错误(原文文字错误可以除外),确保所有 文字内容能够被正确检索和拷贝,与原书版面保持一致。其中外文数字、标点、符号等均应采用半角。 4.8.2 加工及书签要求 出版电子书籍的加工处理应符合本文件 4.4.3的要求,书签应符合本文件 4.6的要求。 存储结构要求 4.9 4.9.1 元数据收集 地方志数字资源应以图书或期刊为单位进行存储,其元数据应一并收集、归档。元数据可采用 XLS、 XML、ET格式。 4.9.2 XML格式要求 4.9.2.1 XML文件的规格应遵循 XML1.0版本规格要求, 编码方式为 UTF-8, 使用字符集应符合 GB 18030。

.pdf文档 DB12-T 1303-2024 地方志数字化加工技术规范 天津市

文档预览
中文文档 27 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
DB12-T 1303-2024 地方志数字化加工技术规范 天津市 第 1 页 DB12-T 1303-2024 地方志数字化加工技术规范 天津市 第 2 页 DB12-T 1303-2024 地方志数字化加工技术规范 天津市 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2025-07-25 23:08:25上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。