馆藏地质资料全面实现数字化

----成果地质资料数字化项目成果简介

来源:地质资料数据部 作者:于瑞洋 发布时间:2016-01-27
  一、工作概况

  上世纪80年代末期,为了全面提升地质资料管理能力和水平,向社会化提供更便捷的服务与信息共享,解决资料馆战备库库容不足和纸质地质资料长期保管等系列问题,全国地质资料馆(以下简称全国馆)开始了地质资料数字化的研究和探索工作。

  1997年,全国馆解决了成果地质资料数字化的各种技术问题,建立了完整的数字化工作流程和技术方法体系。从1998年开始,历时18年,累计投资8200余万元,全国馆通过组织本馆、31家省级地质资料馆藏机构和2家地勘单位开展了地质资料数字化的规模化生产,在数字化后期,全国馆又组织4家数字化公司开展数字化工作,数字化过程参加人员超过1000千人,共完成10.2万余种地质资料的数字化,形成约18.5TB的数字化数据。

  二、数字化工作主要进展与成果

  1、完成10.2万余种地质资料的扫描数字化,实现馆藏纸质地质资料的全面数字化,为地质资料社会化服务奠定了数据基础

  全国馆的数字化工作经历了四个阶段:一是1997年以前的研究探索阶段;二是1998-1999年的数字化试生产阶段;三是2000-2010年通过组织省级地质资料馆藏机构开展的扫描数字化规模化生产阶段;四是2011-2015年通过购买服务,发挥数字化公司力量,开展数字化工作攻坚阶段。

  经过近20年的努力,全国馆累计完成10.2万余种地质资料的扫描数字化,建立了约18.5TB的图文地质资料数据库,馆藏地质资料数字化率达到100%,实现了馆藏纸质地质资料向数字资料的转变。

  2、建立了完善科学的地质资料扫描数字化技术方法体系,实现地质资料数字化工作的规范化、标准化


  建立了科学合理的数字化技术路线。全国馆通过广泛调研和深入研究,以及大量试验的基础上,确立了成果地质资料数字化工作技术路线:采用扫描数字化的方式,将纸质地质资料转换成数字化资料(同时进行消蓝),输入计算机系统,经过编辑修改、数据压缩后存入光盘,建立影像数据库(Image Database)。

  创建了完善的地质资料数字化工作流程。全国馆吸纳了图内外图书和档案行业扫描数字化的工作流程,结合我国地质资料的具体情况和全国馆地质资料数字化工作的特点,建立了一套科学、严谨的工作流程(图2)。


图2  成果地质资料数字化工作流程图

  创建了全面的地质资料扫描数字化技术方法。不同时期形成的地质资料,在印刷方式、纸张质量、组卷方式等方面都存在很大的差别,为了保证数字化数据的质量,全国馆经过试验和研究,提出了一系列数字化技术方法。

   图件消蓝:在试验的基础上,确立的扫描仪硬件消蓝和计算机软件消蓝相结合方式,硬件消蓝主要通过选择高性能扫描,调节对比度、亮度和门限值的方式去除背景色,保持信息清晰。软件消蓝主要是通过计算机软件中的实时去噪中的图像去噪和真孔等功能消除背景色。

   信息整饰:为保证数字化数据与纸质地质资料信息的一致性,对扫描后的图像进行纠斜、切边、去污、拼接、补字等操作,保证信息的完整与清晰。

   数据存储:地质资料扫描数字后,每一页资料形成一个图像文件,为保持各个图像文件之间的内在联系,保证数字化数据的浏览使用,全国馆建立了数字化数据三级目录存储体系(图3):盘目录体现一份存储载体上的所有地质资料,类目录反映该种地质资料所包含的内容,文件目录联通各个图像文件,从而保证了各个图件文件之间的逻辑联系,实现了浏览扫描数据向看书一样方便。


图3  数字化数据存储结构

   特殊图件扫描:面对长期折叠、图纸破损、纸张变脆、超宽图幅、不规则图等特殊图件的扫描,全国馆创造的熨烫法、压平法、压膜法、卷轴法、人式辅助法等方法,很好地完成了扫描工作。



图4   特殊图件扫描数字化方法

  制定了完善系统的质量标准。面对千差万别的馆藏地质资料,为了保证地质资料数字化后的数据质量,全国馆研究制定了我国地质资料管理行业内独有的、权威性的《图文地质资料扫描数字化规范》,对数字化工作的流程、工作质量等提出明确要求。在成果地质资料数字化工作实施过程中,全国馆根据实际需要不断完善和补充该规范,并于2013年编写了《成果地质资料数字化质量要求》,成为新时期地质资料数字化工作的标准和要求。

  创造了规范的组织管理与质量控制管理体系。完善的制度保证了数字化工作的质量和资料安全:“313”扫描数字化数据验收制度(数字化单位自检100%、互检100%,全国馆抽查30%、验收100%)保证了最终扫描数字化数据的质量;例会制度加强了全国馆与数字化公司之间的沟通与协调,提高了工作效率和质量;风险控制措施保证了资料与数据的安全;场地安全检查制度增强了对数字化单位的中间控制能力;售后服务承诺和介质销毁制度,保证了数据信息安全不泄露。

  3、研发计算软件系统,大幅度提高数字化工作效率,统一数据质量,增强数据的标准化

  全国馆在研究解决地质资料数字化技术问题的同时,研发了“地质资料光盘综合管理系统”(图5),做为数字化工作的辅助工具软件。该系统不仅实现了数字化工作中三级目录的计算机制作,而且解决了扫描数字化后地质资料的浏览使用问题。2011年,在对原有功能优化的基础上,增加了地质资料扫描数字化数据存储介质的管理以及PDF文件转换等功能,提高了图文资料数据管理与服务水平。

  4、确立了地质资料扫描数字化数据OCR识别与PDF文件转换技术与流程,建立了3万种PDF文件数据库

  全国馆吸纳了国内图书与档案行业的OCR识别技术,提出了软件识别和人工干预相结合的方法,确定了整体识别、章节条目等内容重要校对的质量要求。并根据试验确定了扫描数字化数据PDF文件转换工作流程技术路线(图6)。


图 5 地质资料光盘存储综合管理系统硬件系统示意图



图6 双层PDF转换技术方法示意图

  5、严谨的组织管理模式,保证了全国各参加单位行动统一,标准统一

  在数字化工作的具体部署时坚持“四个优先”原则确定资料数字化的先后顺序,即公益性(基础性)、抢救性、重要性资料优先数字化。在组织全国各省地质资料馆藏机构及数字化公司开展数字化工作时,重点实施四项部署:核对目录,确定合作资料清单;会议部署,统一协同合作意识;交流指导,把握数字化技术规范;沟通协调,严把数据质量验收关。

  三、成果地质资料数字化成果推广与应用
  
  1、数字化成果为地质资料社会化服务与数据共享奠定基础

  成果地质资料数字化成果成为地质资料社会化服务的主要数据资源。全国馆在实施数字化工作时一直遵循“边建设、边服务”的原则,坚持数字化一批,验收一批;合格一批,服务一批。在成果地质资料数字化实施过程中,数字化数据已经向社会提供了大量服务工作。2010年度图文扫描数字化数据服务1015554页(A4),占本年度馆藏电子数据总服务量的84%。2012年电子地质资料复制5001份,589559页,是纸质资料服务量的5倍。2013年电子地质资料复制29249件次,复制651087页,是纸质资料服务量的10倍,2014年,电子地质资料复制48802件次,是纸质地质资料服务量的13.8倍,2015年,电子地质资料复制94664件次,是纸质地质资料服务量的40.9倍。

  数字化成果广泛服务与重大工程和重要项目。成果地质资料数字化成果为国家公路、铁路基础设施建设、核电、水电重大工程选址、地质灾害和环境调查、中央和地方重要地质矿产勘察、高校科研等提供了大量基础数据。在汶川地震、玉树地震及西南抗旱救灾中,数字化成果数据在灾后重建及抗旱救灾中起到了重要作用。

  拓展服务方式,实现地质资料全文在线服务。2006年,全国馆首次将经解密处理的2274种图文数字化成果在全国馆网上向社会提供公开利用。2007年-2010年,坚持每年向社会发布3000种经解密处理的图文数字化成果,供用户免费浏览、下载。累计已有14274万余种经过解密处理的图文资料数字化成果实现全文在线服务,截至目前,共有75594人次浏览和下载过上网的图文地质资料,是同期到馆借阅人数的4.5倍,突破了以往全国馆网站上只有馆藏资料目录服务的记录,取得了良好的社会效益。

  2、推动地质资料管理的变革,成为地质资料管理发展史上的里程碑

  成果地质资料数字化实现了地质资料存储介质的转变,将过去使用了上百年的纸质地质资料,转变为一个个激光光盘。促使地质资料管理工作由人工向计算机管理转变,计算机技术在地质资料管理中的应用,大大提高了管理工作的效率和质量,同时使阅者能方便、快速、准确地查找到他们所需的资料。数字化工作改变了地质资料分析利用方式,提高服务效率和质量,地质资料数字化第一次将如此众多的地质信息导入计算机系统,是迈出地质资料信息资源二次开发最重要的一步,它将为今后地质信息资源的快速二次开发奠定一个结实的基础。

  总之,成果地质资料数字化工作对地质资料管理实现了四个彻底改变:存储介质的彻底改变;管理方式的彻底改变;分析利用手段的彻底改变;服务方式和质量的彻底改变。因此,可以说地质资料数字化工作是地质资料存储、管理和服务的一场技术革命。

  3、数字化成果在全国范围内推广应用,有力推动了各省地质资料管理现代化建设

  为省级地质资料馆建立起一支信息技术团队。成果地质资料数字化工作促使各省地质资料馆藏机构建立起自己的数字化队伍,培养了一批数字化技术和管理人员,形成数字化工作有序、健康、快速发展的良好局面,为地质资料其他各项业务工作的开展奠定了一个良好基础。

  全面推进全国地质资料行业的数字化工作。在全国馆组织各省地质资料馆藏机构开展地质资料数字化工作过程中,省馆也积极开展本省馆藏地质资料的数字化工作。据不完全统计,全国已有20余家省馆全面完成本馆地质资料的数字化工作,为电子阅览室的建立和数字地质资料馆的建设奠定了基础。

  四、下一步工作设想

  成果地质资料数字化工作只是为地质资料的社会化服务奠定了基础,离全面实现地质资料社会共享还存在较远距离。下一步计划重点开展两项工作:

  1、开展OCR识别,建设地质资料全文信息数据库

  通过OCR识别和PDF文件转换技术,将“死资料”变动“活信息”,同时将历年形成的数字化数据以统一的格式保存下来,实现真正意义上永久保存和社会共享服务。

  2、开展数字化成果的集成与转化,更好地发挥地质资料的价值

  以数字化成果为基础,运用现代 信息技术,对地质信息进行处理和分析,编制各种地质资料服务产品,更广泛地向社会提供服务和信息共享,全面提升地质资料管理与服务能力。