中国可持续发展信息共享示范
2009年1月6日 星期二  
 首页专题介绍标准研制数据成果研究论著航摄资料现势动态资源下载 

可持续发展信息共享标准化研究和相关标准制订*

刘若梅 蒋景瞳 贾云鹏

(国家基础地理信息中心,北京紫竹院百胜村1号,100044)

标准化被普遍认为是保证信息更有效处理、交换、管理以及消除技术壁垒的最有效手段。在实现可持续发展信息共享的实践中,人们普遍认识到政策、法规、标准、信息本身及先进的技术手段是缺一不可、相辅相成的。政策、法规、标准是为规范信息共享的行为而制订的,是实现信息共享的“软”环境。本文通过对可持续发展信息共享标准化研究存在问题及现有标准基础的分析,提出可持续发展信息分类与编码体系、数据交换格式、元数据、数据字典及数据质量控制等若干重要标准的研究结论,为实施可持续发展信息共享标准化提供借鉴。

关键词 可持续发展 信息共享 标准化

中国的可持续发展是建立在资源的可持续利用和良好的生态环境基础上的,强调发展与环保并重,其前提与核心是经济发展。在实现可持续发展过程中,无论是资源开发与利用、环境保护、生态建设,还是灾害防治等,都需要利用各种信息资源,信息共享是实现可持续发展基本条件之一。信息共享可以为经济发展节约资金,提高速度,带来显著的社会、环境和经济效益。究其本质,信息共享是一种社会行为,为保证其良性发展,这种社会行为必须是规范的。在实现可持续发展信息共享的实践中,人们普遍认识到政策、法规、标准、信息本身及先进的技术手段是缺一不可、相辅相成的,政策、法规、标准正是为规范共享的行为而制订的,是实现信息共享的“软”环境。

标准是对重复性事物和概念所做的统一规定,是以科学技术为依据制定的技术行为准则,可以对各项工作与活动进行有效的指导、监督和管理。标准化是在经济、技术、科学及管理等社会实践中,对重复性事务和概念通过制定、发布和实施标准,达到统一、化简、协调和选优,以获得最佳秩序和社会效益的过程。可持续发展信息共享标准化研究充分注意到上述标准化工作的普遍性,同时也注意到可持续发展信息共享的特殊性,即信息内容的特定性、共享方式的多样性以及信息源多是建立在不同计算机平台上、分布式的、异构的数据库等特点;注意到随着现代信息技术的发展,需要依托现代信息技术、在网络环境中实现信息的查询、调用、处理等共享操作。因此,与可持续发展信息共享密切相关的标准涉及很多方面,如信息直接与间接识别、信息表示、信息存储、信息处理及信息传递与交换等。

1 可持续发展信息共享已有标准基础分析

可持续发展信息共享标准化和规范化的基本原则,是在充分利用现有国家标准的基础上,形成一套实现中国可持续发展信息共享所急需的标准,通过前期研究与应用,积累技术与实践经验,逐步推出一系列结构化的标准,解决标准滞后的问题。

现有的与可持续发展信息共享内容有关的国家标准有很多,如各种信息的分类标准、信息处理标准和信息表示标准等。常用的国家标准如:

  • 中华人民共和国行政区划代码(GB 2260-99
  • 县以下行政区划代码编制规则(GB10114-88
  • 国土基础信息数据分类与代码(GB/T 13923-92
  • 中国植物分类与代码(GB/T 14467-1993
  • 林业资源分类与代码 森林类型(GB/T 14721.1-1993
  • 林业资源分类与代码 林木病害(GB/T 15161-1994
  • 林业资源分类与代码 林木害虫(GB/T 15775-1995
  • 林业资源分类与代码 自然保护区(GB/T 15778-1995
  • 中国动物分类代码 脊椎动物(GB/T 15628.1-1995
  • 中国土壤分类与代码GB/T 17296-2000
  • 地下水资源分类分级标准(GB/T 15218-1994
  • 地质矿产术语分类代码(GB/T 9649-1988
  • 固体矿产资源/储量分类(GB/T 17766-1999
  • 经济类型分类与代码(GB/T 12402-2000
  • 国民经济行业分类与代码(GB/T 4754-1994
  • 公路信息分类与代码GB/T 17734-1999
  • 水路信息分类与代码GB/T 17735-1999
  • 公路线路命名编号和编码规则(GB917.1-89
  • 国家干线公路名称和编码(GB917.2-89
  • 中华人民共和国铁路车站站名代码(GB10302-88
  • 地球空间数据交换格式(GB/T 17798-1999
  • ……

还有一些已经制定但尚未评审和发布的国家标准及行业标准等,如全国河流名称代码等。尽管列出了众多标准,但是,在实现信息共享时人们还是感觉标准缺乏,或标准质量存在问题、标准内容落后于现代技术等。这是因为我国在可持续发展标准研究与制订方面存在“先天”不足,主要表现在:

1.由于作为制订标准指导性文件的标准体系表不是标准,其统一与协调作用较弱,而且体系表的研制过多地考虑行业、部门因素,理论与技术因素退居二位,导致体系表中存在内容重叠、层次体系界线不清等问题,而且缺乏标准之间制约关系的考虑,标准孤立研究,相互参考性差。

2.标准研究缺乏理论基础,在基础性标准尚未研制的情况下,往往由应用驱动,制订若干内容有重叠的应用标准,为后期的工作带来不便。

3.可持续发展信息内容涉及多行业、多学科,由于历史及体制的原因,有关信息内容的标准协调难度大。

上述原因导致的可持续发展标准研究与制订工作的“先天”不足,为信息共享带来了麻烦。如信息术语、语义的差异、多种专业数据集成时数据分类的差异、指标体系的混乱等。标准本身的不一致性,导致信息的不可共享。

为解决上述问题,“中国可持续发展信息共享示范”项目提出了为实现信息共享急需研制的标准,主要有:

  • 中国可持续发展信息分类和编码体系
  • 中国可持续发展信息数据转换标准
  • 中国可持续发展信息元数据
  • 中国可持续发展信息数据字典
  • 中国可持续发展信息数据质量控制
  • 地理信息系统基本名词术语

以上标准研究及提出的方案仅仅解决了可持续发展信息共享示范阶段的急需,研究制定相应国家标准等更多的工作还有待于今后进一步实施。

2 重要可持续发展信息共享标准研究

21 中国可持续发展信息分类和编码体系

中国的可持续发展目标是保护整个生命支撑系统和生态系统的完整性,保护生物多样性;解决水土流失和荒漠化等重大生态环境问题;保护自然资源,保持资源的可持续供给能力,避免侵害脆弱的生态系统;发展森林和改善城乡生态环境;预防和控制环境破坏和污染,积极治理和恢复已遭破坏和污染的环境;同时积极参与保护全球环境、生态方面的国际合作活动,在我国逐步实现资源、环境与经济、社会的协调发展。由此可见,可持续发展信息内容极其丰富,涉及资源、环境、经济与社会诸多方面,中国可持续发展信息分类和编码体系从这四方面入手,将其分为四大类:

1)资源类,包括人口、土地、水、森林、矿藏、海洋、物种等

2)环境类,包括环境保护、环境治理、减灾、防灾、救灾等

3)经济类,包括工农业、能源、交通、通讯、商业、金融等

4)社会类,包括党、政、军、法;科、教、文、卫等

本着科学性、系统性、可延性、兼容性和综合实用性的分类原则,将上述信息做详细分类,同时对信息做字符化处理��编码,使文字信息成为量化信息,形成可持续发展的编码体系,这是分类编码最终要完成的工作。然而,中国的现状是各种可持续发展信息大多采用已有的国家标准或行业标准分类并编码,各行业采集、更新、使用信息的工作也已经延续多年,形成较为固定的分类习惯。为保证这些信息的可持续采集与更新,同时也能满足现阶段信息共享的需要,应首先确定可持续发展信息的分类编码体系,规定专业类的高位分类代码,随着信息共享的逐步深入,再尽一步研究、实施更为科学合理的分类编码方案。

为说明上述方案的可行性,以国土基础信息数据分类与编码(国家标准GB/T13923-92)为例。

国土基础信息数据分类将全部要素划分为9个一级类别。即测量控制点、水系、居民地、交通、管线与垣栅、境界、地形与土质、植被、其它。其中水系包含海洋要素,交通除按技术等级对公路进行划分外,暂时保留按综合指标划分的主要公路(普通公路)和一般公路(简易公路)。居民地首先按建筑物特征分为成片建筑和另散建筑两个二级类别,再将前者按行政等级细分,后者按另散建筑物的质量特征细分。地形图图式上的“地貌”实际指的是地表形态特征,为避免混淆,将地貌与土质改为地形与土质。此外,还顾及如下几个因素和特殊情况:

1)测量控制点的分类主要参考了控制测量的种类和其分级,因为地形图上表示的类别和等级不完整;

2)植被的分类参考土地利用的分类作了较多的调整,使其更为完整和合理;

3)增加了某些地形图上不予表示而具实用意义的基础数据类别,如林网、选矿场、尾矿场、生态试验站、农业科学试验站等;

4)参照专业部门多年习用的惯例,修改了某些类别的名称,如输电线改为电力线,山隘改为垭口等;

5)其它类中包含的内容较多,涉及面宽,因此将其分为若干组,即地类界线、重要科学测站、文物古迹纪念地和宗教设施、工矿设施、农田设施、公共设施、其它等作为第二级,在此基础上再根据重要程度细分出第三级和第四级。

设计出的国土基础数据分类体系除含前述9个一级类外,共有42个二级类、300个三级类和240个四级类。

国土基础数据分类代码由7位数字字符混合组成,其结构如图1

× × ×× × ×

特征位,一位数字

四级代码,一位数字

三级代码,二位数字

二级代码,一位数字

一级代码,一位字符,

国家基础地理信息专业类别代码(字符G

1

其中,第一位代码在本系统内部可以省略不用,但在其它可持续发展专题信息系统内部必需加上,以便与专题数据相区分。利用该代码,可以对国土基础信息按类别进行检索。最后的特征位,由用户自行定义。

22 中国可持续发展信息数据交换格式

数据交换格式是数据存在的一种特定的编排格式。该格式用于当两个数据处理系统在使用不同厂商的计算机硬件、操作系统和空间数据管理软件时,能容易地、完整无损地将数据从一个系统转换到另一个系统。空间数据交换格式通常以描述数据逻辑结构与逻辑关系的模型表达。数据交换格式是实施数据交换的标准中介格式。为实现交换,需要制订并遵循统一的数据交换标准,包括现实世界现象的一系列属性和关系描述,提供交换机制,保证这些属性和关系的描述结构不会改变,并能被数据接收者正确地调用。

作为《中国可持续发展信息数据交换格式》标准方案,定义了三种数据的交换格式:矢量、栅格和影像。该方案依据了《地球空间数据交换格式》国家标准(GB/T 17798-1999),并对其内容进行了修改补充,如将栅格数据与DEM数据作为同一种类型处理,相应调整了文件头的内容;又如将注记数据格式转换从矢量数据的中间部分移至末尾,以适应多数数据库不含注记数据的实际等。

随着技术的发展,空间数据转换格式的中介作用将会减弱,代之以按照互操作规范开发的不同空间数据处理系统,通过公共接口实现不同系统间、不同数据结构、不同数据格式的数据动态调用。

23 中国可持续发展信息元数据

随着计算机技术和GIS技术发展,特别是网络通信技术的发展,元数据(Metadata)已越来越为人们所重视。元数据标准的制订与实施,为数据交流、信息共享提供了良好条件。制定《中国可持续发展信息共享元数据标准》,其目的和意义在于:

1.适应信息时代数据管理和数据使用的需要,促进数据共享。随着信息技术的发展,尤其是计算机网络技术的出现,数据的管理和使用已经从集中式转变为分布式,在中国可持续发展信息共享示范系统中,我们面对的是几十个分布在多个网络节点上的、多种内容、多种类型的数据库,通过建立不同等级的、与数据库实体链接的元数据库,可以规范数据管理,使数据具有继承性,达到管理数据、说明数据、了解数据和获取数据的目的,从而使信息共享成为可能;

2.元数据标准使参加中国可持续发展信息共享的数据库能建立统一的、规范化的元数据库/文件,保证用户在理解水平上的一致,有利于数据交换;

3.元数据标准便于开发适用于不同数据库和多种操作系统的元数据操作工具,简化元数据的输入、编辑与维护,方便数据查询与检索;

4.维护数据的版权。元数据不仅为用户使用数据提供了方便,也使数据拥有者的利益得到保护。

根据《中国可持续发展信息共享示范项目总体设计与实施方案》,目前进入共享网络的有分布在各部委不同地点、不同软件支撑的60多个数据库,涉及基础信息、植物物种、农作物物种、自然灾害、环境与环境保护、地质矿产、气候与气象、海洋资源等诸多方面。随着“十五” 的到来,信息内容将大大增加。实施分层次的元数据标准,建立元数据库,对可持续发展信息各数据库来说,元数据库的各种信息有助于数据库的维护与管理;对可持续发展信息共享示范来说,常驻在中国21世纪议程管理中心的一级元数据库及操作工具可以从宏观上引导用户发现所需的信息,提供更详细信息的线索,通过常驻在各个分结点的二级元数据库进一步了解信息,确定需要获取的内容以及获取途径和方法,并支持通过网络传输查询结果,同时数据管理员也可以在权限内更新和维护两级元数据库自身;对内部用户(可持续发展信息系统网络节点上的用户)来说,通过元数据库及操作工具,既可查询检索其他站点的信息,也可维护管理自己的元数据库/文件;对外部用户(非可持续发展信息系统网络节点上的一般用户)来说,通过元数据库/文件及其浏览工具可以发现信息、概略或详细地了解信息,并通过适当途径获取信息。

基于上述思路,《中国可持续发展信息共享元数据内容标准》分为两个层次,一级元数据和二级元数据。级元数据是唯一标识一个数据集(数据集、数据集系列、要素和属性)所需要的最少的元数据实体和元素。任何数据集(数据集、数据集系列、要素和属性)一般都应有一级元数据,其内容主要包含一级元数据中性质为必选和条件必选(如果具有该条件特征的话)的实体和元素。一级元数据有70个元数据实体和元素,这一等级的元数据实体和元素具有通用性,是对各种数据集的总体的、概括的说明。

二级元数据是建立完整的数据集(数据集、数据集系列、要素和属性)文档所需要的全部元数据实体和元素。二级元数据内容包括7个部分,这7个部分共涉及100多个实体和元素,但这并不意味着每个数据集的二级元数据都有100多项。在确定数据集的元数据具体内容时,除元数据实体或元素特征为必选的必须包含外,要根据数据集的具体情况决定是否应包含性质为条件必选的元数据实体或元素,同时决定选择哪些性质为可选的元数据实体或元素。二级元数据的7个部分分别是:

    • 标识信息
    • 数据质量信息
    • 空间表示信息
    • 参照系统信息
    • 数据集内容描述
    • 分发信息
    • 元数据参考信息

上述7部分的详细内容在元数据字典中说明,同时各元素的取值范围、代码表如职责代码、数据集使用限制分类代码、数据集现状代码、数据空间表示类型代码、参照系名称代码

等在标准中都做了详细规定。

24 中国可持续发展信息数据字典

数据字典是数据及数据库的详细说明,它以数据库中数据基本单元为单位,按一定顺序排列,对其内容作详细说明。数据字典可用于数据库数据的查询、识别与相互参考。中国可持续发展信息数据字典信息涉及人口、生态环境、自然资源、经济与社会等领域信息的定义及说明,适用于该方面信息的数据管理、数据维护、数据共享、数据分发服务等。

数据字典与元数据有相似之处,但也有不同。元数据提供可持续发展信息数据标识、内容、质量、状况及其他有关特征的描述,数据字典虽然也具有对信息的说明性,但其更侧重对信息的定义与诠释,二者各有侧重。在某些条件下,数据字典是元数据全集的一部分。

中国可持续发展信息数据字典涉及的数据类型包括矢量数据、统计(属性)数据库数据、栅格数据、影像数据、文本数据、音频数据和视频数据等。依据数据的类型特征,数据字典包括的内容有所区别。数据字典包括的主要内容见表1

1 数据字典内容

 

使用限定

1

数据库或数据文件全名

中文全称,如:“国家基础地理信息系统全国1100万数据库”、“全国自然保护区数据库”或论文全名等。

任何数据库或数据文件必须说明

文本

2

数据库或数据文件简称

计算机内存储的数据库或数据文件名称及命名规则,如A01.docbridge.dbfBOUNT等及命名方法说明。

可选,加入此项内容可以帮助用户理解和使用该信息

文本

3

数据库或数据文件存储格式

计算机物理存储格式,如docrtfdbfe00dgnshpmiftiffimgepsavi等。

任何数据库或数据文件必须说明

文本

4

数据库或数据文件主要技术参数

矢量、栅格和影像数据库或数据文件提供使用所需要的必要参数,如投影参数、分辨率说明、定位点坐标等。

矢量、栅格和影像数据库或数据文件必须说明

文本

5

数据库或数据文件内容说明

数据库、数据文件、论文、影像等所表述的主题内容,包括分层信息、表的说明、矢量要素分类信息、几何特征、论文内容简介等。

任何数据库或数据文件必须说明

文本

6

数据库数据项定义及说明

矢量、统计数据库包含的所有数据项定义及说明。

矢量、统计数据库必须说明。

文本

7

数据项内容说明

数据值、代码及依据标准说明

矢量、统计数据库必须说明。

文本

8

数据使用方法简介

包括硬件、操作系统及工具软件要求、解压缩方法、数据库装入、调用说明等。

任何数据库或数据文件必须说明

文本

9

数据库或数据文件补充信息

数据字典各项内容无法包括的信息或数据字典作者认为有必要让用户了解的信息。

可选,加入此项内容可以帮助用户理解和使用该信息

文本

10

数据字典负责单位信息

对本数据字典负责的单位或个人信息,包括名称、地址、联系办法等。

任何数据库或数据文件必须说明

文本

为统一数据字典的格式,标准对此做了详细规定,保证用户读到的数据字典清晰、明了,格式一致。

25 中国可持续发展信息数据质量控制

数据质量问题是关系到数据库建设成败和数据能否有效应用的重要问题。数据质量评价指标和方法研究的难点在于数据质量的含义、内容、分类、分级、质量的评价指标等。不同类型可持续发展数据(即矢量数据、栅格数据等)评价方法不同,不同专业数据质量要求也有很大差异,很难用统一的指标和方法进行评价,需要进行比较多的探索和试验研究。

一般来说,数据质量由数据质量元素来描述。数据质量元素分为两类:数据质量的定量元素和数据质量的非定量元素。数据质量定量元素(包括数据质量定量元素子元素),用于描述数据集满足预先设定的质量标准要求及指标的程度,并提供定量的质量信息。数据质量非定量元素提供综述性的、非定量的质量信息。

数据质量定量元素用定量的方法描述以下六个方面的内容:

  • 完整性��描述要素、要素属性及要素关系存在或不存在。
  • 逻辑一致性��描述数据结构(包括概念的、逻辑的或物理的数据结构)、要素属性和它们间的相互关系符合逻辑规则的程度。
  • 位置精度��描述要素空间位置的精度。
  • 时间精度��描述要素的时间属性和时间关系的精度。
  • 专题(属性)精度��描述要素定量或非定量属性精度和要素属性分类正确性及它们间的相互关系。
  • 用户定义(数据质量元素或数据质量子元素)��描述由数据生产者确定的数据集质量。

数据质量的非定量元素用综述的方式描述数据集非定量的质量内容,包括三方面的内容:

  • 目的��描述生产数据集的原因和主要目的。
  • 用途��描述数据集对于数据生产者和数据用户等的应用范围。
  • 数据志��描述数据集的历史沿革,即数据集从获取、编辑到现状完整生命周期的有关描述。数据志包括两个独立的部分:数据源信息和数据处理步骤、重要处理事件(转换、维护)信息。

《中国可持续发展信息数据质量控制》标准方案的制定深入研究了ISO/TC 211目前正在制定的两个国际标准,即《地理信息��质量原理》(ISO 19113)和《地理信息��质量评价方法》(ISO 19114),密切结合可持续发展信息重点数据库群中基础地理信息和各种专题信息不同的质量控制特点和对质量的不同要求,提出了数据质量评价指标内容和评价方法的标准方案。

3 结语

可持续发展信息共享是一项长期的工作,经济发展要可持续,信息共享也要可持续。标准化被普遍认为是保证信息更有效处理、交换、管理以及消除技术壁垒的最有效手段。可持续发展信息共享的标准化研究刚刚开始,距离需求相差甚远,标准研究成果还需要经过实践验证,并逐步转化为公开发布的、可遵循的标准,“十五”期间可持续发展信息共享标准化工作面临的任务将更加艰巨。

 

参考文献

[1]刘若梅、蒋景瞳、贾云鹏,中国可持续发展信息共享元数据标准实施,《中国地理信息元数据标准研究》,北京, 科学出版社,1999

[2]刘若梅、蒋景瞳,空间数据基础设施建设中的地理信息标准化问题,《数字地球》,中国环境出版社,1999

[3]蒋景瞳、刘若梅,国际地理信息标准化进展,《纪念中国测绘学会成立四十周年论文集》,1999,PP. 141-150

[4]蒋景瞳、刘若梅,国外GIS标准化进展和我国的对策,《遥感信息》1996年第3期,1996

[5]陈述彭等,地理信息系统导论,科学出版社,1999

[6]赵仁全等,标准化科学研究导论:中国标准化科学研究史,中国标准出版社,1996

[7]李玉恩等,标准编制和审查人员教材,电子工业出版社,1994

[8]http://www.csbts.cn.net/

[9]http://www.statkart.no/isotc211/

[10]http://www.sdinfo.net.cn/


版权所有:国家基础地理信息中心,2003-2006
地址: 中国北京市海淀区紫竹院百胜村1号 邮编:100044
电子信箱: std@nsdi.gov.cn 电话:86851042 传真:68424101
京ICP备05071723号