您所在的位置:CVH首页  >>  平台介绍
CVH特色建设及成果汇总
发布日期:2011-02-01    来源:CVH      点击次数:8590

1、背景综述

中国植物多样性极为丰富,涵盖从热带到寒温带各种成分,同时也是世界农作物起源的八大中心之一和四大栽培植物起源中心之一,具有“花园之母”美称,在全球植物多样性中具有重要地位。我国植物标本馆从1927年陈焕镛院士创立中山大学农林植物标本馆以来,特别是解放后,通过国家组织的大型科考活动,全国共累计收藏1700多万份植物标本,保存在300余家标本馆中,为《中国植物志》(2009年获得国家自然科学一等奖)的编研打下了坚实基础,也为进行相关科研活动提供了非常宝贵的基础资料。

随着时间的推移,实体标本在不断翻阅的过程中会遭到不同程度的损坏。而在信息技术的飞速发展的背景下,不同的用户群(一般用户、政府决策用户和专业研究人员)对以标本为主体的植物学数据有不同的需求,希望能够快速地获取零散地分布在各个标本馆、野外观测站、图书馆和实验室的相关数据,快速地为科研和政府决策服务。基于此,以中科院标本馆为主体,包括部分高校共同参与的“中国数字植物标本馆”(Chinese Virtual Herbarium,简称CVH)从中科院生物局(2004)开始启动,在科技部项目(2006)资金持续支持下,逐步形成一批以数字化植物标本数据为主体的植物多样性信息网站群,在信息共享和对外宣传推广方面都起到了非常积极的作用。

2、建设情况

2.1 改进了数据采集方式,保护了实体标本,加快了共享速度

一般数字化中对标本的图像采集采用数码相机和扫描仪两种,扫描仪的精度较高,适合采用。但是,使用扫描仪一般要将标本倒盖过来,这样会损害标本,因此项目组自行设计和开发了“上升式标本扫描仪”。既保护了标本,又加快了扫描速度。

在数据获取方面,最初的标本数据由各参与单位统一录入,然后通过CD光盘拷贝汇总到CVH,经过简单的格式规范之后,对外发布共享。该方法的不足是不能保证提交上来的数据与数据提供单位保持同步。有的参与单位也通过公开Web Service接口进行数据汇总。随着数据源的增多,不同的数据获取方式也开始考虑,如文献简要数据的周期性批量下载和导入。后期还要考虑传感器和webCAM等设备上的各类生物观测数据,由传统的集中、非同步方式向实时同步方式改进。

2.2 积累了一批研究机构、专业数据和网站群,提供了大量专业服务

在数据积累方面,目前的CVH的共享数据包括来自多家标本馆,包括植物研究所、昆明植物所、华南植物园、版纳热带植物园、沈阳应用生态所、武汉植物园、西北高原生物所、成都生物所、新疆生地所、西北农林科技大学、广西植物所、江苏省植物所、庐山植物园、四川大学、中山大学、南京大学、南开大学、武汉大学、内蒙古大学、广西中医药研究院、湖南科技大学、河南师范大学、杭州植物园、贵州科学院、杭州师范大学、东北农业大学(图1)的约331万份标本(其中167万份标本带有照片,180万份标本带有地标数据)。其他数据包括物种数据:12万多条;图片数据:5万张,8000多种;文献数据:230多本志书,13万页,26万名称-页码记录。此外,还有一些其他植物学相关数据库,如新旧地名对照、命名人和采集人数据库等。

此外,在中国科学院生物多样性委员会的资助下,一批相关的植物学网站也得到了飞速发展,如参与国际合作的Species 2000中国节点、生物多样性遗产图书馆(Biodiversity Heritage Library,简称BHL)中国节点、生命大百科(Encyclopedia of Life,简称EOL)中国节点,以及在社区建设方面和植物图像库建设方面表现优异的中国自然标本馆、中国植物图像库以及中国数字植物园等网站。这些网站与CVH一起组成了植物多样性网站群,为建设植物知识库提供良好的基础资料(图2)。

图1 CVH参与单位分布图

图2  中国数字植物标本馆(CVH)综合框架图

2.3  持续追踪和推广前沿技术,提高建设能力和人才培养

在系统建设方面,从2006年以来,CVH主要经历三个大的发展阶段,如表1所示。该发展历程对于目前我国各类科研数据库建设均有较好的参考价值。作为目前国内最早和最大从事生物多样性技术研发的平台,CVH经历了不同的历史发展阶段,随着与国际同行的交流和关注的增多,该平台无论在设计和开发上,均参考了当前国际主流的生物多样性信息系统和e-Science平台的技术和数据标准。

目前,大多数参与单位使用的录入软件和在线系统都是CVH提供和帮助建设的。在这个过程总,对生物多样性信息学技术的普及和应用都起到了极大的作用,一定程度上提高了我国在这方面的建设能力和人才培养能力。同时,还发表了一系列的生物多样性信息学文章对该学科进行了系统的介绍。

表1  CVH发展历史

发展阶段

参考网站

主要特点

2006-2008

(数据汇总)

 

 

 

 

 

 

1.数据汇总:大量自学相关的物种、标本、图片和文献数据

2.汇集了主要标本馆数据(集中式14家,分布式15家)

3.数据共享方式:集中式和分布式

4.工具和工作流程、规范

2009-2010

(数据标准化和规范化)

GBIF、

EOL、

      ALA

1.国际数据标准的引入和应用,数据标准化和规范化整理

2.数据共享和使用的探讨:联邦式、Harvesting和分馆

3.数据内外部的关联:LSID、uBio、EOL、GBIF等

4.社区的互动:内部论坛,外部建立交互社区(Flickr)

2010-

(基于SOA的e-Science平台)

LifeWatch

1.构建生物(植物)多样性科研信息化基础设施

2.科研活动信息化

3.更多单位、更多数据、更多应用,需要更多支持

 

2.4 重视数据规范化整理和可视化表达,增强数据使用率和直观性

数据的生命力在于使用和更新。2009年,CVH工作组对数据做了大量规范化整理,其中地标化整理182万份,物种名称整理82万份,极大提高了数据质量。同时CVH采用LSID (Life Sciences Identifier,生命科学标识)标准对基于物种名的各类数据进行关联:为每个物种名赋予一个全球唯一的标识符,然后利用该标志符进行站内物种、标本、文献、图片、植物园等数据的关联,也建立与EOL、uBio、BHL、IPNI等国际主流生物多样性信息之间的关联,为全球生物多样性信息共享提供可能。同时,也使得多个不同组织的科学家和研究人员等用户可以更好地对高质量的多源数据进行共享和集成。在对数据做了地标整理和空间配准工作之后,CVH为每个物种名称制作了一个KML文件,该文件可以在Google Map和Google Earth上使用(图3),还可以直接与GIS分析工具进行整合,进入分析流程,极大地改善了数据获取途径和分析效果。

图3   基于KML的CVH标本数据共享效果(在Google Map和Google Earth上的查看效果)

2.5  数据、标准和技术的良好基础,使CVH拟成为国家标本资源共享平台建设的核心力量

科技部项目——“标本资源的标准化整理、整合与共享平台建设”由6个子平台组成,包括植物、动物、教学、自然保护区、极地和岩矿化石平台。本项目参建单位137个,参加总人数1863人,基本涵盖我国各类标本资源以及主要的和具有特色的标本资源收藏机构。此外,还有大量的学生参加到本项目的工作中,培养了一批专门的技术人才和研究生。该项目的后期建设目标是搭建国家标本资源共享平台(图4)。其中,CVH无论在数据量、国际标准和信息化技术方面,都要领先于其他子平台。通过对国际主流的生物多样性e-Science平台进行调研,如美国的NBII和DataONE项目、澳大利亚的Atlas of Living Australia和欧盟的LifeWatch项目等,标本信息平台势必要融入更高层次的生物多样性e-Science平台中,发挥更大的作用。因此,在构建该平台的时候,CVH也将要发挥至关重要的作用。

图4  国家标本资源共享平台框架图

3、应用成效

3.1 逐步成为中国植物科学门户网站,产出了大量的科研成果

随着专业数据的积累和用户的反馈,以CVH为主的植物学网站群已经成为国内权威的植物科学门户网站。使用CVH数据的相关科研项目包括国家自然科学基金国家科技基础条件平台项目、国家环保公益性行业科研专项、美国自然科学基金项目等多项基金项目。科研成果主要应用于三峡水淹区多样性调查、濒危物种评估、保护区的有效性、环境评估、入侵种预测、气候变化、国家重点野生植物分布、中医药植物分析等多领域,这里仅列举其中的一部分成果:张大才等人(2008)利用CVH及相关平台上的标本数据,分析了横断山区树线以上区域种子植物标本的采集现状和物种丰富度。陈立立(2008)等人则利用CVH及教学标本平台上的数据,分析了喜旱莲子草(Alternanthera  philoxeroides)在中国的入侵和扩散动态及其潜在分布区预测。张殷波(2008)等人以 MaxEnt模型作为物种适生性预测模型,结合CVH上的数据,分析了中国国家重点保护野生植物的地理分布特征。Ting-Ting Meng(2009) 等人利用CVH上植物志上的物种形态特征数据,结合其他相关信息对中国北方地区的植物形态特征和气候过渡性进行了分析。Linfang Huang(2010)等人则利用CVH上的物种空间分布数据,结合中国药用植物种质资源信息共享系统数据以及相关文献数据,在GIS系统中做出了青蒿(Artemisia annua)在中国的潜在区分布图。雷军成(2010)等人则结合温度和降水作为预测的环境因子,利用CVH数据对加拿大一枝黄花(Solidago canadensis)在中国的潜在分布区进行预测。黄林芳(2010)等人利用CVH及其他相关平台上的锁阳(Cynomorium songaricum) 标本数据,运用ArcGIS技术平台,从气候、土壤、地形数据库中提取了各采样点的生态因子,得出锁阳适宜生态因子范围,利用中药材产地适宜性分析系统(TCMGIS)对锁阳在中国的产地适宜性进行多因子的空间分析。

3.2 加强与国际项目的合作交流,促进了信息平台的国际化、标准化和社区的交互性

CVH一方面通过自身工作在标本及物种数字化及共享模式的推广、技术培训及人才培养(人才队伍建设)、促进和提升国内生物标本数字化建设能力和共享水平等方面起到了积极作用。另外,通过与重要的生物多样性国际项目合作,如Species 2000、BHL、EOL、GBIF和Internet Archive等,CVH积累了丰富的国际数据标准和IT技术,并促使设计和开发的平台具有国际化的视野和高度。目前,正在基于国际数据标准的基础上进行搜索引擎的开发和专业社区的建设。在服务方面,也力求在国际服务标准ISO 19119的基础上,逐步做到国际化和标准化。CVH目前采用标本数据库+内容管理系统(CMS)建设思路,全面采用开源、跨平台和Web 2.0技术,增强系统交互性。

在用户方面,中国数字植物标本馆(CVH)自2006年在线运行以来,影响力不断扩大,从2010年以来,日均访问IP稳定在2万以上,其中18%的用户来自国外。为了提高参与单位的积极性,从2009年开始,CVH推出了面向参与单位的访问日志深层挖掘服务,很大程度上提高了参与单位的关注度。此外,中国自然标本馆更是重点放在用户社区的建设方面,用户日均上传就超过3000张。通过用户的相互鉴定,有效地形成了交互性的专业社区,成为科研工作良好的协作环境。

3.4  系统地提出了中国生物多样性e-Science平台建设框架,指明了建设思路和方向

我国在生物多样性数据积累、生物多样性信息学数据标准和IT技术的引入和应用方面都有一定的积累。但是,生物多样性数据的深度挖掘和系统地集成服务方面基本上没有开展相关工作,目前也还没有一个整体的思路和框架,极大地制约了生物多样性信息学研究领域的下一步工作。在国内现状和国外调研的基础上,CVH工作组在国内首次系统地提出了基于SOA和ISO 19119国际服务标准的中国生物多样性e-Science平台框架和服务功能,为后期进行生物多样性e-Science平台建设工作提供建设思路,满足林业、农业、环保、地球等学科的不同需求。

图5  中国生物多样性e-Science框架图

4、案例亮点

不同的用户需求是信息平台发展的原动力,特别是国家层的需求。在国务院近期(2010年09月15日)审议并原则通过的《中国生物多样性保护战略与行动计划(2011—2030年)》中,指出统筹生物多样性保护与经济社会发展,坚持保护优先、持续利用、全民参与、惠益共享,进一步加强生物多样性保护工作。CVH本身已经有了为国家服务的经验,今后这些经验要更加标准化和规范化。

学科积累和专家队伍是信息平台的质量保障,信息技术人员是“粘合剂”。CVH联络的中科院各研究机构和高校是我国生物学研究的主要单位,有着悠久的研究历史和知识积累,发挥这些机构科研人员的力量对于保证平台的权威性有着积极作用,避免陷入“知识垃圾”的海洋中。同时,这些也是数据的主要用户群,他们在使用过程中的反馈也会促进数据质量的提升。面向专业学科的IT技术比通用IT技术有着更强的学术背景,因此培养跨学科的综合人才仍将是今后的一项重要工作。

加强国际合作,提升认识水平和建设能力。已有的国际合作经验表明,这种合作能够使我们达到一个很高的起点。CVH对国际动态的跟踪和调研形成的认识能够很好地推广到其他生物领域,如微生物和动物。在充分学习和吸收国际经验之后,然后针对我国已有的数据建设基础,因地制宜,进行我国的生物多样性e-Science平台的建设,为开展生物多样性调查、评估与监测以及生物多样性保护能力建设发挥重要支撑作用。

[ 编辑/admin ]
2013-2-17 22:12:17
我有话说
CVH © 2004~2015 中国科学院植物研究所 京ICP备16067583号