海洋就像一个未被发掘的宝藏,静静地等待我们来开启;海洋也像一本记载着丰富知识的书,等待着我们去阅读;海洋更像是一本密码集,等待着我们去破译她的密码,揭开她神秘的面纱。
“随着信息技术的发展,数据已经成为科学研究中像实验室试管、烧杯一样的常用工具。现代海洋科学具有研究目标宏大、多学科交叉的大科学特点,越来越依赖于系统的、高可信度的基础科学数据及其衍生的数据产品。”海洋所海洋大数据中心主任李富超研究员说。
由于海洋的特殊性,获取数据资源的方式也是多样的,有观测数据、模式数据,还有实验数据。而这些资源,数据量大、格式标准不一样、应用场景也多样,给海洋数据的管理、应用带来了很大的挑战。并且,海洋数据还存在着封闭化、碎片化等严重的问题,跨学科的数据融合、数据综合集成应用仍有待突破,人工智能等前沿技术在海洋科学数据中应用不足。
早在2000年,海洋所就开始进行系统性的海洋科学数据库建设工作。依托科技部基础数据共享平台建设项目,海洋所迎头而上,联合中国海洋大学等5家高校和科研院所建成“青岛海洋科学数据平台”,开展海洋科学数据整合和共享工作。
自“十五”开始,在中科院信息化专项支持下,海洋所又系统开展了海洋科学数据资源库、管理平台、数据资源服务体系建设工作。
不经历风雨,怎能见彩虹。正是基于上述弥足珍贵的实践经验, 2018年,当中科院开始筹建海洋大科学研究中心时,海洋所整合相关资源,新成立了海洋大数据中心,成为大科学中心三个核心开放支撑平台之一。
据李富超介绍,该中心负责统筹运行研究所的高性能计算环境,集聚多源数据建设海洋大数据资源库,发展人工智能等海洋数据关键技术,研发有国际影响力的数据产品,支撑海洋科学研究,保障海洋环境安全,服务社会经济发展。
这要追溯到1950年,海洋所成立伊始就将海洋调查作为重要基础性工作之一,1953年开展了北黄海烟台、威海渔场调查,这是新中国第一次海洋调查。1958年又作为骨干力量参加了第一次全国海洋综合调查。以此为起点,海洋所承担了大量从近海到深海大洋的调查任务,构建了从近海到大洋的海洋观测网络,逐步积累了海量海洋科学数据资源。目前,该中心的数据资源量已近300TB。
有了数据采集途径,也获得了海量数据,这还远远不够,如何将这些数据转化成产品,才能真正发挥数据的效能。这个过程,离不开高性能计算平台保障。海洋大数据中心的超算平台是中科院高性能计算环境青岛分中心,其在数据管理和应用方面发挥了巨大作用。
数据的质量控制是数据中心的重要工作内容之一,只有经过严格质控的数据才是有效可用的数据。为此,海洋大数据中心在成立当年就加入国际数据质量控制海洋数据集(IQuOD)计划,并建成唯一中国服务节点,高起点、高标准进行数据质控,为全球海洋科研工作者提供高质量海洋科学数据服务。
面对人工智能技术在各领域遍地开花的局面,海洋大数据中心从美国引进高层次人才,从中科院内双拼高端人才,组建了海洋人工智能和大数据分析、产品研发队伍。围绕图像分类与目标检测,研发出适合于海洋遥感影像的深度学习模型,在内波提取、海岸带水淹区域制图等典型应用进行性能验证,相关成果在National Science Review上发表。
在国家重点研发计划全球变化及应对专项支持下,海洋大数据中心与科研人员合作研发了一系列高水平海洋科学数据产品。其中与中科院大气所合作研制并发布全球海洋温度格点数据,被美国国家大气中心气候数据库收录,并成为国内首个被IPCC报告使用的海洋气候监测时间序列。
此外,在中科院A类先导专项“地球大数据”支持下,该中心还与科研人员合作开发了CASEarth-Ocean数据可视化服务系统,在我国近海浒苔绿潮、溢油、风暴潮灾害预警服务等方面提供有效支撑。
目前,数据中心人员背景包括海洋地质、海洋生态、海洋遥感、物理海洋等海洋科学和计算机科学领域。“下一步,我们将着重引进、培养人工智能和大数据与海洋科学融合的复合型人才,并将信息领域一些新技术如人工智能,充分应用于海洋大数据中心建设。”李富超表示。
同时,数据中心还设置了海洋数据资源建设与共享服务组、海洋人工智能与大数据技术组、海洋数据产品研发与应用组、海洋大数据中心保障组,将同科研人员深度融合建设研究型数据中心,引领人工智能海洋学研究方向。
不过,坦白地说,目前全球科学家对整个海洋的认识还不足5%。也就是说,现有的海洋的大数据,或许仅仅只是“冰山一角”。
未来,该中心将巩固和拓展数据资源持续获取途径,形成完备的海洋数据资源体系,并持续完善数据汇交、共享体系,这也是大数据中心的一个“发力点”。
李富超表示,最近海洋大数据中心刚获批中科院海洋科学数据中心,未来他们将继续坚持目标导向,打造海洋科学大数据资源管理、质控、分析、应用、共享的“生态圈”,助力海洋科学研究新范式形成,推动海洋信息产业发展。