数字工具为应对全球挑战的合作科学提供了越来越多的机会——但很多时候,研究人员仍然无法获得这些工作所需的宝贵数据。
数据可能被埋藏在无法搜索的集合中,用特殊的术语编码,或以不易与其他数据协同的方式编码,或者不易使用,因为科学家无法验证有关数据本身的详细信息,例如其来源或使用条款。
“这个问题实际上和科学本身一样古老,” 西蒙·霍德森,执行董事 数据委员会 (CODATA) 国际科学理事会 (ISC) 致力于提高数据的可用性和可用性。
这些数据问题会限制研究机会,浪费时间和金钱。根据 研究 根据欧盟委员会 2018 年发布的报告,清理质量低下的数据以使其可用是迄今为止普通数据分析项目中最耗时的任务,并且可能占总工作量的 80%。
这款 世博会 该项目是 CODATA 和国际科学理事会 (ISC) 合作开展的,旨在解决这一问题。该项目旨在通过鼓励采用 公平 (可查找、可访问、可互操作、可重复使用)数据原则,促进更好的数据管理和由机器辅助分析支持的研究。
随着项目的结束,CODATA 计划继续并扩大该项目, 世界博览会+其中将包括新的合作伙伴和国际案例研究,将两年期 WorldFAIR 项目的经验教训付诸实践。
新阶段将以项目“联盟”的形式构建,为科学家提供一个合作框架,让他们可以分享技术专长并借鉴彼此的工作成果。CODATA 邀请潜在合作伙伴提出案例研究并参与其中。
为 WorldFAIR 奠定基础的 CODATA 的初步工作于 2017 年开始,得到了 ISC 的支持和 中国科协. 这项初步工作包括研讨会,这些研讨会促成了三个案例研究的开发,每个案例研究都侧重于特定领域的数据使用:传染病、城市规划和灾害风险减少。在项目的初始阶段,CODATA 还与数据文献倡议 (DDI).
基于这些努力,CODATA 确保 欧盟委员会的资助 该项目支持了 11 个案例研究,研究了文化遗产、纳米材料和海洋科学等广泛领域的数据使用情况。案例研究涉及 13 个国家,包括巴西、肯尼亚、新西兰和美国
从该项目中吸取的经验教训构成了 11 政策建议 提高科学数据的使用和可用性,并导致了 跨域互操作框架 (CDIF),旨在使不同科学领域的数据更具互操作性。
与此同时,CODATA 发布了新的 研究数据管理术语,为该领域使用的术语提供了清晰的定义;这些术语现已作为机器可读的“公平词汇”,并将很快以更易于人类阅读的格式在线提供。
这 11 个案例研究也各自产生了 报告和指导 用于数据使用,旨在为不同科学领域提出相关的建议。
其中一个案例研究 农业生物多样性,重点研究授粉——该领域的数据描述和分类模型仍在定义中。基于来自世界各地同事的数据和意见,来自巴西、肯尼亚、阿根廷、美国、英国和荷兰等六个国家的研究人员开发了一种 全面的指南和工具集 有关植物和传粉媒介如何相互作用的数据。
这是一个非常具体的主题,但几乎与所有地方都相关,与许多不同领域的科学家都相关——他们现在可以从统一、标准的数据处理方式中受益,从而更容易地在同事的工作基础上进行构建并加速自己的研究。
“从多样化的方法和孤立的举措转向为科学家和决策者提供广泛可用的FAIR植物授粉相互作用数据,将促进综合研究的发展,增强我们对物种生物学、行为、生态学、物候学和进化的理解”, 撰写参与案例研究的研究人员.
在另一个案例研究中,研究人员研究了 减少灾害风险他们写道:“由于气候变化和人口增长可能会增加灾难的严重程度和发生频率,因此我们需要更迫切地获取可靠的数据来指导应对。”
致力于研究灾害风险的科学家和国家及国际机构回顾过去,以估计未来可能发生的事件的影响,并了解如何减轻影响并在事后恢复。他们还利用公共和私人来源运营的地面传感器和卫星不断产生的数据。
但在案例研究中,研究人员发现很难获得进行准确评估所需的信息,因为许多相关数据不符合 FAIR 数据原则。关键信息经常缺失——例如灾难中受伤的人数,或者事件发生的速度。在其他情况下,国家当局使用自己的方法计算关键数据点而不展示他们的工作,这使得其他人很难进行比较。
基于广泛的研究,案例研究小组提出了一系列实践建议,使得在这个日益紧迫的领域做出基于证据的政策决策变得更加容易——“这是朝着建设更安全、更有弹性的社区和国家迈出的根本一步”,他们写道。
国际纯粹与应用化学联合会的研究人员(IUPAC) 进行了一项案例研究,研究如何使化学品相关的数据和术语更易于人类和机器使用。
IUPAC 已 超过一个世纪的经验 召集化学家来定义和标准化该领域科学家处理和讨论化学品的方式。但随着数字工具(以及越来越多的人工智能和相关技术)提供新的工作方式,IUPAC案例研究着眼于如何使这些标准更加高效,并使其他科学家更容易重复使用化学数据。
案例研究的产品之一是“食谱这是一项开放的指导资源,旨在帮助科学家(包括学生、教师和专业人士)了解如何处理化学数据,以及如何让其他人更容易获取他们自己的数据。
该项目还描述了一种雄心勃勃的新型开放式数字协议,该协议可以将许多不同的全球化学数据库连接在一起,使科学家能够通过单一查询来查找和访问数据 - 并且同样可以检查他们自己的数据是否可机读。
霍德森解释说,让科学家聚在一起讨论他们产生的数据,并试图了解其他人如何处理他们自己的数据,这是令人大开眼界的。
通过制定明确的标准和定义,科学家不仅可以帮助当前的研究,还可以让后代更容易地在其研究成果的基础上继续发展——也许是以原始作者从未考虑过的方式,他补充道。
“我们在 WorldFAIR 中发现,进行这些对话是多么有趣和有用,将所有案例研究聚集在一个房间里,让他们讨论他们的数据、他们做什么、如何运作以及如何描述它——在某些情况下,还可以确定我们事先不一定能想象到的联系,”他说。
图片由 泰勒·维克(Taylor Vick) on Unsplash.
免责声明
我们客座博客中提供的信息、观点和建议均为个人撰稿人的观点,并不一定反映国际科学理事会的价值观和信念