世界各地的利益相关者广泛争论的一个问题是,当前的研究评估系统是否能有效地识别高质量的研究和支持科学的进步。 近年来,人们越来越担心传统评估指标的局限性和潜在偏差,这些指标往往无法全面反映研究影响和质量。 因此,利益相关者对改革当前研究评估系统的要求越来越高。
围绕研究评估改革的争论集中在评估的各个方面,包括对不同和包容性评估标准的需求、同行评审的作用和开放科学的使用。 一些人指出,需要从关注期刊指标转向更全面和定性地评估研究影响,包括协作、数据共享、社区参与……
研究评估的未来回顾了研究评估系统的现状,并通过来自世界各地的几个案例讨论了不同利益相关者最近采取的行动、回应和倡议。 本讨论文件的目的是为正在进行的关于研究评估未来的辩论和开放性问题做出贡献。
报告发现的问题、采取的行动以及尚待解决的问题的摘要可在信息图中找到:
使用我们的翻译插件在线阅读论文或以您喜欢的语言阅读论文。
执行摘要
一个充满活力和包容性的研究体系对于科学和社会推进基础知识和理解以及应对日益紧迫的全球挑战都极其重要。 但由于多个参与者(包括资助者、政府和出版业)的期望不断提高、竞争与合作动态之间的紧张关系、不断发展的学术交流系统、有时咄咄逼人的出版和数据分析行业,研究系统面临着压力。和有限的资源。 研究企业必须管理这些需求和紧张局势,同时保持研究质量、维护研究诚信、包容性和多样性,并保障基础研究和应用研究。
在过去的十年中,科学系统面临的这些压力和响应能力的需求伴随着对研究评估和绩效衡量系统的更批判性的反思。 虽然评估研究质量和影响力的适当的、情境敏感的方法很重要,但关于当前评估标准和指标对研究质量和文化、为政策制定提供信息的证据质量、研究和研究经费的优先事项、个人职业轨迹和研究人员的福祉。 在世界某些地区,人们越来越认识到,一套狭隘和简单化的评价指标不能令人满意地反映研究的质量、效用、完整性和多样性。 常规使用的指标(通常基于期刊)无法捕捉高质量研究的重要附加维度,例如指导、数据共享、与公众互动、培养下一代学者以及识别和为代表性不足的群体提供机会等方面。 除了范围过于狭窄之外,衡量标准和指标的误用问题还被认为扭曲了对成就的激励,对某些学科(包括重要的跨学科和跨学科研究)不利,并助长了掠夺性和不道德的出版行为。
通过宣言和声明、原则和改革来遏制指标误用、扩大质量标准和更系统地改变研究文化的运动为关于改革研究评估必要性的全球辩论奠定了基础。 这些声音现在呼吁从宣言转向行动。 这是在研究进行和交流方式发生变革的背景下发生的。 开放研究框架和社交媒体的兴起、向任务导向和跨学科科学的转变、开放同行评审的增长以及人工智能 (AI) 和机器学习的变革潜力,需要对如何评估研究和研究人员进行新的思考。
在此背景下, 全球青年学院 (GYA)是, 学院间合作伙伴关系 (IAP) 和 国际科学理事会 (ISC) 借助科学家范围界定小组和一系列区域磋商,联手评估世界范围内研究评估的辩论和进展。 世界某些地区的高等教育机构和研究资助者正在开发和试点新方法,本文中包含了一些新方法。 在世界其他地区,这些辩论和行动才刚刚兴起,甚至根本不存在。 由于研究系统以不同的速度发展,存在分歧和碎片化的风险。 这种分歧可能会损害研究合作所需的同质性,并促进研究人员在不同地区、部门和学科之间的流动。 然而,一刀切不可能放之四海而皆准,需要因地制宜地努力改革评价,认识到当地的挑战。
本讨论文件侧重于公共部门研究以及对研究和研究人员的评估,具有全球视角,涵盖通常以欧洲和北美发展为主的议程:区域视角以及国家发展和机构改革的例子突出显示。 GYA、IAP 和 ISC 的全球集体成员代表了研究生态系统的广泛横截面,其不同的任务可以促进真正的系统性变革。 本文致力于激励 GYA、IAP 和 ISC 作为相互学习、实验和创新的平台,与其成员、其他科学机构和世界各地的主要支持者合作,发起和推进对话,并动员更具包容性的人和联合行动。
针对 GYA、IAP 和 ISC 及其成员(见第 5 节)的建议是围绕他们作为倡导者、典范、创新者、资助者、出版者、评估者和合作者的角色构建的,并附有指示性的行动时间表。 最直接的是,这些行动包括创造空间,分享迄今为止相关举措的经验教训和成果(建立实践社区); 从中期来看,与关键群体共同召开多利益相关方论坛,以切实可行、切合实际和包容性的方式重新设计和实施研究评估; 从长远来看,推动有助于未来思维的新颖研究,对人工智能技术、同行评审方法和改革以及传播媒体的快速发展敏感。
前言
这款 全球青年学院 (GYA), 学院间合作伙伴关系 (IAP) 和 国际科学理事会 (ISC) 2021 年,各方齐聚一堂,盘点全球范围内不同研究文化和系统中研究评估/评估的挑战、辩论和发展,并探讨他们可能参与和影响研究评估/评估的重新构想的方式,以促进研究评估/评估的发展。 21世纪,开放包容。
召集了一个国际范围界定小组(附录 A)来调查该领域,并就如何加强改革研究评估的现有努力向这三个组织提供建议。 这项工作的核心前提是:(1) 一项由研究人员主导的协调一致的举措将使全球研究界在塑造研究评估的未来方面拥有更强有力的发言权;(2) “与被评估者一起评估”有好处; 因此,有助于为评价文化和实践制定持续、系统的变革之路。
作为案头研究的补充,2021 年末与范围界定小组和合作伙伴确定的专家进行了一系列区域磋商。讨论文件是这项工作的主要成果。 它旨在作为与多个利益相关者(尤其是全球研究界本身)进行探索性对话的招股说明书。
1. 为什么研究评价需要改革
研究评估实践服务于多个目标,并由多个利益相关者进行。 它们用于评估资助决策的研究提案、出版的研究论文、招聘或晋升的研究人员以及研究机构和大学的绩效。 本文主要关注研究人员和研究的评估,不涉及机构评估或排名,尽管所有这些评估领域都是密不可分的。 目前的做法严重依赖定量且主要基于期刊的指标,例如期刊影响因子 (JIF)、出版物数量、引用次数、h 指数和文章影响力评分 (AIS)。 其他指标包括拨款收入目标、投入衡量标准(例如研究经费或研究团队规模)、注册专利数量以及最近的社交媒体指标(以前称为“altmetrics”),例如社交媒体分享或下载量。 这些指标共同深刻影响机构、研究小组和个人的声誉、个人和协作研究议程、职业轨迹和资源分配。
过去 2 年来,全球研发 (R&D) 投资增加了两倍,达到每年约 1980 万亿美元。 仅过去几年,研发支出就实现了自 19 世纪 2021 年代中期以来最快的增长,增长了约 1%(联合国教科文组织,XNUMX 年)[XNUMX]。 这种对研究的额外投资带来了一种问责文化,给研究机构和个人带来了压力,并可能产生反常现象或不正当的激励措施。 它还带来了更大的愿望:保持质量并减少研究浪费、错误和低效率; 最大限度地提高包容性和多样性; 优化研究作为全球公共产品; 促进更加开放和参与的学术研究。 如果不进行改革,研究质量、完整性、多样性和实用性就会受到威胁。
1.1 保持研究质量和保护研究诚信
在向更加开放、负责和面向公众的研究体系过渡的过程中,定量指标可以成为研究评估的重要组成部分(英国皇家学会,2012)[2]。 但它们也对助长世界范围内存在的“发表或灭亡”研究文化负有部分责任,对研究成果的质量、研究系统的完整性和可信度以及研究社区的多样性产生有害影响(例如 豪斯坦和拉里维埃,2014)[3]。 这是因为指标被机构、政策制定者和研究资助者等用作研究质量的指标,但它们是产出的衡量标准,而不是研究质量或影响本身的衡量标准。 因此,这些参与者在设定研究发生的社会和文化背景方面发挥了很大作用,学术界的奖励和晋升系统塑造了科学家在其职业生涯各个阶段的选择(麦克劳德等人,2014)[4]。
“使用文献计量指数……作为研究人员绩效的代理指标是一种方便的评估指标,但存在严重缺陷。 大多数人都坚持不懈地关注个人成就,通过大学对高影响力指标的兴趣来减少研究支持,迫使所有人“勾选框”并遵守规定,同时他们在扭曲期刊出版市场方面发挥着重要作用。 迫切需要改革。”
打开科学记录(2021),国际科学理事会
对研究交流和知识生产拥有巨大权力和影响力的另一个利益相关者群体是出版业。 基于期刊的指标已成为在商业期刊上发表文章的强大动力,并且可以激励可能产生严重副作用的行为。 不是根据研究成果的科学价值来判断研究结果,而是发表研究的期刊的质量被普遍认为是科学质量的证据,从而推动了基于声誉而不是科学的高度商业化的出版市场。 开放获取成本主要是通过作者处理费(APC)产生的:这些费用可能高得令人望而却步,特别是在世界某些地区,为资源匮乏的研究人员的研究出版造成障碍,并可能面临国际科学界分裂的风险。 在研究过程的各个阶段变得越来越依赖商业提供商及其使用条款的风险为非营利替代方案提供了强有力的理由。 此外,由于文献计量指标是大学激励的主要来源,它们削弱了教育和其他形式的科学工作(例如教学和政策建议)的价值。 由于研究评估系统倾向于青睐那些获得大量资助并在高影响因子期刊上发表论文的人,有证据表明已经成功的研究人员更有可能再次成功(“马太效应”, 波尔等人,2018)[5]。
当学术出版成为一种评估而不是交流的手段时,这对那些选择以其他有意义的方式交流其研究的人来说是不利的(ISC 2021 年报告)[6]。 这包括全球青年学院 (GYA)、学院间合作伙伴关系 (IAP) 和国际科学理事会 (ISC) 的共同产出(可以说是主要货币):报告、工作文件、联合声明、观点社论、新闻报道和网络研讨会。 一些学科也处于不利地位:例如,工程和计算机科学领域的研究人员,通过会议及其程序进行交流(通常更快)很重要; 以及那些通常使用专着、书籍和专业杂志的人文和社会科学领域的人。
其他人选择在特定研究或本地期刊上发表,或者无力在具有高影响因子(以及伴随的高 APC)的开放获取期刊上发表他们的研究(无论质量如何); 后者对低收入国家的人不利,尤其是早期职业研究人员(ECR)。 这些研究人员面临着获得终身学术职位的巨大压力,他们的行为很大程度上受到研究资助机构以及机构招聘和晋升委员会使用的定量标准的影响。 用指标思考的诱惑(穆勒和德里克,2017)[7],甚至“游戏”系统,对于世界各地的所有研究人员来说都是现实(例如 安塞德,2023)[8]。
这种游戏的表现包括研究人员(有意或无意)使用掠夺性期刊和会议来增加其出版物数量 (国际应用联合会,2022 [9]; Elliott等人,2022 [10]),沉迷于自引和伪造同行评审、剽窃、影响因子膨胀和“萨拉米切片”(将本来可以在一篇研究文章中报道的大型研究分成较小的已发表文章)(科利尔,2019)[11]。 在压力下,研究人员可能会倾向于诉诸掠夺性服务,其唯一目的是获得博士学位、被聘用或晋升,或者为他们的研究项目提供资助(例如 阿巴德-加西亚,2018 [12]; 奥莫博瓦莱等人,2014)[13]。 指标驱动的学术界和学术出版系统会产生潜在的激励:研究人员在哪里发表论文比他们发表的内容更重要。
对研究质量和完整性的影响令人非常担忧。 近年来,由于研究和出版不当行为以及不良或欺诈性数据集,撤回的学术文章数量急剧增加。 期刊可能需要数月甚至数年的时间才能撤回不可靠的研究,到那时它可能已经被多次引用并进入公共领域(奥德韦,2021)[14]。
1.2 最大限度地提高包容性和多样性
指标驱动的研究评估的主导地位是明确的,在评估改革方面,全球范围内存在不同的趋势,这可能会让部分研究界落后。 在对全球研究评估格局的分析中(库里等人,2020 [15]; 提交),高收入国家/地区的许多研究和资助机构似乎开始纳入更广泛的指标,例如定性“影响”措施,而文献计量学在“全球南方”机构中仍然占主导地位[16 ],跨越所有学科。 如果不采取更具包容性的行动,国家评估系统就有可能出现分歧,可能会在研究、评估、资助和出版系统中引入进一步的系统性偏见和潜在的不兼容。 反过来,这可能会抑制国际研究合作和研究人员的流动。 在给南北合作制造障碍的同时,它还可能抑制全球南方研究生态系统的同时加强——强有力的研究评估可以加强研究生态系统和对它们的信任,减少人才流失的可能性,并有助于为可持续发展建立强大的人力资本。发展。 然而,一刀切的良好绩效所产生的行为形式不一定有利于卓越、公平、透明度和包容性。 衡量那些在充满机遇、支持性的、资源丰富的环境中茁壮成长的学者的成就,以及那些在充满敌意和不支持的环境中应对挑战和克服障碍的学者的成就,充其量是值得怀疑的。全球年度评估,2022)[17]。 许多学者感到自己在历史和地理上被研究界排斥,这在很大程度上是由于他们在整个职业生涯中受到的评估方式所致。 由于排除某些形式的研究并未能在全球范围内利用多样性的思想,当前的研究评估实践存在促进西方主导模式的主流/追随文化的风险。
低收入国家和处于职业生涯早期阶段的研究人员需要发出自己的声音,以便他们能够以适合目的的环境敏感方式帮助制定新的评估模型,并考虑到他们每天面临的挑战。日为基础。 GYA 和越来越多的国家青年学院为 ECR 提供了这种声音,并且 GYA 科学卓越工作组 [18]提出了对研究评价改革的看法(见下文)。
来自早期职业研究人员社区的观点
早期职业研究人员(ECR)特别关注研究评估的实践,因为他们的职业前景和对研究议程的追求在很大程度上取决于他们的评估方式。 这为资助、招聘和晋升实践提供了信息,但这些做法并不总是被认为是公平和公正的。
虽然资金和人力资源决策显然会影响研究人员劳动力的构成,但人们并不总是认识到,通过其对资金的影响,研究评估塑造了机构和研究人员追求某种研究轨迹、工作的激励因素。在某个领域或加入某些网络而不是其他网络。 通过这种方式,研究评估塑造了科学本身的发展,尤其是它对 ECR 的前景和期望产生的不成比例的影响。
尽管科学是一项全球性事业,但一些学者由于出生地、身份或社会经济背景,在进入和参与研究界时面临更高的障碍。 这是科学产业组织的问题,而不是研究评估本身的问题,但许多ECR认为评估标准不应忽视研究人员经验的现实,也不应针对不同情况强加统一和标准化的标准。
GYA 科学卓越工作组进行的研究(即将发布的报告)表明,研究评估可能更多地受到国家研究政策的驱动,而不是文化或科学辩论的驱动。 报告重点关注学术界晋升正教授(或同等职位)的标准,显示国家政策和机构往往有具体文件规定其研究评估标准。 这些文件往往侧重于单一维度或优先事项,而不是包含可用于形成研究人员全面观点的大量不同标准。 例如,一些文件侧重于对研究人员的服务活动(例如教学和指导)的评估,或者一些文件侧重于研究人员的累积产出(例如,期刊文章的数量),但很少两者兼而有之。
这一发现有两个主要含义。 首先,研究评估是分层的、自上而下的。 这就产生了风险,因为度量方法和定性方法常常忽视研究人员的多样性:他们的背景和职业道路,以及同样重要的方法和想法的多样性。 相比之下,GYA 中的 ECR 认为,重要的是要认识到研究企业所需的活动多样性,并制定促进多样性和多元化的研究评估计划,而不是强制要求一致性和同源性。
其次,学科之间的差异不如研究人员工作国家经济状况的差异显着。 低收入国家似乎依赖定量指标并奖励“生产力”,而高收入国家则对影响的定性评估越来越开放。 如果这种分歧进一步扩大,可能会对学者的国际流动构成进一步的障碍——这对于 ECR 来说尤其重要。
总之,GYA 报告强调,不存在灵丹妙药:研究评估应面向评估目标,并最终面向机构或国家研究政策的目标。 评估应考虑到研究人员概况和职业的多样性,并根据评估的目的采取不同的侧重点。 科学是一种全球性的自我批评对话,外部评估可能并不总是必要的。 事实上,令人不快的排名(针对个人、机构、媒体甚至整个国家)的用途和真正价值经常受到争论。
1.3 优化研究作为全球公共产品
当今的全球挑战,其中许多都在联合国 (UN) 可持续发展目标 (SDG) 中得到阐述,需要进行变革性、跨学科和跨学科的研究,而这本身就需要新的研究交付和合作模式。国际标准委员会,2021)[19]。 包容性、参与性、变革性、跨学科研究的紧迫性与研究的支持、评估和资助方式并不匹配——为了让研究兑现其对社会的承诺,它需要更加开放、包容、情境敏感的评估系统(格鲁克曼,2022)[20]。 学者、资助者和出版商的固有行为可能会使变革变得困难,因此投资可能会被引导到最需要的领域。
跨学科和跨学科研究以及参与性或公民科学的发展是重要的发展,对于应对全球挑战至关重要。 由于研究跨越学科和机构界限,并吸引更广泛的利益相关者——包括用户社区共同为社会设计紧迫的研究问题——传统的学术研究评估标准是不够的,甚至可能限制跨学科研究的开发和使用。Belcher等,2021)[21]。 需要更合适的原则和标准来指导跨学科研究实践和评估:质量评估框架的早期例子是围绕相关性、可信性、合法性和实用性原则建立的(Belcher等,2016)[22]。
1.4 应对快速变化的世界
研究委托、资助、开展和交流的方式正在快速发展,需要加快研究评估改革。 它们包括以下内容:
(1) 向开放科学的转变
开放科学运动要求同时改革研究评估体系,以提高开放性和透明度。 许多用于衡量研究绩效的指标和指标本身是不透明的,并且经常在封闭的商业门后进行计算。 这种缺乏透明度损害了研究界的自主权——它限制了评估、测试、验证和改进研究指标的选择(威尔斯登等人,2015 [23])。 负责任的研究评估正在成为全球走向开放科学的核心方面,联合国教育、科学及文化组织(教科文组织)关于开放科学的建议(例如)就证明了这一点。联合国教科文组织,2021 [24])——其中包括为其成员开发开放科学工具包,以帮助他们审查和改革他们的研究职业评估和评估标准[25]。
(二)同行评审的进展
公开同行评审的发展——无论是发布同行评审报告和/或公开鉴定评审者——是研究评估的重要发展(巴罗加, 2020 [26]; 伍兹等人,2022 [27])。 数据基础设施的发展使出版商能够为同行评审报告生成数字对象标识符 (DOI)、将同行评审报告链接到个人开放研究人员和贡献者 ID (ORCID) 并以预印本形式发布论文。 在全球新冠疫情期间,预印本数量大幅增长,暴露了快速响应模式下评估研究所面临的挑战。 然而,开放的同行评审实践——无论是出版前还是出版后——可能有助于破坏商业出版商对研究交流和知识生产过程的控制,从而降低科学期刊和 JIF 等相关指标的力量。 同行评审活动的公开记录还可以提供记录同行评审活动的基础设施,并及时在同行评审活动中产生更大的价值,这是一项重要的专业服务,在学术评估中通常基本上是不可见和未被充分重视的。Kaltenbrunner 等人,2022 [28])。
(3)人工智能和机器学习的应用
人工智能(AI)和机器学习的技术进步可能会对研究评估产生深远的影响,包括支持它的同行评审流程(例如 霍尔姆等人,2022 [29]; 普罗克特等人,2020 [30])。 人工智能已经被用来简化和加强同行评审(自然,2015[31]; 自然,2022 [32]),测试同行评审的质量(塞维林等人,2022 [33]),测试引用的质量(加德,2020 [34]),检测抄袭(Foltýnek 等人,2020 [35]),抓住研究人员篡改数据(夸奇,2022 [36])并找到同行评审员,但由于这项工作在研究人员评估中没有得到应有的荣誉,因此同行评审员越来越短缺。 “对话式人工智能”,例如 ChatGPT(聊天生成预训练变压器),有能力设计实验、撰写和完成稿件、进行同行评审以及支持编辑决定接受或拒绝稿件(自然,2023 [37])。 人工智能还有潜力通过使用算法来减轻同行评审员作为研究成果裁判员的负担,从而提高同行评审的效率(自然,2022 )。 使用人工智能来寻找裁判已经在中国进行试点(自然,2019 [39])。
所有这些人工智能应用程序都可以减轻这种负担,并让经验丰富的专家将判断重点放在研究质量和更复杂的评估上(塞尔沃尔,2022 [40])。 但它们也有传播偏见的风险,因为它们是预测技术,强化了可能存在偏见的现有数据(例如性别、国籍、种族或年龄):事实上,人工智能本身的使用可以受益于对“质量”的更深入理解。 ' 研究 (乔姆斯基等人,2023 [41]; ISI,2022 [42])。
然而,重要的是,所有形式的人工智能和机器学习都可能被滥用(Blauth 等人,2022 [43]; 本吉奥,2019 [44])。 学术界和研究界需要与管理这一领域的政府、行业和民间社会领导层合作,为此做好准备并增强抵御能力。
(4)社交媒体的兴起
研究影响的传统定量衡量标准无法解释社交媒体参与度和社交网络研究人员/学者的增加(乔丹,2022 [45])。 许多学者在研究项目的整个生命周期中使用社交媒体平台与社区、政策制定者和公众互动; 积极参与、测试和告知他们的研究,并带来多样性的想法和投入,而不是简单地将最终成果作为接收受众的既成事实发布。 这种参与不会被传统形式的研究评估所接受,但可以带来更广泛的影响和推广机会。 社交媒体指标(“altmetrics”)正在开发中,作为对负责任指标的贡献(沃特斯等人,2019 [4])并包括 Twitter 或 Facebook 的提及以及 ResearchGate 上的关注者数量。 一方面,这些替代指标可以帮助开放、创造空间和拓宽评估范围(拉福尔斯和斯特林,2021 [47]),但另一方面,与其他指标一样,也可能被不负责任地使用和/或被视为在评估系统中强加另一层指标。
2. 研究评价改革面临的挑战
研究评估改革面临多方面的挑战。 这里展示了一些最重要的内容。
任何包含更多定性措施的改革都必须同时保障基础研究和应用研究的质量。 有轶事证据表明,一些科学家本身可能反对改革,尤其是在当前体系中蓬勃发展的高级职业研究人员,因为他们担心改革可能会助长平庸的研究,或者更多定性形式的评估可能有利于应用而不是基础研究。 研究评估标准的改革往往围绕着以任务为导向、具有社会影响力的研究,这些研究以一种不太有形的基础研究或蓝天研究可能不会的方式吸引公众和政治支持。 一些人认为,需要对研究“价值”进行更细致的解释来支撑创新,因为未来需要对好奇心驱动的基础研究进行持续投资,并更广泛地认识到它在应对全球挑战的能力中所发挥的关键作用。全球年度评估,2022 [48])。
更一般地说,研究术语的含义和使用缺乏一致性是变革的障碍。 研究评估的概念框架并没有随着时间的推移发生实质性变化,支持它的语言也没有发生实质性变化:研究体系仍然停留在“基础”和“应用”科学等旧有的二分法,以及“影响”、“质量”等术语中。 (无益地等同于生产力)和“卓越”没有明确定义,以避免地理、学科、职业阶段和性别偏见 (Jong 等人,2021 [49]):这在缺乏多样性的决策小组中可能尤其严重(哈奇和咖喱,2020 )[50]。
与指标驱动的评估一样,更多定性的评估形式也是不完善的。 提出同行评审过程和专家判断至少与文献计量学同样重要的论点并不简单。 由于同行评审过程缺乏清晰度和透明度,他们可能会存在偏见。 例如,同行评审委员会被批评为通过使“老男孩网络”和同质性(评估者寻找与自己相似的人)持续存在来保留既定形式的权力和特权的机制,同时也容易受到集体思维动态的影响。 定量指标无论多么不完美,在世界某些地方都被视为抵御裙带关系和偏见的手段。 类似的论点也适用于研究论文的同行评审,使用更多定性评估可能会为其他形式的歧视行为打开大门。
缺乏对任何形式的同行评审的专业认可和培训,都会阻碍同行评审员的工作,从而降低能力。 此外,当需求超过供给时,就会产生偷工减料和降低严格性的动机。 提高同行评审透明度(无论是完全开放、匿名还是混合)以及培训、培养和奖励良好的同行评审实践都是必需的; 随着研究成果的多样化,对其演变模型的进一步研究也是如此(国际应用程序协会,2022 [51])和人工智能技术的进步。
关于研究评估改革的争论是复杂的,而不是二元的。 定性和定量信息经常在同行评审中结合起来:像《莱顿研究指标宣言》这样的陈述(希克斯等人,2015年 [52])呼吁进行“知情同行评审”,其中专家判断得到适当选择和解释的定量指标以及定性信息的支持(而不是主导)。 关于研究评估的争论不是评估工具的二元“定性与定量”选择,而是如何确保多种形式信息的最佳组合。
最后,任何改革还必须方便、可行。 研究系统已经显示出崩溃的迹象,因为出版物数量呈指数级增长,而整个研究企业的审查负担不均匀地下降(例如 普布隆, 2018 [53]; 科瓦尼斯等人,2016 [54]; 自然,2023 [55])。 基于期刊的指标和 h 指数,再加上出版商声望和机构声誉的定性概念,可以为忙碌的评估者提供方便的捷径,并为学术评估中根深蒂固的变革带来障碍。哈奇和咖喱,2020 [56])。 在一些国家,定量指标受到欢迎,因为它为任命和晋升提供了相对清晰和明确的路线。 在“南半球”国家,通常使用平均影响因子来筛选申请人,任何替代方案都必须同样具有可实施性,并且能够利用扩大评估范围不可避免地需要的额外资源。 在研究评估中使用简单定量指标的便利性可能会成为变革的主要障碍,而新评估体系的引入甚至可能因某些国家缺乏能力或能力而造成更多的全球不平等。
3. 大力推进科研评价改革
过去十年,针对这些挑战,出现了一系列备受瞩目的研究评估宣言和原则,包括《莱顿宣言》(由一组国际专家制定)、《香港原则》(Moher等,2020 [57])(6年第六届世界研究诚信大会制定)和 公制潮汐 [58]和 利用公制浪潮 [59] 报告(在对英国研究和评估框架 REF 进行审查的背景下制定)。 至少有 15 项不同的努力敦促主要利益相关者 — — 无论是政策制定者、资助者还是高等教育机构 (HEI) 负责人 — — 尽量减少当前评估体系的潜在危害。 所有这些举措都吸引了广泛的受众,并且在关注负责任的指标方面取得了进步,这是改善研究文化和为研究界带来平等、多样性、包容性和归属感的先决条件。 但这些举措的一些设计者越来越担心,这些举措虽然有帮助,但有损于切实的实际行动:作为签署方的行为只有在后续实际实施的情况下才会有效(自然,2022 [60])。
人们越来越多地支持“负责任的研究评估或评估”和“负责任的指标”(朵拉, 2012 [61]; 希克斯等人。 2015 [62]; 威尔斯登等人,2015)从纯粹的定量指标转向更广泛的衡量标准,使研究人员能够描述其研究的经济、社会、文化、环境和政策影响; 解释研究界重视的问题:解决更广泛属性的“良好数据”或“价值主导指标”(库里等人,2022 [63])。 近年来,世界各地和国家的一些高等教育机构和研究资助者开发并试点了负责任的研究评估的创新和进步方法。 这里突出显示了一些内容。
3.1 全球宣言、原则和实践
在上述全球倡议中,2013 年旧金山“研究评估宣言[64](DORA)也许是最活跃的全球倡议。 它列出了使用基于期刊的指标来评估个别研究人员的表现所引起的问题,并提供了 18 条建议来改进这种评估。 DORA 坚决不鼓励使用基于期刊的指标来评估研究人员的贡献或在寻求聘用、晋升或资助时使用。 截至2023年23,059月中旬,该宣言已由160个国家的XNUMX个签署方(机构和个人)签署,承诺改革。 DORA 专注于应对定性评估的内在挑战和先天偏见,正在开发 推进研究评估的工具 (TARA) [65]帮助将宣言付诸实践:这些工具包括一个用于对职业评估中的创新政策和实践进行索引和分类的仪表板,以及一个资源工具包,以帮助消除委员会组成中的偏见并识别不同的定性形式的研究影响。
此外,DORA 正在资助阿根廷、澳大利亚、巴西、哥伦比亚 (2)、印度、日本、荷兰、乌干达和委内瑞拉的 XNUMX 个项目,以测试在当地情况下促进研究评估改革的不同方式,以及 汇编良好实践的例子:例如,提高认识、制定新政策或做法、为求职者提供培训和实践指导(多拉 [66])。 对此类赠款的需求一直很高——来自 55 个国家的超过 29 名申请人——表明人们越来越认识到改革的必要性。
国际研究管理协会网络 (INORMS) 等专业研究管理协会也一直在积极开发资源来指导组织变革,包括 范围框架研究评估小组| INORMS – INORMS 范围研究评估框架 [67] 首先定义什么是有价值的,谁正在被评估以及为什么(一个有用的解释性海报 点击这里 [68])。
国际发展部门为研究评估提供了新的视角,一个典型的例子是 研究质量+ | IDRC – 国际发展研究中心 [69],它衡量对研究接收端的人们来说重要的事情。 研究质量增强 (RQ+) 工具认识到科学价值是必要的,但还不够,并承认用户社区在确定研究是否相关和合法方面发挥着关键作用。 它还认识到研究更新和影响是在研究过程中开始的。 研究申请通常由高度跨学科的小组进行评估,其中还包括来自学术界外部(例如政府部门或非政府组织(NGO))的开发专家、从业者和国内代表:这强化了用户社区/非学科专家的重要性需要了解研究以及如何将其应用到实践中。 在复杂、低收入或脆弱环境中进行的研究可以伴随着道德工具包或框架,旨在为研究生命周期中的道德选择提供信息和支持,从开始到传播和影响,例如 Reid等人,2019 [70]。 “变革理论”方法被捐助者、非政府组织和多边机构广泛应用于国际发展研究,申请者必须在监测、评估和学习框架的支持下阐明产生影响的途径,例如 瓦尔特斯,2014 [71]。 学术研究界可以向开发界学习。
认识到资助者在制定高等教育机构战略中的作用, 全球研究委员会 (GRC) 负责任的研究评估 (RRA) 倡议 [72] 一直在激励世界各地的主要研究资助者在各自的区域和国家背景下努力实现 RRA 的目标,并制定有效的评估框架来评估影响(解释视频 点击这里 [73])。 委托编写关于 RRA 的工作文件(库里等人,2020 [74]),GRC呼吁其成员嵌入RRA原则并采取具体行动来实现这些原则,并通过合作和分享良好实践相互学习。 一个 国际工作组 [75] 正在为 GRC 成员提供指导和支持,帮助他们从运动过渡到行动。
在很大程度上,通过 GYA 的努力,ECR 也开始围绕这一议程动员起来。 它是 科学卓越工作组 [76] 正在努力寻找有利于“释放科学好奇心和创造力,并通过多样性和包容性促进人类潜力发展”的研究环境。 他们的工作呼吁 ECR 社区挑战其组织使用的“卓越”定义,参与改革研究评估的举措并加入青年学院运动。 它还呼吁资助和招聘机构让 ECR 参与研究评估辩论,并承认对研究的贡献和职业的更广泛多样性。
尽管一些大学和其他高等教育机构签署了 DORA 和/或加入了欧洲运动(如下所述),但它们似乎并未像其他关键群体那样围绕研究评估进行集体组织。
3.2 区域前景和发展
几乎完全是定量的评估体系所产生的问题在很大程度上是从“全球北方”的角度来看待和诊断的,而“全球南方”则面临着追赶的风险。 冒着过度概括的风险,“北半球”存在着缺乏多样性、公平性和包容性的重大系统性问题,而评估系统又加剧了这些问题。 在“南半球”国家,缺乏对“质量”和“影响力”的本地和区域定义,评估体系差异很大(甚至同一所大学的不同院系),而且相对缺乏对质量和影响力的挑战。现状。 在世界范围内,问题源于对定量指标的过分强调、评估与资源分配之间的联系、竞争激烈的资助体系和出版压力,以及对研究和学术生活其他难以量化的维度的忽视。
关于研究评估改革比较研究的同行评审文献很少。 一个罕见的例外是对六个不同地区(澳大利亚、加拿大、德国、香港、新西兰和英国)的研究评估干预措施进行比较,结果发现,在多种类型的干预措施之后,所有六个地区的指数表现似乎都有所改善(至少使用传统的文献计量指标)(ISI,2022 [77])。 DORA 在其网页上提供(主要是机构)案例研究(多拉 [78])并在一份报告中(朵拉, 2021 [79])旨在激励其他人采取行动,但这些主要是欧洲的例子。
在这里,作者提供了区域概述和国家实验和改革的例子,以供进一步了解——这些并不是全面或详尽的。
欧洲3.2.1
这款 欧盟研究评估改革联盟 [80],即 CoARA,于 2022 年 350 月获得批准,是世界上最大的研究评估改革倡议。 经过 40 个(主要是欧洲)国家的 XNUMX 个组织的制定和发展四年,欧洲大学协会和欧洲科学(欧洲大陆科学资助者和科学院的网络)与欧盟委员会合作,制定了一项协议或一套原则(a '改革之旅'),进行更具包容性和负责任的研究评估(科阿拉,2022 [81])。 该协议侧重于三个层面的评估:机构、研究人员个人和研究本身。 虽然该联盟由欧洲合作伙伴管理,但其雄心勃勃地走向全球,DORA 和 GYA 均已签署。 签署方承诺投入资源来改进研究评估、制定新的评估标准和工具、提高认识并提供研究评估培训(例如向同行评审员)。 这一发展被描述为“迄今为止最有希望的真正变革的迹象”(自然,2022 [82])。
欧盟还资助一些令人兴奋的新举措,旨在支持研究评估改革:特别是开放和普遍科学(OPUS [83])——开发一套涵盖多个研究过程和产出的“综合指标”,从而激励欧洲研究人员实践开放科学——以及开放科学评估数据空间 GraspOS [84] – 建立开放的数据空间,支持研究评估的政策改革。
支持所有领域的前沿研究(16-2021 年预算为 2027 亿欧元)的欧洲研究理事会 (ERC) 已签署 CoARA,并修改了其评估表格和流程,以建立更多的叙述性描述,包括考虑较少的因素传统的职业道路和对研究界的“杰出贡献”。 提案将更多地根据其优点而不是申请人过去的成就进行评判,并将继续由顶尖学者组成的同行评审小组使用科学卓越的唯一标准进行评估(欧洲研究委员会,2022 [85])。
一些欧洲科学院也参与其中。 董事会 阿莱亚 [86],代表 50 个欧洲国家 40 多个国家科学院中的 XNUMX 个的欧洲科学与人文科学院联合会支持了 CoARA 运动。 ALLEA 承诺建立一个专门的工作组,以收集、交流和推广接纳新院士的良好实践,并根据质量、诚信、多样性和开放性原则,为研究评估的“有意义的文化交流”做出贡献。 在其 2022年XNUMX月的声明 ,ALLEA 呼吁成员学院做到以下几点:
1. 根据研究的需要和性质,认识到研究贡献和职业的多样性; 就学院研究员而言,选拔程序应(1)考虑性别平衡和早期职业研究人员的独特挑战,(2)支持文化和学科的多样性,(3)重视各种能力领域和人才,以及(4)促进跨学科和多语言化。
2. 研究评估主要基于以同行评审为核心的定性评估,并辅之以负责任地使用定量指标; 对候选研究员工作的卓越性和影响力的评估应基于定性同行评审,符合严格和透明的基本原则,并考虑到科学学科的具体性质。
3. 放弃在研究评估中不适当地使用基于期刊和出版物的指标; 特别是,这意味着不再使用期刊影响因子 (JIF)、文章影响力评分 (AIS) 和 h 指数等指标作为质量和影响力的主要指标。
在他们的 联合应对 [87] 对于欧盟协议和 CoARA 联盟,GYA 的 ECR 社区也对这一承诺表示欢迎,并提供了实施其原则的方法。 其中包括具有包容性并反映各国具体情况和学科特点多样性的实践,各个职业阶段的研究人员都接受培训、激励和奖励,其中对研究人员、工作人员和委员会成员进行开放科学的强制性培训至关重要。
欧洲的研究密集型大学也支持研究评估改革,将其作为“多维”研究职业的途径(奥弗莱特,B.,2022 [88])。 他们制定了一个共同框架来激励和支持大学认识到在研究、教育和社会服务方面的多样性贡献。
在国家层面,一些国家正在试点不同的评估模式:例如,国家资助机构 比利时, 荷兰人, 瑞士 和 UK 都在使用“叙述性简历”。 叙述性简历更全面地看待学术成就:对知识生成、个人发展、更广泛的研究界和更广泛的社会的贡献(英国皇家学会 [89])。 虽然这些类型的简历得到了越来越多的支持,但也有人担心它们迫使学者在所有方面都表现出色,从而在追求全才地位的过程中冒着损害深厚专业知识的风险(格罗夫,J.,2021 [90])。
以下文本框中包含了协调全国范围内以职业为导向的学术评估改革的国家研究系统的四个例子。
国家示例:英国
英国研究评估框架 (REF) 通过两个维度衡量研究影响:“重要性”(项目所带来的实际影响)和“影响力”(项目产生影响的可量化程度)(英国皇家研究所)。 这里的影响被定义为“对学术界以外的经济、社会、文化、公共政策或服务、健康、环境或生活质量的影响、改变或利益”,但除此之外,它是非常开放的、纪律性的——例如,变化多端且可能含糊不清,未能充分考虑公众参与。
英国的 REF 正在根据以下标准于 2022-2023 年进行评估: 未来研究评估计划 探索评估英国高等教育研究绩效的可能新方法,包括了解国际研究评估实践。 REF 的下一次迭代可能会考虑更多样化的输出,甚至可能降低它们的重要性。 当前模型重视产出 60%,研究影响 25%,研究文化/环境 15%。 如果这些权重更均匀,那么 REF 看起来会非常不同,更加重视研究文化、研究诚信和团队合作(格罗夫,2020).
国家示例:芬兰
2020 年,芬兰学术团体联合会协调了一个由研究资助者、大学和工会组成的工作组,发布了该声明 研究评估的良好实践。 该指南为遵循负责任的个人学者评估流程提供了指导,包括五项评估的一般原则:透明度、诚信、公平、能力和多样性。 研究评估的良好实践要求在评估个人的学术贡献时更好地认可研究诚信、教育和指导以及科学服务(例如同行评审)。 该声明认为评估不仅仅是产生总结性判断:它还鼓励评估者与被评估的个人分享反馈,以促进反馈和学习。
研究执行组织和研究资助组织都致力于实施研究评估良好实践,并根据指南制定自己的本地版本,并且正在开发国家研究人员组合简历模型。 研究评估的良好实践致力于定期审查和改进。
国家示例:荷兰
在荷兰,国家认可和奖励计划于 2019 年启动,并发布了立场声明 每个人都有施展才华的空间。 荷兰皇家艺术与科学学院(KNAW——IAP 和 ISC 成员)、研究资助者、大学和医疗中心之间的全国性合作表明,需要实现研究评估文化的全系统现代化。 在此过程中,它提出了评估程序变革的五个目标:更大的职业道路多样性、认可个人和团队绩效、优先考虑工作质量而不是定量指标、开放科学和学术领导力。
自 2019 年以来,荷兰大学已开始制定国家愿景声明的本地翻译版本。 与此同时,资助机构以旧金山 DORA 为灵感,开始采用更多的“叙述性简历”格式,并停止索要文献计量信息。 荷兰研究委员会最近搬到了一个 “循证”简历 其中可能会使用一些定量信息。 KNAW还开发了自己的 三年计划 在内部实施认可和奖励议程。 已任命一名全职项目经理和团队来促进认可和奖励改革计划,并且每年在主要改革利益相关者之间举办“认可和奖励节”,以支持社区范围内的学习。
最后,在 DORA 社区参与补助金的资助下, 博士生转型中的青年科学家倡议总部位于乌得勒支的公司制定了新的博士评估指南,以努力改变研究文化。
国家示例:挪威
2021 年,挪威、挪威大学和挪威研究委员会发布 NOR-CAM – 学术评估中认可和奖励的工具箱。 NOR-CAM 提供了一个矩阵框架,用于提高透明度并扩大研究和研究人员的评估范围,使其远离狭隘的文献计量指标。 NOR-CAM 代表挪威职业评估矩阵,改编自 2017 年 报告 由欧盟委员会提出开放科学职业评估矩阵。 与其欧洲前身一样,NOR-CAM 也提出了更好地将开放科学实践融入评估的方法。 该矩阵旨在指导学术职位、研究经费申请的评估者和候选人以及评估挪威研究和教育的国家评估者。 它还旨在作为个人职业发展的一般指南。
该矩阵包括六个主要能力领域:研究成果、研究过程、教学能力、影响力和创新、领导力和其他能力。 然后,该矩阵提供建议,以便围绕每个标准进行职业规划和评估认可——结果和技能的示例、记录方法以及对每个标准进行反思的提示。 候选人不应在所有标准上表现均等。
NOR-CAM 由研究执行和资助组织利益相关者组成的工作组创建,并由挪威大学协调,这意味着原则上它得到了所有挪威大学成员的支持。 随后举办了涉及挪威大学的研讨会,共同开发将 NOR-CAM 纳入任命和晋升评估程序的方法,并且正在开发“自动”简历系统,以从多个国家和国际来源检索数据,以减少行政管理负担。 上述三个国家级改革方案的协调员定期会面,交流经验、共同学习。
3.2.2 拉丁美洲和加勒比地区
拉丁美洲和加勒比海地区 (LAC) 在许多方面与世界其他地区形成鲜明对比。 在这里,科学被认为是全球公共产品,其研究和学术出版系统和基础设施是公有(资助)和非商业性的:但这些区域优势和传统尚未反映在评估系统中。 能够影响变革的主要利益相关者是国家研究委员会、科学部和主要研究型大学——鉴于 60% 以上的研究人员位于大学,高等教育机构的作用至关重要(里西特,2020 [91])。 有可能使评估系统与可持续发展目标以及开放科学和公民科学运动更加紧密地结合起来,这些运动在该地区有着蓬勃发展的传统。
目前,国家、地方和机构的研究评估体系高度分散,使研究与教学、推广和合作生产等其他职能相互竞争。 LAC 的研究评估和研究人员奖励制度通常倾向于基于“全球北方”方法论的卓越理念,完全基于期刊和大学排名的影响因子(CLACSO,2020 [92])。 研究评估实践中很大程度上缺乏对不同形式的知识生产和传播以及学术职业的多样性(例如教学、培训和指导、公民科学和科学的公共传播)的认可。 这对于广泛使用专着和当地语言的社会科学和人文学科的研究人员来说尤其成问题(CLACSO,2021 [93])。 区域期刊和指标在此类评估过程中被贬值或不被认可。 所有这一切都因信息系统薄弱和基础设施(尤其是社区拥有的)互操作性薄弱而加剧,基础设施资金不足,因为稀缺的资金被用于支付开放获取期刊的 APC 费用。
尽管如此,该地区的一些大学开始实施定性和定量相结合的评估实践,特别是在评估研究人员和任务导向的研究方面(格拉斯,2022 年 [94])。 向更全面的研究评估方案的过渡将需要共同设计更多的定性标准; 负责任地使用定量数据并加强同行评审流程; 渐进式变革,协调和协调政策和方法,以实现负责任的研究评估和开放科学的共同原则; 新的方法和数据,以更好地评估跨学科科学、环境和地方问题; 支持图书馆多样性和多语言的共享、可互操作、可持续、联合的基础设施; 以及参与性、自下而上的设计,扩大公民和社会运动的参与,并纳入代表性不足的研究团体。
为了应对这些挑战,该地区采用了一套研究评估原则和指南。 这 CLACSO-FOLEC 研究评估原则宣言 [95]于 2022 年 220 月批准,旨在保证和保护质量和与社会相关的科学,并接受 DORA 和开放科学的原则、研究成果和研究职业的多样性、区域期刊和索引服务的价值,以及跨学科、当地语言和土著知识。 迄今为止,它拥有超过 XNUMX 名追随者,并且在负责任的研究评估和改革实例方面已经出现了积极的趋势。 以下文本框中提供了一些国家示例。
国家示例:哥伦比亚
在 DORA 社区参与奖的资助下,哥伦比亚大学协会、大学出版商、研究管理者和科学技术管理网络等一直在共同努力,应对哥伦比亚负责任指标的机遇和挑战。 通过一系列研讨会和磋商,包括以国际组织为基准,他们制定了一个标准来帮助哥伦比亚机构设计自己的 REF。 该标题致力于解决地方层面发现的挑战,对于高等教育机构来说,这些挑战包括缺乏对研究评估替代方案的了解、国家研究评估生态系统的性质以及对变革的抵制。 A 专门网站 与信息图表一起开发,以协助研究人员,并继续在全国范围内分享传播和学习成果。
更多信息: 哥伦比亚负责任的衡量标准项目:建立哥伦比亚研究评估的机构、方法工具| 朵拉 (sfdora.org)
国家示例:阿根廷
一次有趣的改革尝试 国家科学技术研究委员会 (Consejo Nacional de Investigaciones Científicas y Técnicas – CONICET) 为社会科学和人文科学制定了一项特别决议,将主流巡回索引中的期刊与区域数据库中索引的期刊置于同一水平,例如 科学, 雷达利克 or Latindex-目录。 该法规目前正在审查中,以澄清其实施中的一些模糊之处并扩大其标准。 反过来,CONICET 董事会在 2022 年遵守了旧金山 DORA,公开承认其通过加强流程评估和持续改进来改进研究的承诺。
这款 国家研究、技术开发和创新促进局 (Agencia Nacional de Promoción de la Investigación, el Desarrollo Tecnológico y la Innovavión – AGENCIA I+D+i), 科技创新部,由于其竞争激烈的呼吁的多样性和范围,是该国的主要研究资助者。 目前,AGENCIA 正在实施一项 节目 加强主要财政资金的研究评估流程。 目前的改进包括向同行评审员提供报酬,以激励他们对这些过程的承诺,鼓励开放获取,因为项目成果应通过出版物或公开流通的文件进入公共领域(根据“开放获取机构数字存储库国家法 26.899),并通过性别、代表性不足的代际群体和/或研究评估过程中的机构强化均衡机制纳入公平和包容性维度。 尽管如此,在各个学科委员会中,负责提案的主要研究人员的课程背景仍然由同行使用引用影响力指标进行评估。
最后,在 DORA 社区参与补助金的资助下,拉普拉塔国立大学心理学系主办了 虚拟事件 2022 年 640 月,关于心理学和社会科学的评估吸引了来自 12 个国家的 XNUMX 多名(主要是本科生),展示了非洲大陆年轻人的兴趣。 该活动帮助制定了该学院的四年管理计划,并将为一本关于西班牙语背景下学术评估改革的书提供资料。
国家示例:巴西
在巴西,研究评估在研究机构和研究人员中引起了激烈争论,甚至州和联邦政府也对此争论不休。 然而,尽管 DORA 签署机构数量为全球最多,但研究评估改革的例子却少得可怜。 在对国内 DORA 签署者进行调查、机构咨询和由 DORA 社区参与补助金资助的公共活动之后, 指南 已为大学领导探索负责任的评估实践做好了准备。
该指南重点关注三项主要行动:(1)提高对各种形式负责任评价的认识; (二)评估人员和被评估人员的培训和能力建设; (三)实施与考核。 下一步是建立一个从业人员网络(或十个大学情报办公室),以改变评估实践和试点环境敏感模型,并最终为希望带来变革的巴西机构制定路线图。
度量标准 (2022)。 巴西高等教育负责任评估的制度挑战和观点:Projeto Métricas DORA 合作伙伴关系调查结果摘要。 巴西圣保罗大学。
3.2.3北美
开放科学议程加速了北美地区对纯粹定量指标的持续转变。 开放科学和开放审查有助于使评估实践更加透明,提供自我反思和发现问题的机会,例如招聘、晋升和同行评审小组中的自引和任人唯亲,以及天生的性别和其他偏见。 关于是否需要开发更智能的指标和混合评估方法的争论仍在继续,并有可能建立服务于基础科学(推进知识)和应用科学(社会影响)的混合、趋同的评估模型。
人们还认识到,大学需要学术空间和自由来摆脱目前用于评估的工具,而不存在任何“先发劣势”,并且用户社区应该成为评估过程的一部分,以帮助衡量评估工具的可用性。知识及其吸收和影响。 但研究生态系统的顶部和底部也存在对变革的偶然抵制(“故意视而不见”)——来自于那些从现状中受益的人和那些最近进入现状的人。 很少有美国大学签署了 DORA,一个新的 DORA 项目正在努力了解为什么会出现这种情况(TARA)。 尽管如此,在加拿大和美国,都有一些旨在带来系统性变革的国家和机构举措的有趣例子(见以下文本框)。
国家示例:美国
在美国,国家科学基金会通过其 推进研究对社会的影响 节目及伴随的 更广泛的影响工具包 对于研究人员和评估人员。 公平、多样性和包容性,包括土著和传统边缘化社区的参与,是关键驱动因素。 作为 IAP 和 ISC 成员,美国国家科学院也在寻求刺激广泛的改革,为传统研究人员简历改革提供信息交流和学习的平台(NAS 战略委员会,2022 年)。 脱胎于美国科学院的工作, 开放奖学金高等教育领导倡议 由 60 多所学院和大学组成,致力于采取集体行动推进开放奖学金,包括重新思考研究评估以奖励开放性和透明度。
例如,美国国立卫生研究院设计了一种新的 生物素描 (科学技术)为拨款申请中的人员提供帮助,以最大程度地减少系统性偏见和报告负担,同时更加以影响力为导向。
国家示例:加拿大
在加拿大,DORA 推动的研究评估改革有多种讨论; 所有三个联邦研究委员会都是签署方。 自然科学与工程委员会 重新定义研究质量标准,放弃文献计量、引文和 h 指数,符合 DORA 原则:质量指标现在包括良好的研究数据和数据访问管理、公平、多样性和包容性以及培训责任。 其他两个研究委员会可能也会效仿。
加拿大研究人员倾向于关注“知识动员”,即通过与用户社区的共同生产来促进研究的社会影响的有意努力(ISI,2022). 加拿大研究影响力 是一个由 20 多所大学组成的网络,旨在通过影响力素养建设机构能力,即“确定适当的影响力目标和指标,批判性评估和优化影响力路径,并反思跨环境定制方法所需的技能”的能力,以便最大限度地发挥研究对公共利益的影响。
值得注意的是,签署DORA的加拿大大学很少。 任何变革的主要动力可能是拥抱本土学术:这在加拿大已成为道德要求。
3.2.4非洲
非洲的研究激励和奖励制度往往反映“国际”(主要是西方)的规范和惯例。 非洲机构在制定研究“质量”和“卓越”方法时努力遵循这些原则,但它们并不总是适合当地的知识和需求。 研究的“质量”、“卓越”和“影响力”在非洲大陆并没有明确的定义,一些研究人员不习惯“研究影响力”的文化。
非洲的评价体系往往不考虑社会效益研究、教学、能力建设、研究行政和管理。 出版模式与背景无关,APC 对非洲的研究成果造成了障碍。 研究评价体系的改革有助于纠正非洲研究对社会挑战贡献的不对称性,并改善获得资源的机会,帮助非洲研究界做到这一点。 打破跨部门和跨学科合作的障碍对于促进多样化观点和知识体系的发展并帮助解释非洲研究质量的构成至关重要。 任何改革都需要考虑整合地方、本土和“传统”世界观的机制来评估研究质量和卓越性。
非洲大陆正在围绕 RRA 建立强有力的合作伙伴关系。 由国际发展机构联盟资助, 科学资助委员会倡议 (SGCI) [96],与 17 个非洲国家合作,开展了一项关于非洲卓越研究的研究,从全球南方的角度审视科学资助机构和研究人员评估(Tijssen 和 Kraemer-Mbula,2017 [97],[98])。 它探讨了撒哈拉以南非洲的卓越研究问题以及将卓越概念扩展到出版物之外的方法的必要性(Tijssen 和 Kraemer-Mbula,2018 [99]); 制定一份关于实施研究竞赛的良好做法的指导文件(目前正在更新)(SGCI [100])。 在 SGCI 和 GRC 的支持下,2022 年世界科学论坛上,南非 国家研究基金会(NRF) 科学与创新部召集了国际和当地合作伙伴,讨论资助机构在推进 RRA 方面的作用,并分享经验、推进良好实践并评估能力建设和合作方面的进展(NRF,2022 [101])。
这款 非洲证据网络 [102],一个由 3,000 多名从业者组成的泛非洲跨部门网络开展了一些跨学科研究评估工作(非洲证据网络 [103]),但这一点在国家和区域评估系统中的嵌入程度尚不清楚。 这 非洲研究和影响网络 [103]一直致力于开发一个包含一系列指标的记分卡,用于评估非洲科学、技术和创新(STI)评估的质量,希望将其发展成为基于网络的决策工具,以指导STI投资决策。
在国家层面,渐进式变革已经开始——以下文本框中给出了一些示例。 研究资助机构带头的其他国家包括坦桑尼亚 (COSTECH)、莫桑比克 (FNI) 和布基纳法索 (FONRID)。 事实证明,GRC 的 RRA 倡议是非洲大陆变革的重要平台,向国际发展部门(尤其是 IDRC)学习也是如此。 研究质量增强 (RQ+) 评估框架 [104],其特点是它已经被应用、研究和改进。 立足非洲的 国际评估学院 [105]也可能提供一个有趣的机会。
国家范例:科特迪瓦
位于科特迪瓦的中心 科学研究战略计划 (PASRES) (科学研究战略支持计划)相信卓越的研究必须超越研究出版物的数量,并包括“研究吸收”维度。 研究评估过程适应国情,基于与科学和社会相关性、合作伙伴的参与、学生培训、知识动员和可行性相关的标准。 评估小组包括科学专家(判断所进行研究的质量)、私营部门(判断经济富裕程度)和其他机构(衡量研究的文化和社会潜力)。
PASRES 创办了两本本地期刊(一本关于社会科学和语言学,另一本关于环境和生物多样性),并承担这些期刊的全部出版费用。 最后,PASRES 资助能力建设活动和专题会议,使研究人员能够向私营部门和民间社会展示他们的研究成果。
更多信息:Ouattara, A. 和 Sangaré, Y. 2020。支持科特迪瓦的研究:选择和评估项目的流程。 E. Kraemer-Mbula、R. Tijssen、ML Wallace、R. McLean(编),《非洲思想》,第 138–146 页
国家示例:南非
南非(SA)的研究评估主要集中在文献计量学方面。 自 1986 年以来,高等教育部 (DHET) 推出了一项政策,为大学在认可索引期刊上发表的研究出版物提供补贴,大学研究出版物的产出随着每份出版物授予的兰特价值而增长。 为了获得研究经费并推进他们的职业生涯,南澳研究人员尽可能快地发表了尽可能多的文章,从而造成了反常和意想不到的后果。
南非科学院 (ASSAf) 委托编写了一份关于该国学术出版的报告(2005-2014 年),并发现了可疑的编辑做法和掠夺性出版的迹象(ASSAf,2019 年)。 使用细致入微的分类系统,过去十年中估计有 3.4% 的文章被判定为掠夺性文章,这一数字自 2011 年以来上升幅度更大。被判定为掠夺性的期刊被纳入 DHET“可接受资助”南澳所有大学的名单和学者均被发现参与其中(Mouton 和 Valentine,2017 年)。
ASSAf 报告在系统、机构和个人层面提出了建议,DHET、NRF 和一些大学随后采取的对策似乎遏制了南澳的掠夺性行为,南澳学者(在 DHET 认可的期刊上)的掠夺性出版发生率在 2014 年达到顶峰—— 2015 年开始下降。 研究人员还担心南澳的 DHET 政策不鼓励合作,并且未能承认大型研究团队中个人的贡献,需要修订绩效评估/研究评估方案。 现在,出版单位制度的使用被认为不能很好地评估研究质量和生产力以及学术人员的选拔和晋升。
更多信息:
南非科学院 (ASSAf)。 2019 年。十二年:第二份 ASSAf 关于南非研究出版的报告。 比勒陀利亚,ASSAF。
Mouton, J. 和 Valentine, A. 2017。南非人在掠夺性期刊上撰写文章的程度。 南非科学杂志,卷。 113,第 7/8 期,第 1-9 页。
穆顿,J.等人。 2019。南非研究出版物的质量。 斯泰伦博斯。
2019_assaf_collaborative_research_report.pdf
国家示例:尼日利亚
尼日利亚的大学在三个主要领域对研究人员进行评估:教学、研究生产力和社区服务。 其中,研究生产力的权重更大,重点是已发表的同行评审研究文章,并考虑这些出版物中作者的数量和角色(第一作者和/或通讯作者)。 为了提高全球竞争力,大多数大学更加重视国际科学索引或 SCOPUS 索引的期刊,更加重视质量和国际合作; 并以这些期刊的文章百分比作为晋升标准。
这样做的一个不幸的后果是,许多研究人员,尤其是人文学科的研究人员,缺乏足够的资金和/或能力在这些期刊上发表文章。 相反,他们发表更多的评论而不是研究文章,或者他们觉得有必要将有影响力的资深同事纳入共同作者,因为他们的经济贡献而不是智力贡献。 抄袭现象日益猖獗,掠夺性出版也愈演愈烈。 然而,尼日利亚大学的整体全球排名有所提高,从而使政府和资助机构感到满意,并被视为成功。 尼日利亚在这方面并不孤单。
尼日利亚科学院重新建立了自己的同行评审期刊作为旗舰期刊,学者可以在其中发表文章(目前免费)并获得所在机构的高度评价。
3.2.5亚太地区
竞争激烈、定量指标驱动的评估系统在该地区占主导地位,英语国家通常制定评估框架,其他国家也纷纷效仿。 例如,在澳大利亚,有一个基于文献计量学和大学排名的竞争性资助体系:“甚至可持续发展目标也被转变为绩效指标”。 马来西亚和泰国也存在类似的挑战,其他东盟国家也可能效仿。 一个重要的例外是中国,政府在创造重大系统性变革方面发挥着重要作用,这可能对全球产生深远影响(见文本框)。
令人鼓舞的是,该地区的研究界越来越认识到当前研究评估系统的局限性及其对研究诚信的威胁,并对此感到担忧。 尽管包括国家青年科学院和东盟青年科学家网络在内的 ECR 以及草根运动越来越多地参与这一问题,但他们很难被听到。 政府和资助团体,包括大学领导层,基本上没有参与这场辩论:他们重视定量指标,但不了解其对研究的影响。 事实上,咨询者报告说,更多的定量标准正在被添加,以至于机构和研究人员开始玩弄这个系统,助长了研究不当行为。
但正如以下文本框中所示,存在重大的变革机会。
国家示例:中国
现在是世界上研究成果最多的国家(托勒夫森,2018; Statista,2019),第二个是研究投入(经合组织,2020),中国发生的事情有可能带来真正的系统性变革。 一项新的国家级政策旨在恢复研究的“科学精神、创新质量和服务贡献”,并“促进大学回归最初的学术目标”(大部分,2020)。 Web of Science 指标将不再是评估或资助决策的主要因素,出版物和 JIF 的数量也将不再是。 鼓励中文优质期刊发表论文,支持其发展。 评估小组正在寻求“代表性出版物”(5-10篇精选论文而不是详尽的清单),以及评估研究对解决重要科学问题、提供新科学知识或引入创新以及真正进步所做贡献的标准的,特定领域。
为了制定更适合自身需求的研究质量和卓越评估体系,中国最大的基础研究资助机构国家自然科学基金委员会(NSFC)自 2018 年以来进行了系统性改革,以反映科学的转变:科学景观、跨学科的重要性、应用研究与基础研究的结合以及研究与创新之间的相互作用(曼弗雷德·霍瓦特,2018),从文献计量转向加强中国研究本地相关性的系统(张和 Sivertsen,2020)。 它改进了提案评估的同行评审制度,以更好地适应好奇心驱动的颠覆性研究、解决研究前沿问题、应用于经济和社会需求的优秀科学以及应对重大挑战的跨学科研究。 2021 年,85% 的提案是使用这些类别提交和审核的。 近日,2022年XNUMX月,为期两年的科技人才评价改革试点方案公布,八个部委、十二个研究所、九所大学和六个地方政府参与。 其目标是探索创新体系不同环节科技人才的评价指标和方法。
次区域示例:澳大利亚和新西兰
当前,澳大利亚和新西兰都处于重要关头。 在澳大利亚,澳大利亚研究委员会正在进行的同时审查、澳大利亚卓越研究和黄金开放获取谈判累计提供了一个机会之窗(罗斯,2022).
在就科学资助的未来进行公众咨询后,新西兰正在制定一项新的 系统性计划 为了国家研究和创新体系的未来。 澳大利亚和新西兰都为其本土研究小组开发了衡量系统(关怀原则).
国家示例:印度
科学技术部政策研究中心(DST-CPR)最近对印度的研究评估及其改革进行了研究,领导了与主要利益相关者(国家资助机构、研究机构和学院)的研讨会、访谈和调查。 研究发现,虽然大学和许多具有国家政策意义的机构(如农业)几乎完全关注定量指标,但一些资助机构和印度理工学院等机构也一直在采取更多的定性指标。 顶级机构采取的这种更加定性的方法已经将更多的资金转移到国家优先事项的研究上,尽管现在说它是否对研究质量和影响产生任何可量化的影响还为时过早。
评估的主要基准是基于专家委员会意见的同行评审,但前提是完全基于定量指标对申请进行初步筛选。 这些委员会还存在根本性挑战:缺乏多样性和对开放科学实践的理解,很少考虑研究的社会影响,以及能力差和偏见。 人们对这些问题以及更普遍的评估方法知之甚少,并且缺乏关于该主题的指南和文献。
尽管如此,人们越来越认识到改革研究评估的必要性。 在 DORA 社区参与补助金的资助下,印度国家青年科学院与印度科学研究所 (IISc) 和 DST-CPR 合作,探索改进研究评估的方法 - 他们的审议结果已与主要利益相关者分享旨在激发全国性对话,探讨改革并最终改变印度研究文化的必要性,使其研究更具创新性和/或社会相关性。 DST-CPR 预计开发一个卓越研究框架,该框架可以整合到其国家机构排名框架中。
更多信息:
巴塔查吉,S.2022。 印度评估其研究工作的方式是否有效? – 电线科学
DORA_IdeasForAction.pdf (dstcpriisc.org)。
Suchiradipta, B. 和 Koley, M. 2022。印度的研究评估:什么应该保留,什么可以更好? DST-CPR、IISc。
国家示例:日本
日本的研究评估协议高度下放:内阁府科学技术创新委员会、教育、文化、体育、科学技术部 (MEXT) 和其他机构发布了“国家研发评估指南”各部委也制定了自己的指导方针。 除此之外,大学和研究机构还为研究人员和研究人员建立了自己的研究评估系统,与世界许多地方一样,这些系统已与机构绩效和预算分配挂钩。
人们越来越担心过度依赖定量评估。 作为回应,日本科学会议准备了 关于日本研究评估未来的建议 (2022)呼吁减少对定量措施的重视,更多地重视定性措施,更多地认识到研究评估中的研究多样性和责任,以及监测研究评估实践改革中的国际趋势。 最终,研究兴趣和晋升应成为研究评估的核心,并尽一切努力防止研究人员疲劳、消极和压力过大。
MEXT 对评估指标的一项调查发现,JIF 是众多指标之一,因此并没有对日本的研究产生强烈影响,尽管这与学科有关:例如,JIF 在医学领域的使用率较高 –而不太传统的研究活动,例如开放数据,则不太可能得到评估。
更多信息:建议——促进科学进步的研究评估:理想研究评估的挑战和前景 (scj.go.jp)
综上所述,一些地区、国家和机构的科研评价改革势头不断增强。 这里举例说明的例子包括全国范围内的改革、建立寻求变革的志同道合的机构财团或联盟、针对特定部门的目标/指导以及解决不当激励和行为的干预措施。
这还不是一场连贯且包容的全球对话,实践和见解也不一定公开分享。 一些 GYA、IAP 和 ISC 成员已经在这一领域积极主动,可以找到有用的机会来帮助他们相互之间以及与更广泛的成员分享他们的学习和良好实践。 研究院 (RoRI) 将于 2023 年晚些时候推出全球负责任研究评估观察站 (AGORRA),将为分享学习、比较分析国家和国际改革体系以及加速两国改革提供进一步的平台。跨这些系统交流和测试好想法的方式。
4。 结论
本文阐述了研究评价改革的主要驱动力、机遇和挑战,并整理了全球、区域、国家和机构层面发生的变革的说明性例子。 这样做的目的是动员 GYA、IAP 和 ISC 及其各自的成员作为全球研究生态系统的重要组成部分。
基于过去十年的科学文献和宣传工作,有五个主要结论。
1. 重新思考研究人员、机构和成果的评估方式的必要性是明确且紧迫的。 在快速变化的世界背景下,保持研究的完整性和质量,最大限度地发挥科学的多样性、包容性和非歧视性,以及为全球公共利益优化科学是主要驱动力。
2. 研究的委托、资助、交付和交流方式正在快速发展。 朝着以任务为导向的跨学科科学、开放的科学框架、不断发展的同行评审模式、人工智能和机器学习的使用以及社交媒体的迅速崛起正在改变传统的研究和交流方式,需要对研究评估系统进行新的思考以及支撑它的指标和同行评审流程。 需要更多、更紧迫的研究来保证这些系统的未来发展。
3. 必须建立更加平衡的研究评价体系,包括定量和定性指标,重视多种形式的研究成果、过程和活动。 然而,指出定性同行评审过程至少与文献计量学一样重要并不简单,而且由于世界不同地区在制定评估系统方面处于不同阶段,情况变得更加复杂:在某些地区,关于研究评估改革的辩论相当深入,在另一些情况下,它们才刚刚出现或不存在。
4. 需要采取协调一致、真正具有全球性和包容性的举措,以动员关键利益攸关方社区制定和实施评估和资助研究的连贯方式; 相互学习以及向其他部门(特别是研究资助者和开发机构)学习。 实现变革性变革的集体、包容性行动需要认识到相互关联性,而不是国际化或普遍化,即对具体情况敏感,认识到世界不同地区面临的不同挑战以及研究生态系统的丰富异质性,同时确保充分的同质性,以实现兼容的研究和资助系统以及研究人员的流动性,以尽量减少分歧和分散。 片面的、排他性的对话可能会进一步偏见和损害那些历史上被排除在外的人。
5. 全球、区域、国家和机构等各个层面都需要变革,因为指标贯穿整个研究生态系统,而且所有这些层面都是相互关联的。 所有利益相关者都需要发挥合作伙伴而非对手的作用,包括资助者、大学、大学和研究机构协会、政府间组织(IGO)、政府和政府网络、科学院、科学政策制定者、研究和创新管理者以及个人研究人员。 GYA、IAP 和 ISC 会员资格共同涵盖了这一丰富景观的很大一部分(图 1,附录 C)。
图 1:与 GYA、IAP 和 ISC 成员资格相关的利益相关者地图(点击查看)
5. 行动建议
GYA、IAP 和 ISC 等组织的召集力可以帮助汇集研究生态系统中的多种观点和经验:对现有和新举措进行试验、学习和发展。 至关重要的是,他们可以与推动变革的主要利益相关者(政府、研究资助者和大学,以及 DORA 等重要的全球运动)建立联系,以帮助动员行动者架构。 总的来说,它们可以充当:
● 倡导者——提高对研究评估辩论、发展和改革的认识,认识到其成员担任(i)初级同事的导师和监督者,(ii)高等教育机构的领导者,(iii)资助和出版治理机构的董事会成员以及( iv) 决策者顾问;
● 创新者——探索以包容和创新的方式评价基础研究和应用研究的不同方法;
● 榜样——改变他们自己的机构文化——更新他们的会员资格、奖项、出版和会议实践,并以身作则;
● 评估者——利用机构和个人层面成员的作用,其职责是评估研究人员、研究和机构,以及具有出版、编辑和同行评审职责的人员;
● 资助者——特别是利用ISC 中代表的资助机构,以及管理和分配大量国内和国际赠款的成员;
● 合作者——支持已经建立的改革运动,例如DORA、欧盟CoARA 和UNESCO 的开放科学承诺。
本文的作者鼓励 GYA、IAP 和 ISC 以及类似组织通过以下方式参与:
行动 1:分享学习成果和良好实践
本文重点介绍了世界各地干预和创新的例子。 分享经验和建立强大且包容的“意愿联盟”的空间至关重要。
1.1:为已经在该领域积极主动的成员提供一个平台,以分享他们的学习成果并建立战略联系,特别是在国家层面。 使用这些示例来帮助填充 DORA 的仪表板 [106] 学习和良好实践。
1.2:调查并绘制成员主导的研究评估改革进展,以确定机构、国家和区域方法,并寻找和分享良好实践。 召集那些已经领导/参与重大国家和国际倡议的人士,在会员中进行宣传和学习。
行动 2:以身作则
GYA、IAP 和 ISC 会员资格涵盖了研究生态系统的许多部分,每一个都可以在塑造科学家的成功方面发挥重要作用。
2.1:广大会员向更先进的研究评估方法过渡。 以身作则,通过自己的会员理念和实践帮助改变研究评估文化,同时借鉴 DORA 和 GRC 的经验。 学术界作为传统的精英组织,在这里发挥着特殊的作用——应该鼓励它们扩大自己的选举和选拔标准,以反映对研究质量和影响力更广泛和更多元化的理解,以反映这种多元化(并与其成员资格更具包容性和多样性。
2.2:激发区域合作和领导力。 鼓励 GYA 成员和国家青年学院的区域网络、IAP 的区域学院网络和 ISC 的区域联络点考虑效仿 ALLEA 委员会的 倡议,根据自己的情况量身定制。
行动 3:与主要支持者建立战略伙伴关系。
负责推动研究评估改革的三个主要参与者是政府、研究资助者和大学。 GYA、IAP 和 ISC 都可以帮助研究界参与改革和弥合目前存在的脱节。
3.1:与 GRC 领导层接触,探索合作方式——主要是激励成员及其各自的 GRC 国家代表探索他们的研究社区如何参与。
3.2:与国际大学协会(IAU)等全球和区域大学网络合作,为研究界开发新的培训工具; 利用 HEI 在 GYA、IAP 和 ISC 集体成员中的领导力作为倡导者。
3.3:将 DORA 资助国(阿根廷、澳大利亚、巴西、哥伦比亚、印度、日本、荷兰、乌干达和委内瑞拉)的成员机构与 DORA 资助项目联系起来,分享想法,并有可能扩大这些当地举措。
3.4:与领先的国际发展机构建立关系,这些机构已经在低收入和中等收入国家以及最不发达国家部署创新和有影响力的研究评估战略。
3.5:与教科文组织合作,帮助制定其下的国家研究评估承诺 关于开放科学的建议。
行动 4:为研究评估的未来提供智力领导。
关注研究评价改革的具体而紧迫的挑战势在必行。 GYA、IAP 和 ISC 以及类似的国际网络可以利用各自的召集权、成员的智力影响力和影响力以及与关键支持者的联系。
4.1:与主要支持者共同召开一系列多利益相关者讨论论坛或“转型实验室”,以重新思考和实施研究评估改革——让高等教育机构及其全球(例如 IAU 和 IARU)和区域网络(例如 LERU 和 AAU)的领导者参与其中[107 ])、研究资助者(包括 GRC 国家代表)、国际发展机构和领先出版商等。 筹集新资源或部署现有资源来资助这项工作(有关一些初步想法,请参阅附录 D)。
4.2:针对研究评估未来发展的一个重要方面开展一项新颖的研究,例如(1)技术进步对研究评估和同行评审(包括使用和滥用)的影响,以及这些在未来如何发展,以及( 2)更广泛地改革同行评审制度(在透明度、开放性、能力、认可和培训方面)。 这两个问题对于知识的可靠性和科学的可信度来说都是不可或缺的。
所有这些努力的核心应该是三个基本的事情:
• 将科学研究和研究人员的评价标准扩展到传统学术指标之外,包括多种形式的研究成果和功能,包括可以衡量研究社会影响的定量标准。
• 鼓励高等教育机构领导者和研究资助者采用和培育这些新的评估标准作为研究质量和价值的衡量标准。
• 与这些领导人合作,为下一代研究人员提供新形式的意识提高和培训,使他们具备与政策制定者、公众和其他关键群体有效沟通和参与的必要技能; 促进研究事业的多样性和包容性。
本文作者的结论是,像 GYA、IAP 和 ISC 这样的网络,与其他关键群体一起并为其提供支持,可以帮助建立一个连贯的、参与性的全球倡议,以围绕这一议程动员研究界、大学和其他高等教育机构,并考虑如何实施评估和资助研究的新方法,使其更加高效、公平、包容和有影响力。
附录
作者和致谢
本文由 GYA-IAP-ISC 范围界定小组成员撰写,该小组在 2021 年 2023 月至 XNUMX 年 XNUMX 月期间间歇性工作(更多详细信息请参见附录 A):
• Sarah de Rijcke(主席,荷兰)
• 克莱门西亚·科森蒂诺(美国)
• 罗宾·克鲁(南非)
• 卡洛·迪波利蒂(意大利)
• Shaheen Motala-Timol(毛里求斯)
• Noorsaadah Binti A Rahman(马来西亚)
• 劳拉·罗维利(阿根廷)
• 大卫·沃克斯(澳大利亚)
• 姚宇鹏(中国)
工作组感谢 Tracey Elliott(ISC 高级顾问)的协调和起草工作。 还要感谢 Alex Rushforth(荷兰莱顿大学科学技术研究中心 (CWTS))和 Sarah Moore (ISC) 的额外投入和支持。
工作组还感谢所有在准备本文(附录 B)过程中接受咨询的人士,他们付出了时间并分享了他们对各自国家和地区的研究评估的看法,并感谢 GYA 提名的审稿人IAP 和 ISC:
• Karina Batthyány,拉丁美洲社会科学委员会 (CLACSO) 执行主任(乌拉圭)
• Richard Catlow,伦敦大学学院研究教授(英国)
• Sibel Eker,Radbound 大学助理教授(荷兰)
• Encieh Erfani,国际理论物理中心科学研究人员(伊朗、意大利)
• Motoko Kotani,Riken 执行副总裁(日本)
• Pradeep Kumar,威特沃特斯兰德大学教授兼高级研究员(南非)
• Boon Han Lim,拉曼大学(拉曼大学)副教授(马来西亚)
• Priscilla Kolibea Mante,夸梅恩克鲁玛科技大学 (KNUST) 高级讲师(加纳)
• Alma Hernández-Mondragón,墨西哥科学促进协会 (AMEXAC) 主席(墨西哥)
• Khatijah Mohamad Yusoff,马来西亚博特拉大学 (UPM) 高级教授(马来西亚)
参考资料
1. 教科文组织。 2021 年。联合国教科文组织科学报告:与时间赛跑,实现智慧发展(第一章)。 联合国教科文组织。 https://unesdoc.unesco.org/ark:/1/pf48223
2. 英国皇家学会。 (2012)。 科学作为一个开放的企业。 英国皇家学会科学政策中心。 https://royalsociety.org/~/media/policy/projects/sape/2012-06-20-saoe.pdf
3. Haustein, S. 和 Larivière, V. 2014。利用文献计量学评估研究:可能性、局限性和不利影响。 I. Welpe、J. Wollersheim、S. Ringelhan、M. Osterloh(编辑),《激励与绩效》,Cham、Springer,第 121-139 页。
4. Macleod, M.、Michie, S.、Roberts, I.、Dirnagi, U.、Chalmers, I.、Ioadnnidis, J.、Al-Shahi Salman, R.、Chan.、AW 和 Glasziou, P. 2014 . 生物医学研究:增加价值,减少浪费。 柳叶刀,卷。 383,第 9912 期,第 101-104 页。
5. Bol, T.、de Vaan, M. 和 van de Rijt, A. 2018。科学资助中的马太效应。 美利坚合众国国家科学院院刊,卷。 115,第 19 期,第 4887–4890 页。
6. 国际科学理事会。 2021。打开科学记录:让学术出版为数字时代的科学服务。 法国巴黎,ISC。 https://doi.org/10.24948/2021.01
7. Müller, R. 和 de Ricke, S. 2017。用指标思考。 探索生命科学中学业成绩指标的认知影响。 研究评估,卷。 26,第 3 期,第 157-168 页。
8. Ansede, M. 2023。世界上被引用次数最多的科学家之一拉斐尔·卢克 (Rafael Luque) 被无薪停职 13 年。 埃尔帕斯。 https://english.elpais.com/science-tech/2023-04-02/one-of-the-worlds-most-cited-scientists-rafael-luque-suspended-without-pay-for-13-years。 html
9.应用内购买。 2022。打击掠夺性学术期刊和会议。 意大利的里雅斯特,IAP。 https://www.interacademies.org/publication/predatory-practices-report-English
10. Elliott, T.、Fazeen, B.、Asrat, A.、Cetto, AM.、Eriksson, S.、Looi, LM 和 Negra, D. 2022。对掠夺性学术期刊和会议的普遍性和影响的看法:对研究人员的全球调查。 学习出版,卷。 3,第 4 期,第 516-528 页。
11. Collyer, TA 2019。“萨拉米切片”有助于职业生涯,但损害科学。 自然人类行为,卷。 3,第 1005–1006 页。
12. Abad-García,MF 2019。剽窃和掠夺性期刊:对科学诚信的威胁。 Anales De Pediatría(英文版),卷。 90,第 1 期,第 57.e1–57.e8 页。
13. Omobowale, AO、Akanle, O.、Adeniran, AI 和 Adegboyega, K. 2013。尼日利亚的外围奖学金和外国付费出版的背景。 当前社会学,卷。 62,第 5 期,第 666-684 页。
14.奥德韦,D.-M。 2021 年。学术期刊、记者在处理研究撤回时继续传播错误信息。 记者的资源。 https://journalistsresource.org/home/retraction-research-fake-peer-review/
15. Curry, S.、de Rijcke, S.、Hatch, A.、Pillay, D.、van der Weijden, I. 和 Wilsdon, J. 2020。资助者在负责任的研究评估中不断变化的角色:进展、障碍和前进的道路。 英国伦敦,研究院研究。
16. 根据联合国(2021)的定义,全球北方通常指工业化或发达经济体,而全球南方则指新兴工业化或处于工业化或发展过程中的经济体,并且通常是当前的经济体。或前殖民主义的臣民。
17. 学院间合作伙伴关系。 第 12 节:从更大的包容性中获胜:多样性与学术文化之间的关系。 国际应用程序。 https://www.interacademies.org/page/session-12-writing-greater-inclusion-relation- Between-diversity-and-academic-culture
18. 全球青年学院。 科学卓越工作组。 德国柏林,GYA。 https://globalyoungacademy.net/activities/scientific-excellence/
19.国际标准委员会。 2021。释放科学:履行可持续发展使命。 法国巴黎,ISC。 号码:10.24948/2021.04
20.国际标准委员会。 2022 年。摘自彼得·格鲁克曼在无尽前沿研讨会上的演讲。 法国巴黎。 国际标准委员会。 https://council.science/current/blog/an-extract-from-peter-gluckmans-speech-to-the-endless-frontier-symposium/
21. Belcher, B.、Clau, R.、Davel, R.、Jones, S. 和 Pinto, D. 2021。跨学科研究规划和评估的工具。 集成和实施见解。 https://i2insights.org/2021/09/02/transthought-research-evaluation/
22. Belcher, BM、Rasmussen, KE、Kemshaw, MR 和 Zornes, DA 2016。在跨学科背景下定义和评估研究质量。 研究评估,卷。 25,第 1 期,第 1-17 页。
23.威尔斯登,J.等人。 2015。度量浪潮:度量在研究评估和管理中的作用的独立审查报告。 HEFCE。
24. 教科文组织。 联合国教科文组织关于开放科学的建议。 法国巴黎,联合国教科文组织。 https://unesdoc.unesco.org/ark:/48223/pf0000379949
25. 教科文组织的一位消息人士透露,这项工作目前被搁置,因为辩论仅由少数人主导,不一定能引起许多人的共鸣:在制定建议之前必须进行广泛的对话。
26. Barroga, E. 2020。同行评审的创新策略。 韩国医学杂志,卷。 35,第 20 期,第 e138 页。
27.Woods,HB 等人。 2022.学术出版同行评审的创新:元摘要。 SocArXiv,doi:10.31235/osf.io/qaksd
28. Kaltenbrunner, W.、Pinfield, S.、Waltman, L.、Woods, HB 和 Brumberg, J. 2022。创新同行评审,重新配置学术交流:正在进行的同行评审创新活动的分析概述。 SocArXiv,doi:10.31235/osf.io/8hdxu
29. Holm, J.、Waltman, L.、Newman-Griffis, D. 和 Wilsdon, J. 2022。研究资助组织使用机器学习和人工智能的良好实践:研讨会系列的见解。 英国伦敦,研究院研究。 https://doi.org/10.6084/m9.figshare.21710015.v1
30. Procter, R.、Glover, B. 和 Jones, E. 2020。自动化时代的研究 4.0 研究。 英国伦敦,演示。
31. Baker, M. 2015。智能软件发现心理学论文中的统计错误。 自然,https://doi.org/10.1038/nature.2015.18657
32. Van Noorden, R. 2022。研究人员使用人工智能来分析同行评审。 自然 609、455。
33. Severin, An.、Strinzel, M.、Egger, M.、Barros, T.、Sokolov, A.、Mouatt, J. 和 Muller, S. 2022。Arxiv,
34. Gadd, E. 2022。基于人工智能的引文评估工具:好、坏还是丑? 圣经魔术师。 https://thebibliomagician.wordpress.com/2020/07/23/ai-based-itation-evaluation-tools-good-bad-or-ugly/
35. Foltýnek, T.、Meuschke, N. 和 Gipp, B. 2020。学术剽窃检测:系统文献综述。 ACM 计算调查,卷。 52,第 6 期,第 1-42 页。
36. Quach, K. 2022。出版商使用人工智能来抓捕篡改数据的不良科学家。 登记册。 https://www.theregister.com/2022/09/12/academic_publishers_are_using_ai/
37. Van Dis, E.、Bollen, J.、Zuidema.、van Rooji, R 和 Bockting, C. 2023。ChatGPT:五个研究重点。 自然,卷。 614,第 224-226 页。
38. Chawla, D. 2022。人工智能应该在评估研究质量方面发挥作用吗? 自然,https://doi.org/10.1038/d41586-022-03294-3
39. Cyranoski, D. 2019。人工智能正在中国选择资助评审员。 自然,卷。 569,第 316-317 页。
40. Mike, T. 2022。可以通过机器学习评估已发表的学术期刊文章的质量吗? 定量科学研究,卷。 3,第 1 期,第 208-226 页。
41. Chomsky, N.、Roberts, I. 和 Watumull, J. 2023。ChatGPT 的虚假承诺。 纽约时报。 https://www.nytimes.com/2023/03/08/opinion/noam-chomsky-chatgpt-ai.html
42. 科睿唯安。 2022。研究评估:起源、演变、结果。 科睿唯安。 https://clarivate.com/lp/research-assessment-origins-evolutions-outcomes/
43. Blauth, TF、Gstrein, OJ 和 Zwitter, A. 2022。人工智能犯罪:人工智能的恶意使用和滥用概述。 IEEE 访问,卷。 10,第 77110–77122 页。
44. Castelvecchi, D. 2019。人工智能先驱:“虐待的危险是非常真实的”。 自然,doi:https://doi.org/10.1038/d41586-019-00505-2
45. Jordan, K. 2022。学术界通过社交媒体平台互动对研究影响和参与的看法。 学习、媒体和技术,doi:10.1080/17439884.2022.2065298
46. Wouters, P.、Zahedi, Z. 和 Costas, R. 2019。新研究评估的社交媒体指标。 Glänzel, W.、Moed, HF、Schmoch U.、Thelwall, M.(编辑),《施普林格科学技术指标手册》。 施普林格链接。
47. Rafols, I. 和 Stirling, A. 2020。设计开放评估指标。 研究评估的见解。 ResearchGate,doi:10.31235/osf.io/h2fxp
48. Rich, A.、Xuereb, A.、Wrobel, B.、Kerr, J.、Tietjen, K.、Mendisu, B.、Farjalla, V.、Xu, J.、Dominik, M.、Wuite, G .,Hod, O. 和 Baul, J. 2022。回到基础。 德国哈雷全球青年学院。
49. Jong, L.、Franssen, T. 和 Pinfield, S. 2021。卓越的研究生态系统:文献综述。 英国伦敦,研究院研究。
50. Hatch, A. 和 Curry, S. 2020。研究文化:改变我们评估研究的方式很困难,但并非不可能。 埃莱夫,卷。 9,p。 e58654。
51.国际应用程序。 2022。打击掠夺性学术期刊和会议。 意大利的里雅斯特,IAP。
52. Hicks, D.、Wouters, P.、Waltman, L.、de Rijcke, S. 和 Rafols, I. 2015。文献计量学:研究指标的莱顿宣言。 自然,卷。 520,第 429–431 页。
53. 普布隆。 2018。全球同行评审状况。 英国伦敦,科睿唯安。 https://doi.org/10.14322
54. Kovanis, M.、Porcher, R.、Revaud, P. 和 Trinquart, L. 2016。生物医学文献中期刊同行评审的全球负担:集体企业的严重不平衡。 《公共科学图书馆》,卷。 11,第 11 期,第 0166387 页。 eXNUMX。
55. Forrester, B. 2023。厌倦和倦怠:“安静戒烟”袭击学术界。 自然,卷。 615,第 751–753 页。
56. Hatch, A. 和 Curry, S. 2020。研究文化:改变我们评估研究的方式很困难,但并非不可能。 埃莱夫,卷。 9,p。 e58654。
57. Moher, D.、Bouter, L.、Kleinert, S.、Glasziou, P.、Har Sham, M.、Barbour, V.、Coriat, AM、Foeger, N. 和 Dirnagi, U. 2020。 Kong 评估研究人员的原则:促进研究诚信。 PLoS 生物学,卷。 18,第 7 期,第 3000737 页。 eXNUMX。
58. Wilsdon, J.、Allen, L.、Belfiore, E.、Campbell, P.、Curry, S.、Hill, S.、Jones, R.、Kain, R. 和 Kerridge, S. 2015 年。浪潮:关于指标在研究评估和管理中的作用的独立审查报告。 号码:10.13140/RG.2.1.4929.1363
59. Curry, S.、Gadd, E. 和 Wilsdon, J. 2022。利用度量浪潮:英国负责任研究评估的指标、基础设施和优先事项。 英国伦敦,研究院研究。
60.《自然》社论。 2022年。支持欧洲负责任的研究评估的大胆愿景。 自然,卷。 607,p。 636.
61. 研究评估宣言(DORA)。 https://sfdora.org/about-dora/
62. Hicks, D.、Wouters, P.、Waltman, L.、de Rijcke, S. 和 Rafols, I. 2015。文献计量学:研究指标的莱顿宣言。 自然,卷。 520,第 429–431 页。
63. Curry, S.、Gadd, E. 和 Wilsdon, J. 2022。利用度量浪潮:英国负责任研究评估的指标、基础设施和优先事项。 英国伦敦,研究院研究。 https://rori.figshare.com/articles/report/Harnessing_the_Metric_Tide/21701624
64.朵拉。 旧金山研究评估宣言。 https://sfdora.org/read/
65.朵拉。 推进研究评估的工具。 朵拉。 https://sfdora.org/project-tara/
66.朵拉。 DORA 社区参与补助金:支持学术评估改革 https://sfdora.org/dora-community-engagement-grants-supporting-academic-assessment-reform/
67. 不规范。 研究评估范围框架。 https://inorms.net/scope-framework-for-research-evaluation/
68. 不规范。 范围框架。 https://inorms.net/scope-framework-for-research-evaluation/
69. Torfin, S. 2018。研究质量升级版。 国际发展研究中心。 https://www.idrc.ca/en/rqplus
70. Reid, C.、Calia, C.、Guerra, C. 和 Grant, L. 2019。全球研究中的道德行动:工具包。 苏格兰爱丁堡,爱丁堡大学。 https://www.ethical-global-research.ed.ac.uk/
71. Valters, C. 2014。国际发展变革理论:沟通、学习还是责任? 亚洲基金会。 https://www.alnap.org/system/files/content/resource/files/main/jsrp17-valters.pdf
72. Fraser, C.、Nienaltowski, MH、Goff, KP、Firth, C.、Sharman, B.、Bright, M. 和 Dias, SM 2021。负责任的研究评估。 全球研究委员会。 https://globalresearchcouncil.org/news/responsible-research-assessment/
73. 全球研究理事会。 GRC 负责任的研究评估。 YouTube。 https://www.youtube.com/watch?v=CnsqDYHGdDo
74. Curry, S.、de Rijcke, S.、Hatch, A.、Dorsamy, P.、van der Weijden, I. 和 Wilsdon, J. 2020。资助者在负责任的研究评估中的角色变化。 英国伦敦,研究院研究。 https://doi.org/10.6084/m9.figshare.13227914.v1
75. 全球研究理事会。 负责的研究评估工作组。 GRC。 https://globalresearchcouncil.org/about/responsible-research-assessment-working-group/
76. 全球青年学院。 科学卓越。 吉亚。 https://globalyoungacademy.net/activities/scientific-excellence/
77. Adams, J.、Beardsley, R.、Bornmann, L.、Grant, J.、Szomszor, M. 和 Williams, K. 2022。研究评估:起源、演变、结果。 科学信息研究所。 https://clarivate.com/ISI-Research-Assessment-Report-v5b-Spreads.pdf
78.朵拉。 资源库。 https://sfdora.org/resource-library
79. Saenen, B.、Hatch, A.、Curry, S.、Proudman, V. 和 Lakoduk, A. 2021。重新构想学术职业评估:创新与变革的故事。 朵拉。 https://eua.eu/downloads/publications/eua-dora-sparc_case%20study%20report.pdf
80. 推进研究评估联盟(CoARA)。 https://coara.eu/
81. CoARA。 2022。改革研究评估协议。 https://coara.eu/app/uploads/2022/09/2022_07_19_rra_agreement_final.pdf
82.《自然》社论。 2022年。支持欧洲负责任的研究评估的大胆愿景。 自然,卷。 607,p。 636.
83. 开放和普遍的科学。 OPUS Home – 开放和通用科学 (OPUS) 项目。 https://opusproject.eu/
84. Vergoulis, T. 2023。GraspOS 迈向更负责任的研究评估。 打开AIRE。 https://www.openaire.eu/graspos-moving-forward-to-a-more-responsible-research-assessment
85. 欧洲研究理事会。 2022 年。ERC 科学委员会决定更改 2024 年征集的评估表格和流程。 欧洲研究委员会。 https://erc.europa.eu/news-events/news/erc-scientific-council-decides-changes-evaluation-forms-and-processes-2024-calls
86. 所有欧洲学院。 2022. ALLEA 关于欧洲科学院内部研究评估改革的声明。 阿莱亚。 https://allea.org/wp-content/uploads/2022/10/ALLEA-Statement-RRA-in-the-Academies.pdf
87. Eurodoc、MCAA、YAE、ICoRSA 和 GYA。 2022 年。欧盟理事会关于研究评估和开放科学实施结论的联合声明。 泽诺多,doi:10.5282/zenodo.7066807。
88. Overlaet, B. 2022。多维学术职业之路——研究人员评估的 LERU 框架。 LERU,比利时鲁汶。 https://www.leru.org/files/Publications/LERU_PositionPaper_Framework-for-the-Assessment-of-Researchers.pdf
89. 英国皇家学会。 研究人员的简历。 https://royalsociety.org/topics-policy/projects/research-culture/tools-for-support/resume-for-researchers/
90. Grove, J. 2021。叙述性简历讲述的故事正确吗? 泰晤士高等教育(THE)。 https://www.timeshighereducation.com/depth/do-narrative-cvs-tell-right-story
91.瑞西特。 2011-2020 年按就业部门 (FTE) 划分的研究人员。 app.ricyt.org/ui/v3/comparative.html?indicator=INVESTEJCSEPER&start_year=2011&end_year=2020
92.CLACSO。 2020.评估科学研究评估。 拉丁美洲研究评估论坛 (FOLEC) 的《拉丁美洲和加勒比地区科学研究评估转型》系列。 CLACSO,布宜诺斯艾利斯,阿根廷。 https://www.clacso.org/wp-content/uploads/2020/05/FOLEC-DIAGNOSTICO-INGLES.pdf
93.CLACSO。 2021 年。拉丁美洲和加勒比地区评价体系的转型,促进新评价政策的工具。 拉丁美洲研究评估论坛 (FOLEC) 系列。 CLACSO,布宜诺斯艾利斯,阿根廷。 https://www.clacso.org/wp-content/uploads/2022/02/Documento-HERRAMIENTA-2-ENG.pdf
94. Gras, N. 2022。面向发展问题的研究评估形式。 拉丁美洲和加勒比地区国家科技组织和高等教育机构的实践和观点。 福莱克。 CLACSO,布宜诺斯艾利斯,阿根廷。 2022-07-27_Report Forms-of-research-assessment.pdf ENG.pdf (dspacedirect.org)
95. CLACSO 是该地区的社会科学理事会,也是社会相关和负责任的科学的领先倡导者。 拉丁美洲研究评估论坛 (FOLEC) 是一个辩论和分享良好实践的区域空间,并且正在制定区域研究评估指南以支持这些原则。 两者都提供了强有力的区域领导力。
96.SGCI。 撒哈拉以南非洲科学资助委员会倡议 (SGCI)。 https://sgciafrica.org/
97.SGCI。 Tijssen, R. 和 Kraemer-Mbula, E. 2017。政策简介:全球南方研究卓越的视角——发展中国家背景下的评估、监测和评价。 SGCI。 https://sgciafrica.org/wp-content/uploads/2022/03/Policy-Brief-Perspectives-on-research-excellence-in-the-Global-South_-Assessment-monitoring-and-evaluation-in-development-国家背景.pdf
98. Tijssen, R. 和 Kraemer-Mbula, E. 2018。非洲的卓越研究:政策、观念和绩效。 SGCI。 https://sgciafrica.org/research-excellence-in-africa-policies-perceptions-and-performance/
99. Tijssen, R. 和 Kraemer-Mbula, E. 2018。非洲的卓越研究:政策、观念和绩效。 科学与公共政策,卷。 45 第 3 期,第 392-403 页。 https://doi.org/10.1093/scipol/scx074
100. SGCI。 研究竞赛质量良好实践指南。 https://sgciafrica.org/eng-good-practice-guideline-on-the-quality-of-research-competitions/
101. NRF。 NRF 举办战略会议以推进非洲研究伙伴关系 – 国家研究基金会
102. Belcher, BM、Rasmussen, KE、Kemshaw, MR 和 Zornes, DA 2016。在跨学科背景下定义和评估研究质量,研究评估,卷。 25,页:1–17,https://doi.org/10.1093/reseval/rvv025
103.阿林。 2020. 科学技术与创新 (STI) 指标 – 非洲研究与影响网络 (arin-africa.org)
104. McLean R.、Ofir Z.、Etherington A.、Acevedo M. 和 Feinstein O. 2022。研究质量升级 (RQ+) – 以不同的方式评估研究。 渥太华,国际发展研究中心。 https://idl-bnc-idrc.dspacedirect.org/bitstream/handle/10625/60945/IDL-60945.pdf?sequence=2&isAllowed=y
105. 国际监测与评估学院
106.朵拉。 塔拉仪表板。 https://sfdora.org/tara-landing-page/
107. IARU,国际研究密集型大学协会; LERU,欧洲研究型大学联盟; AAU,非洲大学协会