综述:驯服荒野西部:教育研究领域文献计量综述的系统评价与质量评估

时间:2026年5月26日
来源:Educational Assessment Evaluation and Accountability

编辑推荐:

摘要:近年来,文献计量综述(bibliometric review)在多个学科领域迅速增长。这一前所未有的发表轨迹引发了对该类综述质量及其对知识贡献的担忧。本系统评价采用描述性统计与内容分析方法,对截至2024年发表于Scopus索引期刊中的1,873篇教育研

广告
   X   

摘要:近年来,文献计量综述(bibliometric review)在多个学科领域迅速增长。这一前所未有的发表轨迹引发了对该类综述质量及其对知识贡献的担忧。本系统评价采用描述性统计与内容分析方法,对截至2024年发表于Scopus索引期刊中的1,873篇教育研究文献计量综述进行了回顾。研究人员分析了这些教育综述的研究图景、主题趋势及方法论质量。值得注意的是,87%的综述发表于2020至2024年间,97%自2015年以来发表。多数论文刊载于Scopus Q1和Q2区期刊,其中49篇发表于领域内前1%的顶尖期刊。同样令人惊讶的是,69%的综述由新兴国家学者撰写,这与传统上由经济发达国家作者主导原创研究发表的格局形成鲜明对比。研究最频繁的议题涉及高等教育(higher education)、研究绩效(research performance)和技术赋能学习(technology-enabled learning)。进一步分析发现,大量存在作者就同一主题、采用相似方法、在同一时间段内进行综述且相互未引用的现象。研究人员将一套方法论质量评价量表应用于分层随机抽取的60篇样本——这些文献分别发表于高、中、低百分位的Scopus期刊。尽管分析识别出一些示范性综述,但总体结果表明,许多文献计量综述因持续的方法论缺陷和概念深度不足而未能实现其潜在价值。这些 deficit 对教育及其他学科领域文献计量综述的质量与贡献构成威胁。研究提出了改进未来文献计量综述质量和贡献的具体建议。
研究背景与动机

过去二十年间,知识生产与传播在各学科领域迅速扩张,这源于出版资源的数字化、万维网的发展、高等教育的全球扩展以及对高校教师出版压力的增加。在此背景下,学者日益采用文献计量综述来探索大规模知识积累与生产模式,这亦是文献计量综述方法的目标之一。与元分析(meta-analysis)和整合性综述(integrative review)合成相对少量文献的"研究发现"不同,文献计量综述合成的是与数百至数万篇文献相关的书目元数据。文献计量综述利用"大数据分析"识别传统综述方法和小样本难以可靠辨识的趋势。近年来,VOSviewer、SciMAT、Biblioshiny、CitNetExplore、CiteSpace和Bibliometrix等开源文献计量数据管理软件的出现进一步促进了文献计量分析的发展。这些趋势的汇聚导致过去十年间文献计量综述的指数级增长。然而,这种异常激增对研究质量构成威胁,引发了对这些文章是否均服务于实质性学术目的的质疑。部分学术管辖区已要求学者在接受发表前证明其文献计量综述的知识贡献,期刊编辑亦对此趋势表示关注。

研究缺口

本系统评价旨在解决三个具体研究缺口:第一,缺乏关于教育领域文献计量综述生产情况的公开数据;第二,缺乏对教育研究者近期所研究主题的综合分析;第三,教育领域文献计量综述的激增提示需要评估这些综述所应用的质量标准。本研究被框定为系统评价而非文献计量评价,研究人员从Scopus索引的教育主题文献计量综述中来源1,873篇文章,运用描述性统计和关键词分析记录研究图景并识别最常见教育主题,进而采用内容分析对分层随机样本的60篇综述进行方法论质量评估。

研究方法

研究以"伞形综述"(umbrella review)为框架,即运用系统评价方法综合既有研究综述的发现、理论或方法。数据来源方面,研究以Scopus为数据仓库,因其较Google Scholar具有更一致的期刊审核机制和更精细的书目数据导出功能,且较Web of Science具有更广泛的教育期刊覆盖面。研究人员采用关键词检索策略,概念构念为"文献计量综述"和"教育",最终检索式涵盖多种分析术语变体以确保结果全面性。

2025年11月20日的Scopus检索共生成4,040篇文献,经PRISMA流程筛选后最终纳入1,873篇期刊文章。数据分析方面,描述性分析用于记录研究图景;VOSviewer 1.6.20和MS Excel用于关键词分析;内容分析用于评估质量。为评估方法论质量,研究人员开发了包含13个类目的分析量表,分为引言(4分)、方法(6分)、结果(8分)和讨论(7分)四部分,总分100分。量表开发遵循结构化多阶段过程以确保内容效度,包括专家反馈和四年多的应用修订。

研究图景

结果显示,1,873篇期刊文章构成相当规模的文献计量综述语料库,其中87%发表于2018至2024年间,97%自2015年以来发表,证实了教育领域文献计量综述近年来的激增态势。学科分布分析发现,相当比例的文献计量综述由计算机科学、医学、护理学、商学和工学等学科学者而非教育学者完成。地理分布方面,来自97个国家的作者参与了这些综述的撰写,其中60个新兴国家(亚洲、非洲、拉丁美洲)贡献了69%的文章,而37个盎格鲁-美欧国家贡献31%,这与教育领域原创研究论文的地理生产格局几乎相反。

主题分析

关键词分析显示,"高等教育"和"研究绩效"出现频率最高,凸显了文献计量学提供研究绩效与生产力多维度分析的能力。关键词同时突显了技术媒介教学方法(如电子学习、技术、人工智能)在教育研究中的涌现。进一步分析识别出至少八个与技术赋能教学和学习明确相关的附加关键词(如增强现实、数字学习、混合学习模拟、移动学习)。鉴于87%的综述发表于2020年后,研究人员认为这些教育主题构成了教育研究的"研究前沿"。

主题趋同的子集分析提示了主题过度饱和问题。以"增强现实"为标题的41篇综述中,30篇发表于2022至2024年间。尽管这些综述涵盖不同学科领域和教育层次,但六篇关于"教育中的增强现实"的综述采用了本质上相同的研究范围、时间段、重叠目标和相似方法,且参考文献列表中仅存在单一交叉引用实例,反映出研究目标和方法的冗余性及知识建构的缺失。

质量评估结果

期刊质量分布方面,70%的文章发表于Scopus Q1或Q2区期刊,49篇(2.3%)发表于18种领域内前1%的顶尖期刊。引用分析显示引用影响与期刊四分位排名呈正相关,表明文献计量综述已被广泛接受且未局限于低层级期刊。

量表分析显示,60篇综述的平均原始得分为2.81分(满分4分),平均加权得分为70.2分(满分100分),标准差17.9分反映质量差异显著。按期刊层级分组后,高百分位期刊组平均原始得分3.53分、加权得分89.3分;中百分位组为2.58分和64.7分;低百分位组为2.50分和59.3分。高百分位期刊的综述在所有13个类目上均超过熟练标准(3.00分),可作为高质量示范。

引言部分

高质量综述的研究人员能够澄清研究问题并通过充分引用和讨论先前研究综述来识别研究缺口,将研究缺口与明确的、指导后续综述的研究问题相联系,且研究问题不限于研究图景描述和高被引作者/文献识别,还涉及关系和概念性问题。相反,低层级期刊综述的引言部分存在动机不清晰、研究缺口未明确界定的共性问题。最常见的"研究缺口"表述是"此前缺乏该主题的文献计量综述",但这本身并非研究缺口的证据。许多低评分综述的作者仅仅陈述研究目的而假定其必要性自明,导致隐含地依赖文献计量软件来引导综述,研究目标常由所使用的文献计量软件包的数据分析功能来定义。

方法部分

高绩效期刊综述在数据源的明确论证、检索程序的可复制性描述、数据分析程序与研究问题的明确关联及详细定义方面表现优异,涵盖描述性分析、绩效分析、科学图谱分析及网络分析。而低中百分位期刊综述常在多个标准上存在不足,包括不完整的检索字符串导致的有缺陷数据集,以及对数据分析技术选择的简要解释和论证不足,引发对所采用分析方法选择、透明度和严谨性的担忧。

结果部分

高质量综述中的表格、图表和地图经过精心开发,提供完整信息以支持准确解读,包括科学图谱中的节点名称和引文/关键词阈值,表格中加入了作者扩展的基本计数和引文数据。相反,低中百分位期刊综述的结果呈现常缺乏目的性,由于未能建立明确的研究缺口,数据分析的呈现似乎因其可由软件生成而存在,表现为表格、图表和地图的序列式报告,其间仅以两三行文字分隔,未能解释高被引文章"为何"受到关注及其贡献性质。

讨论部分

高质量综述不仅总结发现,还综合多个数据分析的模式,将发现置于先前综述背景中,明确说明综述推进文献的具体方式,并关注所用文献计量方法局限性对结果解读的影响,同时提出超越简单主题列表的具体可行建议。而低百分位期刊综述的作者很少综合分析结果,讨论部分常缺乏对先前文献的引用,未能阐明综述如何促进对文献更深入或更广泛的理解,对局限性的关注流于形式,且未能讨论发现的可行影响。

研究局限

研究局限包括:对"教育研究文献计量综述"定义的边界案例;分析量表未涵盖综述"总体意义"的 criterion;量表定义和权重分配的潜在局限;以及抽样策略中期刊在Scopus四分位中分布不均可能导致的结果泛化限制。由于70%的综述发表于Q1/Q2区期刊,样本的总体均值可能低估了完整数据集的总体均值。

研究发现解读

研究记录了教育领域文献计量综述的空前趋势——1,873篇综述中87%在短短五年内(2020-2024)发表。地理分布上,69%由新兴地区学者贡献,这与教育领域原创研究知识生产由盎格鲁-美欧社会主导的格局形成镜像。数据来源方面,Scopus被最频繁使用,但许多作者选择Web of Science时缺乏明确论证。VOSviewer作为首选软件,其用户友好界面使新手能够生成文献计量数据,但综述效果取决于作者的解读洞察而非表格和可视化数量。

两大教育主题在综述中占主导:高等教育研究绩效和技术媒介教学与学习。研究绩效关注反映了大学提升可发表研究生产力的压力;技术赋能学习主题(电子学习、虚拟现实、增强现实、混合学习、远程学习等)则代表了教育研究的前沿。同时,研究识别出这些及其他教育主题文献计量综述的过度饱和问题,作者常未能建立综述的必要性、讨论先前综述发现或引用同一主题的相关综述。

质量评估核心发现表明,尽管高百分位期刊中存在18篇示范综述,但总体而言过多综述未能达到最低方法论标准。尤其令人担忧的是普遍未能充分识别研究缺口,导致综述缺乏目的性,作者依赖软件能力引导综述,造成表格图表的序列式呈现和充分的分析解读的缺失。这与19世纪美国西部拓荒时代枪支泛滥而法治不足的"荒野西部"景象相似,文献计量软件和方法的迅速采用缺乏对既定方法论指南的充分关注。

研究启示

研究发现的三方面启示值得强调:第一,文献计量综述的"繁荣"已超出期刊评估其方法论质量的能力,期刊编辑在招募具有文献计量综述方法专长的审稿人方面存在困难;第二,需要提升从事文献计量综述学者的技能,建议作者以本研究引用的高评分综述为模型;第三,作者未能引用和讨论先前相关综述的趋势令人担忧,识别研究缺口在当前综述过度饱和的背景下日益关键;第四,许多综述完全或主要依赖描述性和绩效分析结果的报告,但描述性分析是有用但不充分的目的,引用分析应超越识别高被引作者和文献,深入讨论作者共被引、文献耦合和共词图谱的意义。

生物通微信公众号
微信
新浪微博


生物通 版权所有