摘要
目的:研究一个独特的多元文化群体,以探讨种族、社会经济地位(SES)和家庭中使用的语言与发育评估工具所测得的表现在之间的关联。
设计:前瞻性队列研究分析。
地点:卡塔尔多哈的哈马德妇产科医院。
方法:共纳入271名婴儿,他们出生于2016年9月至2017年9月期间在哈马德妇产科医院(Q-Prem队列)。在24个月大时(根据胎龄校正),这些儿童接受了基于语言的《贝利婴儿和幼儿发展量表III》(Bayley-III)和非语言的平板电脑认知评估工具Babyscreen的评估。主要结果指标为Bayley-III的认知、运动和语言综合得分以及Babyscreen的得分。
结果:所有组的Bayley-III得分均低于预期标准(认知综合得分95分(IQR:90至105分),运动得分91分(IQR:85至97分),语言得分89分(IQR:79至94分)。相比之下,Babyscreen得分与足月婴儿的公布标准相似:平均分为13分(IQR:11至15分)。家庭中使用的主要语言不是英语的儿童,在Bayley-III认知和运动综合得分上达到90分以上的概率较低(OR 0.20(95% CI 0.03至0.77)和OR 0.23(95% CI 0.04至0.79))。然而,家庭中使用的语言对Babyscreen的表现没有影响。较高的SES与Bayley-III语言评估结果略高的概率相关(OR 1.07(95% CI 1.01至1.13)),但对Babyscreen没有影响。母亲的种族没有显著影响。
结论:发育评估的表现可能受到家庭中使用的语言的影响,而非真正的认知能力。SES的影响较小,母亲的种族没有影响。这些结果强调了在多元文化群体中使用非语言评估工具的必要性,以便更好地比较真实的认知能力。
关于该主题的已有知识:
种族、使用的语言和社会经济地位(SES)已被证明对神经发育有重大影响。由于这些评估工具以英语为标准化语言,可能会因语言差异而产生偏差,从而无法反映儿童的成长环境。
本研究的新发现:
这项在种族多样化的群体中进行的研究强调了儿童使用的语言对Bayley-III认知和运动综合得分的影响,其影响程度超过了SES或种族单独的影响。相比之下,非语言测试的得分与标准化人群的结果一致,表明非语言评估可能提供更中立的文化背景下的发育表现测量方法。
本研究可能对研究、实践或政策产生的影响:
在多民族群体中解释发育测试结果时,必须考虑研究参与者的使用语言,这可能导致更准确的评估,并影响临床指南和早期干预策略的制定。
引言:
神经发育受到遗传潜力、围产期事件和儿童期环境暴露之间的动态关系的影响,导致早期认知技能存在显著差异。1 个体的前两年对认知发展最为重要,为成年生活奠定基础。2,3 许多因素在这一早期发展中起作用。种族、父母收入和父母教育水平已被报道为预测极低出生体重或早产儿认知得分较低的因素。4 实际上,这一结果不仅限于早产儿群体——研究表明,社会经济地位(SES)和父母教育水平是预测早产儿和足月儿认知发展和后期结果的重要因素。5 此外,研究表明,早期多语言环境对早产儿可能不利。6 因此,一个多样化的婴儿群体可以提供从全球视角理解神经发育的见解。
随着全球文化多样性的增加,在评估不同儿童群体的发育结果方面面临挑战。儿童的家庭语言会影响面对面评估的表现,尤其是在包含语言评估量表或测试使用不同语言的情况下。7 在像卡塔尔这样的多语言群体中,在评估神经发育时,考虑种族、语言和SES的影响非常重要。卡塔尔经历了快速发展,已成为一个拥有310万居民的国家。8–10 卡塔尔国民占这一繁荣且种族多样化的群体的15%,其中家庭收入和教育机会存在较大差异,这在许多发达国家并不常见。4,9 因此,我们的研究使用了Q-Prem队列数据,这是一个纵向出生队列研究,旨在评估大多数妊娠期小于30周的出生婴儿的结果,并包括妊娠期较长的婴儿样本(包括足月婴儿)。
作为Q-Prem项目的一部分,研究人员在2岁时使用《贝利婴儿和幼儿发展量表》(第三版;Bayley-III)进行了结构化评估,使用了原始的贝利标准化版本和翻译成阿拉伯语的版本。11 鉴于种族多样性和使用的语言差异,研究人员还加入了非语言的平板电脑认知评估工具Babyscreen。12 在本研究中,我们假设Bayley-III的综合得分会因种族、SES和家庭中使用的语言而有所不同,但使用非语言平板电脑进行的认知评估可能不受这些因素的影响。
方法与参与者:
本研究是对在卡塔尔多哈进行的Q-Prem前瞻性队列研究的分析。研究对象是从2016年9月至2017年9月在哈马德妇产科医院出生的新生儿中招募的。当时,哈马德妇产科医院是卡塔尔唯一的三级妇产科中心。家庭在新生儿住院期间由Q-Prem团队招募,并在出院前获得了知情同意。随访评估在24个月大时进行(根据胎龄校正),时间跨度为2018年11月至2019年12月。研究对象包括710名婴儿,其中271名儿童完成了Bayley-III评估,Babyscreen得分超过3分,并且具有完整的人口统计数据(图1)。这些患者未参与本研究的问题设计或结果测量。
数据收集:
研究人员和临床医生接受了来自合格专家的全面培训,掌握了Bayley-III和基于平板电脑的非语言Babyscreen评估的施测方法。Bayley-III评估使用儿童家庭中报告的主要语言进行,使用了标准化的英语版本和翻译成阿拉伯语的版本。对于说常见语言(如乌尔都语、印地语和菲律宾语)的幼儿,会说这些语言的临床医生提供了支持,并在必要时进行了现场术语翻译。数据被录入并双重核对以确保准确性,随后清理异常值。妊娠和出生数据从临床记录中提取,对于入住新生儿重症监护室的婴儿,还记录了新生儿期的详细情况。母亲完成了包含种族、家庭中使用的语言和社会指数的问卷调查。我们报告了认知、运动和语言量表的综合得分,这些得分以100分(标准差15分)为参考。11 一些作者观察到Bayley-III的得分比前一版本更为宽松,因此我们将得分分为90分或以下(轻度/中度损伤)和90分以上(无损伤)。11,13 Babyscreen是一种新开发的工具,通过逐步增加复杂性的游戏任务来评估认知能力。12 Babyscreen已在18至30个月的儿童中得到验证,具有良好的内部有效性,并且在爱尔兰和英语群体的认知和运动技能方面与Bayley-III有中等程度的相关性。12 标准化的Babyscreen群体平均得分为12分(标准差4分),我们设定7分或以下为轻度认知延迟的临界值。12 这相当于Bayley-III的<90分临界值,特异性为93%。12 社会指数使用Albert Osborn在1987年开发的社交指数分类法进行测量,14 该指数综合了多个因素(父母的职业和教育水平、住房类型、每间房的居住人数、汽车和电话拥有情况),具有较高的敏感性。14 指数得分范围为19至73分,以50分为基准。14 婴儿根据自我报告的母亲种族和家庭中使用的语言进行分类。报告说英语和其他语言的婴儿被归类为说英语的(n=17)。
数据分析:
数据分析使用R V.4.4.1软件进行。Shapiro-Wilk检验显示总妊娠天数不符合正态分布(p<0.05)。对每个独立变量和因变量进行了描述性统计,包括平均值或中位数、标准差或IQR(如适用)。对失访的婴儿与纳入研究的婴儿进行了Wilcoxon秩和检验,以评估社会指数得分的差异。使用χ2检验比较了纳入研究和失访婴儿在婴儿性别、妊娠年龄组、母亲种族组以及24个月时家庭中使用的主要语言方面的差异。Kruskal-Wallis检验用于比较不同种族和不同妊娠年龄组的结局差异。Wilcoxon秩和检验用于比较24个月时家庭中使用的主要语言(即英语或非英语)以及足月儿和早产儿的得分。进行了逻辑回归模型,以调整妊娠期、种族、报告语言和社会指数对Bayley-III和Babyscreen得分的影响。总共创建了四个模型,分别对应于Bayley-III认知综合得分、Bayley-III运动综合得分、Bayley-III语言综合得分和Babyscreen得分。对数OR值转换为相应的调整后OR值以便于解释。不同种族组的结果以卡塔尔本地人为参考,不同语言类别的结果与主要说英语的人群进行了比较。
我们使用《加强流行病学观察性研究报告》(STROBE)报告指南起草了本手稿,STROBE报告检查表包含在在线补充附录2中。15,16
结果:
我们纳入了271名具有完整结果数据的婴儿。未纳入本分析的儿童在性别、妊娠年龄、出生时使用的语言方面具有相似的分布(表1)。χ2检验显示各组之间没有显著差异(表1)。同样,Wilcoxon秩和检验表明,基于社会指数,纳入研究和失访婴儿之间没有差异(p=0.41)。
表1:
• 人口统计(n=710)。妊娠年龄、母亲种族和出生时的主要家庭语言。
在纳入研究的婴儿中,中位妊娠年龄为33.4周(IQR 30.3至36.0周),67%为卡塔尔阿拉伯人或非卡塔尔阿拉伯人,随访时94%的家庭主要使用的语言不是英语。24个月校正年龄后的平均社会指数为50分(IQR 46至54分)。Bayley-III综合得分的中位数为:认知95分(IQR 90至105分),运动91分(IQR 85至97分),语言89分(IQR 79至94分)。相比之下,Babyscreen的中位数为13分(IQR 11至15分)。
不同种族组的Bayley-III认知和运动综合得分存在差异(p<0.001),而Bayley-III语言综合得分和Babyscreen得分则没有差异(图2a)。同样,如果家庭中使用的主要语言是英语,认知和运动得分高于其他语言(p<0.0001),但不同语言组的语言和Babyscreen得分相似(图2b)。更多细节见在线补充附录表1。
图2:
(a) 不同种族的Bayley-III综合得分(认知、运动、语言)和Babyscreen的比较。A=非卡塔尔阿拉伯人,Q=卡塔尔人,SA=南亚人(印度人、巴基斯坦人、孟加拉人),F=菲律宾人,O=其他人。水平线表示Bayley-III综合得分的公布标准100分,Babyscreen的12分。虚线表示Bayley-III得分的标准差15分,Babyscreen的4分。
(b) 24个月时家庭中使用的语言不同的Bayley-III综合得分(认知、运动、语言)和Babyscreen的比较。
多变量逻辑回归用于评估母亲种族和语言(英语 vs 非英语)与在任一评估指标上达到满意结果(Bayley-III各领域得分>90分和Babyscreen得分>7分)之间的关联。模型中包括了妊娠年龄和社会指数作为协变量,以校正混杂效应,从而提供调整后的OR值。未观察到母亲种族的显著影响。家庭中使用的主要语言与认知得分(OR 0.20(95% CI 0.03至0.77)和语言得分(OR 0.22(95% CI 0.04至0.79))有显著独立关联。最后,社会经济地位(SES)与语言表现良好的几率呈弱相关(OR 1.07(95% CI 1.01至1.13))。更多细节请参见附录中的在线补充表A2。
讨论:在一个多民族、以早产儿为主的队列中,对种族、语言和SES影响的评估表明,语言在发展评估中可能起着重要作用。总体而言,该队列在Bayley-III测试中的表现低于标准化标准,这符合主要是早产儿的群体特征。然而,在非语言评估工具Babyscreen上的表现始终在标准范围内一个标准差之内。进一步单独分析每个因素发现,不同群体之间存在差异。母亲种族对Bayley-III量表中的认知和运动综合得分有显著影响。但在调整SES和语言因素后,这种种族差异消失了。这表明可能存在一个影响所有种族群体认知和运动得分的因素。我们的多变量回归分析指出,这一因素可能是家庭中使用的语言。来自非英语家庭的婴儿在Bayley-III认知和运动得分上的表现较差,而在Babyscreen评估中,英语组和非英语组之间的得分相似。这表明,非语言评估可能更能准确反映神经发育或认知能力,因为语言管理和翻译可能存在障碍。尽管Bayley-III测试是用孩子的家庭语言进行的。
在认知测试发展的早期阶段,用不适当的语言进行测试常常被误解为认知功能和发展能力差的表现。瑞典的一项最新研究表明,在24个月校正年龄时,不讲瑞典语是早产儿Bayley量表得分较低的最强预测因素之一。同样,在一项针对爱尔兰学龄儿童的机器学习模型研究中,不讲英语也是表现不佳的最强预测因素之一,这一结果通常归因于社会劣势或父母教育水平低。我们的数据表明,孩子的家庭语言和测试语言之间可能存在差异。因此,需要开发出适合孩子语言或无语言限制的评估工具。这一问题在阿拉伯语人群中尤为突出。阿拉伯语有多种形式,现代标准阿拉伯语(也称为古典阿拉伯语)主要用于文学、教育和媒体等正式场合;而日常交流则主要使用口语方言,这些方言在不同国家甚至同一国家内部存在很大差异,常常包含外来语言元素(例如黎巴嫩、摩洛哥、突尼斯和阿尔及利亚的法语,或埃及和海湾国家的英语)。这些方言差异导致阿拉伯语地区的术语和理解能力存在显著差异,使得“单一语言”评估工具的应用变得复杂。因此,即使将测试翻译成孩子的家庭语言,方言差异仍可能影响其解释性和公平性。
在认知测试发展的早期,用不适当的语言进行测试常常被误解为认知功能和发展能力差的表现。最近的一项瑞典研究表明,在24个月校正年龄时,不讲瑞典语是早产儿Bayley量表得分较低的最强预测因素之一。类似地,在一项针对爱尔兰学龄儿童的机器学习研究中,不讲英语也是表现不佳的最强预测因素之一,这一结果通常归因于社会劣势或父母教育水平低。我们的数据表明,孩子的家庭语言和测试语言之间可能存在差异。因此,需要开发出适合孩子语言或无语言限制的评估工具。
在阿拉伯语人群中,这一问题尤为突出。阿拉伯语有多种形式,现代标准阿拉伯语(也称为古典阿拉伯语)主要用于正式场合;而日常交流则主要使用口语方言,这些方言在不同国家甚至同一国家内部存在很大差异,常常包含外来语言元素。这些方言差异导致阿拉伯语地区的术语和理解能力存在显著差异,使得“单一语言”评估工具的应用变得复杂。语言不匹配会给儿童带来额外的认知负担,尤其是对于处理能力正在发展的幼儿来说。社会文化发展理论强调,认知发展是通过文化嵌入的语言互动实现的。因此,家庭语言和机构环境之间的匹配至关重要,因为不匹配会导致压力并影响表现。语言或发音困难往往不是孤立的障碍,可能反映了更广泛的认知处理挑战。这些挑战凸显了需要采用减少文化和语言偏见的评估方法。无语言的电子工具(如基于平板电脑或游戏化的评估工具)提供了一个有前景的替代方案,它们可以在不依赖口头指令或文化相关内容的情况下评估认知过程。通过减少额外的认知负担,这些工具为评估来自不同语言和文化背景的儿童提供了更加公平和有效的手段。
世界卫生组织(WHO)目前正在开发并验证“全球早期发展量表”,这是一种用于测量36个月以内婴儿发展的标准化工具。该工具已针对人群使用进行了验证,但尚未针对个体使用进行验证。在开发全球标准化工具以测量词汇习得时,一个主要挑战是创建有效的无语言评估工具。虽然基于平板电脑的Babyscreen提供了非语言选项,但它无法评估语言技能。因此,需要开发额外的工具来专门评估这一阶段的词汇习得情况。
在考虑研究结果时,应注意到本文的一些局限性。首先,使用家庭中使用的主要语言无法量化每种语言的准确性和熟练程度,也无法确定多语言家庭中哪种语言是首选语言。因此,我们无法考虑婴儿在出生后前两年内接触不同语言的情况。此外,不同研究人员在实施Bayley-III评估时可能使用了不同的语言翻译版本。对于非阿拉伯语家庭,有些情况下采用了现场翻译来辅助评估,这可能导致某些儿童的表现被高估。此外,Bayley-III评估的临界分数是针对英语人群标准化的,关于其在多民族人群中的使用情况的研究很少。卡塔尔及周边地区的相关研究也经常使用标准化的全球临界分数。尽管参与研究的英语使用者数量较少,但他们在Bayley-III量表上的综合得分显著较高。我们的研究对象主要是阿拉伯语使用者,这反映了全球阿拉伯语使用者的普遍性,估计约有4.73亿人,其中三分之一年龄在15岁以下。此外,虽然未单独考虑与早产相关的医疗因素(如脑室内出血),但考虑了胎龄来调整这些差异。同样,分析中也未考虑使用平板电脑等工具的情境因素。不过,所有儿童都在同一临床环境中接受测试,因此许多情境因素得到了控制。尽管由于Babyscreen引入较晚和参与者退出,主要研究的数据存在大量缺失,但所包含的样本在多个指标上仍具有代表性。这项分析的设计需要完整的数据集,因此不受选择偏倚的影响。先前的研究表明,尽管纵向研究中的选择性退出很常见,但如果保留的样本在关键基线变量上具有代表性,就不会影响结果预测。
我们的研究有几个优点,增强了研究结果的可靠性。首先,研究队列包含了婴儿24个月龄前的详细信息。虽然我们抽样的是出生人群,但包括了具有不同种族、语言和SES背景的婴儿,从而能够全面考察这些因素。研究中使用的工具已在其他人群中得到验证。最后,使用非语言任务可以具体评估语言的影响。这些优点为研究结果提供了坚实的基础,为神经发育评估的实际应用提供了支持。
结论:在一个多元文化、以阿拉伯语为主的24个月婴儿群体中,我们发现家庭中使用的语言可能会影响他们在传统神经发育量表上的表现。种族和SES在这一群体中的发展评估中的作用较小。尽管测试是用孩子的家庭语言进行的,但传统Bayley-III量表的表现与使用基于平板电脑的非语言评估的结果不一致。需要开发适当的评估工具,以便独立于儿童的养育语言来识别所有高风险儿童的发育迟缓。我们的发现表明,早期语言相关的评估差异可能源于社会文化不匹配和生态效度有限——这突显了开发出能够准确捕捉认知潜能的、对发展敏感且语言中立的工具的必要性。结合文化适应性强的或无语言限制的数字工具,可以为早期发展筛查和识别不同人群的发育需求提供更加公平和有效的方法。
打赏