大学生身体活动与健康素养量表（PA-HLS）的开发与心理测量学验证

时间：2026年5月15日

来源：Nursing Research and Practice

编辑推荐：

摘要背景大学生身体素质的下降已成为一个全球性的公共卫生问题。现有的身体素养和健康素养测量工具未能充分捕捉在当代数字环境中获取、解释和批判性评估与体育活动相关的健康信息所需的能力。目的本研究旨在基于Nutbeam的健康素养层次模型，开发并验证适用于大学生的《体育活动与健

摘要

背景
大学生身体素质的下降已成为一个全球性的公共卫生问题。现有的身体素养和健康素养测量工具未能充分捕捉在当代数字环境中获取、解释和批判性评估与体育活动相关的健康信息所需的能力。

目的
本研究旨在基于Nutbeam的健康素养层次模型，开发并验证适用于大学生的《体育活动与健康素养量表》（PA-HLS）。

方法
通过系统文献回顾生成了初始项目池，并通过两轮德尔菲专家咨询（n=19）和试点测试（n=30）进行了完善。最终形成的15项PA-HLS量表被施测给了442名中国大学生。心理测量评估包括内容效度评估、项目分析、探索性和验证性因子分析、内部一致性可靠性（Cronbach’s α和McDonald’s ω）、区分效度测试以及Rasch模型分析。

结果
所有项目都表现出良好的区分度（临界比率=6.74–31.90，p < 0.001）和较强的因子载荷（0.59–0.93）。内容效度非常优秀（I-CVI=1.00；S-CVI=1.00）。探索性因子分析支持三因子结构，解释了总方差的77.1%，验证性因子分析也证实了这一结构，并且模型拟合度良好。整个量表及其所有子量表的内部一致性都很高（α=0.892；ω=0.869）。Rasch分析进一步支持了该量表的测量质量。

结论
PA-HLS是一个理论基础扎实且心理测量学上可靠的工具，可用于评估大学生的体育活动相关健康素养，可为大学环境中的针对性健康促进干预提供依据。

1. 引言
大学生身体素质的下降已成为中国乃至全球范围内的一个突出公共卫生问题。大规模流行病学证据表明，过去20年中国大学生的多项身体健康指标显著恶化。2000年至2019年间，综合身体素质指数显著下降，同时超重、肥胖和高血压的患病率急剧上升，心血管代谢并发症的发生率增加了6倍[1]。这一群体中缺乏体育活动的情况普遍存在，几乎50%的大学生每周进行体育锻炼的次数少于三次[2]。这些趋势凸显了迫切需要有效的策略来促进大学生的可持续体育活动行为。身体素养（PL）被广泛认为是影响体育活动参与度和相关健康结果的关键因素[3]。从概念上讲，PL包括获取、理解、评估和应用与体育活动相关信息的能力，以及动机、信心和实际能力[3]。实证研究表明，较高的PL水平与更多的中等至高强度体育活动参与以及改善的身体和心理健康结果相关，包括心肺功能、身体成分和心理幸福感[4–6]。迄今为止，已经开发了几种用于评估不同人群PL的工具。加拿大身体素养评估工具涵盖了身体能力、日常行为、动机和知识[3, 7]，而青少年身体素养评估工具则为儿童和青少年提供了多信息源的评估[8, 9]。其他工具[5, 7]则针对运动技能[9, 10]、体育活动行为[4, 11, 12]或体育活动的心理社会相关因素。尽管这些工具对PL的测量做出了重要贡献，但大多数工具主要关注身体能力、情感属性或行为结果，而非评估在当代体育活动相关知识环境中处理健康信息所需的能力。近年来，数字媒体的迅速发展极大地改变了大学生获取运动相关信息的方式。社交媒体平台和在线健身内容提供了大量但信息混杂的信息，其中科学证据与错误信息和商业推广交织在一起。在这种背景下，批判性评估体育活动相关健康信息的能力变得越来越重要。然而，现有的PL工具未能充分捕捉在复杂数字环境中获取、解释和评估体育活动相关健康信息的能力。Nutbeam的健康素养层次模型为解决这一差距提供了理论上的坚实框架[13, 14]。该模型将健康素养分为三个层次：功能性健康素养（FL；获取和理解信息的基本技能）、互动健康素养（IL；通过沟通和行为调整应用信息的技能）以及批判性健康素养（CL；高级的批判性评估和知情决策技能）。与主要强调通过身体能力和活动参与来“行动”的Cairney的PL模型不同，Nutbeam的框架更注重“知识”和健康行为背后的决策过程[13, 14]。尽管已经为青少年和年轻人开发了大约15种通用健康素养工具[15]，但它们在体育活动这一特定领域的适用性仍然有限。现有的针对大学生的特定领域量表（如评估环境[16]、心理[17]、初级保健[18]、睡眠[19]或生殖健康素养[20]的量表）并未解决与体育活动相关的独特信息和决策需求。与其他许多健康领域不同，体育活动相关信息高度商业化，通常通过健身计划、膳食补充剂和在线辅导服务进行推广。此外，体育活动信息与可见的身体结果密切相关，这可能会加剧身体形象问题并影响决策。体育活动领域也特别容易传播伪科学主张（如“局部减脂”或快速身体转变的谬论），尤其是在数字和社交媒体平台上。这些特点强调了个人不仅需要获取和理解信息，还需要批判性地评估其可信度和相关性。因此，PA-HLS中强调的批判性评估和决策技能对于应对复杂的体育活动相关信息环境至关重要。除了概念上的局限性外，许多现有工具依赖于相对狭隘的验证方法，通常结合探索性因子分析（EFA）和Cronbach’s α来建立内部一致性。这些方法可能无法提供关于维度结构和项目层面表现的不完整证据。当代心理测量标准越来越多地建议将经典测试理论与项目反应理论方法相结合，以提供更严格的验证[21]。基于此背景，本研究将体育活动与健康素养（PA-HL）概念化为一种特定领域的健康素养，将健康认知与体育活动背景下的行为转变联系起来。在Nutbeam的三层模型指导下，本研究旨在开发并验证适用于大学生的《体育活动与健康素养量表》（PA-HLS）。通过具体化与体育活动相关的FL、IL和CL能力，PA-HLS旨在超越传统的以身体能力为中心的PL框架，转而关注健康信息能力作为知情体育活动相关决策的关键驱动因素。该量表旨在提供一个理论基础扎实且方法论上可靠的工具，用于识别体育活动相关的健康素养差距，并支持大学环境中的针对性健康促进干预。

2. 材料与方法
2.1. 初始量表开发
2.1.1. 理论框架
PA-HLS基于Nutbeam的健康素养层次模型[13, 14]开发，该模型将健康素养分为三个渐进层次：FL、IL和CL。FL指的是获取和理解基本体育活动相关健康信息的基本能力。在体育活动的背景下，这包括识别关键的运动术语（例如有氧运动和目标心率）、识别潜在的健康风险以及定位可靠的信息来源。IL反映了通过沟通和行为调整应用健康信息的能力。对于体育活动而言，这涉及调节运动强度、处理轻微伤害（例如应用RICE原则）以及将运动习惯融入日常生活中。CL代表批判性评估健康相关信息并据此做出知情决策的高级认知技能。这包括区分科学证据和伪科学主张（例如“局部减脂”谬论）、比较不同的运动方法以及理解促进健康的长期价值。在这个框架内，这三个维度对应于从知识获取到行为应用和知情决策的进步过程。FL为参与提供了认知基础，IL支持行为调节，CL使个体能够在日益复杂的健康信息环境中抵抗错误信息并有效自我管理（附录图A1）。
2.1.2. 项目池生成
2024年9月至10月期间，通过系统文献回顾生成了初始项目池。使用中文和英文关键词组合搜索了四个电子数据库（PubMed、Web of Science、CNKI和WanFang Data），包括“大学生”、“本科生”、“身体健康素养”、“运动健康素养”和“体育活动素养”。考虑了截至2024年9月发表的所有记录。去除重复项并筛选标题和摘要后，确定了48篇全文审查的文章。经过详细评估后，排除了方法描述不完整或相关性较低的研究，最终得到24篇核心文章作为项目生成的依据。从这些来源中提取了112个候选项目，并使用结构化的“维度-描述-来源”框架进行了分类。合并了冗余和语义重叠的项目，并简化了过于技术性的术语，以提高清晰度和适用性。剩余项目根据Nutbeam的健康素养框架的“知识-技能-行为”分类法进行了初步组织，得到了三个假设维度下的45个候选项目。为了进一步完善项目池，召集了一个专家小组会议，成员包括七位专家（一位体育科学教授、四位公共卫生研究人员和两位教育管理者）。小组使用五点李克特量表评估了每个项目的相关性和清晰度。根据预定义的标准（平均重要性得分≥3.5），移除了25个项目，最终保留了20个项目用于后续验证。小组还推荐了一名单专家参与接下来的两轮德尔菲咨询。
2.1.3. 专家咨询（德尔菲方法）
2.1.3.1. 专家选择
根据预定义的标准招募专家，以确保他们具备足够的方法论和实质性专业知识。符合条件的专家需在大学生体育活动、健康促进、运动康复或相关领域拥有至少5年的专业经验，并且之前有量表开发的经验或熟悉度。所有专家至少拥有学士学位和中级或更高级的专业职称。
2.1.3.2. 咨询问卷的制定和项目筛选
制定了一个结构化的德尔菲问卷来评估候选项目的相关性和清晰度。问卷包括一个介绍部分，概述了研究目的和说明，随后是核心项目评估部分，专家使用五点李克特量表对每个项目的重要性进行评分（1=非常不重要至5=非常重要）。开放性问题允许专家建议删除、添加或修改项目。其他部分收集了人口统计信息，并评估了专家对该主题的熟悉程度及其判断的基础（例如理论知识、实践经验或文献回顾）。德尔菲咨询在2024年11月至12月期间进行了两轮。问卷通过电子邮件和微信分发给符合纳入标准的20位专家。第一轮的反馈被汇总，用于在第二轮之前改进项目措辞和内容，以达到项目保留和修改的共识。
2.2. 试点测试
在正式调查之前，对30名大学生进行了试点测试，以评估初步PA-HLS的清晰度、可理解性和可行性。符合条件的参与者是18-25岁的全日制本科生，他们提供了知情同意，并且没有严重的认知障碍或可能干扰他们对体育活动相关项目理解的身体健康问题。为了减少与专业知识相关的潜在偏见，排除了主修体育教育或运动训练的学生以及在过去3个月内参与过体育活动相关研究或干预项目的学生。在数据收集期间有急性伤害或疾病的学生也被排除在外。试点测试的反馈表明，量表的总体结构和内容是可接受的。对三个项目进行了轻微的措辞修改，以提高清晰度和易理解性，项目内容或维度结构没有重大变化。
2.3. 正式量表测试
2.3.1. 参与者
2025年3月至5月期间，采用方便抽样策略在中国招募了大学生。纳入和排除标准与试点研究中使用的标准一致。根据参数项目反应理论分析的建议，至少200的样本量被认为是适当的[21]。最终样本包括442名参与者，超过了量表验证研究中通常推荐的每个项目至少10名参与者的比例。研究方案得到了扬州大学伦理委员会的批准（批准编号YZUHL20250050），所有参与者在参与前都提供了知情同意。**工具**

使用了一份人口统计变量清单来收集参与者的基本信息，包括性别、年龄、专业和学年。PA-HLS是一种自我管理的工具，包含15个项目，涵盖三个维度：FL（运动知识）、IL（运动技能）和CL（运动行为）。项目采用四点李克特量表进行评分，总分范围从15到60分。分数越高，表示与运动相关的健康素养水平越高。

**2.3.3. 数据收集和质量控制**

所有调查管理员在数据收集前都接受了标准化培训。调查主要在课堂环境中进行，采用小组形式。参与者首先完成人口统计问卷，然后完成PA-HLS问卷，平均完成时间约为10分钟。对于无法进行面对面数据收集的参与者，通过Wenjuanxing平台提供了在线问卷版本。采取了措施防止重复回答并确保数据质量，包括限制重复提交。

**2.3.4. 基于经典测试理论的有效性和可靠性测试[22–24]**

在经典测试理论的框架内，系统地评估了PA-HLS的项目分析、可靠性和有效性。项目区分度通过临界比率（CR）方法进行检验，CR值大于3.0且p < 0.05表示区分度足够。项目与总分的相关性使用皮尔逊相关系数计算；相关性系数小于0.40的项目被认为是该构念的潜在弱指标。内部一致性可靠性通过Cronbach’s α和分半可靠性进行评估，分别要求值高于0.80和0.70。此外，还计算了McDonald’s ω，以提供不假设tau等价的更稳健的内部一致性可靠性估计。内容有效性通过内容有效性指数（CVI）进行评估。一个由19位专家组成的小组对每个项目的相关性进行了评分，并计算了项目层面（I-CVI）和量表层面（S-CVI）的指数。根据Lawshe的建议[25]，对于超过15名成员的专家小组，I-CVI值达到0.78或以上被认为是可接受的。构念有效性通过探索性和验证性因子分析进行检验。对于EFA，使用Kaiser–Meyer–Olkin（KMO）测量值（> 0.70）和Bartlett的球形性检验（p < 0.05）确认样本充分性。采用主成分分析（PCA）并进行varimax旋转来提取因子。因子载荷低于0.40或具有显著交叉载荷（在多个因子上的载荷差异小于0.20）的项目被移除。随后进行验证性因子分析（CFA）以验证因子结构，并使用多个指标（包括χ2/df、RMSEA、CFI、IFI和TLI）评估模型拟合度。区分有效性通过Fornell–Larcker标准[26]进行评估，比较每个构念的平均方差平方根（AVE）与相应的构念间相关性。

**2.3.5. 基于项目反应理论的Rasch模型分析[27, 28]**

在Rasch分析之前，我们测试了每个子量表的单维性——这是应用Rasch模型的前提。通过残差的PCA来实现这一点，其中第一个对比特征值低于3.0支持单维性的假设。项目拟合度使用信息加权均方（Infit MNSQ）和异常值敏感均方（Outfit MNSQ）统计量进行评估。值在0.5到1.5之间被认为是可接受的，接近1的值表示理想的拟合度。点测量相关性（PT-measure CORR.）用于评估每个项目与其预期维度的匹配程度；相关性在0.4到0.8之间被认为是好的，0.3被设定为最低可接受阈值。标准误差用于衡量参数估计的稳定性，较小的值表示更高的精确度。推导出个人和项目可靠性指数，接近1的值表示高测量质量。分离指数用于评估量表区分不同能力水平的回答者和不同难度项目的能力；分离指数≥2和可靠性≥0.7被认为是可接受的。最后，生成了项目特征曲线（ICCs）以直观检查实证数据与模型预期之间的一致性。

**2.4. 统计分析**

数据分析使用SPSS 26.0和AMOS 26.0版本进行。描述性统计用于总结参与者特征，连续变量以均值和标准差表示，分类变量以频率和百分比报告。在专家咨询过程中，使用专家权威系数（Cr）来评估专家的可信度，该系数是熟悉系数和判断系数的平均值。专家之间的一致性水平使用Kendall的一致性系数进行评估。在量表开发和验证过程中，项目分析包括使用CR方法评估项目区分度、项目与总分的相关性以及因子载荷。有效性评估包括内容有效性、通过EFA和CFA的构念有效性以及区分有效性。可靠性使用Cronbach’s α和分半可靠性进行评估。Omega系数基于从CFA得到的标准化因子载荷使用Python（版本3.9.13）和pingouin包计算。项目反应理论分析使用Rasch模型和Winsteps版本3.72进行，以进一步检查项目层面的表现和单维性。对于所有统计分析，双尾p值< 0.05被认为是统计显著的。

**3. 结果**

**3.1. 专家咨询结果**

十九位专家完成了两轮Delphi咨询，两轮的有效响应率均为100%。专家小组来自多个地区，包括江苏、上海、四川和湖北。参与者包括6名男性和13名女性，平均年龄为44.84±6.32岁，平均工作经验为26.68±9.20年。参与者的教育背景包括11个学士学位、5个硕士学位和3个博士学位。按学术职称划分，15人为副教授，4人为正教授。100%的参与率表明专家们的积极参与。第一轮中42.1%的项目收到了修改建议，第二轮降至5.3%，表明在初步修改后达成了高度共识。两轮的权威系数（Cr）都很高（第一轮为0.857，第二轮为0.860）。Kendall的W一致性系数分别为0.349（χ2 = 146.028，p < 0.001）和0.267（χ2 = 86.107，p < 0.001），显示出专家之间有显著的一致性。项目重要性的平均得分从第一轮的3.05–4.68提高到第二轮的4.37–5.00，变异系数（CV）从0.05降至0.41再到0.00–0.18，进一步证实了共识的收敛。根据第一轮的反馈，有四个项目因适用性有限（例如FL5：“我能理解运动装备的安全说明”）或与构念相关性较弱（例如CL6/CL7/CL8关于公共规则、环境可持续性和知识共享）而被移除。对另外12个项目进行了措辞修改以提高清晰度和精确度。具体来说，从FL1中删除了技术术语（例如“超级补偿”、“RM值”），并简化了IL2中“RICE原则”的解释。从几个CL项目中删除了冗余的表述（CL1–CL3）。根据第二轮的反馈进行了微调，包括从FL1中删除“基本”一词和从FL2中删除“身体”一词。此外，将原始项目IL7的核心内容整合到IL5中，创建了一个更简洁的项目：“我能将运动习惯融入日常生活中。”

**3.2. 参与者人口统计**

共收集到442份有效回答。平均年龄为21.213±0.785岁（表1）。表1. 参与者人口统计特征（N = 442）。

| 特征 | 类别 | 频率 | 百分比（%） |
|----------------|------------|------------|-------------|
| 性别 | 男性 | 137 | 30.995 |
| | 女性 | 305 | 69.005 |
| | 年级 | 大一 | 42 | 9.502 |
| | 大二 | 51 | 11.538 |
| | 大三 | 210 | 47.511 |
| | 大四 | 115 | 26.018 |
| | 五年级 | 17 | 3.846 |
| | 研究生 | 7 | 1.584 |
| | 专业 | 人文学科 | 41 | 9.276 |
| | 科学/技术 | 80 | 18.1 |
| | 商业/经济 | 28 | 6.335 |
| | 医学/农业 | 269 | 60.86 |
| | 艺术/体育 | 18 | 4.072 |
| | 军事 | 6 | 1.357 |

**3.3. 项目分析**

项目分析用于评估初步项目的区分能力、内部一致性和结构有效性。通过将总分分为高分组和低分组（每组包含前27%和后27%，n = 119）来应用CR方法。独立样本t检验表明所有项目都表现出强烈的区分能力，CR值范围从6.74到31.90（所有p < 0.001），远高于最低阈值3.0。进一步评估了每个项目的内部一致性。项目与总分的相关性范围从0.259到0.765。大多数项目的相关性超过了推荐的0.40阈值，尽管CL维度中的几个项目低于这一标准，表明该子量表的内部一致性相对较弱。当删除个别项目时，Cronbach’s α的稳定性进一步支持了这一发现。整个量表的可靠性很高（α = 0.892），移除任何单个项目对α的影响可以忽略不计（变化范围从−0.0157到+0.0049），确认没有项目会显著提高量表的可靠性。随后进行了EFA以检验潜在的因子结构。所有项目都强烈地加载到其假设的因子上，因子载荷范围从0.591到0.927，均超过最低标准0.40。这表明项目与其相应维度之间存在稳健的关系。由于所有15个项目都满足保留标准（即没有满足两个或更多的删除标准），它们被保留在最终量表中，该量表包含三个预定义的维度。表2显示了项目分析的详细结果。

**3.4. 有效性分析**

**3.4.1. 内容有效性**

I-CVI和S-CVI均获得了1.0的完美分数，表明专家们对所有项目的相关性和适当性达成了一致意见。

**3.4.2. 构念有效性**

使用EFA和CFA评估了构念有效性。442名参与者的总样本被随机分为两个独立子样本：一个（n = 242）用于EFA以确定潜在的因子结构，另一个（n = 200）用于CFA以验证所得结构。

**3.4.2.1. EFA**

对15个项目进行了EFA。数据非常适合因子分析，KMO值为0.916，Bartlett的球形性检验显著（p < 0.001）。PCA结合varimax旋转得到了一个清晰的三因子解，解释了总方差的77.125%。因子的数量是通过特征值大于1的标准和Scree图中的拐点来确定的（附录图A2），这强烈支持了基于Nutbeam理论框架的三因子模型。这些因子被标记为CL（项目CL1–CL5）、IL（项目IL1–IL6）和FL（项目FL1–FL4）。所有项目在其分配的因子上都有很强的载荷，载荷范围从0.56到0.90（附录图A3），没有显著的交叉载荷，证实了因子结构的清晰性和可解释性。

3.4.2.2. CFA
为了验证EFA中确定的三因子结构，对第二个子样本（n=200）进行了CFA。模型显示了可接受到良好的拟合指标：χ2/df=2.132，RMSEA=0.089，CFI=0.944，GFI=0.912，所有这些指标都符合模型适当性的标准。这些结果为PA-HLS假设的三维结构提供了坚实的实证支持。标准化因子载荷显示在附录图A4中。

3.4.3. 区分效度
通过将因子间相关性与每个潜在构念的AVE的平方根进行比较来评估区分效度。如表3所示，因子间的相关性较低到中等，功能健康素养和互动健康素养之间的相关性相对较强（r=0.719）。重要的是，每个因子的AVE的平方根（范围：0.785–0.884）超过了它与其他因子的相关性，满足了区分效度的标准。表3. 区分效度分析结果（n=200）。

3.5. 可靠性分析
使用Cronbach’s α、分半信度和McDonald’s ω来评估内部一致性可靠性。总体Cronbach’s α系数为0.892，表明内部一致性良好。对于子量表，Cronbach’s α值分别为FL为0.881，IL为0.951，CL为0.898。分半信度系数（调整了长度不等）为总量表0.766，FL、IL和CL分别为0.871、0.927和0.868。McDonald’s ω系数进一步支持了PA-HLS的内部一致性。FL的ω值为0.8956，IL为0.9527，CL为0.8889。总量表的ω值为0.8687，表明整体可靠性良好。

3.6. 基于项目反应理论的Rasch模型分析结果
3.6.1. 单维性检验
进行了残差的PCA以评估单维性假设，这是Rasch模型分析的先决条件。对于整个量表，第一个特征值为6.872，证实了预期的多维结构。在子量表层面，FL子量表满足单维性标准，其第一个特征值为2.971。对于IL和CL子量表，第一个特征值分别为4.838和3.601。这些子量表的第二特征值与第一特征值的比率分别为0.090（IL）和0.143（CL），表明基本符合单维性。

3.6.2. 项目拟合
大多数项目的拟合（infit）和拟合后均方（MNSQ）值落在0.7–1.3的可接受范围内，相应的标准化残差（ZSTD）在±2.0以内，表明模型拟合良好。有三个项目（FL4、IL6和CL2）略微偏离这些标准。然而，ZSTD统计量对样本大小敏感，在更大的样本中可能会被夸大。相比之下，这些项目的拟合和拟合后MNSQ值保持在可接受范围内或接近可接受范围，表明不匹配的程度很小。由于MNSQ统计量通常被认为是项目拟合的更有信息量的指标，因此这些偏差被认为是可接受的，并没有显著损害整体模型拟合或量表的测量质量。所有项目的点-测量相关系数都超过了0.80，进一步支持了它们的区分能力（表4）。

3.6.3. 可靠性和区分分析
整个量表的个体信度为0.84，项目信度为0.97。子量表的信度指数分别为FL为0.77，IL为0.92，CL为0.82。整个量表和子量表的个体和项目区分指数均超过了2.0，表明测量精度足够（表5）。所有项目的ICC紧密跟随模型预测的轨迹（图1(a)）。Wright图（图1(b)）上显示了个体能力和项目难度的分布，在大约-1.0到1.5 logits之间有显著的重叠。然而，在能力连续体的较高端（大约1.8 logits以上），项目密度降低，表明高能力水平的个体的精度有限。

4. 讨论
4.1. 量表开发的创新
本研究基于Don Nutbeam的健康素养层次模型开发了PA-HLS，以满足对特定领域健康素养评估日益增长的需求[29]。通过将体育活动（PA）置于健康素养框架内，PA-HLS扩展了现有的健康素养概念化，这些概念化主要关注身体能力、动机和情感属性。与睡眠或心理健康等其他健康领域相比，体育活动信息更频繁地嵌入商业环境中，与身体形象结果密切相关，并且错误信息和伪科学声明的普遍存在。在这种复杂的信息环境中，个体不仅需要获取和应用知识，还需要批判性地评估信息来源的可信度、适用性和潜在偏见。这突显了PA-HLS中CL维度的重要性，该维度捕捉了个体在面对复杂且可能具有误导性的体育活动相关信息时做出明智决策的能力。PA-HLS的一个关键创新是它明确将体育活动框定为一种健康信息处理任务。该量表不是测量感知的身体能力或参与程度，而是操作化了特定于体育活动的FL、IL和CL能力。这种方法强调了个体获取、解释、应用和批判性评估体育活动相关信息的能力，这在以碎片化信息来源和广泛错误信息为特征的当代数字环境中越来越重要。从概念上讲，PA-HLS将Nutbeam的三层模型适应到体育活动的背景下，反映了从基础知识获取到行为应用和明智决策的进步。FL包括安全参与体育活动所需的基础知识；IL涉及在日常锻炼情境中应用知识并调节行为；CL包括区分科学证据和伪科学或商业动机声明所需的高阶评估技能。这种结构与大学生在在线和离线平台上导航多样化体育活动信息时面临的认知和行为挑战相一致。与现有的健康素养工具相比，PA-HLS通过优先考虑健康信息能力而不是身体表现或自我感知的能力，解决了概念上的空白。例如Physical Literacy in Children Questionnaire (PL-C Quest) [30]、Perceived Physical Literacy Instrument及其改编版本[31, 32]和Physical Literacy in Adults Scale (PLAS) [33]提供了对健康素养的物理、心理和社会维度的有价值评估，但它们并没有明确测量特定于体育活动的健康素养技能。相比之下，PA-HLS提供了一个理论上有根据的工具，旨在评估与明智的体育活动决策直接相关的能力，从而补充而不是重复现有的健康素养测量工具（附录表A1）。

4.2. 量表的科学严谨性
本研究的结果表明，PA-HLS表现出强大的心理测量属性，并符合当代量表开发和验证的标准。与许多依赖EFA和内部一致性估计的现有健康素养和PL工具不同，本研究采用了结合经典测试理论和项目反应理论的全面验证策略。EFA和CFA都支持了一个与Nutbeam理论框架一致的三因子结构。使用独立的子样本进行EFA和CFA为量表的结构性有效性提供了坚实的证据，减少了过拟合的风险，并增强了对该因子结构普遍性的信心。内部一致性指数，包括Cronbach’s α和McDonald’s ω，表明整个量表和所有子量表的高可靠性[21]。重要的是，包含Rasch模型分析代表了超越PL研究中通常使用的传统验证方法的方法学进步[27]。Rasch分析使得能够对项目的拟合、可靠性和区分性进行项目级别的评估，为每个子量的测量质量和单维性提供了额外的证据。这种基于项目反应理论的验证在为大学生群体开发PL相关工具时相对罕见，从而增强了PA-HLS的可解释性和稳健性。IL维度在EFA中解释了最大比例的方差。这一发现可能反映了当代大学生的特点，他们参与体育活动通常是通过互动的信息寻求、自我调节和行为适应来实现的。在这种情境下，应用和适应健康信息的能力可能比基础功能知识更为重要。此外，FL和IL维度之间观察到了相对较强的相关性（r=0.719）。尽管Fornell–Larcker标准支持区分效度，但这种高相关性表明这两个构念之间存在一定程度的概念重叠。这一发现在理论上是合理的，因为FL和IL都涉及获取、理解和应用健康相关信息的核心过程。在体育活动的背景下，具有强大功能知识的个体（例如对运动原理的理解）更有可能将这些知识转化为实践，从而导致这两个维度之间的密切关联。从测量的角度来看，这种模式可能反映了Don Nutbeam层次模型的渐进性质，其中IL建立在FL的基础上。然而，这种相对较高的相关性也表明，在这个群体中，这两个构念之间的区别可能并不完全明确。未来的研究可以进一步探讨健康素养（FL）与信息素养（IL）之间的区分界限，例如通过完善项目内容或探索不同人群中的替代因素结构。值得注意的是，认知素养（CL）维度中的某些项目显示出相对较低的项目-总分相关性，表明该子量表的内部一致性较弱。这种模式可能反映了在体育活动（PA）背景下CL的复杂性和多维性。一种可能的解释是，CL涉及更高层次的认知过程——如评估与运动相关的信息的可信度、识别伪科学主张以及在不确定条件下做出明智的决策——这些过程在大学生之间可能存在显著差异。这种差异性可能导致响应异质性的增加，从而降低项目间的相关性。从测量的角度来看，这种模式表明CL构念可能不如FL或IL那么紧密，突显了当前量表结构的潜在局限性。尽管如此，这些项目在因子分析中表现出较强的因子载荷，并且在Rasch模型中具有令人满意的拟合度，支持了它们在量表整体构念有效性中的作用。因此，为了保持CL维度的理论广度，这些项目被保留了下来。总体而言，来自因子分析、可靠性估计、区分效度测试和Rasch建模的趋同证据支持这样一个结论：PA-HLS是一种在心理测量学上稳健且方法论上严谨的工具，适用于评估大学生的体育相关健康素养。

4.3. 局限性与未来方向

本研究存在一些局限性。首先，样本来自单一文化背景，这可能限制了研究结果在其他地区或国家的大学生的普遍适用性。未来的研究应在不同的文化和教育环境中验证PA-HLS，以考察其跨文化适用性和测量不变性。其次，未评估重测信度；因此，PA-HLS的时间稳定性尚不清楚。需要进行纵向研究来评估量表随时间的稳定性及其对干预措施变化的敏感性。第三，虽然使用内容效度指标（CVI）评估了内容效度，但未计算内容效度比率（CVR），这可能会略微削弱内容效度的证据强度。未来的研究可以结合更多的定量方法来进一步加强内容验证。最后，本研究依赖于自我报告的数据，这些数据可能受到社会期望偏差的影响。未来的研究可以结合客观的体育行为测量或实验设计，以进一步检验PA-HLS的预测效度和实际效用。

5. 结论

PA-HLS是一种基于理论且心理测量学上稳健的工具，旨在评估大学生的体育相关健康素养。该量表基于Nutbeam的分层模型，涵盖了与当代信息丰富环境中的体育参与相关的FL、IL和CL能力。来自经典测试理论和项目反应理论的证据支持了该量表的强可靠性、清晰的因素结构以及令人满意的项目水平表现。PA-HLS为评估与体育相关的健康素养能力提供了实用工具，并有助于识别大学生的具体教育需求。PA-HLS可以在未来的研究和实践中应用于制定健康促进策略、指导干预措施的开发，并支持大学环境中体育相关教育项目的评估。

作者贡献

段佩：概念化、方法论、资金获取、调查、正式分析及初稿撰写。宋霞：概念化、方法论、初稿撰写及审稿和编辑。张新瑞：调查和正式分析。阮立倩：调查和正式分析。陈松：调查和正式分析。

致谢

我们感谢所有参与这项研究的学生。同时感谢孙柳涛和其他学生对问卷收集工作的贡献。

资金支持

本工作得到了江苏省人畜共患病重点实验室（项目编号HX2110）的资助。

利益冲突

作者声明没有利益冲突。

数据可用性声明

在本研究过程中生成和/或分析的数据集可在合理请求下从相应作者处获取。

支持信息

更多支持信息可以在在线的支持信息部分找到。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部