BOLT矩阵推理测验的开发:基于布尔运算评估逻辑思维能力

时间:2026年5月23日
来源:Intelligence

编辑推荐:

矩阵推理任务是流体推理(gf)的常用测量工具。尽管各测验的建构原则存在差异,但四个难度成分反复出现:元素数量、规则数量、规则类型和感知组织。其中,规则类型尤为核心,可形式化分类为一元运算(unary)、二元运算(binary)和三元运算(ternary)。据此

广告
   X   

矩阵推理任务是流体推理(gf)的常用测量工具。尽管各测验的建构原则存在差异,但四个难度成分反复出现:元素数量、规则数量、规则类型和感知组织。其中,规则类型尤为核心,可形式化分类为一元运算(unary)、二元运算(binary)和三元运算(ternary)。据此,研究人员引入BOLT(Boolean Operations to assess Logical Thinking,基于布尔运算评估逻辑思维的矩阵测验),以布尔代数作为项目生成的形式化框架。通过两项在线预研究(研究1:N = 473,45个项目;研究2:N = 430,42个项目)和一次 operational 施测(研究3:N = 7150,39个项目),研究人员估计了Rasch模型项目难度,并检验了基于特征的难度解释。研究1证实,二元规则数量是难度的主要驱动因素,而一元和三元规则未呈现一致效应。对于研究2-3,研究人员将交叉验证的LASSO特征选择与包含随机项目效应的线性逻辑斯蒂克测验模型(LLTMs)相结合,以量化结构特征(元素数量、规则数量、规则类型)和从刺激文件中提取的感知组织指数对项目难度的贡献。项目难度可被较准确地预测(研究2的LLTM R2=.74;研究3的R2=.55)。二元运算和感知组织成为BOLT项目难度的汇聚性决定因素。未来研究应复制基于图像的计算机视觉指数在基于规则的预测变量之外具有增量贡献这一发现,并将其与视觉组织和规则归纳的底层过程相联系。
本研究旨在开发一种新型图形推理测验——BOLT(Boolean Operations to assess Logical Thinking),以服务于高风险大学入学选拔情境。流体智力(gf)指独立于先前知识解决新问题的能力,在人类认知功能中居于核心地位(Carroll, 1993; Cattell, 1987; McGrew et al., 2023)。在其内容维度(言语、数字和图形)中,图形推理任务与总体gf因素高度相关,甚至达近乎完美相关(Marshalek et al., 1983; Wilhelm, 2005)。具良好心理测量学特性的图形gf测验,包括高g负荷和广泛的跨文化适用性(至少在WEIRD国家),使其在智力及应用研究中获得广泛应用。矩阵任务至今仍是最流行的图形推理指标,且新工具持续涌现。从测验开发视角,矩阵测验被视为理性测验建构的典范,大量研究探讨了矩阵问题的解决机制及决定项目难度的特征。然而,不同矩阵测验间的比较因项目建构原则的差异及现有分类系统的不一致而变得复杂。

研究人员引入BOLT,该矩阵推理测验基于布尔运算评估逻辑思维,旨在能力分布高端具有良好区分度,并应用于高风险大学入学情境。矩阵测验虽常被视为流体推理的典型测量工具,但汇聚性证据表明其并非gf的纯指标,感知-组织需求对表现有实质性贡献。Marshalek等人(1983)已将矩阵测验置于其"复杂性连续体"中心,但也报告了视觉加工(gv)的次要负荷。Gignac(2015)使用双因子模型重新分析多个大型现有数据集,发现Raven矩阵约50%的方差与一般因素g共享,另有约10%负荷于g之上与gf/gv类型相关的组水平因素。McGrew等人(2023)通过心理测量网络分析进一步表明,推理能力与视觉感知形成密切相关的簇。这些发现提示,矩阵测验不应仅被视为推理能力的测量,而是在相当程度上也捕获了视觉-空间过程。

本研究将规则类型形式化为统一框架:一元、二元和三元运算。本质上,二元规则可映射到布尔代数的形式系统。布尔代数是一种逻辑系统,其中元素(如几何图形)通过三种基本运算AND(元素重叠)、OR(元素并集)和NOT(元素排除)进行组合,以确定元素的存在或缺失。使用此框架,研究人员生成项目、检验其心理测量学特性,并在两项预研究中精炼项目建构;进一步报告BOLT在高风险大学入学项目中的应用。Rasch模型估计的项目难度通过嵌套重采样方案中LASSO回归降维后的混合效应线性逻辑斯蒂克测验模型(LLTMs,含随机项目效应)进行分析。这些分析中同时纳入了构念规则和通过自动分析提取的感知-组织特征作为预测变量。这一阶段性方法使研究人员能够识别影响项目难度的特征,进而更好理解解决BOLT项目所需的认知过程。

矩阵任务的难度受结构因素和感知-组织因素共同影响。结构因素指项目的潜在认知需求,如元素和规则数量、规则类型及所需抽象水平;感知-组织因素涉及项目的视觉呈现方式,包括感知组织、相关特征的显著性以及干扰或误导线索的存在。Carpenter等人(1990)通过眼动模式分析描述了Raven矩阵解决中的认知过程,认为元素数量和规则类型尤其影响项目难度,但未量化其影响。Primi(2001)提出影响项目难度的四个主要因素:(a)元素数量,(b)变换或规则数量,(c)规则类型,和(d)感知组织。前两者共同概括为信息量,因两者均增加问题解决中必须同时表征和协调的信息量。尽管与记忆负荷有紧密理论联系,感知组织对项目难度的个体经验效应最强(R2=.41),而信息量仅提供较小的增量贡献(ΔR2=.11)。

现有研究在解释方差方面呈现异质性画面,R2介于.39至.87之间。比较结果时需考虑多个方法学问题:关键因素是项目池规模而非被试样本量;研究使用了线性回归或线性逻辑斯蒂克测验模型(LLTM)等不同分析方法,其R2指标不具直接可比性;预测模型复杂度和项目材料设计也存在差异。简单几何形状组合的项目主要由元素数量和基本规则类型驱动难度,而视觉复杂项目(使用不规则或重叠形状)的难度在很大程度上源于感知复杂性。此外,结构同质项目集总体难度变异较小,但少量预测变量可捕获较大比例的方差;异质项目集更可能涉及未明确建模的项目特征交互作用,降低可达成的解释方差。

规则类型作为基本设计参数,通过关系结构和抽象需求的质性差异塑造项目难度。多种分类系统被开发以形式化归类矩阵测验中的规则类型。Hornke和Habon(1986)识别出八种建构操作;Carpenter等人(1990)从重新分类的Raven项目中提炼出五种规则;Arendasy和Sommer(2005)使用六种规则创建其项目生成器GeomGen。研究人员采用统一的规则类型框架:一元、二元和三元运算。一元层面,每个图形x通过一元函数序列确定下一个图形,如箭头旋转45度;二元层面,两个图形x和y共同通过二元函数f(x,y)确定第三图形,如元素的加减;三元层面,三个图形通过共享约束而非功能依赖相联系,满足f(x,y,z)=C,其中C为常数。这一功能-数学表述虽抽象,但可映射到常见的规则分类系统。一元规则涉及单个对象的变换,三元规则反映集合约束,两者主要差异在于表面特征而非底层结构,所需的归纳推理相对简单。相比之下,二元规则涵盖更广泛的概念范围,需要更费力的演绎推理和系统性假设检验,通常增加项目难度。

二元规则在分类系统和经验研究中尤为突出,直接对应布尔代数中的联结词(junctor)概念。文献识别的规则映射如下:加法对应集合的并集(A∨B),交集指共同重叠(A∧B),减法表示集合与否定集合的差(A∧¬B),唯一加法指异或操作(A XOR B≡A⊕B≡(A∧¬B)∨(¬A∧B))。AND和(X)OR组合在日常语言和自然语言中常见,推测较复杂联结词更易于推断。为设计能在推理能力分布高端充分区分的心理测验,有必要将标准联结词之外的额外二元规则纳入项目建构。标准联结词之外,完整集合还包括较不常见的二元运算如NAND(合取的否定,¬(A∧B))和NOR(析取的否定,¬(A∨B))。所有16种二元运算均可表达为基本逻辑运算符AND、OR和NOT的组合,例如IF-THEN条件蕴涵可写为OR和NOT的组合(A→B≡¬A∨B)。

布尔概念虽在心理学中广泛用于形式化和描述人类推理及常见错误,但具体应用于智力测验建构的实例 surprisingly 有限。最突出的基于布尔代数的测验类别是命题(或条件)推理测验,涉及基于言语前提得出逻辑有效结论的能力,但其存在两个局限:人类推理者表现出系统性偏差,且语言有时较模糊、不如形式逻辑精确。命题推理测验的某些原子命题组合在自然语言中只能笨拙表达或根本无法表达,限制了可建构项目空间和测验的难度范围。这些与自然语言表达相关的局限不适用于图形流体智力领域。电路任务曾被用于评估逻辑推理,参与者学习根据形式布尔规则追踪简化电子电路中的信号传播。Wilhelm(2000, 2005)使用这些任务的变体研究演绎推理能力的个体差异。布尔联结词也被用于描述现有矩阵推理测验中的规则结构并指导新项目建构,但共同局限是依赖于高度受限的联结词集合,使大量可能的布尔运算空间未被探索。

Scheiblechner(1972)的工作是该领域的开创性贡献,但其思想未获得更广泛的国际关注。其图形计算测验中,网格中的两个黑白图案根据布尔逻辑原理组合形成第三图案。该工作的独特之处在于明确处理了16种二元运算的存在,并在测验中实现了相当数量的运算。然而,该任务格式严格按行应用规则、对视觉元素的识别或保持要求极低,可能高度易受教育效应影响。相比之下,矩阵项目要求发现并追踪行列变换结构,进一步增加了项目难度。

图形推理任务旨在主要测量推理而非视觉感知。然而,感知组织在多个研究中被一致识别为图形矩阵测验中项目难度的相关因素。Arendasy和Gittler(2003)表明格式塔原则(相似性、邻近性和良好连续性的知觉分组倾向)轻微影响矩阵项目的Rasch同质性。后续研究通过操纵这些原则证明其可改变维度和项目难度。Primi(2014)将感知组织识别为项目难度的最强预测变量,但该研究将其编码为二元设计特征(易编码vs难编码),基于格式塔原则是否促进元素分组。

关键进展是利用计算机视觉方法超越主观、整体性分类,以更客观、细粒度的方式量化刺激的视觉复杂性。计算机视觉通过提取形式化图像指数实现感知组织的一致性和可重复测量。de Winter等人(2023)考察了边密度(视觉复杂性的自动衍生指数)及人类感知复杂性指数与注视次数、平均反应时间和项目难度的相关,发现边密度的关联甚至强于感知复杂性指数。Meo等人(2007)通过操纵元素显著性(重叠程度、知觉熟悉性),在保持结构规则复杂度恒定的同构项目集中,发现这些知觉操纵主要调节结构复杂性对表现的效应:当元素知觉熟悉性更低、更多重叠或两者兼具时,规则复杂性的增加导致表现更陡峭的下降,表明元素显著性降低即使规则结构恒定时也能放大项目难度。此类效应不应被理解为反映项目难度的独立维度,而应视为感知-组织需求与其他项目特征(如规则类型)本质上交织在一起,塑造哪些信息作为元素比较的相关候选变得显著和可及。

Kunda等人(2010)提供了原则性证明:Raven矩阵的非平凡子集可使用主要视觉策略解决,这些策略直接在图像表征上操作,无需先将输入图像转化为命题描述,其算法方法对先前被认为依赖格式塔或视觉空间操作的项目类型最有效。基于此,研究人员使用自动生成的指数在三个表征层面评估矩阵项目的感知组织:向量、栅格和小波。向量图形层面的指数直接从SVG标记派生,实现图形原语及其属性熵的精确计数;栅格化图像层面的指数计算图像处理指标如边密度、对称性、压缩度和网格误差,表征渲染后感知的空间布局;小波系数层面的多分辨率分解提供频域描述符(熵、份额、能量斜率),捕获跨尺度的纹理信息和结构规律性。这些互补指数共同提供量化矩阵测验视觉复杂性的连贯基础。

文献表明,结构和知觉来源的项目难度不应被概念化为独立的加工步骤。解决矩阵项目可能需要至少两个部分可区分但紧密交织的过程:在视觉阵列中识别相关元素和关系,以及推断和应用支配其变换的规则。解决矩阵项目所需的认知能力可能反映视觉感知(gv)和推理(gf)的混合,尽管证据表明推理通常解释较大比例的方差,而空间-知觉能力仍具实质性贡献。更具体而言,感知组织不仅影响表现:增加一般认知负荷,还通过约束哪些元素被编码为规则归纳的相关候选而发挥作用。相反,项目的结构属性——如元素数量、规则数量,尤其是二元运算类型——决定了测试、拒绝和整合关于底层变换的可能假设的需求程度。

本研究为BOLT测验的三项关键贡献:第一,先前工作一致显示二元规则是矩阵项目难度的最强贡献因素之一,但多数研究仅考察了有限子集;布尔代数中存在24=16种可能的联结词,本研究不仅调查常用规则,还研究较少常规、鲜有考察的运算。第二,早期研究或忽略感知组织、仅边缘处理,或依赖简单人类评定,本研究使用自动化计算机视觉方法量化感知-组织特征,从刺激文件直接派生客观复杂性指数——通过解析底层SVG标记的向量层面或应用基于栅格的图像处理。第三,早期测验开发通常受限于有限项目池,本研究采用阶段性分析策略:初始使用带交叉验证的LASSO回归进行预测变量集降维,然后在LLTM框架内评估保留预测变量对项目难度的贡献。

三项研究的数据清洗程序:Prolific平台自动排除未完成测验者。鉴于项目高难度和低风险性质,通过剔除异常短完成时间(<10分钟)和与随机猜测一致解决率的参与者处理潜在粗心或努力不足回应(C/IER)。反应时构成统计异常值(低于均值三个标准差以上)的极快完成者也被排除。

研究1(N=472,平均每个项目≈157人)于2024年5月在线进行。正式任务前,参与者完成三个有反馈的样例项目,说明任务规则。主评估中,每位参与者先完成三个较简单项目("热身项目"),然后随机完成45个项目中的15个。每个项目限时3分钟,16个选项中选正确答案。研究目标:(a)评估项目心理测量学特性(如项目难度、Rasch拟合),(b)理解不同规则类型(一元、二元和三元)如何影响项目难度,(c)系统研究二元规则,包括矩阵测验中未应用过的类型如NAND(≡¬(A∧B))。规则类型变异故意较高以探索难度范围。共45个项目,混合一元、二元和三元规则,涵盖14种仅按行应用的布尔规则。排除常数函数TRUE(1)和FALSE(0),因其独立于A和B,无法施加预期推理需求。

研究2(N=430,平均每个项目≈154人)于2024年10月在线进行,使用与研究1相同的指导语和管理模式。项目集与研究1不重叠,参与者从42个项目中随机完成15个。旨在更详细考察较小编集的二元规则并评估跨结构平行项目的可推广性。因此,将布尔规则减至七种并构建两个互补项目集:第一集包含恰好一个二元规则的项目,从七种运算的约束集中抽取以允许每个规则多个结构平行项目;第二集使用相同二元规则但增加单一一元操作(位置或旋转)以评估二元运算本身的增量效应。七种二元规则包括AND(≡A∧B)、OR(≡A∨B)、XOR(≡(A∧¬B)∨(¬A∧B))、NAND(≡¬(A∧B))、NOR(≡¬(A∨B))和减法规则(¬A∧B和A∧¬B)。

研究3(N = 7150,平均每个项目≈3753人)在操作性高风险条件下作为大学入学过程的一部分进行。测验以纸笔、监考形式施测,是更大招生组合的组成部分之一,与平均绩点等其他标准一起授予德国大学心理学项目入学资格。该研究于2025年5月在官方考试中心由受过培训的测验管理员监考实施。应试者在25分钟内完成39个项目中的20个。与研究2的项目重叠为19个;额外项目采用相同二元规则结构,但通过在某些项目中组合两个二元规则以及变化二元规则应用方向(按行和按列)以在高风险条件下确保充分区分,整体难度进一步提高。

最终样本:研究1为472名参与者,平均年龄35.2岁;研究2为430名参与者,平均年龄35.4岁,均限制为至少本科学历;研究3为7150名参与者,平均年龄20.6岁,均为参加德国心理学入学测验BaPsy、拟近期入学德国大学多能心理学学位项目的申请者。

分析程序上,三项研究因测验条件、目标人群和项目取样的系统性差异,项目分别在各研究内标定。估计单独的一参数逻辑斯蒂克(1PL)模型,使用校正偏差的拟合优度统计量评估Rasch拟合。研究1通过方差分析考察一元、二元和三元规则数量的相对贡献。研究2和3使用(a)元素数量、(b)规则数量、(c)规则类型和(d)从图像文件自动提取的感知项目特征预测项目难度。分析程序分两步:首先使用LASSO回归结合交叉验证减少预测变量集;然后在LLTM框架内检验保留预测变量对项目难度的影响。LASSO和LLTM分析中,度量项目特征经z标准化,布尔规则变量编码为0/1指示变量表示项目是否包含给定规则。LASSO回归在嵌套重采样设计中估计,1000次迭代,90:10的训练-测试分割。内循环中通过10折交叉验证调整超参数,预定义惩罚参数λ网格(从0.001到0.10的30个等距步长),选择最小交叉验证RMSE一倍标准误内最简洁模型(1SE规则)。

最后,使用混合效应LLTMs(含随机项目效应)评估设计特征加权组合解释项目难度的程度,同时通过随机项目效应解释剩余项目特异性变异。

结果部分,三项研究的Rasch项目难度分布显示实质性变异。研究1(45个项目)β值从–0.93到2.50,相对较高的均值M=0.98反映了14种联结词中若干高要求规则类型(如否定变体)的使用。研究2(42个项目)难度从–1.59到2.00(M=0.30),表明整体项目集稍易但仍覆盖广泛难度连续体。研究3(39个项目)β值从–1.55到2.33(M=0.47),平均难度处于中档,与高风险样本的更高整体表现水平和使用的更复杂项目一致。

研究1的主要发现:仅二元规则数量与难度有统计学显著关联。每个额外二元规则与约0.62 logit的项目难度增加相关(β=0.62, SE=0.26, p=.02),二元运算数量是项目难度的主要驱动因素。一元规则数量(β=0.17, SE=.16, p=.31)和三元规则数量(β=–0.22, SE=.17, p=.19)均未能预测项目难度。三元规则的负号提示可能的低难度趋势,与文献一致。为评估不同二元规则的难度差异,每种规则(除AND、OR和XOR为五项外)各三个项目。各规则特定项目集内项目难度范围极大,揭示额外因素如感知需求对项目难度的实质性贡献。否定规则¬A、¬B、¬(A∧¬B)、¬(¬A∧B)、¬(A⊕B)证明更难解决,与需要对比性或抑制性加工的认知变换更困难的研究发现一致。基于此,后续分析集中于七种二元规则。

研究2和研究3的LASSO预测变量降维:预测变量集包括(a)元素数量、(b)规则数量、(c)七种二元规则和(d)16项从图像文件自动提取的感知特征。LASSO回归将预测变量集减至研究2的九个和研究3的十个。在至少80%的1000次重采样迭代中被选中的特征:元素数量和规则数量在两研究中均被保留。二元规则指示变量中,减法规则被一致选择,表明这些运算解释了项目集间项目难度的实质性方差。研究2额外选择OR规则,研究3中AND规则达标。感知-组织特征中,三个指数跨研究被选择:相似性代价(similarity cost)、网格误差(grid error)和PNG复杂性。这些结果指向基于相似性的分组、网格规律性和整体图像复杂性的稳定贡献。

混合效应LLTM结果:研究2中,几种布尔运算对难度有实质性贡献,尤以减法规则为甚。与对称规则(如AND、OR)不同,减法规则要求将一个图形视为主要对象并选择性移除与另一图形的重叠,需要特定元素的心理抑制。相反,析取(OR)显示负系数,表明该规则类型倾向于使项目更容易。感知-组织指数或增加或降低项目难度,取决于其含义。更高相似性代价与更低项目难度相关,因提取形状间更大差异促进分割,与相似性格式塔原则一致。像素级不规则性增加(网格误差指数反映)和更高整体视觉杂乱度(PNG复杂性指数捕获)与项目难度呈正相关但非显著,与噪声和杂乱可能阻碍感知组织、模糊底层关系结构的观点一致。其他效应大多为中小程度,联合解释自由Rasch项目难度的大部分方差(R2=.74)。

研究3中,混合效应LLTM解释方差R2=.55。二元规则类型中,减法规则再次与项目难度大幅增加相关。此项目集中合取(AND)显示难度轻微下降。感知-组织指数呈现一致模式:检测形状间更大差异(相似性代价)改善分割、帮助隔离规则相关区域。像素级不规则性更高(网格误差)引入噪声和错位,更高整体图像复杂性(PNG复杂性)增加视觉杂乱、模糊关系结构,两者均增加感知负荷、阻碍全局模式检测,从而使规则识别更困难。栅格化图像水平指数的效果跨研究一致,而小波系数水平指数则在研究间变化。小波能量斜率与项目难度的负关联提示,结构能量更强集中于更精细空间尺度的图像可能倾向于降低全局形式的显著性、阻碍关系模式检测。

总体而言,二元规则类型跨研究发挥强效应,减法规则增加项目难度,对称规则(如AND、OR)的存在倾向于降低难度。元素数量在两研究中显示对项目难度的中等效应,而规则数量的效应在大小和方向上均有差异,反映项目建构和组装的差异。感知-组织特征也显示主要一致的效果,栅格化图像水平贡献最强。需注意LLTMs反映项目集上的平均效应,且在相同项目集上估计,故应视为解释力的上限、样本内估计,而非交叉验证预测性能。

讨论部分,研究1显示二元规则对项目难度有实质性影响,由此采用二元规则作为BOLT项目设计的概念基础。仅少数智力测验明确依赖二元规则进行项目建构;研究2和研究3考察了四种关键成分对项目难度的影响,使用交叉验证LASSO回归派生研究特定简约预测变量集,随后用混合效应LLTMs评估。项目难度可被相当程度预测(研究2的R2=.74;研究3的R2=.55)。这些结果为二元运算和感知-组织特征构成项目难度的关键决定因素提供汇聚性证据。

主要贡献在于系统使用从刺激图像的自动特征提取。不同于先前主要依赖评定者判断感知需求或格式塔原则参与的方法,本研究在这些指数中引入了更高程度的客观性和可重复性。提取了广泛异质的图像特征集,分为向量图形水平、栅格化图像水平和小波系数水平三类。这些指数应理解为感知-组织属性的首次尝试性操作化,选自广泛的可能指数空间,其中大多数尚未确立或独立验证为特定感知-组织过程的指标。即使先前使用的指数如边密度,也取决于显式计算流程——如何定义、检测和聚合"边"——不同操作化可产生实质不同的值。因此,任何感知组织指数的有意义使用需要计算流程的明确规范,包括底层语法的完整披露。在线补充材料中提供的代码语法可作为支持图像特征提取复制以及矩阵推理研究进一步细化和标准化努力的起点。

纳入图像衍生特征提供了结构证据:视觉加工需求构成项目难度的系统性、独立于规则的来源。混合效应LLTMs中,感知-组织特征在结构特征之外解释了实质性方差;但这些来源不应被解释为独立于二元规则。两者本质交织:更大感知-组织复杂性增加识别规则检测和应用所需相关元素的难度,而更大结构复杂性可能反过来放大视觉复杂性带来的负担。因此,不假设基于规则的视觉项目特征效应严格可加,理论上它们之间存在有意义的交互作用是 plausible 的。矩阵推理任务不应被概念化为流体智力的纯化测量,而应视为融合归纳推理(gf)需求与视觉加工(gv)的复合评估。

结果的可推广性方面,关键问题是随着项目池扩大和设计空间拓宽,这些项目难度决定因素的稳健性将如何保持。分析项目总数较小(N=101),这是几乎所有旨在预测能力测验项目难度的研究的局限。此约束在参数编码于Q矩阵方法时尤为成问题。为缓解过拟合风险,使用嵌入特征选择和交叉验证的LASSO回归,但这些方法并非万能。本研究中,应用规则的确定和自动衍生感知-组织特征实际上无测量误差,且观察效应可表征为中等程度,但项目与预测变量的比率仍不满足稳定估计要求。这是两研究间简约预测变量集存在差异的合理原因。

样本特征方面,在线预研究( heterogeneous 样本)与高风险大学入学情境(申请者样本)存在系统和必要的差异。项目集也因持续测验开发而必然不同:研究1使用14种不同二元规则,研究2和3限制为七种;研究3相对于研究2省略了三元规则、引入组合多个二元规则的项目、变化二元规则应用方向(按行和按列),这些都进一步复杂化比较。所有项目特征对难度的效应应被解释为以特定分析项目样本为条件,而非普遍参数。

未来研究方面,需要允许分别观察规则检测和规则应用的研究设计,而非从单个二分项目反应推断。有前景的方法将是建构感知复杂性和规则复杂性被系统独立操纵的项目集,使视觉要求高的项目可与相对简单规则配对,反之亦然。过程数据如反应时、眼动测量或出声思维协议可能有助于将分割、编码和比较视觉信息的知觉过程,与基于推理的规则归纳和规则应用过程相分离。例如,可要求参与者首先识别矩阵中的相关元素或关系,然后指出支配规则,最后才解决项目。此类数据可用顺序项目反应树模型、层级认知诊断模型或隐马尔可夫模型进行建模。

最终研究结论指出,尽管现有矩阵测验标签和分类系统存在显著异质性,四个关键成分在文献中被一致讨论:元素数量、规则数量、规则类型和感知组织方面。从形式-数学视角,规则类型可分类为一元、二元和三元运算。本研究研究1表明二元规则对项目难度有实质性影响,促使采用二元规则作为BOLT项目设计的概念基础。研究2和3中,研究人员使用交叉验证LASSO回归和混合效应LLTMs考察了四个关键成分对项目难度的影响。项目难度可被较准确预测(R2=.74和.55),提供汇聚性证据表明二元运算和感知-组织特征是项目难度的关键决定因素。未来工作应复制基于图像的计算机视觉指数在基于规则的预测变量之外具有增量贡献的发现,并将其与视觉组织和规则归纳的底层过程相联系。随着项目池在短期至中期内显著扩大,研究人员计划重复这些分析以评估观察效应的稳健性。更大项目池还将允许纳入额外预测变量,并测试模型不变性,为区分矩阵推理项目的结构属性与当前项目池的设计特异性假象提供更强基础。

生物通微信公众号
微信
新浪微博


生物通 版权所有