技术进步和数字设备及互联网的广泛普及推动了计算机支持的协作学习(CSCL)的显著发展。从协作学习的角度来看,Ludvigsen等人(2021)强调了对话作为一种核心互动形式,通过这种形式,定性研究者可以进行深入分析,以揭示知识是如何构建的以及问题是如何在个体之间解决的(Zhang等人,2020)。这些研究旨在识别关键时刻,即通过资源共享或共识构建将个人想法提升到更高层次的社会理解。这些见解为提供教学支持的时间和方式提供了依据,以促进更深入的学习(Kaliisa等人,2025;Visschers-Pleijers等人,2004)。然而,这些互动的流动性和多层次性意味着传统上对这些对话的手动分析存在重大挑战(作者,2023)。例如,进行协作概念识别的定性研究者——这是基础理论(GT)方法中用于分析复杂沟通和探索潜在互动模式的核心实践——发现这一过程极其耗时且劳动密集。它要求细致的阅读、深入的解读和反复的比较,给分析者带来了较高的认知负担(Vandevelde等人,2015)。另一方面,训练研究者一致且可靠地应用编码方案来处理微妙的对话数据仍然是一个持续的难题(作者,2023)。总体而言,这些挑战威胁到了协作对话定性分析的方法论严谨性、可靠性和可扩展性。这一分析瓶颈严重限制了在协作学习环境中开发及时、基于数据的教学干预措施的潜力。
为应对这些挑战,社会学家和教育研究者越来越多地转向计算技术,如文本挖掘、词频分析和主题建模,以补充以人类为主导的文本分析,包括协作对话分析(Kaliisa等人,2025)。随着数字环境的兴起和文本语料库量的增加,Nelson(2020)提出了计算基础理论(CGT)作为计算机辅助定性分析的标准化框架。CGT的优势在于它旨在将人类的解释能力与机器的计算能力和模式识别能力相结合(Nelson,2020)。Carlsen和Ralund(2022)进一步改进了CGT,明确了劳动分工,其中计算模型在大规模文本分析中起辅助作用,帮助定位潜在有用的模式和词汇相似性。这种方法涉及使用模型生成广泛的搜索词列表,研究者可以利用这些列表来检索文档进行深入阅读和分析(Carlsen & Ralund,2022)。因此,计算模型确保人类分析师能够获得足够数量和多样性的示例,至少在词汇层面上实现理论饱和(Carlsen & Ralund,2022;Charmaz,2014)。
尽管CGT框架在结构上具有优势,但正如Carlsen和Ralund(2022)所指出的,其主要局限性在于这些基于文本挖掘的模型只能提供诸如“有效索引”或“意义指标”之类的表面特征,而无法直接捕捉抽象概念或“意义模式”本身。这一局限性尤为重要,因为分析协作对话需要深入理解特定任务的背景知识以及表现出的战略知识的意义,包括认知、元认知、社会和协作策略(Yang等人,2024)。因此,这些文本挖掘技术难以捕捉协作对话中微妙的互动动态、隐含的概念结构和不断演变的上下文意义。这就需要研究者仍然依赖手动阅读来主动寻找相关的上下文元素,这突显了需要新的计算机技术作为更有效的协作对话分析助手。
大型语言模型(LLMs)的出现提供了一个潜在的解决方案。LLMs是基于Transformer的模型,它们通过大规模语料库进行自我监督学习训练(Shanahan,2022)。LLMs在自然语言任务上表现出色,因为它们展示了上下文学习能力,即能够从少量示例或自然语言指令中学习新任务,而无需参数更新(Brown等人,2020;Wei等人,2022;Zong & Krishnamachari,2023)。最近的模型,如ChatGPT(基于GPT-4)和PaLM 2(Anil等人,2023),已经展示了通常与人工通用智能(AGI)相关联的新兴通用能力(Bubeck等人,2023),以及在推理和知识密集型领域中的显著熟练度(Hendrycks等人,2025)。然而,它们仍然存在一些缺陷,例如长期记忆有限(Hendrycks等人,2025)。这些能力对于对话分析至关重要,因为它们使模型能够捕捉细微的语义关系、推断说话者的意图,并在无需特定任务微调的情况下解释话语之间的上下文依赖性(Garg等人,2024;Macanovic & Przepiorka,2024;Wan & Chen,2024;Zambrano等人,2023)。这与依赖大型、特定任务数据集的传统AI系统形成对比(Bubeck等人,2023;Chollet,2019)。另一个在先进LLMs中观察到的AGI特征是适应性,即能够将所学应用到不同任务中(即泛化能力)。最近的评估表明,在TopicGPT的角色中,GPT-4在纯度和可解释性指标上优于传统的主题模型基线(Pham等人,2024)。此外,GPT-3.5/4仅使用少量示例提示就能自动编码访谈对话,展示了模型的快速跨任务适应性(Garg等人,2024)。
本研究提出了CGT-LLM框架——这是对Carlsen和Ralund(2022)提出的计算机辅助GT方法的改进。具体来说,我们的框架在Carlsen和Ralund(2022)提出的计算机辅助学习和测量框架的基础上进行了扩展,并在整个CGT过程中整合了LLMs。该框架的核心创新在于用LLMs替换了传统的文本挖掘模块,从而利用了LLMs在自然语言理解、生成和推理方面的先进能力(Bubeck等人,2023;OpenAI,2024)。这种整合旨在将CGT的系统化、迭代性和研究者驱动的解释方法与LLMs提供的语义深度和上下文敏感性相结合。选择协作对话作为评估该框架有效性的背景,是因为它本质上涉及复杂性和多维度性(An等人,2025)。本研究旨在通过将其性能与人类编码结果和基于Transformer的双向编码器表示(BERT)基线进行比较,来评估该框架提供对学生协作问题解决过程细致、可扩展洞察力的能力。本研究解决了以下研究问题:
RQ1:如何有效地将LLMs的独特能力整合到CGT框架中,用于协作对话分析?这种人机合作的最佳策略是什么?
RQ2:与手动编码和BERT基线相比,所提出的CGT-LLM框架在分类准确性以及识别深层概念特征(如角色互动、不确定性、策略)方面的表现如何?