人工智能迅速发展成为现代研究的基石,提供了解决数据可访问性和分析领域长期挑战的新框架(Ouyang等人,2022年)。大型语言模型(LLMs),尤其是OpenAI在2022年开发的ChatGPT(生成预训练Transformer),已经迅速成为应用于高等教育、医疗保健、医学、网络安全、商业智能、军事决策支持和通用问答等广泛领域的多功能人工智能系统(Biswas等人,2023年;Kalla和Smith,2023年;King和ChatGPT,2023年;Liebrenz等人,2023年)。ChatGPT通过强化学习(RLHF)从人类反馈中进行训练,这种范式通过迭代奖励优化使模型输出与人类偏好保持一致(Christiano等人,2017年)。因此,LLMs在自然语言理解和生成任务(如释义、翻译、摘要、文本生成和开放式问答)方面表现出强大的能力。尽管取得了这些进展,但在应用于专门或知识密集型任务时,LLMs仍存在显著局限。越来越多的研究表明,通用LLMs可能会生成语言上连贯但事实错误或基于权威来源不够充分的响应,这种现象通常被称为“幻觉”(Guo等人,2023年;Huang等人,2023年)。此外,LLMs在某些形式的数学推理和多步逻辑推理方面也存在困难(Bang等人,2023年;Lukasiewicz等人,2023年)。关键的是,当面对专门的科学查询时,它们也缺乏可靠的领域专业知识(Shen等人,2023年)。这些限制主要源于它们依赖于预训练期间获得的参数化知识,这些知识可能是不完整的、过时的或与专家领域的需求不对齐的(Lewis等人,2020年;Guu等人,2020年)。在分类学等专门科学领域,这种依赖性增加了产生错误信息和无效推论的风险,因为模型是基于学习到的统计模式而不是可验证的外部证据来生成响应的(Huang等人,2023年;Maynez等人,2020年)。最近的研究强调,减轻这些错误需要将生成过程与结构化的、领域对齐的知识源相结合,而不仅仅是扩大模型规模(Ma等人,2024年;W. X. Zhao等人,2023年)。
为了解决这些挑战,检索增强生成(RAG)作为一种有前景的架构范式应运而生,它将外部知识源整合到生成过程中,从而使模型输出基于检索到的证据,而不仅仅是依赖内部模型先验(Lewis等人,2020年;Zhao等人,2024年)。通过使LLMs能够在推理时访问精心策划的领域特定数据集,RAG已被证明可以减少幻觉现象,提高事实准确性,并在专门任务上提升性能。因此,基于RAG的系统越来越多地被用于专家导向的应用,包括法律推理、生物医学问答和科学知识探索(Cui等人,2023年;Madani等人,2020年;Zakka等人,2024年)。在生物科学领域,已经有一些研究探索了适应特定领域的语言模型和基于检索的系统,包括用于生物医学文本生成和理解的BioGPT(Luo等人,2022年)、用于基于事实的生物医学问答的BioRAG风格架构,以及应用于遗传学和分子生物学的蛋白质和序列聚焦模型(Flamholz等人,2023年;Madani等人,2020年)。最近,BioChat作为一个专注于生物多样性的问答系统被引入,它将LLM的响应基于精心策划的生态和分类学数据(Wang等人,2024年)。虽然这些研究展示了LLMs在生物科学背景下的潜力,但在生物多样性相关领域,特别是在分类学领域,研究仍然相对有限,因为这里的推理依赖于细微的诊断特征、层次分类和结构化的物种描述。
我们对生物多样性的理解在很大程度上受到分类学研究的影响,分类学阐明了物种分化、物种形成过程、种群遗传学和进化基础的本质(Ehrlich,2005年)。自公元前4世纪初生物分类学出现以来,分类学观念经历了重大变革(Brower & Schuh,2021年)。这一进化过程中的一个转折点是卡尔·林奈在1758年发表了他的开创性著作《自然系统》(Linnaeus,1758年),建立了生物分类系统。从两分类系统发展到六分类系统,生物物种的系统分类经历了演变(Cavalier-Smith,1998年)。虽然集成分类学和DNA条形码技术扩展了我们的工具箱(Sheth & Thaker,2017年),但传统的基于形态学的鉴定仍然是物种鉴定的基础(Kotov & Gololobova,2016年)。然而,对区域鉴定钥匙的依赖造成了一个重大瓶颈;例如,印度洋缺乏足够的资源来鉴定多样的海洋生物,这阻碍了生物多样性评估(Sukumaran等人,2021年;Walter和Winterton,2007年)。这种专业知识的缺乏以及手动鉴定的高劳动成本构成了一个“分类学障碍”,阻碍了我们对生态系统功能的理解(Costello等人,2010年;Nosad等人,2021年)。为了弥合这一差距,分类学必须通过采用能够处理大量生物多样性数据的可扩展技术来实现现代化(Orr等人,2020年;Sigwart等人,2023年)。早期的努力,如Davinack(2023年)使用ChatGPT进行多毛类动物特征描述,展示了AI支持这一转型的潜力,为更专门化的、领域特定的系统奠定了基础。
在这项研究中,我们提出了TAXObot,这是一个以分类学为中心的检索增强生成(RAG)系统,旨在通过交互式的自然语言查询来帮助分类学家鉴定海洋生物。TAXObot整合了一个半结构化的、以物种为锚点的知识库,并结合了领域优化的嵌入,以实现准确和基于证据的分类学问答。我们进一步测试了以下假设:在领域特定的RAG框架内嵌入半结构化的、分类学对齐的数据集,与未经结构化的检索基线和不使用检索的零样本大型语言模型相比,可以显著提高细粒度分类学问答的性能。