TAXObot：一个用于海洋生物分类的聊天机器人

生物通首页 > 今日动态 > 正文

TAXObot：一个用于海洋生物分类的聊天机器人

时间：2026年2月22日

来源：Expert Systems with Applications

编辑推荐：

TAXObot是一种基于检索增强生成（RAG）的海洋生物分类系统，整合半结构化知识库提升细粒度查询准确性，减少模型幻觉，实验显示正确率达93%，幻觉率低于1%。

Nosad Sahu|Reshma Baburajan|Narayanane Saravanane

海洋生物资源与生态中心，地球科学部，Atal Bhavan，L.N.G. Road，Puthuvype，Kochi 682508，印度

摘要

分类学研究是生物多样性科学的核心，但受到专家资源有限、鉴定工具分散以及物种级别分类成本高昂的限制。尽管大型语言模型（LLMs）在加速知识获取方面具有潜力，但其直接应用于分类学时仍面临幻觉现象、基础薄弱以及难以处理细微诊断特征的问题。我们提出了TAXObot，这是一个以分类学为中心的检索增强生成（RAG）系统，旨在通过基于证据的交互式查询来支持海洋生物的鉴定。TAXObot整合了一个半结构化的、以物种为锚点的知识库，涵盖了多个分类群中的500种海洋物种，这些数据来自原始文献和权威数据库。该系统采用了一种基于段落的分割策略，保持了物种级别的连贯性，生成了超过6,000个优化用于语义检索的结构化文本片段。我们使用包含一般描述、诊断推断、分类学验证和形态学生成的2,500个精心设计的查询来评估该系统的性能。使用对比优化过的领域特定嵌入方法，系统的Best@5达到了0.88，Recall@10达到了0.54，并且对检索深度的敏感性较低。当与高容量LLM结合使用时，TAXObot在细粒度诊断查询上达到了接近专家水平的性能，正确率超过4.9/5，精确匹配准确率超过93%，而在物种鉴定任务中幻觉率降低到1%以下。跨多个LLM的比较评估进一步表明，生成时的证据条件化对于命名精度至关重要。通过明确将知识表示与分类学结构对齐，TAXObot展示了检索设计和嵌入策略如何直接影响科学AI系统的可靠性，为将AI集成到现代生物多样性研究工作流程中提供了可扩展的途径。

引言

人工智能迅速发展成为现代研究的基石，提供了解决数据可访问性和分析领域长期挑战的新框架（Ouyang等人，2022年）。大型语言模型（LLMs），尤其是OpenAI在2022年开发的ChatGPT（生成预训练Transformer），已经迅速成为应用于高等教育、医疗保健、医学、网络安全、商业智能、军事决策支持和通用问答等广泛领域的多功能人工智能系统（Biswas等人，2023年；Kalla和Smith，2023年；King和ChatGPT，2023年；Liebrenz等人，2023年）。ChatGPT通过强化学习（RLHF）从人类反馈中进行训练，这种范式通过迭代奖励优化使模型输出与人类偏好保持一致（Christiano等人，2017年）。因此，LLMs在自然语言理解和生成任务（如释义、翻译、摘要、文本生成和开放式问答）方面表现出强大的能力。尽管取得了这些进展，但在应用于专门或知识密集型任务时，LLMs仍存在显著局限。越来越多的研究表明，通用LLMs可能会生成语言上连贯但事实错误或基于权威来源不够充分的响应，这种现象通常被称为“幻觉”（Guo等人，2023年；Huang等人，2023年）。此外，LLMs在某些形式的数学推理和多步逻辑推理方面也存在困难（Bang等人，2023年；Lukasiewicz等人，2023年）。关键的是，当面对专门的科学查询时，它们也缺乏可靠的领域专业知识（Shen等人，2023年）。这些限制主要源于它们依赖于预训练期间获得的参数化知识，这些知识可能是不完整的、过时的或与专家领域的需求不对齐的（Lewis等人，2020年；Guu等人，2020年）。在分类学等专门科学领域，这种依赖性增加了产生错误信息和无效推论的风险，因为模型是基于学习到的统计模式而不是可验证的外部证据来生成响应的（Huang等人，2023年；Maynez等人，2020年）。最近的研究强调，减轻这些错误需要将生成过程与结构化的、领域对齐的知识源相结合，而不仅仅是扩大模型规模（Ma等人，2024年；W. X. Zhao等人，2023年）。

为了解决这些挑战，检索增强生成（RAG）作为一种有前景的架构范式应运而生，它将外部知识源整合到生成过程中，从而使模型输出基于检索到的证据，而不仅仅是依赖内部模型先验（Lewis等人，2020年；Zhao等人，2024年）。通过使LLMs能够在推理时访问精心策划的领域特定数据集，RAG已被证明可以减少幻觉现象，提高事实准确性，并在专门任务上提升性能。因此，基于RAG的系统越来越多地被用于专家导向的应用，包括法律推理、生物医学问答和科学知识探索（Cui等人，2023年；Madani等人，2020年；Zakka等人，2024年）。在生物科学领域，已经有一些研究探索了适应特定领域的语言模型和基于检索的系统，包括用于生物医学文本生成和理解的BioGPT（Luo等人，2022年）、用于基于事实的生物医学问答的BioRAG风格架构，以及应用于遗传学和分子生物学的蛋白质和序列聚焦模型（Flamholz等人，2023年；Madani等人，2020年）。最近，BioChat作为一个专注于生物多样性的问答系统被引入，它将LLM的响应基于精心策划的生态和分类学数据（Wang等人，2024年）。虽然这些研究展示了LLMs在生物科学背景下的潜力，但在生物多样性相关领域，特别是在分类学领域，研究仍然相对有限，因为这里的推理依赖于细微的诊断特征、层次分类和结构化的物种描述。

我们对生物多样性的理解在很大程度上受到分类学研究的影响，分类学阐明了物种分化、物种形成过程、种群遗传学和进化基础的本质（Ehrlich，2005年）。自公元前4世纪初生物分类学出现以来，分类学观念经历了重大变革（Brower & Schuh，2021年）。这一进化过程中的一个转折点是卡尔·林奈在1758年发表了他的开创性著作《自然系统》（Linnaeus，1758年），建立了生物分类系统。从两分类系统发展到六分类系统，生物物种的系统分类经历了演变（Cavalier-Smith，1998年）。虽然集成分类学和DNA条形码技术扩展了我们的工具箱（Sheth & Thaker，2017年），但传统的基于形态学的鉴定仍然是物种鉴定的基础（Kotov & Gololobova，2016年）。然而，对区域鉴定钥匙的依赖造成了一个重大瓶颈；例如，印度洋缺乏足够的资源来鉴定多样的海洋生物，这阻碍了生物多样性评估（Sukumaran等人，2021年；Walter和Winterton，2007年）。这种专业知识的缺乏以及手动鉴定的高劳动成本构成了一个“分类学障碍”，阻碍了我们对生态系统功能的理解（Costello等人，2010年；Nosad等人，2021年）。为了弥合这一差距，分类学必须通过采用能够处理大量生物多样性数据的可扩展技术来实现现代化（Orr等人，2020年；Sigwart等人，2023年）。早期的努力，如Davinack（2023年）使用ChatGPT进行多毛类动物特征描述，展示了AI支持这一转型的潜力，为更专门化的、领域特定的系统奠定了基础。

在这项研究中，我们提出了TAXObot，这是一个以分类学为中心的检索增强生成（RAG）系统，旨在通过交互式的自然语言查询来帮助分类学家鉴定海洋生物。TAXObot整合了一个半结构化的、以物种为锚点的知识库，并结合了领域优化的嵌入，以实现准确和基于证据的分类学问答。我们进一步测试了以下假设：在领域特定的RAG框架内嵌入半结构化的、分类学对齐的数据集，与未经结构化的检索基线和不使用检索的零样本大型语言模型相比，可以显著提高细粒度分类学问答的性能。

部分摘录

知识库创建

本研究开发的TAXObot模型采用了RAG框架，结合了广泛的数据以实现有效的信息检索。专注于海洋生物学领域，我们选择了用于海洋生物鉴定的关键信息。分类数据及其验证来自各种研究出版物（Abraham等人，2011年；Biodiv等人，2011年；Böggemann等人，2002年；Böggemann等人，2005年；Böggemann和Purschke等人，2006年；Clark和Rowe，1971年）

TAXObot语料库的语义分析

TAXObot语料库包含了一个庞大的半结构化文本数据集，共有313页，总计105,716个单词和737,179个字符（不包括空格为638,034个字符）。该文档系统地组织成6,036个段落和11,583行，包含了与海洋生物多样性相关的分类描述、生态观察和方法论协议的高度分割和信息丰富的集合。经过预处理后...

3.5. 在RAG框架中的LLM基准测试

所提出的RAG框架通过与三种最先进的大型语言模型（LLMs）Mistral、Qwen和GPT-4.1进行基准测试进行了评估。使用了e5-large-v2嵌入模型进行语义上下文检索。模型性能在五个功能查询类别（GQ、MCQ、T1、T2和Yes–No）中进行了评估，每个类别包含500个查询。结果显示，GPT-4.1在所有与分类学相关的任务上始终优于其他模型，并取得了近乎完美的分数

3.6. RAG范式中的词汇表现

通过一项受控的消融研究检验了所提出的半结构化数据设计的理论贡献，重点关注分类学查询类别T1和T2。评估了三种系统配置：所提出的半结构化RAG框架、一个非结构化的RAG基线，以及一个不使用检索的零样本大型语言模型（LLM）。模型输出使用已建立的词汇和语义NLP指标与真实分类学参考进行了评估，包括...