基于Transformer的嵌入技术在农业领域的问答生成系统中应用

时间:2026年1月18日
来源:Computers and Electronics in Agriculture

编辑推荐:

本研究开发基于CPA-BERT和LSTM-CVA的农业智能问答系统,处理3400万条KCC农民呼叫记录,准确率达98.04%,F1分数97.98%,显著提升农业信息服务的效率和精准度。

广告
   X   

Y.Y.Narayana Reddy | Thulasiram Narayanan | Adusumalli Balaji
印度奥里萨邦Gunupur 765022,GIET大学科学学院CSA系

摘要

信息科学在促进国家可持续农业目标方面可以发挥重要作用。我们的目标是设计一个问答生成系统,通过满足农民的需求来为他们提供即时帮助。开发一个能够回答不同农民关于植物保护问题的知识库非常困难。为了解决这个问题,我们收集并处理了过去八年全国农民热线网络的通话记录,以生成所需的知识库。所提出的基于卷积渐进式注意力机制的双向编码器表示Transformer(CPA-BERT)模型能够提取详细特征,并提供高度上下文化的表示,从而更深入地理解文本。最后,通过一个新的长短期记忆交叉变分自编码器(LSTM-CVA)模型,该模型通过对查询和答案中最重要特征进行优先处理,增强了系统在确定相关响应方面的能力。研究中使用的样本数据包括在政府运营的Kisan Call Centre(KCC)收集的3400万条通话记录的分析。所提出的解决方案在准确性(98.04%)、精确度(97.52%)、召回率(97.02%)和F1分数(97.98%)等指标上表现出色。这一解决方案帮助农民在农业生产过程中做出正确决策,因为它能够快速且准确地回答他们的问题。

引言

发展中国家正试图利用技术创新来更清楚地了解农民面临的问题(Li等人,2024年)。农业行业也受到许多问题的影响,例如天气模式的不可预测性、设施不足以及病虫害的侵袭(Srikanth等人,2024年),这些问题往往导致农民的农业生产不佳(Hong等人,2024年)。缺乏及时的数据阻碍了该行业的发展,而数据不足的问题进一步加剧了这些问题(Choudhury等人,2024年)。为了解决这些问题,印度政府建立了Kisan Call Centers(KCCs),为农民提供及时的信息和建议(Sun等人,2024年;Kowalczyk等人,2024年)。印度农业部创建了农业咨询和信息中心,以帮助农民获取农业咨询和服务信息(Manoj等人,2023年)。每天有数百万农民通过这些中心咨询各种农业相关问题(Alotaibi等人,2023年)。
KCCs是农民获取信息的重要来源,为他们提供市场价格、政府项目、病虫害控制以及作物种植等方面的数据(Roy等人,2024年)。尽管KCCs在向农民提供数据方面取得了成功,但呼叫中心工作人员的知识水平和可用性被认为是解决查询问题的关键因素(Whairit等人,2023年)。这可能导致响应的一致性不足和响应延迟(Ma,2024年)。此外,大多数问题都转交给KCCs处理,而呼叫中心工作人员可能难以应对如此大量的问题。通过使用自然语言处理(NLP)方法,自动化问答系统可以快速准确地回答农民的需求(Quan,2024年)。KCCs拥有大量的通话记录,这些记录可以用于开发问答机制(Srikanth等人,ICAAAI-2023(2024))。还有其他方法提出利用KCC数据集来训练计算机系统,以便其能够回答农民提出的问题(Alam等人,2023年)。
然而,很少有解决方案能够利用人工智能相关技术来解决这个问题(Mang等人,2024年)。此外,现有的系统使用传统的词袋模型(BoW)和词频-逆文档频率(TF-IDF)等方法计算短语向量之间的余弦相似度时,未能考虑句子的语义(Wang等人,2023年)。随着更多社交媒体平台的合并,人们创造了多种方法利用Facebook和Twitter等平台收集农业信息,以应对农业挑战(Ochoa等人,2024年)。深度学习(DL)彻底改变了NLP领域,其在农业中的应用非常有益(An等人,2023年)。DL技术能够识别农业术语的细节,包括当地语言和专业术语,并利用变化情况,从而实现更好的查询解释(Gedel和Nwulu,2024年)。DL模型可以通过考虑查询的上下文(如地面上种植的作物、地理位置和环境条件)来提供准确和有用的响应(Li等人,2023年)。
本研究的目的是探讨全球人口增长对食品和农产品需求的影响。鉴于农业在经济发展中的重要性,报告指出需要基于现代技术的系统,以帮助农民最大限度地利用资源。通信技术的进步,如移动接收器,增强了与农民沟通的能力以及支持服务和呼叫中心的建立。特别是,本研究旨在改进KCC项目,以适应该国庞大的农业人口,并开发基于文本的问答系统和农业响应机制,为农民提供及时可靠的支持,从而改善他们的生活和财务状况。研究强调了开发综合资源库和相关问答框架的重要性,以便在全国范围内回答有关植物保护的问题。通过公开提供信息库和算法,鼓励重复使用,并强调使用公开数据。研究的主要目标是利用技术改善农业援助和数据交换,从而惠及农民并促进农业产业的发展。研究的主要成果如下:
  • 学习丰富的语义特征,以准确理解农民的查询。
  • 实现高效地检索与农民输入相关的农业响应。
  • 表现出优于其他技术的性能。
  • 在大规模农业问答生成中实现了98.04%的准确率。
  • 在3400万个真实农民查询中提供了97.98%的F1分数的精确答案。
  • 将响应时间缩短至3.16秒,实现近乎实时的农民决策支持。
  • 本文的其余部分分为几个部分。第2节介绍了关于农业问答系统的先前研究。第3节使用背景数据讨论了研究的理论基础,并定义了推荐的架构。第4节展示了研究结果和实验结果,并将发现与近期研究进行了比较。第5节给出了结论和未来的研究方向。

    相关研究

    相关工作

    对话材料包含一系列查询和响应。Kim等人(Kim等人,2023年)建议使用响应感知编码器生成序列到序列的响应。所提出的生成器使用黄金响应将结果投影到查询形式中。响应编码器在Transformer编码器中加入了相关性评分层,以确定查询响应的重要性。所提出的方法旨在直接从……构建问题表示

    提出的方法

    开发了一种名为“农业问答生成”的数字技术,为农民提供及时准确的数据。它充当自动农业顾问,回答有关作物种植、病虫害控制、市场价格、政府项目等问题的问题。该技术拥有一个包含作物、土壤类型、天气模式、病虫害、市场趋势、法规和高效农业方法等信息的庞大数据库。

    结果与讨论

    在本节中,为了评估生成方案的有效性,我们构建了一个包含印度各地151种作物的755个问题的问题库。问题库中的每种作物都有独特的害虫名称、疾病名称、州名等组合。图6显示了用于评估所提框架的在线访问方式。使用Python 3.0脚本在网站的Collab设备上模拟每个步骤,该设备配备了两个Intel(R)处理器

    结论与未来工作

    许多发展中国家由于技术难以获取,缺乏适当的框架来处理农民的问题。印度KCCs在通过电话响应向农民提供信息方面发挥了重要作用;然而,由于呼叫中心工作人员缺乏经验和可用性,这限制了农民援助中心的优势。本文提出了一种原创的深度学习解决方案,以解决及时获得相关响应的问题

    资金信息

    本手稿的编写没有获得任何资金支持。

    CRediT作者贡献声明

    Y.Y.Narayana Reddy:可视化、初稿撰写、审稿与编辑。 Thulasiram Narayanan:验证、监督、软件开发。 Adusumalli Balaji:资金获取、正式分析、数据管理。

    利益冲突声明

    作者声明他们没有已知的利益冲突或个人关系可能影响本文报告的工作。

    生物通微信公众号
    微信
    新浪微博


    生物通 版权所有