来源:IEEE Transactions on Emerging Topics in Computational Intelligence
编辑推荐:
本文针对情感分析中存在的词汇多样性、长距离依赖、未知符号和类别不平衡等挑战,提出了一种结合RoBERTa和BiLSTM的混合深度学习模型。该模型在IMDb、Twitter US Airline和Sentiment140数据集上分别达到92.36%、80.74%和82.25%的准确率,显著优于基线模型,为自然语言理解任务提供了新的解决方案。
广告
X
在当今数字化时代,人们通过社交媒体、教育平台、商业评论等渠道表达观点和情感的现象日益普遍。这些海量的用户评论蕴含着巨大的商业价值和决策参考意义,但如何准确捕捉其中的情感倾向却面临诸多挑战:文本中存在的词汇多样性、长距离依赖关系、未知符号以及数据集不平衡等问题,都给情感分析任务带来了巨大困难。传统的情感分析方法主要基于机器学习算法,如朴素贝叶斯(Naive Bayes)、支持向量机(Support Vector Machine)等,但这些方法在处理复杂语言现象时表现有限。随着深度学习技术的发展,循环神经网络(Recurrent Neural Network, RNN)和长短期记忆网络(Long Short-Term Memory, LSTM)等序列模型被广泛应用,但它们存在处理速度慢、难以捕捉长距离依赖等问题。近年来,Transformer架构的出现为自然语言处理领域带来了革命性变化,但其在捕捉序列信息方面仍有不足。为了解决这些问题,来自Tulane大学、Dhaka工程技术大学和会津大学的研究团队在《IEEE Transactions on Emerging Topics in Computational Intelligence》上发表了一项创新性研究,提出了一种名为RoBERTa-BiLSTM的混合深度学习模型。该模型巧妙地将Transformer架构的RoBERTa(Robustly Optimized BERT Pretraining Approach)与循环神经网络的双向长短期记忆网络(Bidirectional Long Short-Term Memory, BiLSTM)相结合,充分发挥了两者的优势。研究团队采用了三个公开数据集进行评估:IMDb电影评论数据集包含50,000条平衡的正负向评论;Twitter US Airline数据集包含14,640条航空客服推文,存在明显的类别不平衡问题;Sentiment140数据集则包含约160万条推文。这些数据集的多样性为模型评估提供了全面保障。在技术方法层面,研究团队首先对文本数据进行标准化预处理,包括大小写统一、特殊符号清除和词形还原。随后利用预训练的RoBERTa模型生成高质量的词嵌入向量,通过其12层Transformer架构和768维隐藏状态捕捉词汇的深层语义信息。接着引入BiLSTM层处理序列依赖关系,其双向处理机制能够同时考虑前后文信息。模型还加入了Dropout层防止过拟合,最终通过全连接层和Softmax函数实现情感分类。
模型架构设计研究提出的RoBERTa-BiLSTM模型采用分层设计思路。底层使用RoBERTa作为编码器,利用其在大规模语料上预训练得到的语言理解能力,将输入文本转换为富含语义信息的词向量。中间层引入BiLSTM捕获序列中的长距离依赖关系,通过其独特的门控机制(输入门、遗忘门、输出门)有效管理信息流。顶层则通过全连接层和Softmax函数完成最终的情感极性分类。超参数优化实验研究团队系统比较了不同超参数组合对模型性能的影响。实验发现,学习率设为0.00001、隐藏单元数为256时,模型在三个数据集上均取得最佳效果。在优化器选择方面,AdamW相比SGD、RMSprop和Rprop表现更为稳定。这些细致的调参工作确保了模型的优越性能。多数据集性能评估在IMDb数据集上,RoBERTa-BiLSTM达到92.36%的准确率和92.35%的F1分数,显著优于RoBERTa-base模型的91.32%。在更具挑战性的Twitter US Airline数据集上,该模型取得80.74%的准确率,比RoBERTa-LSTM模型提升0.4%。在Sentiment140数据集上的表现也达到82.25%,展现出良好的泛化能力。数据增强效果验证针对Twitter US Airline数据集存在的类别不平衡问题(负向评论占62.69%),研究团队采用数据增强技术平衡各类别样本。实验结果显示,经过数据增强后,模型准确率提升约15%,达到95.77%,证明数据增强对处理不平衡数据集的有效性。