摘要
引言:本研究系统地回顾了基于变压器的自然语言处理(NLP)和大语言模型(LLM)在信用风险预测中的应用,旨在解决传统结构化数据信用评分模型的局限性。
方法:通过PRISMA指导的系统性文献回顾,在Scopus、ScienceDirect和Web of Science上搜索了2015年至2025年间发表的英文研究。共识别出284条记录,并通过语义相似性过滤筛选出63项符合条件进行定性综合分析。
结果:研究结果表明,基于变压器的架构(包括双向编码器表示Transformer(BERT)、鲁棒优化的BERT预训练方法RoBERTa和大型语言模型Meta AI(LLaMA)在金融预测任务中始终优于传统的统计和机器学习基线。基于注意力的长短期记忆(LSTM)模型在曲线下面积(AUC)上提高了3.08%,KS增益提高了10.3%;而混合卷积神经网络(CNN)和Transformer架构在信用风险数据集中的准确率达到了96.9%,F1分数为0.995。多模态和基于变压器的系统在金融风险监控任务中的准确率也超过了95%。然而,只有少数研究纳入了形式化的可解释性框架或公平性评估。
讨论:基于变压器的NLP方法通过有效利用非结构化文本数据提高了信用风险预测的准确性。尽管如此,解释性、透明度、监管一致性以及伦理应用方面仍存在挑战。未来的研究应优先考虑偏差缓解和治理意识强的模型设计,以支持在受监管的金融环境中的负责任使用。
1 引言
金融机构的主要目标是评估和管理信用风险,这需要开发和改进复杂的信用风险模型(Pathak等人,2023年)。本研究全面概述了基于变压器的自然语言处理(NLP)和大型语言模型(LLM)在信用风险分类中的应用,重点介绍了该领域的关键研究和进展。准确的信用风险分类对于确保金融机构在更广泛的金融风险管理范围内的稳定性和盈利能力至关重要(Lessmann等人,2015年)。传统上,信用评分系统主要依赖于结构化数据和统计方法来评估借款人的信用度。然而,由于非结构化金融文本数据(如贷款描述、交易记录和客户通信)的迅速增加,人们越来越意识到利用这些数据来改进信用风险评估的重要性(Wang等人,2019年)。自然语言处理(NLP)模型,特别是基于变压器的架构(如双向编码器表示Transformer(BERT)、鲁棒优化的BERT预训练方法RoBERTa和大型语言模型Meta AI(LLaMA),使金融机构能够从非结构化文本信息中提取可行的洞察。这些模型通过捕捉文本数据中的句法和语义细微差别,在分类任务中显示出显著改进,从而提高了传统信用风险模型的预测准确性(Jin和Zhang,2024年)。例如,基于注意力的LSTM网络已被用于分析点对点(P2P)借贷平台中的借款人行为模式,从而提高了信用评分性能(Jin和Zhang,2024年)。
研究将最初为NLP开发的基于变压器的架构扩展到其他领域,如医疗保健,特别是从语音记录中评估阿尔茨海默病风险,证明了它们在早期疾病检测中的有效性(Roshanzamir等人,2021年)。虽然这些研究与信用风险没有直接关联,但它们被包括进来是为了说明可以适应金融风险建模的可转移方法。通过利用诸如双向编码器表示Transformer(BERT)之类的模型,研究人员展示了NLP从贷款叙述中提取有意义风险指标的有效性(Sanz-Guerrero和Arroyo,2025年)。将时间模型(包括时间卷积网络TCN和DilateFormer)与NLP技术相结合,通过捕捉时间依赖性和文本语义进一步提高了分类准确性(Shen和Wu,2025年)。尽管有所改进,但仍存在一些挑战。深度学习模型的可解释性、隐私问题以及将NLP获得的洞察整合到符合监管要求的框架中继续阻碍了这些方法的广泛应用(Liu等人,2020年)。此外,当前文献缺乏评估和基准测试基于NLP的信用风险分类模型的统一方法,导致对其相对有效性的理解碎片化(Lessmann等人,2015年)。这些改进和持续的挑战突显了NLP在金融分析中信用风险建模中的演变角色。研究强调了大型语言模型和Transformer架构如何增强传统的信用评分系统。然而,要充分利用这些优势,必须解决模型透明度、数据治理和标准化评估等相关问题。克服这些挑战对于在现实世界金融中负责任地使用NLP进行信用风险分类至关重要(Pathak等人,2023年和Heng及Subramanian,2022年)。
2 文献回顾
本节提供了关于现代基于深度学习的NLP模型(特别是双向编码器表示Transformer(BERT)、鲁棒优化的BERT预训练方法RoBERTa和大型语言模型Meta AI(LLaMA)3.2的背景信息(Devlin等人,2018年;Liu等人,2019年;Touvron等人,2023年),这些模型专门用于信用风险分类领域。为了保持主题一致性,我们将回顾范围限制在直接将NLP和LLM应用于金融和信用风险背景的研究(Wang等人,2019年;Sanz-Guerrero和Arroyo,2025年)。为了系统地总结所回顾的研究并识别研究差距,表1提供了文章的汇总、它们的贡献和发现的局限性。排除了扩展到无关NLP分类任务的文章,以突出回顾的重点。一些来自相关领域的研究被包括进来,以说明可应用于金融风险建模的NLP方法。我们首先概述了基本的NLP原理,并阐明了这些复杂模型如何有效处理文本数据,特别是在金融分析的背景下。
表1 文章 之间的关系 贡献 缺陷
Xu等人(2025年) 提出了一种新的端到端框架,用于从中文放射报告中提取临床信息(NCIE)。
提出了一种用于结构化数据提取的NCIE方法。
数据集主要使用胸部X光和CT报告,限制了其更广泛的适用性。
Lin和Liao(2024年) 提出了一种基于词典的金融情感分析提示方法。
提出了在语言模型中集成词典驱动的提示的方法。
仅限于极性分类;中性或微妙的情感未涵盖。
Du等人(2025年) 使用Word2vec派生的词典开发了一种基于文本的ESG风险指标。
使用文本分析从收益电话记录中量化ESG风险。
先前文献中对直接ESG风险量化的关注有限。
Corradi等人(2022年) 将NLP应用于毒理学中的机械信息提取。
展示了NLP对结构化毒理学信息提取的支持。
需要自动化来统一生物事件和本体链接。
Hu等人(2024年) 提出了一种用于研发摘要中实体提取的BERT-IDCNN-CRF模型。
引入了用于科学实体识别的混合深度架构。
数据集注释的复杂性限制了泛化能力。
Babaalla等人(2024年) 对从自然语言规范中提取UML图进行了比较分析。
评估了基于NLP和ML的UML提取系统的准确性。
在将需求转换为UML图方面存在持续不足。
Xu和Li(2021年) 评估了用于住房交易的估值和金融风险评估的ML算法。
提高了估值准确性,优于线性和计量经济学模型。
由于依赖历史数据而无法捕捉即时政策冲击。
Chagnon等人(2024年) 提出了用于科学主题建模的BERTeley。
使用科学语言模型增强了主题连贯性。
格式限制可能会削弱上下文学习。
信用风险分类涉及根据个人或实体的历史表现和上下文信息评估其违约的可能性。这项工作的复杂性在于需要分析多方面的输入,包括非结构化文本数据(如信用历史、财务报告和市场情绪)和结构化数值数据(如信用分数和收入水平)(Lessmann等人,2015年)。在这一领域,像双向编码器表示Transformer(BERT)、鲁棒优化的BERT预训练方法RoBERTa和大型语言模型Meta AI(LLaMA)3.2这样的模型因其能够从大量非结构化文本中提取可行的洞察而脱颖而出,从而支持更明智的决策(Devlin等人,2018年;Liu等人,2019年;Touvron等人,2023年)。BERT是一种基于Transformer架构的双向编码器表示的缩写,通过Transformer架构固有的注意力机制利用双向上下文。其预训练目标包括掩码语言建模和下一句预测,这对于准确评估信用风险至关重要(Devlin等人,2018年)。通过分析文本中的关系,BERT可以识别可能表明潜在信用风险的语言细微变化。
在BERT的成功基础上,鲁棒优化的BERT预训练方法RoBERTa通过省略某些任务(如下一句预测)并纳入动态掩蔽策略来优化训练方法。这些改进提高了预测准确性,并增强了模型处理复杂和大规模数据集的能力,从而为信用风险分类提供了更强大的解决方案(Liu等人,2019年)。大型语言模型Meta AI(LLaMA)3.2是一种专为资源匮乏环境设计的模型。它注重效率,采用了优化的数据选择和先进的分词技术。优化的数据选择是指在高质量和相关数据子集上训练模型,而不是在过大型和嘈杂的数据集上训练,从而提高学习效率并降低计算成本。先进的分词技术(如子词分词)将文本分割成更小的有意义单元,使模型能够更好地处理罕见或未见过的单词。例如,“不可预测性”这样的词可以被分词为“un”、“predict”和“ability”等子部分,即使在整个训练过程中没有频繁出现,模型也能理解其结构和含义。这些技术有助于提高性能,同时保持计算效率。这种能力在信用风险分析中尤为重要,因为高效处理和解释大量财务数据至关重要(Touvron等人,2023年)。近期文献指出,重要的信用相关信息往往包含在非结构化文本来源中,如高管评论、分析师报告和财经新闻,这些信息并不容易被结构化数据集捕获。基于Transformer的大语言模型已被证明可以通过改进从这些非结构化数据中提取和利用信息来克服这些限制(Golec和Alabduljalil,2026年)。这些基于Transformer的模型的核心是注意力机制,它使模型能够有效地评估给定上下文中各个词的重要性。虽然这一特性显著提升了性能,但也带来了内存资源需求的挑战,因为这些模型在计算上可能非常耗费资源。总之,我们将探讨旨在缓解这些内存限制的潜在策略和解决方案,以便更有效地使用这些最先进的NLP模型进行信用风险分类任务。
2.1 信用风险模型
信用风险模型用于估计如果借款人违约不偿还贷款,信用机构(如银行或点对点贷款机构)可能遭受的潜在财务损失。信用风险模型最重要的组成部分是违约概率,通常通过信用评分模型进行统计估计。(Pathak等人,2023年)研究了银行如何在由利率上升、通货膨胀和地缘政治紧张局势引发的经济不确定性中调整以管理信用风险。(Heng和Subramanian,2022年)深入探讨了机器学习如何增强信用风险评估以及可解释AI在解决其局限性方面的作用。研究强调了机器学习算法在预测信用风险方面的卓越性能,同时指出了它们缺乏可解释性。该综述讨论了LIME和SHAP等可解释AI技术,这些技术通过解释模型决策来提高透明度,从而促进信任并确保贷款实践的公平性。(Jeyakarthic和Ramesh,2023年)介绍了GPDBN-CRA模型,作为一种帮助金融机构评估贷款申请的工具。这一创新模型结合了动态贝叶斯网络根据客户数据对信用风险进行分类,并使用遗传编程进行超参数调整,从而提高了整体性能。遗传编程随后被用来优化参数,进而提高了预测准确性。(Hassija等人,2020年)提出了一种新的信用评分方法,该方法整合了区块链技术和前景理论。区块链确保了信用评分系统的安全性、透明度和防篡改性,减少了对中央信用机构的依赖,并增强了数据安全。这种创新方法为评估信用风险提供了一种安全、高效的方式,可能改善贷款结果并降低违约率。(Jukna,2022年)研究了不同的信用评分模型,以帮助金融机构选择最佳方法。它比较了逻辑回归等传统技术与先进的机器学习模型,评估了它们的准确性、可解释性和效率。该研究强调了这些模型在各种信用风险场景中的实际意义,并探讨了大数据和可解释AI等趋势,以提高信用评分的透明度和信任度。
2.2 自然语言处理
自然语言处理的核心是使计算机能够理解和处理人类语言。这些模型通过在相关目标语言和任务的广泛文本数据集上进行训练来学习语言的结构、语法和语言模式(Brown等人,2020年)。这类模型的训练通常包括三个主要步骤。首先,通过称为分词的过程将文本分割成更小的、易于管理的单元。然后,这些令牌被转换为称为词嵌入的数值格式,从而支持数学运算(Devlin等人,2018年)。最后,使用这种分词和嵌入的数据集训练语言模型(Brown等人,2020年)。
2.2.1 语言建模
语言模型是对与单词或令牌序列相关的概率的统计表示。基于已知单词的语料库,它为特定语言L中每个可能的连续单词或令牌序列(t1, t2, …, tn)分配概率。如方程1所示,语言模型通过将序列分解为条件概率的乘积来估计序列的联合概率。本质上,它作为一个预测模型,可以识别给定上下文中最可能的下一个单词(Brown等人,2020年)。
P(t1,t2,…,tn)=p(t1)p(t2|t1)⋯p(tn|t1,t2,…,tn−1)=∏i=1p(ti∣t1,t2,…,ti−1)(1)
训练语言模型需要利用一个大型的未标记数据集来建立对语言的基础理解。随后,可以使用标记数据对这些模型进行微调以适应特定的下游任务。经典的语言建模目标侧重于学习从左到右的上下文,预测给定令牌ti之前所有令牌t1, t2, …, ti−1的条件概率。这种仅基于先前遇到的单词生成预测的传统方法称为自回归或单向的。它特别适合与语言生成相关的任务(Brown等人,2020年)。
NLP中一个普遍的学习目标是掩码语言模型(MLM)目标。在这种方法中,句子中的某些单词或令牌被随机掩盖,模型的目标是预测这些被掩盖的令牌。通过检查掩盖单词周围的上下文,模型为最可能的替换候选项分配概率。这种语言建模技术使模型能够双向学习,即从左到右和从右到左,从而实现所谓的双向推理。这种能力对于句子级任务特别有利,包括文本分类、命名实体识别、句子分析和问答(Devlin等人,2018年)。
2.2.2 编码器-解码器架构
编码器-解码器架构是一种用于序列建模的神经网络设计,特别是在NLP任务中,如情感分析和文本分类,其中输入长度可能变化而输出长度保持固定。该架构将任意长度的输入序列转换为输出序列(Pakdaman等人,2025年)。传统模型难以应对这种变异性,需要固定长度的训练数据。编码器-解码器由两个网络组成:一个编码器将输入序列转换为固定长度的向量表示,另一个解码器从该向量生成输出序列。这两个网络一起训练,以准确编码和重建目标序列。
2.3 Transformer模型
自引入以来,包括LLaMA 3.2(Touvron等人,2023年)、RoBERTa(Liu等人,2019年)和BERT(Devlin等人,2018年)在内的几种预训练的基于Transformer的模型在各种NLP应用中树立了新的性能标准。RoBERTa通过采用改进的训练方法增强了BERT的架构,而LLaMA 3.2则侧重于在资源有限环境中的效率和可扩展性。这些模型的成功在很大程度上归功于它们对注意力机制的有效利用,这使得它们能够强大地理解和处理上下文。
2.3.1 BERT
Bidirectional Encoder Representations from Transformers(BERT)是由Google AI Language的研究人员在2018年创建的语言表示模型。BERT使用了深度学习技术和其他多种方法开发。BERT模型的架构如图1所示,它采用了多层双向Transformer,仅使用编码器组件(Rustam等人,2024年)。
图1展示了BERT模型架构。该图改编自(Rustam等人,2024年),他们使用BERT开发了一种讲师专业领域分类方法。(Koroteev,2021年)指出,BERT对NLP产生了变革性影响,在文本分类、情感分析、命名实体识别和问答等任务中表现出色。这种改进主要归因于BERT的双向训练方法,它允许模型同时考虑左右上下文,与早期模型如ELMo和GPT不同,后者以单向方式处理文本。因此,BERT能够捕捉文本中的更深层次上下文关系,从而在广泛的NLP任务中提高准确性和泛化能力。这种上下文理解使模型能够更好地解释模糊的单词和复杂的句子结构,从而使其性能优于早期架构。(Mann等人,2023年)的研究探讨了使用增强型BERT模型改进Twitter数据情感分析的方法。利用Kaggle SMILE数据集,研究根据推文的非正式性质对BERT进行了调整,这些推文经常包含俚语、缩写和表情符号。增强型BERT模型在辨别幸福和悲伤等情感方面的准确率达到96%,显示出其有效性。这项研究强调了增强型BERT在精确分析简短和非正式文本中的情感方面的潜力。
指出BERT对NLP产生了变革性影响,在文本分类、情感分析、命名实体识别和问答等任务中表现出色。这种改进主要归因于BERT的双向训练方法,它允许模型同时考虑左右上下文,与早期模型如ELMo和GPT不同,后者以单向方式处理文本。因此,BERT能够捕捉文本中的更深层次上下文关系,从而在广泛的NLP任务中提高准确性和泛化能力。这种上下文理解使模型能够更好地解释模糊的单词和复杂的句子结构,从而使其性能优于早期架构。
2.3.2 RoBERTa
RoBERTa是Facebook AI在2019年创建的一种先进的NLP模型,基于BERT框架并进行了几项改进以提高其有效性(Chen等人,2023年)。RoBERTa模型的架构如图2所示,该图改编自(Kumari,2023年),她在其博客文章《RoBERTa:一种改进的NLP用BERT模型》中描述了对BERT的修改。
2.3.3 LLAMA
LLaMA 3.2 − 1B模型如图3所示,是大型语言模型Meta AI(LLaMA)系列的关键组成部分,作为各种NLP任务的强大工具。凭借10亿个参数,它在计算效率和性能之间取得了良好平衡,非常适合研究和实际应用,特别是在资源有限的环境中。LLaMA 3.2 − 1B针对文本生成、摘要和问答等任务进行了优化,虽然规模较小,但仍能取得令人印象深刻的结果。其设计适用于那些不需要强大计算能力的使用者(Hugging Face,2024年)。
图3展示了LLaMA 3.2模型架构。该图改编自博客文章《From Vision to Edge: Meta's LLaMA 3.2 explained》(Encord,2024年),该文章概述了其进展和应用。(Stefan和Brad,2024年)强调了LLaMA 3在识别微妙错误信息方面的卓越性能。它优于最先进的竞争模型,实现了更高的准确性和精确度,这得益于其先进的上下文理解和适应复杂叙述的能力。此外,LLaMA 3在处理大型数据集方面表现出显著的效率,使其适用于实时应用。值得注意的是,该模型展示了类似人类判断的推理能力,显著减少了误报和漏报。这些发现强调了LLMA作为对抗错误信息的强大工具的潜力。(Sarfati等人,2024年)讨论了大型语言模型(LLMs)如何模仿人类的认知过程,如推理和决策。文章还讨论了多层注意力机制和Transformer网络等进步,这些进展使得模型能够有效处理复杂的语言任务。文章还探讨了提高模型可解释性的重要性,并考虑了与偏见、公平性和滥用相关的伦理问题,同时强调了LLMs在医疗保健、金融和教育等领域的变革潜力。
3 不同模型和数据集的比较分析
表2概述了所审查研究中使用的数据集。这些数据集涵盖了从非结构化来源(如财务推文和新闻文章)到结构化的股票市场时间序列和法律判决等各种类型。大多数数据集都带有情感或情绪标签,而其他数据集则使用推导出的标签,如风险容忍度或心理特征标签。一些研究依赖于合成数据或专有数据,限制了可重复性和跨研究的可比性。该表按类型、语言、大小(如果可用)和注释策略对数据集进行分类,提供了关于金融NLP中数据收集多样性和挑战的见解。它还阐明了每个数据集的预期分析目的,例如信用评分、供应商评估或情感分类。表2列出了各个数据集的来源、数据类型、语言、注释以及用途:
| 数据集 | 来源 | 数据类型 | 语言 | 注释 | 用途 |
|-----------------|------------------------|--------------|-------------|--------------------------------------------------------------|
| P2P借贷描述 (Yuan and Wei, 2024) | 非结构化贷款文本 | 英语 | 无手动注释;使用大型语言模型(LLMs)衍生的风险指标 | 通过借款人撰写的描述构建可解释的信用风险指标 |
| 社交媒体帖子 (Yang et al., 2022) | 来自P2P借贷平台的用户生成文本 | 英语 | 自监督心理测量标注 | 推断借款人的心理特征以支持信用风险评估 |
| P2P貸款申請 (Brahma et al., 2021) | 用户生成的貸款描述 | 英语 | 带有违约结果的标注 | 使用深度学习对文本申請进行信用违约预测 |
| 银行財务数据 (Tao et al., 2025) | 结构化财务指标 | 未指定 | 带有违约结果的标注 | 使用结构化数据和深度学习模型预测财务风险 |
| 財經新聞文章 (Adhikari et al., 2023) | 財經新聞標題 | 英语 | 带有情感极性的标注 | 使用混合词嵌入和可解释的AI技术提高情感分析准确性 |
| 財經文本数据 (Lin and Liao, 2024) | 財經文档 | 未指定 | 使用基于词典的提示进行情感标注 | 通过基于词典的提示方法增强財經情感分析 |
| 財經Twitter数据 (García-Méndez et al., 2023) | 提到金融資產的推文 | 英语 | 带有“機會”和“謹慎”情感的标注 | 检测特定資產的金融情感以用于市場筛选和决策 |
表3提供了应用于金融和信用风险分析的NLP模型的比较概述。这些模型从基于变换器的架构到卷积和混合深度学习结构不等,每种模型都针对特定问题进行了定制,如情感分析、信用评分或实体消歧。大多数架构集成了注意力机制或混合词嵌入,以解决多义性、可解释性和金融文本的上下文表示问题。一些模型,如PsyCredit和PLWL,结合了可解释性技术(如LRP或字典过滤)来提高透明度。模型的性能因任务和数据集而异,但许多模型都显示出比传统基线显著的改进。表格还强调了哪些模型更侧重于可解释性、准确性或应用创新性。
表3:应用于金融和信用风险分析的NLP模型
| 模型 | 架构 | 数据来源 | 输入特征 | 性能 |
|-----------------|--------------------------|------------|---------------------------------------------------------|
| LLM风险指标 (Yuan and Wei, 2024) | 零样本LLM(GPT-3.5/BERT基线) | P2P贷款描述 | 与实际违约相关的贷款目的和意图文本 | 相关的风险评分;优于词汇基线 |
| PsyCredit (Yang et al., 2022) | 带有LRP(逐层相关性传播)的深度学习 | P2P平台的社交媒体帖子 | 语言心理测量信号 | 相比基线信用风险评分模型表现更好 |
| 信用违约预测器 (Brahma et al., 2021) | 深度神经网络(DNN) | P2P贷款申請 | 来自借款人文本的描述性特征 | 比传统财务模型实现更高的准确性 |
| LocalGov债务风险模型 (Guo et al., 2022) | 带有情感分析的深度学习NLP管道 | 政府工作報告 | 基于情感的风险指标 | 有效识别高风险地理区域 |
| grcForest_XGB (Tao et al., 2025) | grcForest和XGBoost的集成 | 银行财务数据集 | 在 benchmarked模型中提供优越的预测性能 |
| MobilePay风险KG (Xia et al., 2022) | 用于无监督知识图构建的深度学习 | 移动支付政策文档 | 从文本中提取实体和关系三元组 | 通过知识图实现可视风险分析和政策关联 |
| 混合词表示 (Adhikari et al., 2023) | 使用混合词嵌入的CNN | 财经新聞標題 | 嵌入捕捉语义、句法和多义性线索 | 相比基线方法实现更强的情感分类 |
| CNN风险分析师 (Xing, 2024) | CNN +心理语言学信号 | 合成用户生成文本 | 语言标记 + 嵌入 | 微F1分数约为0.51 |
| Berteley (Chagnon et al., 2024) | 基于变换器的主题建模,预训练的科学语言模型 | 科学文章语料库 | 楼句嵌入来自科学文本 | 显示出更强的连贯性和主题质量 |
| LLM4Jobs (Li et al., 2025) | 基于无监督LLM的框架 | 求职信息和简历 | 原始文本数据 | 相比现有的无监督方法表现更好 |
我们的比较综合展示了基于变换器的模型,特别是BERT和RoBERTa,在情感分类和信用评分等任务中的优越性能。结合CNN或GRU与变换器的混合方法进一步提高了准确性和适应性,尤其是在不平衡的数据集中。虽然LLaMA模型在资源匮乏的环境中展现出潜力,但BERT仍然是最广泛采用的模型。值得注意的是,许多高性能模型仍然缺乏可解释性,且在金融应用中可解释性工具(如SHAP或LIME)的部署仍然有限(Golec和Alabduljalil, 2026)。
4 方法论
本研究采用系统文献回顾(SLR)方法论,系统地识别、评估和综合关于NLP模型(特别是基于变换器的架构,如BERT、RoBERTa和LLaMA)在信用风险分类任务中应用的学术研究。保留了来自相关领域的研究,这些研究展示了与信用风险建模相关的可转移的基于变换器的方法。SLR使用基于Python的工具来确保方法论的透明度和可重复性,通过集成结构化数据库查询与自动化的过滤、清洗和语义相似性评分过程来实现。为了确保全面覆盖,学术文章从三个重要的数据库中获取:Scopus、ScienceDirect和Web of Science。制定了一个标准化的布尔搜索字符串来探索这些来源,重点是利用NLP或文本挖掘技术进行信用风险、财务风险或贷款违约分类的论文。搜索范围限于2015年至2025年间发布的英文出版物。Scopus的查询结构如下:
```
TITLE-ABS-KEY
(信用风险 或 财务风险 或 贷款违约 或 信用评分)
AND
(自然语言处理 或 NLP 或 文本挖掘)
AND
(分类 或 预测)
AND
PUBYEAR > 2015 AND PUBYEAR < 2025
AND
EXCLUDE(DOCTYPE, cp) OR EXCLUDE(DOCTYPE, re) OR EXCLUDE(DOCTYPE, cr) OR EXCLUDE(DOCTYPE, sh) OR EXCLUDE(DOCTYPE, ed)
AND
EXCLUDE(LANGUAGE, 中文)
```
ScienceDirect的查询是通过基本搜索栏制定的,并针对最佳关键词匹配进行了微调。尽管该界面缺乏Scopus等平台中的布尔复杂性,但它允许直接逻辑结构,有效地产生相关的同行评审结果。搜索针对Elsevier出版物的全面全文库,以定位讨论信用风险背景下的NLP的文章。逻辑结构强调了分类和预测,特别是包含与信用相关的术语。搜索也限于2015年至2025年间发布的英文出版物。以下查询示例展示了与ScienceDirect搜索功能兼容的语法:
```
(信用风险 或 财务风险 或 贷款违约 或 信用评分)
AND
(自然语言处理 或 NLP 或 文本挖掘)
AND
(分类 或 预测)
AND
publicationYear:[2015 TO 2025]
AND language:English
```
Web of Science平台提供了主题搜索(TS)功能,用于彻底查询文章标题、摘要、作者关键词和关键词加。最终查询结构已经过优化,以确保通用兼容性,并通过核心集合界面实现。为了缩小结果范围,只考虑了2015年至2025年间的英文出版物,并排除了评论和编辑材料等文档类型。以下查询遵循Web of Science的默认逻辑语法:
```
TS = (信用风险 或 财务风险 或 贷款违约 或 信用评分)
AND TS = (自然语言处理 或 NLP 或 文本挖掘)
AND TS = (分类 或 预测)
AND PY = (2015-2025)
AND LA = (English)
NOT DT = (会议摘要 或 编辑材料 或 评论)
```
4.1 包含和排除标准
为了确保主题和方法论的一致性,应用了明确的资格标准,如表4所总结的。
表4:包含和排除标准
| 指标 | 包含 | 排除 |
|-----------------|-----------------------------|-----------------------------------------|
| 研究重点 | 应用基于变换器的NLP模型(例如BERT、RoBERTa、LLaMA)进行信用风险或财务风险预测的研究 | 与信用风险、财务风险无关的研究,或不涉及NLP/文本分析的研究 |
| 模型类型 | 基于变换器的或混合NLP模型 | 传统的没有NLP组件的模型 |
| 出版时期 | 发表在2015年至2025年间 | 发表在2015年之前的 |
| 出版物类型 | 同行评审期刊文章和会议论文 | 编辑部文章、评论文章、立场文件或非实证研究 |
| 语言 | 英文出版物 | 非英文出版物 |
| 数据模态 | 使用非结构化文本数据(单独或与结构化数据结合) | 仅依赖结构化数值数据的研究 |
4.2 筛选、去除重复项和语义过滤
初始搜索在数据库中产生了284条独特记录,然后将其导出为BibTeX格式并合并为单一参考文献。在此导出之后,实施了一个语义过滤过程,根据预定义的研究主题评估每篇文章的相关性。在所有记录中,有217篇文章因语义相似性低而被排除,而63篇文章符合包含标准。图4可视化了包含文章与排除文章的比例,清晰地展示了支持审查方法学严谨性的数据 refinement过程。
图4:语义过滤后的包含文章与排除文章数量的条形图。
使用`bibtexparser`库的Python脚本来加载和解析条目,同时通过标题和唯一标识符的字符串规范化来识别和消除重复项。
```python
import bibtexparser
from bibtexparser import BibTexParser
from bibtexparser.customization import homogenize_latex_encoding
def normalize(text):
return text.strip().lower().replace('\n', '')
if text else ''
def remove_duplicates(entries):
seen_titles = set()
unique_entries = []
for entry in entries:
title = normalize(entry.get('title', '')
if title not in seen_titles:
seen_titles.add(title)
unique_entries.append(entry)
return unique_entries
```
去除重复项后,剩余280条独特记录。为了将语料库精炼为与主题相关的研究,引入了语义过滤步骤。使用`SentenceTransformer`模型`all-MiniLM-L6-v2`,计算每篇文章的标题和关键词嵌入与代表评论中心主题的目标嵌入之间的余弦相似度。为了在初始过滤过程中减少噪声和计算成本,尽管摘要包含重要内容,但也被排除。未来的改进可能会考虑包括摘要的三模态方法以增强覆盖范围。基于初步实验,设置了0.35的阈值,以确保包含主题相关但语义多样化的文章。对相似性分数(0.35–0.573)的敏感性分析表明,较低的阈值(例如0.30)会增加包含的研究数量,但会引入部分相关的文献,而较高的阈值(例如0.40)会通过排除相关但语义多样化的研究来减少语料库规模。例如,排名较高的文章“PsyCredit: 一种可解释的基于深度学习的信用评估方法”(相似度=0.573)和“Automatic mortgage origination delay detection from textual conversations”(相似度=0.565)展示了强烈的主题一致性,而接近下限的文章,如“BalancerGNN: 图神经网络在不足数据集中的应用:欺诈检测案例研究”(相似度=0.35),则捕捉了更广泛财务风险领域内相关但方法论上多样的方法。因此,只有那些满足或超过0.35语义相似性分数的文章被选中进行详细分析,最终形成了包含63篇研究的精选集合。这种严格的过滤过程确保了审查的文献与使用NLP进行信用风险建模的主题焦点紧密一致,同时保持了方法论的多样性。出于方法论透明度的考虑,筛选过程遵循了PRISMA原则。关键阶段包括文章识别、去除重复项、语义评估和基于相关性的最终包含。这些阶段有助于将数据集精炼为稳健的证据基础。文章通过这些阶段的分布和流程在图5中以Sankey风格的PRISMA图示表示。
图5:PRISMA 2020流程图,展示了在基于变换器的NLP模型用于信用风险预测的系统回顾中研究的识别、筛选、资格评估和包含过程(Page et al., 2021)。语义相似性过滤程序将传统的筛选和资格阶段合并为一个自动化步骤。因此,在全文资格阶段没有进行额外的排除。
图6展示了出版物趋势,特别是从2020年开始相关研究成果的明显上升趋势。这一趋势凸显了学术界对NLP在金融风险建模应用方面的日益重视。如图6所示,2025年的高峰表明了近期学术参与的显著增加,这可能是由于基于变换器的模型的进步和金融文本数据可访问性的提高。这一模式也反映了机器学习在金融领域的更广泛整合,这与各种监管和技术变化相吻合。总体而言,时间分析强调了这项研究在动态研究景观中的相关性和重要性。图表6展示了多年来选定研究的分布和发布趋势,反映了使用自然语言处理(NLP)技术进行信用风险分类的学术兴趣日益增加。所审查文献的主题结构通过词云(图表7)进行了视觉总结,该词云是通过汇总文章标题和关键词生成的。这种可视化技术有助于识别过滤后语料库中的关键主题模式。诸如“大型语言模型(LLM)”、“分类”、“风险”、“基于”、“语言模型”和“预测”等术语出现频率较高,突显了这些研究的核心关注领域。这些关键词的重要性凸显了大型语言模型和预测分析在信用风险建模中的地位。这种主题一致性进一步验证了文章选择过程,并强化了文献与研究目标的一致性。
将程序化处理与学术评审流程相结合,提高了方法论的严谨性和透明度。这种混合方法利用NLP模型、语义嵌入和结构化筛选框架,确保只纳入最相关和高质量的研究。由此产生的语料库为分析当前趋势、评估模型效果以及理解NLP在信用风险建模中的发展提供了坚实的基础。
4.3 质量评估
对纳入的63项研究进行了系统的方法学质量评估和潜在偏见风险评估,使用了基于GRADE的评估框架。评估重点关注几个核心标准,以确保研究的严谨性和可比性。首先,检查了数据集的特征,包括数据集大小、代表性以及数据是否公开可获取或专有。其次,评估了报告的方法论的清晰度和可重复性,包括模型架构描述、预处理步骤和训练程序的透明度。第三,评估了研究是否包含了适当的基线模型比较,特别是与传统的统计或非转换器机器学习方法的比较。最后,检查了报告的评估指标(如准确率、AUC、F1分数、召回率、精确度等)的完整性和透明度,以确定报告结果的稳健性和有效性。这种结构化的评估确保从文献中得出的结论基于方法论上合理且可重复的研究。
4.4 数据提取与综合
对于最终综合中包含的每篇符合条件的文章,都进行了结构化的数据提取过程,以确保一致性和可比性。提取的信息包括数据集特征(例如,贷款描述、财经新闻、社交媒体数据、交易记录)、数据集大小(如果有的话)以及文本数据的语言。详细记录了模型架构和训练策略的信息,包括是否使用了基于转换器的方法、混合方法、多模态方法或集成方法,以及适用的微调或零样本策略。系统地记录了评估指标和报告的性能结果,以便于跨研究比较。此外,我们还提取了关于可解释性、公平性或偏见缓解技术的使用信息,包括SHAP、LIME、LRP或可解释建模框架等方法。最后,记录了作者讨论的局限性、伦理考虑和监管影响,以提供技术和更广泛部署方面的全面综合。
5 数据分析与讨论
5.1 数据分析
(Shen和Wu 2025) TCN-DilateFormer模型表现出较高的精确度、召回率、F1分数和特异性,在信用风险分析中优于传统模型和最先进模型。参数优化显示[1,2,4,8]是最优的膨胀因子组合,而原始设置[1,2,4]是最佳的规模配置。该模型对学习率的变化具有容忍性,并且对高斯噪声的变化敏感度低,显示出鲁棒性。统计测试证实了TCN-DilateFormer相比其他模型的优越性能。(Barrak等人2022)利用了多种数据源,包括Airudi数据集、网络爬取和RecSys Challenge 2017数据集。Airudi数据集包含职位描述和简历,而网络爬取提供了真实世界的职位信息和候选人资料。作者使用深度上下文化词嵌入和语言模型来关注关键特征提取,如技能和经验。开发了一个基于转换器语言模型的基线模型,通过评估特征相似性来匹配候选人与职位描述。使用归一化折扣累积增益(NDCG)和平均倒数排名(MRR)等指标评估了性能,提高了准确性和可解释性。该系统确保了公平和无偏的匹配,并具有可追溯性特征,以监控决策过程并解决歧视问题。
(Rustam等人2024)引入了一种新方法,通过分析讲师科学出版物的标题和摘要来分类他们的专业领域。利用BERT模型中的双向编码器表示,研究人员能够将非结构化文本数据转换为有意义的向量表示。这种先进的深度学习模型有效地将出版物分为24个不同的科学类别,在训练数据上达到了95.03%的准确率,在测试数据上达到了92.88%的准确率。这种方法为映射讲师的专业知识提供了更客观和数据驱动的框架,从而提高了学术人才管理系统的精确度。
(Roshanzamir等人2021)使用图片描述测试文本评估了模型,基于BERT的大型模型结合逻辑回归实现了88.08%的分类准确率,比最先进的方法提高了2.48%。句子级别的BERT大型嵌入方法达到了最高的准确率88.08%。基于BERT系列嵌入器的模型表现优于其他模型。最佳模型的皮尔逊相关系数为0.78,斯皮尔曼等级相关系数为0.81,适用于训练阶段。根据(Jin和Zhang 2024)的研究,CNN-Transformer-WT模型在Kaggle数据集上的预测准确率为0.969,也超过了其他模型。CNN-Transformer-WT模型的风险召回率为0.947,高于GRU和BERT模型。该模型的综合F1分数达到了0.955,超过了其他模型的分数。结果证实了CNN-Transformer-WT模型在金融风险预测任务中的有效性和优越性。
(Wang等人2019)的研究表明,基于LSTM的模型在使用P2P借贷用户数据进行信用风险评估时优于传统方法。双向LSTM(BLSTM)的表现优于标准LSTM,因为它可以从不同方向捕获序列信息。基于注意力的LSTM(AM-LSTM)比标准BLSTM和BLSTM-Meanpool表现得更好。AM-LSTM模型将KS值提高了10.3%,AUC值提高了3.08%。结合操作行为数据的模型表现得更好,KS值提高了10.7%,AUC值提高了5.65%。这表明在信用评分中使用操作行为数据的优势。
(Shen等人2025)表明,NLP模型可以高精度预测分诊评分、入院需求和重症情况,并能将自由文本投诉映射到结构化数据。结合结构化和自由文本数据的多模态模型通常优于仅使用结构化数据的模型。单独的自由文本数据也可以高精度预测入院情况。一些研究表明,NLP模型在分配分诊评分方面比护士更准确。部署的NLP模型改进了结构化数据的捕获。然而,大多数研究存在较高的偏见风险,很少有在实际临床中得到应用。
在他们的项目中,(Mahbobi等人2021)开发了一种算法来改进信用风险评估,重点是处理贷款违约不平衡的数据集。他们使用了包含30,000个实例的数据集,并使用了SMOTE、SVM SMOTE、随机欠采样和ALL-KNN等重采样技术来提高预测准确性。使用了多种机器学习分类器,包括深度神经网络、支持向量机、K-最近邻居和人工神经网络。SVM模型结合ALL-KNN采样实现了98.6%的准确率和0.028的交叉熵损失。虽然强调预测准确性,但像KNN和ANN这样的可解释模型也提供了对决策过程的洞察,解决了信用风险评估中的公平性和可解释性问题。这种方法证明了在不平衡场景中将深度学习与重采样技术相结合在信用风险分类中的有效性。
(Tan等人2023)介绍了一种新方法,结合了基于Transformer的RoBERTa模型和门控循环单元(GRU)的优点来改进情感分析。RoBERTa组件通过其注意力机制有效捕获了上下文词表示,而GRU组件擅长模拟文本中的长距离依赖性。为了解决不平衡数据集带来的挑战,作者采用了数据增强技术,特别是使用词嵌入对少数类别进行过采样,从而提高了模型的鲁棒性和准确性。在三个广泛使用的情感分析数据集(IMDb、Sentiment140和Twitter美国航空公司情感)上进行的评估显示了该模型的有效性,准确率分别为94.63%、89.59%和91.52%。这些结果突显了RoBERTa-GRU混合模型在推进情感分析任务中的潜力。
(Chen等人2023)使用了ELSTM-VC模型,该模型结合了额外树分类器(ETC)和长短期记忆(LSTM)网络来检测英语歌曲歌词中的明确内容。他们训练了一个包含100首Spotify歌曲的数据集,模型准确率达到96%,优于现有的机器学习模型和编解码方法。这种自动化方法为识别不适当音乐内容提供了更高效和准确的解决方案,保护年轻听众免受暴露于明确歌曲的影响。
(Alrowais等人2024)开发的模型将RoBERTa变压器与GloVe词嵌入集成起来,用于检测推文中的网络欺凌行为。该模型在公开可用的专注于网络欺凌的数据集上进行了训练,实现了95%的准确率。它的性能优于现有的机器学习、深度学习和基于变压器的方法,这些方法使用了FastText词嵌入。这项研究强调了将变压器模型与词嵌入相结合以提高社交媒体平台上网络欺凌检测效果的有效性。
(Mann等人2023)研究了改进后的BERT模型在推文情感分析中的应用。他们使用了Kaggle SMILE数据集,该数据集包含标记了各种情绪的推文。他们改进的BERT模型在分类这些情绪时达到了96%的准确率,展示了其在理解推文中微妙情感内容方面的有效性。
(Roumeliotis等人2024)研究了大型语言模型(LLM)在评估电子商务网站产品评论情感方面的有效性。他们评估了GPT-3.5和LLaMA-2模型的性能,包括它们的预训练和微调版本,使用了来自不同电子商务平台的产品评论数据集。他们的结果显示,微调显著提高了模型的情感分类准确率,GPT-3.5达到了92%,LLaMA-2达到了89%。这项研究强调了LLM在自动化电子商务 sentiment 分析中的潜力,可以帮助企业更好地理解客户反馈。
(Jeyakarthic和Ramesh 2023)提出了GPDBN-CRA模型,该模型结合了遗传编程和动态贝叶斯网络来改进信用风险评估。该模型通过标准化客户数据并有效评估信用价值,帮助金融机构做出贷款申请决策。GPDBN-CRA模型的表现优于传统的信用风险评估方法,提供了一个更精确和高效的金融决策工具。
(Song等人2024)的研究表明,基于LSTM、Transformer和深度学习的监控和早期预警模型在不同的数据集上取得了高准确率。在Fama-French三因子数据集上的准确率为94.37%,在CRSP数据集上为93.84%。在Compustat数据集上也取得了显著改进,准确率为95.13%,在世界银行数据集上的准确率为94.34%。该模型的效率体现在其较低的参数数量、213.58毫秒的短推理时间和147.24秒的训练时间上。结合LSTM和Transformer提高了模型的准确性和召回率。该模型还能更早地检测到风险信号,从而实现主动风险管理。
5.2 讨论
这项系统评价的结果表明,将NLP和大型语言模型(LLM)纳入信用风险建模标志着金融机构分析和解释大量非结构化数据方式的显著进步。传统的信用风险评估模型通常依赖于结构化的输入数据,如信用记录、收入水平和还款行为。然而,最近这些模型正在被改进,甚至在某些情况下被能够利用文本来源(如贷款申请、社交媒体帖子、财务披露和新闻文章)的新模型所超越(Wang等人,2019年;Jin和Zhang,2024年;Sanz-Guerrero和Arroyo,2025年;Yang等人,2022年;Adhikari等人,2023年;García-Méndez等人,2023年)。在自然语言处理领域最具影响力的模型包括BERT、RoBERTa和LLaMA,它们通过使用注意力机制和预训练策略从文本中提取上下文和语义信息。为了整理这些方法,表5对基于NLP和LLM的信用风险建模模型进行了分析性总结,突出了它们在不同模型类别中的关键贡献和局限性。这些模型在信用评分、违约预测和欺诈检测等分类任务中表现出色。例如,BERT的双向训练能力使其能够更深入地理解语言上下文,从而特别擅长识别借款人叙述中的细微情感。RoBERTa通过优化预训练和动态掩码技术提高了这一能力,而LLaMA则提供了适合资源有限环境下的实时风险评估的可扩展性和效率(Touvron等人,2023年)。
表5 模型类别 代表性模型 主要数据来源 关键贡献 关键局限性
基于Transformer的NLP BERT、RoBERTa、LLaMA 贷款描述、财经新闻、社交媒体、财务披露 高度的上下文理解;改进的违约和情感预测能力;在信用评分任务中表现优异 可解释性有限;计算成本高;合规性有待进一步加强
混合NLP模型 RoBERTa-GRU、CNN-Transformer、BERT-LSTM 结合文本数据和时间序列及结构化财务特征 提高了模型的鲁棒性;在不平衡数据集上的表现更优;更好的时间建模能力 架构复杂度增加;决策逻辑透明度较低
多模态风险模型 文本 + 数值财务指标 财务报表、交易历史、借款人叙述 提高了预测准确性;跨不同模态捕捉互补的风险信号 数据集成挑战;由于数据集的专有性导致可复现性问题
基于注意力的模型和图模型 ACWGAN-GPSA、RCMA、图神经网络 法律文件、交易图表、政策文本 揭示隐藏的风险模式;有效的欺诈和供应链风险检测 高培训复杂性;可扩展性有限;解释性评估不足
增强可解释性的模型 使用LIME、SHAP、LRP的模型 结构化和非结构化财务文本 提高了透明度;部分符合监管要求;增强了信任度 事后解释可能不稳定;对模型推理的忠实度有限
除了这些核心模型外,研究还强调了一种趋势,即混合架构和多模态框架的发展,这些框架将NLP技术与结构化数值特征结合在一起。像RoBERTa-GRU和CNN-Transformer这样的混合模型在处理包含文本和时间序列数据的复杂数据集时表现出更强的性能(Jin和Zhang,2024年)。基于注意力的模型,如ACWGAN-GPSA和RCMA欺诈检测系统,展示了如何通过详细建模财务文件和法律文本来发现隐藏的风险信号(Wang等人,2025年;Boyapati和Aygun,2025年)。尽管取得了这些进展,但仍存在一些挑战。在现实世界中部署基于NLP的信用风险模型时,伦理和监管问题至关重要。公平借贷是一个主要关注点,尤其是鉴于存在针对某些人群的算法偏见。模型的可解释性仍然是一个重大问题,特别是在金融等受监管的行业,透明度至关重要。包括LIME和SHAP在内的可解释AI(XAI)技术正在越来越多地被用来解决这一问题;然而,它们在捕捉高度复杂模型的决策逻辑方面仍然存在不足(Heng和Subramanian,2022年)。此外,数据不平衡问题,特别是违约案例的代表性不足,突显了需要使用SMOTE、集成过采样和自适应加权等技术来实现公平和准确的分类(Jukna,2022年;Liang等人,2022年)。
伦理问题也是一个重要议题,许多研究强调了算法偏见、隐私侵犯和滥用敏感财务或个人数据的潜在风险(Heng和Subramanian,2022年)。这需要为在风险敏感领域部署LLM制定标准化的评估协议和伦理准则(Sarfati等人,2024年)。
总之,这篇综述全面探讨了NLP和大型语言模型如何改变信用风险分类领域。通过整合非结构化文本数据并增强财务叙述的语义解释,BERT、RoBERTa和LLaMA等模型代表了风险建模实践的重大转变(Devlin等人,2018年;Liu等人,2019年;Touvron等人,2023年)。这些进步不仅提高了预测准确性,还为分析提供了新的途径,包括心理测量 profiling、情感轨迹建模和多模态欺诈检测(Jin和Zhang,2024年;Yang等人,2022年;Xing,2024年;Che等人,2024年)。将NLP整合到信用风险建模中带来了若干挑战。关于可解释性、公平性、合规性和可扩展性的关键问题在学术界和工业界仍然备受关注(Liu等人,2020年;Pathak等人,2023年;Heng和Subramanian,2022年)。显然,需要开发出更透明的模型以赢得监管机构和最终用户的信任。此外,还需要解决现有偏见问题并保护用户隐私(Hassija等人,2020年;Boyapati和Aygun,2025年)。将NLP引入信用风险建模带来了一系列挑战,与可解释性、公平性和合规性相关的问题仍是学术界和工业界讨论的焦点。显然,需要开发出更透明的模型来建立监管机构和最终用户之间的信任。此外,还需要解决现有偏见问题以确保公平的结果。
总的来说,尽管NLP和LLM为改进信用风险评估提供了重要机会,但要充分利用它们的优势,需要采取一种平衡技术创新与伦理责任的策略(Lessmann等人,2015年;Heng和Subramanian,2022年;Sarfati等人,2024年)。信用风险建模的未来取决于这些变革性技术的负责任和透明应用。
打赏