当企业无法产生足够的收入来偿还债务义务时,就会陷入财务困境(Habib等人,2020年)。近期的一些挑战,包括新冠疫情的影响和地缘政治紧张局势,进一步复杂化了商业环境,增加了许多公司的财务困境风险。金融市场频繁发生的财务困境事件给债权人带来了巨大损失,甚至导致了严重的社会成本,例如著名的加密货币交易所Futures Exchange (FTX)和太阳能公司Pink Energy的破产(Elkamhi等人,2024年;Z. Cheng & Fang,2025年)。因此,有效预测财务困境是一个重要的研究课题,这可以防止投资者和债权人遭受重大损失,并帮助监管机构建立早期预警系统以遏制系统性风险(Ahmed等人,2024年;Antill & Clayton,2025年;Mai等人,2019年)。
为了更有效地预测财务困境风险,以往的研究采用了各种类型的信息,包括来自公司财务报表和股市的数值数据,以及用户在社交媒体上生成和公司公开发布的文本数据(Habib等人,2020年;Mayew等人,2015年)。从一开始,研究人员主要关注结构良好的数值财务数据和股市数据(Altman,1968年;Shumway,2001年)。例如,Altman(1968年)基于财务报表中的五个财务比率建立了Z分数模型,并发现财务比率能够提供有效的预测能力。Shumway(2001年)通过纳入股市变量(如股票价值波动性和股票超额回报)构建了危险模型,并发现股市信息可以提高财务困境预测性能。尽管结构良好的数值数据在预测财务困境方面得到了广泛的应用(Andrikopoulos & Khorasgani,2018年;Beaver等人,2005年;Chiaramonte & Casu,2017年;Jones,2017年;S. F. Cheng & Fang,2025年),但这些数据仅提供了公司业务的简要概述,仅捕捉到了其运营表现的一部分。
最近,大量关于财务困境预测的文献开始关注文本数据,这些数据以非结构化的文本格式描述与公司相关的信息(Mai等人,2019年;Mayew等人,2015年)。根据数据来源,文本数据主要可以分为两类:文本媒体数据和公司披露数据。文本媒体包括社交媒体和新闻媒体。社交媒体是用户创建和分享信息的平台,其中包含投资者对公司表现发表的文本评论的在线股票论坛(Zhao等人,2022年),或发布与公司相关最新事件的报纸(Lu等人,2012年)。公司的文本披露,如管理层讨论与分析(MD&A)(Mayew等人,2015年)和当前报告中披露的意外事件(Jiang等人,2022年),以文本格式讨论公司的运营和发展情况。总体而言,文本媒体和公司披露从外部视角(投资者、记者等)和内部视角(公司本身)描述了公司的状况。与数值财务和市场数据相比,这些文本数据可以提供补充信息,以全面了解公司的状况并提高财务困境预测性能(Mayew等人,2015年;Zhao等人,2022年)。然而,这些文本数据很少提供关于对公司运营产生负面影响的风险的详细信息,这些风险可能会导致财务困境。
2005年,美国证券交易委员会(SEC)要求上市公司在年度报告中新创建的“风险因素”部分讨论“使公司具有投机性或风险性的最重要因素”(Huang等人,2022年;Huang等人,2022年)。基于公司自身的风险认知,文本风险披露列出了可能对未来公司运营产生负面影响的潜在风险因素(Beatty等人,2019年)。与常见的数值和文本数据相比,文本风险披露具有两个优势:直接性和前瞻性。首先,Campbell等人(2014年)证明公司披露的风险类型与其实际面临的风险高度相关。因此,我们可以通过文本风险披露直接了解公司面临的风险,而无需费力分析隐藏在常见数值和文本数据中的风险。其次,与主要总结公司历史状况的常见数值和文本数据不同,前瞻性的风险披露提供了对公司风险的前瞻性分析(Wei, Li, Zhu, Sun, & Li, 2019年)。此外,Huang、Shen和Zang(2022年)证明,在SEC要求公司在年度报告的1A部分披露文本风险披露的2005年规定之后,文本风险披露中的前瞻性内容量有所增加。总之,文本风险披露能够提供关于对公司运营和发展产生负面影响的风险的直接和前瞻性信息,有望有助于预测财务困境风险。然而,现有研究很少将文本风险披露纳入财务困境预测中。
本研究考察了将年度报告中包含的文本风险披露纳入其中是否能够提高财务困境预测性能。我们从两个角度分析公司披露的风险:“如何”披露风险以及“什么”风险。为了量化风险披露的方式,我们测量了常用的文本属性,包括长度、词汇密度、词汇多样性、可读性和样板语言(Dyer等人,2017年;Loughran & McDonald,2016年;Mayew等人,2015年)。为了量化披露的风险内容,我们使用名为Sent-LDA的主题模型(Bao & Datta,2014年)识别文本风险披露中的文本主题。利用从文本风险披露中提取的文本属性和文本主题,本研究采用了六种常见的机器学习模型进行财务困境预测(Huang, Shen, & Zang,2022年;Mai等人,2019年)。这些模型包括逻辑回归(LR)、人工神经网络(ANN)、支持向量机(SVM)、随机森林(RF)、CatBoost和XGBoost。为了探索文本风险披露的可预测性,我们比较了仅使用数值财务和市场变量的预测结果与结合文本属性和文本主题的结果。此外,为了检验前瞻性文本风险披露是否能够提供更早的预警信号,我们分析了随着预测时间范围延长到更长时间时预测性能的变化。
本研究的贡献主要体现在两个方面。首先,直接代表对公司运营产生负面影响的潜在风险因素的文本风险披露被纳入其中,以提高财务困境预测性能。与以往研究中常见的数值和文本数据(Altman,1968年;Griffin等人,2025年;Mai等人,2019年;Mayew等人,2015年)相比,例如数值财务数据、年度报告中的文本MD&A,后者要么间接反映公司的风险,要么仅描述公司的历史风险状况,文本风险披露可以更直接和前瞻性地提供公司面临的风险信息。其次,我们从更全面的视角提取文本风险披露中的信息,包括公司披露的“如何”风险和“什么”风险。“如何”风险可以通过文本属性来量化,如长度、情感和可读性,这些是以往研究中用于衡量财务文本数据语言特征的常见方法(Dyer等人,2017年;Loughran & McDonald,2016年;Mayew等人,2015年)。然而,文本属性难以描述文本数据的上下文或含义(Brown等人,2020年)。我们进一步通过基于主题模型识别文本主题来分析文本风险披露中披露的“什么”风险,从而发现文本数据中的有意义主题。