利用年报中的文本风险披露来预测财务困境:风险是如何以及以何种形式被披露的?

时间:2026年1月19日
来源:British Accounting Review

编辑推荐:

本研究利用2006-2023年美国上市公司年报中的文本风险披露信息,探讨其能否提升财务困境预测能力。通过文本属性(如长度、情感)捕捉“如何”披露风险,结合Sent-LDA主题模型识别“什么”风险,发现文本信息在长期预测中优于传统数值指标,且“什么”风险披露更具预测价值,为投资者和监管机构提供新视角。

广告
   X   

朱晓倩|孙浩|常彦鹏|李建平
中国科学院大学经济与管理学院,北京,100190,中国

摘要

年度报告中关于企业潜在风险的文本性风险披露,这些风险会对其运营产生负面影响,并且是直接且具有前瞻性的讨论,但在财务困境预测中却很少被考虑。本研究探讨了文本性风险披露是否能够提供有价值的信息,以提高财务困境预测的准确性。为了从文本性风险披露中全面提取信息,我们利用文本属性来捕捉风险披露的“方式”,并采用主题模型来识别风险披露的“内容”。基于2006年至2023年间48,224家美国公司的年度报告中的文本性风险披露,实证结果表明,与仅使用数值财务、市场、公司治理和宏观经济变量的基准模型相比,纳入风险披露可以提高预测性能。此外,风险披露的内容比披露方式提供了更多的信息。最后但同样重要的是,随着预测时间范围的延长,数值变量的预测能力显著下降,而文本性风险披露则能提供更有帮助的信息,甚至能更好地提升预测性能。这项研究提醒投资者和监管机构在评估财务困境风险时应关注年度报告中的文本性风险披露。

引言

当企业无法产生足够的收入来偿还债务义务时,就会陷入财务困境(Habib等人,2020年)。近期的一些挑战,包括新冠疫情的影响和地缘政治紧张局势,进一步复杂化了商业环境,增加了许多公司的财务困境风险。金融市场频繁发生的财务困境事件给债权人带来了巨大损失,甚至导致了严重的社会成本,例如著名的加密货币交易所Futures Exchange (FTX)和太阳能公司Pink Energy的破产(Elkamhi等人,2024年;Z. Cheng & Fang,2025年)。因此,有效预测财务困境是一个重要的研究课题,这可以防止投资者和债权人遭受重大损失,并帮助监管机构建立早期预警系统以遏制系统性风险(Ahmed等人,2024年;Antill & Clayton,2025年;Mai等人,2019年)。
为了更有效地预测财务困境风险,以往的研究采用了各种类型的信息,包括来自公司财务报表和股市的数值数据,以及用户在社交媒体上生成和公司公开发布的文本数据(Habib等人,2020年;Mayew等人,2015年)。从一开始,研究人员主要关注结构良好的数值财务数据和股市数据(Altman,1968年;Shumway,2001年)。例如,Altman(1968年)基于财务报表中的五个财务比率建立了Z分数模型,并发现财务比率能够提供有效的预测能力。Shumway(2001年)通过纳入股市变量(如股票价值波动性和股票超额回报)构建了危险模型,并发现股市信息可以提高财务困境预测性能。尽管结构良好的数值数据在预测财务困境方面得到了广泛的应用(Andrikopoulos & Khorasgani,2018年;Beaver等人,2005年;Chiaramonte & Casu,2017年;Jones,2017年;S. F. Cheng & Fang,2025年),但这些数据仅提供了公司业务的简要概述,仅捕捉到了其运营表现的一部分。
最近,大量关于财务困境预测的文献开始关注文本数据,这些数据以非结构化的文本格式描述与公司相关的信息(Mai等人,2019年;Mayew等人,2015年)。根据数据来源,文本数据主要可以分为两类:文本媒体数据和公司披露数据。文本媒体包括社交媒体和新闻媒体。社交媒体是用户创建和分享信息的平台,其中包含投资者对公司表现发表的文本评论的在线股票论坛(Zhao等人,2022年),或发布与公司相关最新事件的报纸(Lu等人,2012年)。公司的文本披露,如管理层讨论与分析(MD&A)(Mayew等人,2015年)和当前报告中披露的意外事件(Jiang等人,2022年),以文本格式讨论公司的运营和发展情况。总体而言,文本媒体和公司披露从外部视角(投资者、记者等)和内部视角(公司本身)描述了公司的状况。与数值财务和市场数据相比,这些文本数据可以提供补充信息,以全面了解公司的状况并提高财务困境预测性能(Mayew等人,2015年;Zhao等人,2022年)。然而,这些文本数据很少提供关于对公司运营产生负面影响的风险的详细信息,这些风险可能会导致财务困境。
2005年,美国证券交易委员会(SEC)要求上市公司在年度报告中新创建的“风险因素”部分讨论“使公司具有投机性或风险性的最重要因素”(Huang等人,2022年;Huang等人,2022年)。基于公司自身的风险认知,文本风险披露列出了可能对未来公司运营产生负面影响的潜在风险因素(Beatty等人,2019年)。与常见的数值和文本数据相比,文本风险披露具有两个优势:直接性和前瞻性。首先,Campbell等人(2014年)证明公司披露的风险类型与其实际面临的风险高度相关。因此,我们可以通过文本风险披露直接了解公司面临的风险,而无需费力分析隐藏在常见数值和文本数据中的风险。其次,与主要总结公司历史状况的常见数值和文本数据不同,前瞻性的风险披露提供了对公司风险的前瞻性分析(Wei, Li, Zhu, Sun, & Li, 2019年)。此外,Huang、Shen和Zang(2022年)证明,在SEC要求公司在年度报告的1A部分披露文本风险披露的2005年规定之后,文本风险披露中的前瞻性内容量有所增加。总之,文本风险披露能够提供关于对公司运营和发展产生负面影响的风险的直接和前瞻性信息,有望有助于预测财务困境风险。然而,现有研究很少将文本风险披露纳入财务困境预测中。
本研究考察了将年度报告中包含的文本风险披露纳入其中是否能够提高财务困境预测性能。我们从两个角度分析公司披露的风险:“如何”披露风险以及“什么”风险。为了量化风险披露的方式,我们测量了常用的文本属性,包括长度、词汇密度、词汇多样性、可读性和样板语言(Dyer等人,2017年;Loughran & McDonald,2016年;Mayew等人,2015年)。为了量化披露的风险内容,我们使用名为Sent-LDA的主题模型(Bao & Datta,2014年)识别文本风险披露中的文本主题。利用从文本风险披露中提取的文本属性和文本主题,本研究采用了六种常见的机器学习模型进行财务困境预测(Huang, Shen, & Zang,2022年;Mai等人,2019年)。这些模型包括逻辑回归(LR)、人工神经网络(ANN)、支持向量机(SVM)、随机森林(RF)、CatBoost和XGBoost。为了探索文本风险披露的可预测性,我们比较了仅使用数值财务和市场变量的预测结果与结合文本属性和文本主题的结果。此外,为了检验前瞻性文本风险披露是否能够提供更早的预警信号,我们分析了随着预测时间范围延长到更长时间时预测性能的变化。
本研究的贡献主要体现在两个方面。首先,直接代表对公司运营产生负面影响的潜在风险因素的文本风险披露被纳入其中,以提高财务困境预测性能。与以往研究中常见的数值和文本数据(Altman,1968年;Griffin等人,2025年;Mai等人,2019年;Mayew等人,2015年)相比,例如数值财务数据、年度报告中的文本MD&A,后者要么间接反映公司的风险,要么仅描述公司的历史风险状况,文本风险披露可以更直接和前瞻性地提供公司面临的风险信息。其次,我们从更全面的视角提取文本风险披露中的信息,包括公司披露的“如何”风险和“什么”风险。“如何”风险可以通过文本属性来量化,如长度、情感和可读性,这些是以往研究中用于衡量财务文本数据语言特征的常见方法(Dyer等人,2017年;Loughran & McDonald,2016年;Mayew等人,2015年)。然而,文本属性难以描述文本数据的上下文或含义(Brown等人,2020年)。我们进一步通过基于主题模型识别文本主题来分析文本风险披露中披露的“什么”风险,从而发现文本数据中的有意义主题。

章节片段

文献综述

近年来,随着文本数据分析方法的快速发展,各种非结构化文本数据受到了越来越多的关注,并被广泛用于财务困境预测(Gandhi等人,2019年;Mai等人,2019年)。根据数据的来源,文本信息主要分为两类:文本媒体数据和公司披露数据。
文本媒体数据来源于社交媒体或新闻媒体,例如在线报纸等。

概述

在这项研究中,我们利用年度报告中的文本风险披露来预测美国上市公司的财务困境。根据2005年SEC的规定,所有上市公司都被要求在指定的“风险因素”部分(具体为10-K表格的1A项)详细说明“使公司具有风险性的最重要因素”。平均而言,公司列出了大约30个风险因素,每个因素都配有简洁的标题和全面的阐述。

实证结果

实证研究考察了纳入文本风险披露是否能够提高财务困境预测性能。为了从文本风险披露中获取预测洞察,我们评估了用于捕捉风险披露方式的文本属性,并通过Sent-LDA模型识别风险披露的内容,以揭示披露的风险内容。此外,本研究还研究了随着预测时间范围延长到更长时间时,预测性能的变化。

结论

本研究将公司在年度报告中披露的文本风险披露纳入财务困境预测。为了从大量的非结构化文本中提取有关公司风险的信息,我们测量了常见的文本属性,包括长度、情感和样板语言,以量化文本风险披露中的风险披露方式。此外,我们采用了Sent-LDA主题模型识别28个文本主题,这些主题揭示了披露的风险内容。

研究方法

本研究没有使用任何研究工具(如调查问卷、实验问卷或访谈指南/问题)。

利益声明

无利益声明。

致谢

本项工作得到了国家自然科学基金(72371236、72595841、72331010、72595840)、中央高校基本科研业务费中国科学院数字经济预测与政策模拟社会科学实验室,以及中国科学院数字智能时代经济管理复杂系统建模社会科学创新团队的资助。

生物通微信公众号
微信
新浪微博


生物通 版权所有