摘要:引言:全球范围内的心理健康问题日益增加,这可能与城市化及相关生活方式有关。研究人员越来越认识到城市环境的各个方面可以影响心理健康,促进或限制影响福祉的行为。近期研究越来越多地使用社交媒体数据和机器学习(ML)技术来评估城市福祉。然而,这些方法通常缺乏可解释性,且未明确考虑预测不确定性,限制了其在空间决策中的可靠性。方法:本研究使用通过NRC情感词典(NRC Emotion Lexicon)从X(前Twitter)中地理参考帖子提取的情感标签。研究人员训练监督机器学习模型,基于城市环境变量预测情感,并生成里斯本的空间预测,通过K近邻(KNN)、随机森林(RF)、极端梯度提升(XGBoost)和神经网络(NN)比较性能。为了超越简单的点预测,研究人员基于类别概率使用香农熵(Shannon Entropy)测量每个位置的不确定性。使用SHAP(SHapley Additive exPlanations)进行事后解释,识别最影响情感预测的城市特征。结果与讨论:不确定性图与SHAP输出结合显示了解释更可靠的区域(低不确定性)和需要谨慎的区域(高不确定性)。在2019年里斯本,SHAP识别出接近自行车网络、健身设施和归一化植被指数(NDVI)是影响情感的关键因素。该框架增强了对情感-环境关系的空间理解,并提供了一种透明的方法来识别预测更可靠的区域。
**论文解读文章**
**研究背景与问题**
城市被视为人与环境动态交互的场所,这种关系影响日常体验、行为和选择,进而影响身心健康。尽管个体健康主要受社会和经济因素影响,但环境因素和健康行为同样重要。例如,公园可达性促进体育活动并与较低压力和更好情绪相关,而污染暴露会导致哮喘等健康问题并与抑郁和焦虑相关。主观情感是生活质量和心理健康的关键指标,改善建成环境可能促进居民福祉。
然而,实时捕捉主观情感仍具挑战性。许多研究依赖问卷,存在定量数据有限、覆盖范围问题、数据收集困难和结果可重复性差等局限。作为替代,社交媒体数据越来越多地用于评估人口情感、情绪和与心理健康相关的信号,相比问卷和访谈,其提供了更大样本的情感分析空间,有助于决策制定。然而,尽管研究和数据可用性快速增长,关于情感如何在空间和时间上变化以及驱动因素的大数据证据仍然有限。
实证和传统统计技术(如主成分分析、聚类、回归等)虽能提供有价值的规划和管理见解,但存在分析局限:难以完全捕捉非线性行为或解释空间异质性和自相关效应。机器学习(ML)作为人工智能分支,可处理多样数据类型和大数据,且受变量缩放影响较小,能模拟情感变化的复杂非线性关系。但许多ML算法被视为“黑箱”,复杂化预测生成过程的解释。可解释人工智能(xAI)提供了统计和可视化工具,提高ML模型的可解释性。模型无关方法(如SHAP)可解释任何黑箱模型,提供全局和局部洞察。
然而,仅可解释性并不能解决空间预测中的关键挑战:不确定性。当在特定位置估计变量时,一定程度的不确定性不可避免,“预测不确定性”指示对模型输出的置信水平。尽管已有研究比较基于点预测精度的地统计和ML方法,但较少评估不确定性估计的可信度,尤其在空间背景下。目前,结合ML模型与模型无关可解释性方法探索城市环境与公众情感联系的研究存在,但显式量化和空间评估预测不确定性仍未被充分探索。不确定性很少与模型输出和解释一同可视化,限制了空间预测可靠性及其解释的清晰度。本研究通过将预测不确定性与可解释建模结合在空间情感框架内,填补了这一空白。研究发表在《Frontiers in Public Health》。
**研究内容与结论**
研究人员训练多个机器学习模型基于城市环境因素预测情感,并使用香农熵从预测类别概率中评估位置特定不确定性。随后利用SHAP阐明积极情感预测,识别最影响模型输出的城市特征。不确定性图可与SHAP解释结合,识别空间预测和解释更可靠的区域(低不确定性)和需要谨慎的区域(高不确定性)。该方法增强了从数字人文学科角度对结果的信任,通过链接不确定性与可解释性,提高了里斯本情感与环境交互空间推断的可靠性。
**关键技术方法**
1. **情感分析**:使用基于词典的NRC情感词典(NRC Emotion Lexicon, EmoLex)葡萄牙语版本,对2019年里斯本9:00-19:00期间当地用户发布的9,446条地理参考推特(X)帖子进行情感极性(积极/消极)标注,最终1,919条匹配词典。情感极性转化为二元变量(0消极,1积极)作为监督机器学习响应变量。
2. **解释变量选择**:基于城市形态与心理健康概念框架及城市健康相关福祉概念模型(UrbWellth)选择30个自变量。计算方差膨胀因子(VIF)诊断多重共线性,剔除VIF>5的变量后保留10个预测因子,包括距离自行车网络、距离健身设施、归一化植被指数(NDVI)、建筑年龄加权平均值、场所热度(Flickr照片点赞密度)、太阳辐射等。
3. **机器学习模型**:使用随机森林(RF)、神经网络(NNET)、K近邻(KNN)和极端梯度提升(XGBoost, XGB)算法。数据集按90%训练/10%测试分割。RF达到最高准确性(0.82),XGB最低(0.71),但XGB因与SHAP局部解释兼容而用于后续分析。
4. **不确定性量化**:在预测类别概率上应用二元香农熵(Shannon Entropy, H = -p log₂(p) - q log₂(q)),生成像素级不确定性图,熵高表示预测不确定性大。
5. **可解释AI**:使用模型无关的核SHAP(Kernel SHAP)解释XGBoost模型,评估每个解释变量对个体观测预测结果的贡献。SHAP值通过反距离加权(IDW)插值在GIS平台可视化。
**研究结果**
**3.1 情感预测图(RF vs. XGB)**:通过比较随机森林(RF)和XGBoost(XGB)模型的积极情感预测概率图,发现两者在里斯本的空间分布总体一致,高概率区域与EmoLex标注为积极的位置吻合。RF在机场和住宅区显示较低概率,XGB在西南部概率较高,但局部差异出现在Marvila和Parque das Nações。
**3.2 不确定性分析(熵)**:对预测类别概率应用香农熵,XGB模型整体熵高于RF,符合其较低预测性能。RF模型中,最高熵区域集中在Misericórdia、Avenidas Novas、Areeiro、Marvila、Olivais和Santa Clara,解释时需谨慎。XGB模型的高熵区域类似,表明模型在这些区域对两类概率相近,不确定性高。
**3.3 全局解释**:基于XGBoost-SHAP汇总图,按平均绝对SHAP值排序,影响2019年里斯本积极情感的最重要因素为:距离自行车网络、距离健身设备和归一化植被指数(NDVI)。高特征值(紫色)聚集在右侧表示增加积极情感,左侧表示减少。这些结果与随机森林的置换特征重要性(PFI)分析一致,增强了对预测因子稳定性的信心。
**3.4 局部解释**:对“距离自行车网络”变量的SHAP空间映射显示,靠近自行车道的区域贡献积极情感,远离的区域(如Humberto Delgado机场和Santa Maria Maior)贡献消极。观测99(EmoLex标注消极,预测概率0.59)的局部解释显示,距离自行车网络603米降低积极情感概率,距离绿色走廊541米增加概率,但该点位于高熵区域,解释需谨慎。对“距离健身设备”的SHAP映射显示空间正负贡献无明确模式。观测45(预测概率0.94)的局部解释中,距离健身设备1,372米正向影响,太阳辐射值5,099 kW·m
-2 负向影响,且该点位于低熵区域,结果更可靠。NDVI的SHAP解释显示,高NDVI区域(如Monsanto森林公园)积极贡献,低NDVI区域(如少植被住宅区)消极贡献。
**讨论与结论**
讨论指出,积极情感普遍占主导,与葡萄牙在线评论研究一致。接近自行车基础设施和健身设施对塑造积极情感显著,与主动出行、体力活动和主观幸福感关联的研究一致。自行车基础设施作为减少汽车依赖的杠杆,其保护设施与较低伤害风险相关。SHAP结果支持较短距离自行车网络增加积极情感。健身设施通过支持休闲活动、社区参与和社会互动促进体力活动,但空间变异性表明关系依赖上下文。NDVI作为植被覆盖指标,与积极情感关联,可能通过促进体力活动和社会互动发挥作用,但需注意NDVI不反映可及性或质量。里斯本的环境资源分布空间不均,植被集中于大型公园,中心区通过便利性与环境污染(如机场附近)并存。
研究展示了结合情感分析、机器学习、不确定性量化和可解释AI的潜力。通过集成空间预测与熵基不确定性度量及SHAP解释,该框架提供更透明的方法分析城市背景下情感模式。结果一致突出接近自行车基础设施和高植被覆盖(NDVI)是积极情感的突出预测因子,强化了主动出行和绿色环境在塑造城市情感中的相关性。情感分析方法选择至关重要,基于词典的标注可能忽略上下文含义,导致错误传播。未来应探索监督和上下文语言模型。机器学习可支持城市规划者、政策制定者和公共卫生专业人员,但应报告点预测及其不确定性,以区分稳健区域与需谨慎区域。将不确定性分析纳入工作流能增强基于证据的决策可靠性。
**结论翻译**:本研究展示了结合情感分析、机器学习、不确定性量化和可解释AI以更好理解城市环境与福祉关系的潜力。通过集成空间预测与熵基不确定性度量及SHAP解释,所提出的框架为分析城市背景下的情感模式提供了更透明和可解释的方法。在里斯本范围内,结果一致突出接近自行车基础设施和更高植被覆盖(NDVI)是积极情感的显著预测因子。这些发现强化了主动出行和绿色环境在塑造城市情感中的相关性,而城市情感与主观福祉紧密相关。通过促进积极生活方式和通过城市基础设施增强自然接触,城市可以创造条件支持居民更有利的情感环境。此外,情感分析方法的选择至关重要,因为分配给帖子的标签直接塑造后续机器学习流程。在本研究中,若干位置在映射输出中与高水平消极情感相关联(图3-4)。这种模式很可能受到基于词典标注局限的影响,该标注不考虑上下文含义。此类错误标注可传播至模型训练并偏差空间解释。未来工作应探索替代情感分类方法,包括监督和上下文语言模型,并比较下游空间模式对标注方法的敏感性。最后,机器学习可通过识别大型异质城市数据集中的模式并将其转化为可行动、空间明确的见解,支持城市规划者、政策制定者和公共卫生专业人员。然而,当模型输出用于指导干预时,不仅应报告点预测,还应报告与之相关的不确定性。预测不确定性提供了每个估计的置信度的显式度量,有助于区分结果相对稳健的区域与需要额外数据、验证或谨慎解释的区域。将不确定性分析纳入工作流可通过澄清复杂动态城市环境中基于模型建议的可靠性,强化基于证据的决策。空间预测、不确定性映射和模型无关解释的使用提高了情感分析的透明度,使研究人员能更自信地识别情感模式及其驱动因素可被推断的区域。
打赏