编辑推荐:
本刊推荐的这篇文章,聚焦于一个日益关键的问题:随着大语言模型(LLM)深度融入日常技术,其在典型的、富有“人情味”的道德领域,是否及如何影响人类的信念形成。研究团队通过三项实验,考察了人们在接收到LLM关于日常道德困境的建议后,是否会修正其道德判断。结果发现,尽管被试总体上更不信任AI顾问,但LLM建议的说服力与人类建议相当,且这种说服力主要源于被试基于个案对建议质量的“似乎足够好”的评估,而非源自对建议者过去表现的信赖或其提供的高质量理由。这揭示了AI作为道德顾问的一种令人担忧的认知机制——依从性(Deference),而非基于理由的深思熟虑,这为理解AI的道德影响及其风险提供了重要实证依据。
“我该相信什么?”这个曾经被抛给朋友、老师、书籍或公众人物的问题,如今正被数百万人悄悄地输入算法。以ChatGPT为代表的大语言模型(LLM)的崛起,正在重塑信念形成的格局,将非人类智能体引入我们的日常认知活动中。无论是寻求医疗建议、法律指导,还是道德视角,我们获取信念依据的来源和方式都经历着剧变。然而,当AI的触角伸入道德——这个通常被视为人类核心特质的领域时,一系列深刻的问题也随之浮现:人们会听从AI的道德建议吗?如果会,我们应该为此担忧吗?
答案的关键,不仅在于AI能否改变人们的主意,更在于它是如何做到的。如果人们改变观点,是因为自己评估并信服了AI给出的理由,这可以支持用户的道德和智力成长。但如果仅仅是出于对AI权威的“依从性”(Deference)——即因为建议来自AI就选择相信,那么这可能阻碍甚至逆转道德理解和成长。这正是研究者Ethan Landes等人发表在《Cognition》期刊上的研究所要探究的核心:在现实的日常道德困境中,人们是否、以及为何会被LLM的道德建议所说服。
为了回答这个问题,研究人员设计了三个环环相扣的行为实验。他们采用的方法包括:1) 基于“日常道德冲突情境量表”筛选贴近现实生活的道德两难情境,如是否因更高出价而违背对亲属的出售承诺;2) 利用真实LLM (GPT-4o)的应用程序编程接口(API)生成不同导向(利他vs.利己)和不同质量(高质量理由、无额外理由、荒谬理由)的道德建议文本;3) 通过在Prolific平台招募英国参与者,构建在线交互实验,包括被试间设计、被试内前-后测比较,并运用线性混合效应模型进行统计分析;4) 在更生态效度的范式中,让被试与一个被操纵为“高质量”或“低质量”的模拟LLM (“AdviceAI”)进行多轮互动,之后再评估其建议的说服力。
研究一:人类与AI顾问的说服力比较
研究者首先向被试呈现六个日常道德困境,并附上据称来自人类哲学家或ChatGPT-4o的四句话建议,建议内容指向利他或利己的选择。结果发现,建议的方向显著影响了被试的判断:看到利他建议的人做出更利他的选择,反之亦然。然而,建议者的类型(人类 vs. AI)却没有产生显著影响——AI和人类同样具有说服力。更有趣的发现是,尽管在抽象层面,人类顾问被评价为更可信、更可靠(特别是在提供利他建议时),但这种更高的信任评级并未转化为更强的说服力。这表明,道德说服力可能与对建议者本身的评价脱钩。
研究二:过去表现影响说服力吗?
为了模拟更真实的LLM使用场景,研究二让被试先与一个名为“AdviceAI”的LLM进行三轮互动。在这个“训练阶段”,该AI被操纵为持续提供高质量、切题的建议,或低质量、离题甚至荒谬的建议。随后,被试再次面对一个之前回答过的道德困境,并收到AdviceAI给出的、预先生成的利他或利己建议。结果确认,尽管被试能清晰区分并报告高质量AI更可信、更可靠,但AI在训练阶段的表现好坏,完全不影响其后续道德建议的说服力。无论之前见过AI多么不靠谱,只要它此刻给出的建议“看起来没问题”,人们同样会被说服。这说明说服力并非源于对AI作为稳定可信来源的整体评价,而更可能与当前这条具体建议的内容有关。
研究三:人们是听从理由,还是在“依从”?
既然说服力不依赖对AI的整体印象,那么是否因为人们评估并信服了建议中的“理由”本身呢?研究三对此进行了精细的检验。研究者固定使用高质量AI,并操纵其在给出利己建议时的“辩护”方式:提供看似合理的“好理由”、仅给出推荐但“无额外理由”(只是复述困境)、或提供明显荒谬的“坏理由”(如提及“笔记本电脑会产生意识”)。
结果极具启发性:1) “好理由”建议的说服力,与“无理由”建议没有显著差异。这意味着,那些看似合理的论证并未额外增加说服力。2) 然而,“坏理由”建议不仅说服力大减,甚至还产生了“回旋镖效应”(backfire effect),将被试的判断推向了AI所推荐方向的对立面。这表明,人们并非在深入评估理由的质量,而是在运用一种“似乎足够好”的启发式:只要建议看起来没有明显的荒谬之处(即没有“反驳因子”),他们就会基于“AI推荐了它”这一事实而依从。一旦建议明显糟糕,这种依从便会停止甚至逆转。
综合三项研究,可以得出明确的结论:人们确实会遵从AI的道德建议,但并非盲目地遵从。这种遵从是基于对单条建议的、个案式的快速评估。它不依赖于对AI过往表现或可信度的整体判断,也不依赖于对建议中所含理由的深度理解和认同。只要输出“看起来足够好”,没有明显的“红牌”,人们就会倾向于采纳AI的推荐。这是一种启发式、省力式的认知策略,与“认知吝啬鬼”理论相符。
在讨论部分,作者强调了这一发现的多重重要意义。首先,从道德认识论角度看,这种“依从性”是令人担忧的。道德成长和理解需要个人对理由进行反思和消化,而简单地遵从AI,即使是有条件的遵从,也会剥夺个体发展自身道德动机、能力和理解的机会,可能导致道德上的依赖、不真实和技能退化。将处理代码或邮件的“能用就行”心态应用于道德决策,是危险且不恰当的。其次,研究发现揭示了“信任”评价与“信任”行为之间的脱节。尽管人们口头表示更不信任AI,但在行为上却同样被其说服。这表明,仅凭用户自我报告的对AI的信任不足,并不足以防止其在实际上依赖AI的建议。最后,这对“人工道德顾问”的应用前景提出了实践性质疑。一方面,用户因“算法厌恶”可能不愿主动寻求AI的道德建议;另一方面,即使AI能够产生一定说服效果,其通过“依从”起作用的机制本身在伦理和认知上就存在问题。因此,在大力推进AI整合于决策流程的同时,必须审慎思考如何引导用户与AI建立更健康、更具反思性的认识论关系,避免陷入认知和道德的依赖陷阱。
打赏