直接面向消费者(DTC)遗传祖源检测增长迅速,但对消费者反应的计算分析仍然有限。本研究对来自Reddit、YouTube和Google Play的58,133篇帖子进行跨平台计算分析。研究人员开发了一个包含六类反应(接受、兴奋、质疑、惊讶、失望、身份认同危机)的分类法,并应用了包括情感分析、主题建模和预测建模在内的自然语言处理(NLP)方法。结果显示,接受(9.5%)和兴奋(9.4%)最为普遍,其次是质疑(8.6%)。平台差异显著:Reddit平台质疑率最高(10.2%),而Google Play平台兴奋度较高(29.6%)。质疑率因祖源类型差异很大,土耳其(23.5%)、希腊(19.7%)和斯堪的纳维亚(18.5%)祖源最常受到质疑。在同时包含自我报告种族和遗传结果的帖子中,一致性为61.8%,量化了社会性与遗传性祖源定义之间的差异。一个用于预测质疑表达的逻辑回归模型达到AUC=0.79,识别出文本长度和负面情感为关键预测因子。这些发现增进了对消费者如何在线讨论遗传祖源信息的理解,对DTC公司、遗传咨询师以及研究消费者基因组学社会维度的学者具有启示意义。
随着直接面向消费者(DTC)遗传祖源检测在过去十年间快速增长,超过2600万消费者进行了居家祖源检测。然而,学术界对于消费者如何在线解读、反应并将遗传祖源信息纳入自我认知的理解,主要基于小规模的调查或访谈研究。现有计算文献存在几处关键空白:几乎没有跨平台比较分析;对消费者反应的分类多局限于正负面情感的二分法,缺乏对更细致认知与情感类别(如质疑、身份认同危机)的区分;对特定祖源结果引发反应差异的量化研究不足;以及研究多限于描述性分析,缺乏预测模型。这些空白限制了对公众如何参与消费基因组学的理解。为填补这些空白,研究人员收集了来自Reddit、YouTube和Google Play三个主流平台的58,133条用户生成内容,采用计算语言学方法进行大规模分析。
研究人员采用的关键技术方法包括:从三个平台(Reddit、YouTube、Google Play)采集讨论DTC祖源检测的英文文本数据;开发基于关键词匹配的六类反应分类法,并进行人工验证;应用正则表达式从文本中提取和标准化祖源百分比信息;使用基于词典的方法(VADER和TextBlob)进行情感分析;应用潜在狄利克雷分配(LDA)主题模型挖掘讨论主题;构建逻辑回归模型预测质疑表达;并进行自我报告种族与遗传结果的一致性比较。样本队列来源明确注明为上述三个平台的公开用户数据。
研究结果部分如下:
**数据集特征与祖源提取**:最终语料库包含58,133条记录,以Reddit(68.8%)为主。在7.5%的帖子中提取到可量化的祖源百分比,平均报告2.3个祖源类别。欧洲祖源(如英国、斯堪的纳维亚)提及最多,美洲原住民祖源总体提及量排名第三。
**反应类型分布**:在24.9%的帖子中识别出至少一种情感反应。接受(9.5%)和兴奋(9.4%)最为常见,质疑(8.6%)次之,其次是惊讶(5.3%)、失望(3.6%)和身份认同危机(2.3%)。
**平台差异**:反应类型分布在平台间存在显著差异。Reddit的质疑率(10.2%)和接受率(12.8%)最高;Google Play评论的兴奋率最高(29.6%),这可能与选择偏倚有关;YouTube评论的反应模式居中。
**情感分析**:整体情感偏积极(VADER均分0.206)。不同平台情感得分有差异,Google Play评论最积极。在反应类型中,兴奋对应的积极情感最强,而身份认同危机与情感极性无显著关联,表明其涉及复杂情感状态。
**主题建模**:LDA识别出8个讨论主题,主要围绕DNA检测结果、家族联系与族谱研究展开。不同主题的情感基调存在差异。
**祖源争议模式**:对于提及次数≥20次的祖源类别,质疑率从4.8%到23.5%不等。土耳其(23.5%)、希腊(19.7%)和斯堪的纳维亚(18.5%)祖源的质疑率最高。
**自我报告与遗传结果一致性**:在同时包含两类信息的帖子中(n=170),至少有一个共同标准化祖源类别的比例为61.8%,表明社会身份认同与遗传定义之间存在相当程度的差异。
**质疑表达的预测模型**:逻辑回归模型预测质疑表达达到良好判别性能(AUC=0.79)。文本长度是最强的预测因子,其次是负面情感。提及的祖源数量和主要祖源百分比的影响较小。
**分类器验证**:基于关键词的反应分类器在299篇帖子上进行人工验证,显示出高强度的可靠性(宏平均F1=0.897,平均Cohen‘s κ=0.871)。
讨论部分总结如下:
本研究通过大规模跨平台计算分析,系统揭示了消费者如何在线讨论和反应遗传祖源检测结果。主要发现包括:虽然接受和兴奋是最常见的反应,但质疑也占一定比例(8.6%)且因祖源类型差异巨大;平台特性显著影响讨论模式;自我报告种族与遗传结果的不一致量化了社会与遗传定义之间的差距;文本长度和负面情感可有效预测质疑表达。这些发现从计算视角支持了遗传身份认同的社会建构性观点,即祖源结果并非被被动接受,而是被主动地依据文化预期、家族叙事和个人身份承诺进行评估。平台差异凸显了交流语境在塑造遗传信息讨论方式中的作用。对于DTC公司,高质疑率祖源结果可能需要更详尽的背景解释;对于遗传咨询师,反应分类法和不一致性数据有助于预判消费者需求并提供支持。本研究的局限包括依赖关键词匹配可能遗漏复杂表达、限于英语内容、横断面设计以及潜在的样本选择偏倚。未来研究可通过纵向分析、多语言比较和整合更丰富的特征来深化理解。
研究结论部分翻译如下:
本研究提供了对消费者关于DTC遗传祖源检测反应的多平台计算分析。通过分析来自Reddit、YouTube和Google Play的58,133篇帖子,研究人员开发了六类反应分类法,量化了按祖源类别划分的质疑模式,并构建了预测质疑表达的模型。研究结果表明,尽管大多数消费者表现出积极反应(接受、兴奋),但质疑出现在8.6%的帖子中,且因祖源类别差异显著——土耳其(23.5%)、希腊(19.7%)和斯堪的纳维亚(18.5%)祖源最常受到质疑。反应模式在不同平台上的差异突显了交流语境如何塑造人们与遗传信息的互动。自我报告种族与遗传祖源之间38.2%的不一致性量化了遗传结果与社会身份偏离的频率,而预测模型(AUC=0.79)则识别出文本长度和负面情感是质疑的关键预测因子。这些发现阐释了祖源结果在不同在线平台上是如何被讨论的。随着遗传祖源检测的持续增长,计算方法为大规模理解公众话语提供了有价值的工具,以其广度和生态效度对调查和访谈方法形成补充。