基于熵的基因组变异分析框架：以南美洲人乳头瘤病毒为例的研究

时间：2026年5月16日

来源：PLOS One

编辑推荐：

摘要人乳头瘤病毒（HPV）的遗传多样性给分子检测和基因分型带来了挑战，尤其是在像南美洲这样存在独特流行变异体的地区。本研究旨在利用香农熵（H）定量描述HPV基因组的变异性，并建立一个可重复的框架，以系统地评估这种变异性。通过对完整的和部分的HPV基因组序列进行位置熵计算，并

摘要
人乳头瘤病毒（HPV）的遗传多样性给分子检测和基因分型带来了挑战，尤其是在像南美洲这样存在独特流行变异体的地区。本研究旨在利用香农熵（H）定量描述HPV基因组的变异性，并建立一个可重复的框架，以系统地评估这种变异性。通过对完整的和部分的HPV基因组序列进行位置熵计算，并按基因汇总，利用公开的南美洲序列来比较基因型内和基因型间的保守模式。基因型内分析显示，大多数基因组位置高度保守（H≈0），这与功能限制一致。相比之下，基因型间比较揭示了双重变异模式：早期基因E5、E6和E7显示出较高的差异性，而衣壳基因L1和L2则相对保守。这些模式与已知的HPV基因的功能和进化限制相符。这些结果并非提出诊断方法，而是为初步确定保守和可变基因组区域提供了定量依据。熵分析为描述基因组变异性提供了定量框架，并可能有助于识别未来研究和基因组监测所需的保守和可变区域，尽管需要实验验证来确定其诊断性能。总体而言，这项工作提供了一种可重复的、基于数据的方法来评估HPV基因组的变异性，并有助于理解南美洲地区的病毒多样性。

1. 引言
乳头瘤病毒科（Papillomaviridae）是一种双链、无包膜DNA病毒，其基因组大小约为8 kb。基因组在功能上分为三个主要区域：两个编码病毒蛋白的区域（早期和晚期）以及一个调节病毒复制和转录的非编码区域。早期区域（E）编码参与病毒DNA复制和病毒生命周期转录调控的蛋白。晚期区域（L）编码构成病毒颗粒衣壳的结构蛋白[1–3]。病毒蛋白E1和E2主要参与基因组复制和调控，而E4和E5则促进基因组扩增和细胞增殖。E6和E7基因尤为重要，因为它们作为致癌蛋白[2,3]，与E5一起驱动感染过程中的病毒复制和增殖周期。具体来说，E6和E7促进进入DNA合成的S期并抑制细胞凋亡，而E5通过使用生长因子和逃避免疫系统来促进细胞增殖[4]。这些早期蛋白的协调功能有助于病毒的持续存在[5]。晚期基因L1和L2编码衣壳的结构蛋白，其中L1是主要蛋白，L2是次要蛋白。两者都在病毒周期的最终阶段表达，并对病毒颗粒的组装至关重要。最后，非编码区域（LCR）包含病毒启动子和增强子以及DNA复制起点[6,7]。人乳头瘤病毒（HPV）基因型根据其致癌潜力被分为高风险（HR-HPV）和低风险（LR-HPV）类型。HR-HPV类型与宫颈癌、肛门癌和口咽癌等恶性肿瘤的发展密切相关。其中，16型和18型最为常见，其他高风险类型还包括31型、33型、35型、39型、45型、51型、52型、56型、58型、59型、68型、73型和82型。低风险HPV类型通常导致良性病变，主要是生殖器疣。最具代表性的低风险基因型是6型和11型，还有40型、42型、43型、44型、48型、54型、61型、70型、72型、81型和89型[8,9]。HPV基因组的多样性表现出明显的系统地理结构，不同病毒谱系在全球范围内具有区域特异性分布。先前的研究表明，HPV变异体在人群中的分布并不均匀，不同地理区域的谱系组成可能存在显著差异。这些模式突显了在评估病毒基因组变异性及其对分子检测策略潜在影响时进行区域分析的重要性[10,11]。在拉丁美洲人群中已经记录了不同的HPV变异谱系，包括可能具有不同持续性和致癌潜力的非欧洲来源的HPV16型和HPV18型。区域研究还报告了拉丁美洲各国之间基因型的异质性分布，这支持了理解当地HPV遗传多样性的重要性[12]。根据泛美卫生组织（PAHO，2023年）的最新数据，人乳头瘤病毒（HPV）是拉丁美洲和加勒比地区宫颈癌的主要原因之一。该地区的发病率约为每10万女性中有15.1例，死亡率估计为每10万女性中有7.7例[13,14]。这种病理变化始于宫颈上皮，特别是转化区，随着时间的推移，受感染的细胞可以增殖并扩展到宫颈的内层[15,16]。在智利，宫颈癌是20至44岁女性死亡的第二大原因。目前卫生系统使用的筛查方法是巴氏涂片检查（PAP），每三年免费提供一次[17]。建议从30岁开始进行筛查（25至29岁之间也可以选择PAP）。据估计，每年约有600名智利女性死于这种疾病，相当于每天有两名女性死亡，每年新增约1,500例诊断病例。在全球范围内，2022年报告了大约66万新病例和35万例死亡病例[15,18]。HPV-16型和HPV-18型是主要的致癌因子，导致大多数高级别宫颈癌和肛门生殖器癌。它们的致病活性基于基因组整合和免疫逃逸等关键机制。HPV-16型在男性泌尿生殖道感染中也非常普遍，与氧化应激和细胞损伤有关，从而促进病毒持续存在和肿瘤进展。虽然HPV-18型在总宫颈癌病例中的比例较低，但由于其转录活性，它与腺癌的发展密切相关。相比之下，HPV6型和HPV11型被归类为低风险类型，不是宫颈癌的主要原因，但它们偶尔与其他恶性肿瘤（如阴茎癌和喉癌）有关[19,20]。目前最常用的筛查方法结合了巴氏涂片和分子检测，如Hybrid Capture（HC2）、Cobas® 4800系统和针对16型和18型的PCR/qPCR检测。尽管许多商业试剂盒包含覆盖13至21个基因型的面板[21,22]，但由于HPV的固有遗传多样性，它们在识别当地菌株时的性能可能受到限制。尽管这些测试实用且广泛使用，但在基因型特异性、共感染检测和局部变异体特征描述方面存在局限性，此外还需要严格的质量控制[23,24]。相比之下，下一代测序（NGS）提供了超过95%的灵敏度和特异性，允许对HPV进行全面的基因组分析...尽管NGS是表征的金标准，但其高昂的成本、实施的复杂性以及所需的基础设施限制了其在大规模筛查项目中的常规使用。因此，更好地理解HPV基因组的变异性对于支持未来的分子检测研究以及解释保守和可变区域在病毒基因组中的分布非常重要[25–27]。在本研究中，我们使用基于熵的指标来描述HPV基因组的变异性，以识别不同基因型之间的保守和差异模式。这种方法为描述保守和可变基因组区域提供了定量框架，并指导未来研究中的优先级排序。

2. 材料与方法
2.1 基于熵的基因组变异性工作流程
本研究的方法论框架改编自之前关于病毒基因组变异性和基于香农熵分析的研究，特别是Rojas-Pérez & Villegas（2023）描述的工作流程[28]。根据这一参考，我们整合了基因组数据预处理、多序列比对、基于熵的位置变异性量化以及后续统计测试的步骤。该流程根据HPV基因型的特点进行了调整，保持了原始协议的计算逻辑和分析严谨性，同时修改了特定步骤以适应HPV基因组结构、可用的测序深度和研究目标。

2.2 数据库访问
对人类乳头瘤病毒（HPV）序列进行了全面的生物信息学和基因组分析。所有序列均于2025年8月从NCBI病毒数据库（https://www.ncbi.nlm.nih.gov/labs/virus/）中检索，使用Tax ID：173087。应用了以下筛选条件：(i) 完整和部分基因组；(ii) 地理区域限制在南美洲；(iii) 宿主限制在智人（Tax ID：9606）；(iv) 分离来源报告为鼻咽部、宫颈和皮肤。地理限制是为了进行区域聚焦的变异性评估，并最小化全球谱系异质性的干扰。在这些条件下，获得了包含21个HPV基因型的初始数据集：11、16、18、30、31、33、35、52、56、58、59、66、67、68、73、81、82、87、115、156和256。序列以FASTA格式下载。仅包含一个可用基因组的基因型（11、30、81和115）被排除，以确保熵估计的准确性。为了减少冗余，基于序列元数据（例如，访问号、分离信息和项目标识符）识别出来自同一分离株或BioProject的重复或高度相似的序列，并在比对前将其移除，从而确保基因组变异性的更平衡表示。经过这些筛选和整理步骤后，最终数据集包含16个基因型：16、18、31、33、35、52、56、58、59、66、67、68、73、82、87和156。最终基因型集在所有分析、表格和补充材料中一致使用。数据集组成和每个基因型分析的序列数量总结在表1中。

表1. 本研究中分析的每个HPV基因型的早期（E1–E7）和晚期（L1–L2）基因的起始和结束核苷酸位置（基因组坐标）。基因边界来自Papillomavirus Episteme（PaVE）数据库中整理的参考基因组，用于将基因区域映射到多序列比对上进行基于熵的变异性分析。“N.A.”表示该基因未注释或不存在于相应的参考基因组中。最终数据集包括序列标识符和访问号，提供在补充材料中，以确保完全的可重复性。

2.3 序列比对
每个分析基因型的参考基因组来自Papillomavirus Episteme（PaVE）平台（https://pave.niaid.nih.gov/search/search）。根据基因型名称过滤序列，并为每个HPV基因型生成了FASTA格式的参考菌株数据集。使用MAFFT v7.525在自动模式（--auto）下进行了多序列比对（MSA），采用默认参数。选择MAFFT是因为其在比对具有不同序列保守水平的病毒基因组方面的准确性和计算效率，以及其在比较基因组分析中的广泛应用。处理是在使用64个CPU核心的高性能计算服务器上进行的，以优化计算性能。得到的比对结果以FASTA格式存储，按基因型组织，随后用于遗传多样性分析。

2.4 遗传多样性分析
使用香农熵指数作为遗传多样性的度量，量化了HPV基因组之间的变异性。基于基因型特定的多序列比对，在每个核苷酸位置计算熵值，包括完整和部分基因组序列。为了确保估计的准确性，仅使用观察到的核苷酸频率计算熵值，排除了由于基因组覆盖不完全而受影响的间隙或缺失数据的位置。分析使用BioEdit v5.0.9进行，利用内部熵计算工具H(x)。对于每个比对，在每个核苷酸位置估计香农熵值，并以表格格式导出。然后在每个基因型内进行比较分析，以评估基因型内的变异性。

2.5 数据处理和统计分析
使用R编程语言v4.4.2（https://www.R-project.org）处理基于熵的遗传多样性数据。在统计分析之前，实现了一个自定义R脚本，以去除序列比对过程中生成的间隙，从而细化数据集并防止变异估计的偏差。使用R中的native subset()函数仅保留病毒基因组中熵值≥0.5的位置，该阈值由Ramette & Buttigieg（Front. Microbiol. 2014; 5:601）确定，用于确定序列变异性的大小。香农熵是根据以下公式计算的：其中H(x)表示标准化的香农熵，在这里被解释为基因组位置x处的核苷酸变异性；pᵢ(x)代表该位置上核苷酸状态i的相对频率；k对应于对齐中考虑的核苷酸状态的数量。包含间隙或缺失数据的位置被排除在频率计算之外，以避免由于基因组覆盖不完全而产生的偏差。使用以4为底的对数将熵值缩放到0到1之间。对于每个数据集，计算了以下指标：分析的位置数量（N_positions）、平均熵（Mean_H）、标准差（SD_H）、四分位数（Q05, Q25, Q75, Q95）、最小熵（Min_H）、最大熵（Max_H），以及被分类为保守的基因组位置的比例（% conserved；H = 0）、中等变异性（% medium；0.1 < H ≤ 0.5）和高变异性（% high；H > 0.5）。此外，还计算了熵变异系数（H_cv）。另外，还计算了两个补充指标：变异系数。

为了比较不同基因型之间的模式，使用R语言中的Biostrings包生成了共识基因组的多重序列比对（MSA）。从输出文件（每个基因型生成的表格）中，为每个序列构建了两个双向映射：（i）MSA列→基因组位置，以及（ii）基因组位置→MSA列。这种双向映射允许将每个基因型定义的基因范围（起始-结束）投影到全局MSA中相应的同源列上。用于注释和映射的参考基因边界（起始-结束位置）来自PaVE数据库，并在表1中进行了总结。对于每个对齐的列，应用了基因型间截断方法：如果≥60%的基因型在注释的基因上达成一致，则该列被赋予该基因标签；否则，它被分类为“Ambiguous”，而没有数据的列被标记为“Unannotated”。由于只有定义明确的基因区域被认为是有信息量的，因此将“Ambiguous”和“Unannotated”区域排除在后续分析之外。这个过程生成了一个涵盖整个MSA的共识基因注释表。使用得到的基因型间数据集（包含位置、熵和基因组群信息），按照与基因型内分析相同的参数估计了变异性指标。这些结果通过各种基于R的图形表示进行了可视化。

为了将整体序列差异置于上下文中，使用ape和phangorn R包从共识序列中推断出最大似然（ML）系统发育树。首先将序列转换为phyDat格式，然后通过邻接连接（NJ）方法构建了一个初始树。使用赤池信息量准则（AIC/AICc）在HKY和GTR模型之间进行选择，这些模型可以包含或不包含Γ/I组分。然后使用optim.pml()函数优化了ML树。在适当的情况下，使用非参数自助法（bootstrap analysis）来评估分支支持度。随后基于从ML树派生的共性距离矩阵，使用层次聚类（Ward.D2方法）对基因型进行聚类。为了便于视觉解释，将聚类数量修剪到一个可管理的范围内。系统发育树使用ggtree进行可视化，通过groupOTU()对分支进行分组，并使用ggtreeExtra添加了条形图或基因型特定的热图等附加元素。所有用于熵计算和数据处理的脚本和代码都可以在由https://github.com/AlanLopez19/HPV-entropy-analysis维护的GitHub仓库中公开获取。

3. 结果
通过香农熵分析揭示了高水平的基因组范围保守性。基于基因型内比对，计算了每个HPV基因型的香农熵（H）的分布（图1）。X轴的均匀刻度（0–1）便于直接比较不同基因型之间的变异谱。主要地，分布集中在接近零的值附近，在第一个区间（0−0.1）有一个明显的峰值。这种模式表明，每个基因型内的大多数位置都是高度保守的，这与限制基因组大部分区域变化的功能约束一致。

然而，在高H值段可以观察到基因型之间的微妙差异。在某些基因型中，H≈0.2−0.4处有显著的计数，甚至有更高值的孤立事件，揭示了局部核苷酸多样性的存在。相比之下，在其他基因型中，分布几乎完全局限于H≈0，表明所分析的队列中几乎完全保守。这些基因型间的变异表明多样性负荷并不均匀，而是可预测地集中在特定区域或基因中。从方法论和应用的角度来看，H≈0的主导地位支持识别可能需要进一步在未来的分子研究中评估的保守基因组区域。相反，较高的H值表明这些区域可能对基因型区分具有信息量，前提是基因型内的变异不会影响一致性。这种情况证明了通过基因、基因型间比较以及使用局部窗口进行检查来进行补充分析的合理性。

图2使用香农的平均熵（Mean H，0−1）总结了基于共识序列比对的基因水平上的基因型间变异性。具体来说，矩阵中的每个单元格代表给定基因型内所有注释位置的平均H值。颜色刻度表示保守性（低值，例如紫色）与变异性（高值，例如绿色/黄色）。空白单元格表示该基因-基因型对缺乏数据或注释。这种表示方法在单个矩阵中综合了基因型间的基因组异质性，同时尊重了病毒基因组的结构。

S2表提供了基因水平上熵指标的定量总结。该图使用香农的平均熵（Mean H，0−1）展示了HPV在基因水平上的基因型间差异，该熵值是从共识序列比对中计算得出的。每个单元格代表基因型内所有注释位置的平均H值；颜色刻度编码了保守性（低值，例如紫色）与变异性（高值，例如绿色/黄色）。空白单元格表示缺乏数据或注释。从全局范围来看，大多数基因-基因型对的熵信号较低，这与病毒基因组的高基因型间保守性一致。与病毒颗粒的结构生物学一致，L1和L2基因相对于早期基因始终表现出较低的熵值。这种模式表明在基因型间水平上有较高的相对保守性，表明这些区域可能需要在未来分子研究中进一步评估。相比之下，在早期基因中观察到H的相对增加，主要是在E6基因中，以及在较小程度上的E2/E4基因中。尽管按基因平均后绝对幅度保持适中，但这些变化表明了集中的基因型间差异，并突出了可能对未来基因型区分研究有信息量的基因组区域。选择具有高基因型间H但低基因型内变异的短窗口可能在序列水平上提供变异性和一致性之间的有用平衡。

补充S3表提供了基因型内保守性的定量总结，详细列出了每个基因型的香农熵（H）的描述性统计信息。这些包括分析的位置数量（N_positions）、平均值、中位数、标准差（SD_H）、四分位数（Q05, Q25, Q75, Q95）以及最小（Min_H）和最大（Max_H）熵值。此外，还报告了表征序列变异的关键指标，包括保守位置的比例（H = 0）、具有中等变异的位置（0.1 < H ≤ 0.5）和具有高变异的位置（H > 0.5），以及熵变异系数（H_cv）和从0到1缩放的保守性指数。这些指标共同使得能够表征基因型内的保守性，并识别基因水平上的变异热点，为未来研究的基因组区域优先级提供了坚实的定量基础。

图3基于香农熵的基因间指标。行=基因（E2, E4, E5, E6, E7, L1, L2）；列=指标：Mean H（基因型内所有注释位置的平均熵H）、Median H（中位数H）、IQR H（四分位数范围=Q3−Q1，用于量化H的中心分散度并具有对极端值的鲁棒性）；% Conserved（H=0的位置百分比）和% High（H>0.5的百分比）。颜色刻度按列进行了标准化（0–1），数值标签显示了原始（未标准化）值。在这个总结中，高Mean/Median H值以及高% High和低% Conserved值表明基因具有基因型间差异，而低值和高% Conserved值支持这些基因在基因型间是相对保守的区域。

L1和L2衣壳基因在大多数分析的基因型中显示出最低的平均熵（Mean H）值和接近97–100%的保守位置百分比（HPV 16,18,31,33,35,58,59,66,67,68,73,82,87,156）。这种模式支持将它们表征为跨基因型相对保守的区域；然而，在某些情况下（例如HPV 16中的L1），非零的IQR/MAD的存在表明内部异质性，并建议选择H谱中特别“平坦”的子窗口以确保持续的保守性。相比之下，E6和E7基因显示出相对增加的变异性，HPV 73的E6有显著的峰值（高Mean H和>10%的高变异，%_high），而HPV 68的E6有中等程度的升高，这表明它们可能代表未来分型研究中的信息性区域，前提是基因型内的变异保持在较低水平。E5基因表现出明显的不均匀行为：在HPV 18、33和87中接近零，但在HPV 68-E5中高度变异（Mean H≈0.09；%_high ≈10%），表明这些区域可能对基因型特异性分析具有潜在兴趣。E2和E4基因总体上保持保守，尽管HPV 35-E2和HPV 87-E4显示出选择性的升高，这可能在分型面板中具有互补性。总体而言，HPV 156的保守性最高（Cons_index≈1），而HPV 68在多个基因（E2, E5, E6, 和 L1/L2）中的Mean H最高，是队列中变异最大的。基于这些发现，可以考虑一个综合的解释框架，其中保守区域（L1/L2）和更易变的区域（例如E6/E7和E2/E4/E5）可以共同评估它们在未来的检测和基因型区分研究中的潜在相关性。

图4提供了基因型间变异性的比较总结。在图4A中，每个堆叠的条形图代表了在共识序列比对中被分类为保守（H=0）、中等（0.1–0.5）的基因中位置的比例。总体而言，最大比例的位置集中在高变异类别中，表明基因组间的广泛基因型间差异。这种模式在E5、E6和E7基因中尤为明显，其中H>0.5的位置比例明显超过了保守或中等变异位置的比例。相比之下，L1和L2显示出相对较少的具有高变异的位置比例，以及较高比例的具有中等或保守变异的位置，表明衣壳蛋白的相对保守性高于早期基因。

图4. 共识MSA中每个基因的基因型间变异性。（A）按香农熵类别（Conserved: H=0；Intermediate: 0.1–0.5）划分的位置百分比。（B）每个基因的平均熵（0–1），点按其对应的值标记。早期基因（E5、E6和E7）显示出最高的平均值，因此具有更大的变异性，而衣壳基因（L1和L2）则显示出最低的平均熵值，表明它们具有更高的相对保守性。https://doi.org/10.1371/journal.pone.0349447.g004图4B根据基因的平均香农熵（0–1）对基因进行排序，并显示了相应的值。E5（约0.66）、E6（约0.66）和E7（约0.64）的最高熵值表明这些区域在基因型间平均而言是最变异的，而E2和E4则处于中间位置。相比之下，L1（约0.50）和L2（约0.56）在分析的区域中显示出最低的平均熵值，这支持了它们相对于早期基因的相对保守性，尽管它们的绝对熵值处于中等水平。总体而言，这两个图表都表明早期基因（特别是E5、E6和E7）占据了基因型间变异的很大比例，而衣壳区域（L1和L2）则相对更为保守。这些模式表明L1和L2是相对保守的区域，而早期基因组区域可能对未来关于基因型差异的研究更具信息价值。系统发育分析使用最大似然（ML）树在图5中进行了总结，展示了HPV基因型之间的整体进化关系，这些基因型被层次化地分为四个主要簇。簇1作为一个基础的单基因型分支出现，仅由HPV 156代表，其显著的系统发育分歧与其之前观察到的低基因型内变异性（Cons_index≈1）一致。下载：PNG较大图像TIFF原始图像图5。从分析的HPV基因型的共识序列对齐中推断出的最大似然树，代表了它们的整体序列分歧。该树使用层次聚类（Ward.D2）分为四个主要簇（颜色），以说明基因型间的变异性。簇1（绿色）：HPV 156基因型，显示出最大的基础分歧。簇3（蓝色）：最密集且最新的群体，包含了密切相关的致癌基因型（HPV 16、31、33、35、52、58、67、73）。簇2（橙色）和簇4（粉色）：包含其余致癌基因型的中间群体。系统发育结构支持需要高度特异性的差异标记，因为高风险基因型之间的进化接近性。https://doi.org/10.1371/journal.pone.0349447.g005相比之下，簇3（蓝色）是最密集的，包含了高风险基因型如HPV 16、31、33、35、52、58、67和HPV 73，它们之间的密切遗传接近性表明它们之间的相似性更大，这突出了识别具有足够区分变异性的基因组区域（如E6/E7）对于准确分型的重要性。簇2（橙色：HPV 18、59、82、68）和簇4（粉色：HPV 56、66、87）完成了树的结构，它们之间以及与主要群体之间的进化关系处于中间水平。总体而言，这种系统发育结构提供了一个与观察到的基因组变异模式一致的进化框架，强调了识别具有足够基因型间变异性的区域对于未来分类导向研究的重要性。

4. 讨论
本研究使用香农熵（H）作为定量指标来评估人乳头瘤病毒（HPV）的基因组变异性。这种生物信息学方法能够客观地识别基因组的保守性和变异模式，而不会超出观察数据的范围[29,30]。为此，H沿着基因组的位置进行计算，并将值汇总到每个基因上，以表征基因型内和基因型间的保守性。虽然HPV基因组的变异性被广泛认可，但使用可复制的基于熵的指标进行系统性的定量比较仍然有限。基于熵的方法的优势在于其可解释性和可重复性，而不是方法论的复杂性。获得的直方图（图1）显示，在基因型内水平上，H的分布主要集中在H≈0附近，表明基因组保守性很高，这与强烈的功能约束一致。然而，一些基因型显示出离散的右尾（H>0.1），表明可能存在需要进一步区域分析的局部变异区域[31]。在基因型间水平上（图4），观察到基因之间的显著差异。E5、E6和E7基因表现出更高的基因型间变异性（更高的平均H和四分位数范围），而L1和L2衣壳基因显示出较低的熵值和更高的保守位置比例（H=0）。L1和L2的这种相对保守性与之前的研究结果一致，这些研究报道了L1靶向检测和基于E6/E7的检测在不同肿瘤背景下的相似诊断性能[32]。尽管L1在分子检测检测中广泛使用，但重要的是要考虑与病毒整合事件相关的基因组改变可能会影响其在某些生物学背景下的检测[33]。相比之下，E6和E7基因中观察到的变异性与之前描述的对致癌性和病毒持久性有不同影响的变体研究一致。例如，Antaño-Arias等人（2021）报告了与墨西哥南部女性宫颈癌相关的HPV16 E6/E7变体[34]，而Zhingre等人（2023）描述了HPV18相关癌症中E6/E7的差异表达模式，这可能反映了病毒在特定位置的适应性[35]。这些发现支持了早期基因变异性的生物学相关性，超出了简单的序列分歧。从进化和流行病学的角度来看，这些结果与之前强调基因型内基因组多样性的研究一致。Mirabello等人（2016）证明HPV16亚系在全球范围内与不同的癌症风险相关，包括在拉丁美洲[36]。同样，Burk等人（2013）强调HPV基因组的异质性在地区和基因之间的分布不均，影响了病毒的进化和致病性[37]。基于观察到的熵模式，本研究提供了一个可重复的方法论框架，用于系统评估基因组变异性。为了确保稳健的表征，考虑了多种互补的指标，包括平均H和中位数H、四分位数范围、中位数绝对偏差（MAD）、保守位置的比例（H=0）以及定义为1−平均(H)的保守指数。这些措施能够多维度地描述基因组区域的变异模式[38]。L1和L2内显示低熵和狭窄变异范围的区域对应于相对稳定的基因组片段，而E5、E6和E7内的区域显示出更高的基因型间变异性。这些模式说明了如何使用熵分析来描述HPV基因组中保守和变异区域的分布。然而，需要实验验证来确定这些观察结果的功能或诊断相关性。本研究关注的是全基因组的变异模式，而不是单个多态性的表征，后者仍然是未来研究的重要领域。这些发现的更广泛相关性在于对基因组变异模式的解释。观察到的保守和变异区域的分布可能有助于更好地理解南美洲HPV基因组的多样性及其对分子检测方法的潜在影响。鉴于许多商业检测方法是使用非拉丁美洲参考序列开发的，区域基因组变异性可能会影响它们在特定人群中的性能[39–40]。这项研究有几个局限性需要考虑。首先，分析完全依赖于公开可用的基因组序列，这可能会引入抽样偏差、基因型代表性不均以及尽管进行了基于身份的过滤和元数据管理，但仍可能存在潜在的冗余。其次，尽管通过基于覆盖率的过滤进行了控制，但包括完整和部分基因组可能会影响基因组区域中变异性的估计。最后，这些发现基于计算分析和描述性指标；因此，需要实验验证来评估所识别区域的功能和诊断相关性。

5. 结论
本研究强调了香农熵作为一种定量和可重复的方法，用于基于南美洲序列表征HPV基因组变异性的实用性。结果揭示了双重变异模式，即高基因型内保守性和更大的基因型间分歧，特别是在早期基因如E5、E6和E7中，而衣壳基因L1和L2则相对更为保守。这些发现为解释保守和变异的基因组区域提供了一个系统框架，可能对未来关于分子检测和基因组监测的研究具有相关性。低熵的区域对应于稳定的基因组片段，而更变异的区域可能对基因型区分具有信息价值。然而，需要实验验证来确认它们在诊断背景下的潜在适用性。总体而言，这项工作建立了一个可重复的、数据驱动的HPV基因组变异性评估框架，可以支持未来关于分子检测策略的研究，并有助于更好地理解区域病毒多样性。

支持信息
致谢
作者衷心感谢Maule天主教大学的转化生物技术博士项目在整个研究过程中提供的学术和机构支持。我们感谢该项目的基因组计算服务器，它提供了序列处理和分析所需的高性能基础设施。我们还要感谢在数据处理和手稿准备过程中收到的行政和技术协助。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部