分类时间序列与序列聚类方法的范围界定综述

时间:2026年5月29日
来源:BMC Medical Research Methodology

编辑推荐:

**目的**:旨在为分类时间序列(CTS)的聚类方法提供概述。CTS是一种常见于流行病学、社会学、生物学和市场营销的数据结构,并旨在支持研究人员根据数据特性选择方法。 **材料与方法**:研究人员检索了PubMed(通过MEDLINE)、We

广告
   X   

**摘要翻译**
**目的**:旨在为分类时间序列(CTS)的聚类方法提供概述。CTS是一种常见于流行病学、社会学、生物学和市场营销的数据结构,并旨在支持研究人员根据数据特性选择方法。
**材料与方法**:研究人员检索了PubMed(通过MEDLINE)、Web of Science和Google Scholar中截至2024年11月的文献,以查找提出和评估CTS聚类技术的文章。方法被分为三个家族——基于距离的方法、基于特征的方法和基于模型的方法——并评估了它们处理可变序列长度、多变量数据、连续时间、缺失数据、协变量和大规模数据量等挑战的能力。
**结果**:在检索到的14,607条记录中,124篇文章描述了129种方法被纳入分析。基于距离的方法最为常见,共56种,特别是使用最优匹配(OM)的方法。研究人员发现了28种基于模型的方法,这些方法涵盖了更广泛的数据结构,如多变量数据、连续时间和时不变协变量。研究人员记录了45种基于特征的方法,这些方法平均而言更具可扩展性但灵活性较低。不到一半的方法提供了公开实现。为了支持方法选择,开发了一个可搜索的Web应用程序(https://cts-clustering-scoping-review-7sxqj3sameqvmwkvnzfynz.streamlit.app/)。
**讨论**:CTS聚类方法在假设、能力和可扩展性方面具有高度异质性。基于距离的方法占主导地位,但基于模型的方法提供了更丰富的建模潜力,而基于特征的方法则在灵活性方面有所牺牲,以强调性能。
**结论**:本综述突出了CTS聚类中的方法论多样性和差距。提出的分类体系和Web应用程序旨在帮助研究人员为他们的数据选择合适的方法。
**论文解读**
**研究背景与问题**:时间序列与序列分析关注沿时间或非时间尺度排序的观测数据,变量可以是实值、离散、有序或分类的。其中,分类时间序列(CTS)因其缺乏度量结构并涉及符号化、不可比的值,而成为一个特别具有挑战性的案例。CTS由有序的分类观测列表组成,广泛出现在流行病学(如护理轨迹)、社会学(反映社会经济变迁的序列)、基因组学(DNA序列)和市场营销(点击流数据)等领域。对CTS进行分析的一个核心目标是识别并分组个体轨迹中的重复模式,以支持可视化、异常值检测和假设生成。然而,跨学科的方法激增导致了术语的碎片化。例如,在社会学中,由Andrew Abbott推广的“序列分析”聚类方法,特别是使用最优匹配(OM)不相似性度量,是通过源自比对算法(如广泛用于生物学的Needleman-Wunsch算法)的编辑距离来操作化序列比较的。现有的CTS聚类综述局限于特定应用领域或特定方法家族,缺乏跨学科的综合性整合。因此,本范围界定综述旨在提供一个全面的、跨学科的CTS聚类方法综合,其目标是根据关键数据特征(包括序列长度异质性、多维观测、不规则或连续采样、缺失数据机制、纳入时不变协变量以及对大型CTS数据集的可扩展性)来指导方法选择。

**研究开展与意义**:研究人员开展了一项严格遵循PRISMA-ScR指南的范围界定综述。他们系统检索了从建库至2024年11月11日的多个学术数据库,最终纳入了124篇描述129种CTS聚类方法的文章。这项研究的重要意义在于,它首次为来自不同学科、术语各异的CTS聚类方法提供了一个统一的分类框架和系统性比较。通过将方法划分为基于距离、基于特征和基于模型三大家族,并评估它们在处理六种常见数据挑战(可变序列长度、多变量数据、连续时间、缺失数据、时不变协变量和大数据量)方面的能力,该研究为面临具体数据特性的研究者提供了一个清晰的方法选择路线图。此外,研究开发的交互式Web应用程序将研究成果工具化,极大地方便了方法的筛选与应用,有望促进跨学科的方法学交流与应用,提高CTS数据分析的效率和严谨性。本研究发表在《BMC Medical Research Methodology》。

**主要关键方法**:研究人员主要采用了系统性的文献综述方法。他们通过预设的关键词组合(涉及聚类、分类、序列及其相关术语)在PubMed、Web of Science和Google Scholar中进行广泛检索。文献筛选和数据提取由研究者(OK、FP、AB)按照预设的纳入排除标准(如必须提出并测试CTS聚类方法)进行,部分阶段采用双人独立核对以确保一致性。提取的数据特征包括方法所属家族、能处理的数据特性(如是否支持多变量、处理缺失数据等)、依赖阶数以及代码可用性等。研究还基于期刊学科或作者机构将方法归类到不同的学科社区。本次综述未涉及具体的基准测试(benchmark)或实验操作,其样本队列来源即为所检索并纳入分析的学术文献。

**研究结果**
**描述**:电子检索获得14,607篇独立文章,最终纳入124篇,识别出129种方法。这些方法被应用于8个主要学科社区,其中人工智能领域最多(30种,23.3%)。方法在171个应用案例中进行了评估,涵盖生物序列、社会序列、护理轨迹和点击流数据。约54.3%(70种)的方法未提供任何形式的公开实现。

**已识别方法及其特征**
**基于距离的方法**:共识别出56种(43.4%)基于距离的方法,其中40种(71.4%)源于最优匹配(OM)不相似性或其简化形式。大多数方法(89.3%)能处理可变序列长度。多变量CTS支持率为16.1%,主要策略包括多通道序列分析(MSA)和扩展字母表编码。连续时间、缺失数据和时不变协变量的处理支持率较低(分别为8.9%、8.9%和仅1种方法)。经典OM方法的计算成本高,适用于中等规模数据(N×S×T约10^5至10^7),而一些启发式“选择性”方法显著提升了可扩展性(可达10^12)。最常需设置的超参数是权重,尤其是OM中的替换成本方案。

**基于特征的方法**:共记录45种(34.9%)基于特征的方法。最常用的特征化策略是使用k-mer(n-gram),占28.9%。其他技术包括混沌游戏表示、经验转移矩阵、傅里叶变换或深度学习获得的潜在表示。聚类后最常使用基于划分的算法(如k-means)。所有方法均支持可变序列长度,但处理连续时间(4.4%)、多变量(8.9%)和缺失数据(2.2%)的能力有限,且无方法能纳入时不变协变量。这些方法在生物信息学中为处理大规模数据而开发,可扩展性最强,部分方法已测试于N×S×T高达10^11的数据集。最常见的超参数是编码依赖阶的参数(如k-mer长度、滑动窗口大小),占44.4%。

**基于模型的方法**:识别出28种(21.7%)基于模型的方法。马尔可夫链、隐马尔可夫模型(HMM)及其变体占主导(57.1%),广义线性模型(GLM)适应CTS数据出现在21.4%的方法中。期望最大化(EM)算法(60.7%)和马尔可夫链蒙特卡洛(MCMC)(25%)是常用的估计程序。这类方法在处理复杂数据结构上能力最强:89.3%支持可变序列长度,32.1%支持多变量CTS,35.7%处理连续时间,35.7%处理缺失数据,39.3%可纳入时不变协变量。但其计算复杂度高,可扩展性最差,大多数方法适用于N×S×T从10^4到10^7的数据。

**聚类簇数的选择**:在129种方法中,42.6%未提供通用选择簇数的方法,14.7%的方法能自动确定。其余方法依赖事后标准,如模型家族中常用AIC/BIC(14.0%),基于距离和特征的方法中最常用轮廓系数(如ASW,10.1%)。

**讨论部分总结**
本范围界定综述识别出129种CTS聚类方法,凸显了方法的高度异质性。三类方法各有优劣:基于距离的方法(以OM为代表)最常见,优势在于非参数且提供可解释的不相似性度量,但面临替换成本选择困难、可扩展性有限和缺失数据处理不佳等问题。基于模型的方法(如GLM、HMM)在处理复杂数据结构(如多变量、协变量、缺失数据)上能力最强,能提供软聚类分配和不确定性量化,但假设更强、使用更复杂且可扩展性较差。基于特征的方法通过将序列向量化实现最高可扩展性,并支持与标准机器学习流程结合,但灵活性最低,多数仅针对生物序列开发,对连续时间、缺失数据、协变量等结构性问题的处理覆盖不足。

研究提出了基于数据特性选择方法的具体指导:对于可变序列长度,大多数方法适用;对于多变量CTS,需选择特定方法(如MSA、GLM扩展);对于连续时间或不规则采样,仅少数模型或特定距离方法可用;缺失数据处理能力最弱,模型方法是较优选择;时不变协变量主要依赖模型方法纳入;对于大规模数据,特征方法和选择性距离方法是最佳选择。此外,代码可用性是重要考量,半数方法缺乏公开实现。

**结论**
本综述识别出129种跨8个学科的CTS聚类方法,将其组织为三大类,并基于六种数据特征进行了评估。关键差距依然存在,特别是在处理缺失数据、生物信息学外的可扩展性以及特征方法的灵活性方面。配套开发的Web应用程序旨在帮助研究人员在这一领域中导航,并为其数据选择最合适的方法。

生物通微信公众号
微信
新浪微博


生物通 版权所有