超越表格数据:高维数据的特征提取与选择

时间:2026年5月18日
来源:Array

编辑推荐:

P. Cavina | F. Manzella | G. Pagliarini | G. Sciavicco | I.E. Stan 意大利乌迪内大学数学、计算机科学与物理系,乌迪内,33100 **摘要** 大数据的出现促进了各个领域中众多数据驱动应用程序的发展。

广告
   X   

P. Cavina | F. Manzella | G. Pagliarini | G. Sciavicco | I.E. Stan
意大利乌迪内大学数学、计算机科学与物理系,乌迪内,33100

**摘要**
大数据的出现促进了各个领域中众多数据驱动应用程序的发展。这些应用程序的有效性关键在于能够处理和分析高维数据集,如时间序列、图像等。本研究致力于改进针对这类数据所面临的独特挑战而定制的特征提取和选择方法。尽管特征提取和选择在表格数据方面已经得到了广泛研究,但其在高维数据中的应用仍需进一步探讨。在本文中,我们提供了一种协议,既能降低数据维度,又能保留对建模和预测任务至关重要的信息——该协议专门为(尽管不限于)符号方法设计,同时系统地使用了先进的表格数据特征选择算法。我们通过实际案例证明了这些方法的有效性,并使用适当的客观指标评估了其性能。我们还提供了一个完整的开源软件包,作为长期项目的一部分,用于符号非表格数据表示和学习。我们的研究成果为数据科学和机器学习实践的持续讨论做出了贡献,特别关注符号方法。

**1. 引言**
**结构化与非结构化数据**
在当前数据激增的时代,绝大多数数据都是非结构化的,这意味着它们不符合传统的表格格式,在使用传统数据分析方法进行分析时存在复杂性。这类数据包括时间序列、图像以及各种需要主观解释的定性数据。根据[1]的研究,高达95%的数据是非表格形式的,这凸显了在当今大数据环境中熟练处理和分析此类数据的迫切需求。相比之下,结构化数据由于遵循预先定义的模式,因此易于处理,在金融分析和客户关系管理等多个领域发挥着关键作用。

**特征选择**
数据分析的核心过程包括检查、清洗、转换和抽象,这些过程都旨在揭示支持明智决策的宝贵见解。特征提取和选择是准备数据集以进行后续分析的基础技术。特征提取旨在将原始数据转化为更易于管理和具有洞察力的低维空间,同时不牺牲其内在复杂性。特征选择则通过去除冗余和噪声来识别最具信息量的属性。然而,特征提取和选择不应仅仅基于后续的自动知识提取阶段;相反,还应评估它们本身揭示数据中相关信息的能力。

特征提取采用了一系列技术,从简单的(如缩放和标准化)到复杂的(如主成分分析(PCA)或奇异值分解(SVD)[2],可以是单变量的(当变量独立修改时),也可以是多变量的(当多个变量组合成其他变量时)。特征选择方法[3]、[4]、[5]、[6]、[7]、[8]、[9]、[10]、[11]、[12]、[13]、[14]包括基于过滤器的、基于包装器的、嵌入式和混合方法。基于过滤器的方法不依赖于学习模型,其重要性评估基于启发式或统计排名标准。过滤器有两个正交维度:单变量/多变量方法和监督/无监督设置。单变量过滤器独立地对每个特征进行排名,因此忽略了特征间的相关性;多变量过滤器则批量对多个特征进行排名,并能考虑特征间的依赖性[15]。监督过滤器根据目标变量评估特征(组)的相关性,而无监督过滤器仅根据特征的性质和特征进行选择[16]。无监督方法包括基于方差、熵和拉普拉斯得分的过滤器[17],而监督过滤器则包括相关性/协方差、熵增益、监督拉普拉斯得分和区分能力[18],具体取决于其统计原理。与过滤器不同,基于包装器的方法使用学习模型来评估不同特征子集的性能:迭代搜索过程直到达到最优结果或某个停止条件,搜索策略可以是随机的、顺序的或启发式的[19]。嵌入式方法将特征选择过程集成到学习模型中。最后,混合方法结合了过滤器和包装器的优点:过滤器将特征集简化为足够好的子集,而包装器则最大化性能[15]。

**维度数据**
一种常见的非表格数据形式是维度数据,其中每个实例由一组n个实函数组成,这些函数定义在离散的d维网格上(例如Nd)。这类数据涵盖了广泛的实际数据,包括时间序列(d=1)、空间数据(d=2或d=3)和视频数据(d=3),也包括标量数据(d=0)。传统上,这些领域的机器学习研究主要采用亚符号方法,特别是神经网络,相关文献非常丰富,无法在本文范围内详细讨论。最近,人们对符号学习产生了浓厚兴趣,尤其是在时间序列和空间数据的应用上。符号技术在时间规则提取[20]和时间序列分类[20]等任务上取得了进展——使用了从决策树[21]到基于形状素的算法[22]以及旨在提取基于点的时间逻辑公式的逻辑分类器[23]等方法;同时在空间领域应用符号方法(尤其是命题决策树[24])也取得了有希望的结果。

**一种新的符号方法**
最近兴起的一种适用于所有类型维度数据(以及其他非结构化数据)的新符号方法是模态符号学习[25]。简而言之,这种方法用模态逻辑替代了传统的命题逻辑,用于表示和推理d维数据中的模式,重点分析d维超区间及其定性关系,并用适当的模态逻辑捕捉这些关系,为现代机器学习提供了新的视角。尽管模态符号学习刚刚出现,但其理论基础已经是活跃的研究课题[26]、[27]、[28],并且诸如模态决策树森林之类的实现已经在多种情况下验证了其实用性[29]、[30]、[31]。

**我们的贡献**
在d维版本中,模态符号技术自然地启发了一种基于d维超区间概念的特征提取和选择协议,可以将其视为一维区间到d维情况的明显推广。一方面,现有的从维度数据中学习的方法提出了一些特征提取函数,从基本统计量(如最小值、最大值和平均值)到更复杂的函数(如Catch22[32]和Mel频率倒谱系数[33],用于音频和EEG数据)。另一方面,超区间允许将任何此类函数应用于每个实例的一部分,同时保持它们之间的相对维度关系。因此,从维度数据中提取和选择特征的自然方法是从将一系列此类函数应用于超区间开始的。然而,这立即引发了信息爆炸问题,可以用以下问题来概括:哪些特征函数应用于哪些变量以及哪些超区间包含最多信息?虽然可以认为这个问题的答案在于标准的选择技术,但实际上,即使对于相对较小的d维数据集,从计算角度来看这个问题也可能很快变得难以处理。因此,第一步探索性选择必须限于单变量提取和基于过滤器的工具。

尽管这种数据表示模型并不罕见,但它从未被用于在同一特征选择方法下涵盖不同类型的数据。文献显示,尝试对特征选择方法进行分类[34]通常会为不同类型的数据(如时间序列[35]、[36]、[37]或图像[39]、[40])创建不同的方法类别。这一点在分析最流行的特征选择软件工具(如scikit-learn[41](用Python编写)和caret[42](用R语言编写)的文档时尤为明显。

我们的贡献旨在填补这些空白。我们设计、实现并测试了一个明确设计的协议,包括完全可参数化的方法,适用于任何特征提取函数集(包括某种程度的亚符号方法),以及对结果的可靠统计评估;我们的代码包含在Sole.jl[43]中,这是一个专门用于数据分析、学习和模型分析的符号方法的开源框架。为了证明我们方法的有效性,我们考虑了六个非常复杂的数据集,三个时间序列数据集和三个空间数据集。在时间序列数据集中,我们解决了从人类脑电图信号中提取和选择特征的问题;我们的技术将帮助我们识别几个有用元素,包括最具信息量的电极、最具信息量的特征函数、最具信息量的脑电波频率以及试验中最具信息量的时间区间。同样,在空间数据集中,我们将从卫星图像中提取最具信息量的(矩形)区域、最具信息量的光频率和最具信息量的特征提取函数,用于三个监督土地覆盖分类问题。在这两种情况下,变量、特征提取函数和超区间之间的组合数量超过了数千种,因此明智地选择它们对于任何后续任务都至关重要。所有数据都是公开且免费提供的。

**局限性**
我们的方法目前尚未涵盖基于包装器和嵌入式选择方法的情况。主要原因在于过滤器与学习阶段是分离的,因此可以自由操作数据以提取所需的特征信息。从维度数据中进行符号学习仍在探索中,当前的技术水平似乎表明,基于包装器或嵌入式选择对于维度数据来说仍然不可行或计算上不可承受;然而,我们的框架可以被视为朝这个方向迈出的第一步,至少在原则上可以研究这些可能性。

**论文结构**
本文的结构如下:第2节深入探讨了我们方法的理论基础,强调了我们的工作与传统数据分析范式的区别。接下来,第3节介绍了我们开源软件包的开发和应用,以促进我们符号分析技术的实际实施。然后,第4节全面总结了应用我们方法所得到的实证发现,指出了遇到的挑战和获得的见解,并得出结论。这个集合中的每个函数fi都被抽象地定义为fi:⋃1≤j1,…,jd≤NRj1×⋯×Rjd→R。实际上,每个抽象定义的函数代表了一组函数;例如,如果fi是一组值的广义平均值,那么fi的一个元素就是3×2矩形内值的平均值。因此,每个抽象函数fi在所有维度和可能的域中被具体化为多个函数。一般来说,抽象函数集F可以包含从简单直观的函数(如平均值、最小值、最大值等)到非常复杂的函数,甚至是隐式定义的函数(如神经网络)。将抽象函数f∈F应用于变量V∈V会得到一个特征f(V)。这种方法通过将重要信息封装在提取的特征中,促进了高维数据向易于分析形式的转换。值得注意的是,将函数作为特征提取是维度数据分析中的常见做法;我们的贡献在于以通用框架的形式系统化了这种做法。这使我们能够包括使用针对每种情况的众所周知且被广泛接受的特征提取技术作为通用方法的具体案例。

从维度数据中进行符号学习。模态符号学习[25]基于这样的想法:非表格数据可以用(合适的)模态逻辑来表示。有几种可能的模态语言可以表示维度数据;每种语言原则上都可以驱动特定的特征提取和选择协议。为了实现统一处理,我们引入了HSd逻辑,它是Halpern和Shoham的时间间隔模态逻辑HS[44]的d维泛化,并遵循Balbiani在其矩形代数[45]中引入的思想。

表1. Allen的区间关系和HS1模态。等号(=)未显示。

考虑一个d维网格Dd,其中D=〈{1,…,N},≤〉是自然数集的一个子集,直到某个基数N。在这个空间中,我们定义一个超区间为一组d对自然数,这些自然数勾勒出d维空间中的一个子区域或“块”,即H=([x1,y1],…,[xd,yd])⊆Dd,其中每对[xi,yi]定义了沿第i个维度的区间边界,对于每个维度i有1≤xi≤yi≤N且1≤i≤d。当所有维度上的xi=1且yi=N时,超区间H包含了Dd的全部范围。说一个点属于某个超区间意味着该点的坐标落在超区间的相应维度区间内。形式上,一个点(π1,…,πd)是超区间H的元素,表示为(π1,…,πd)∈H,当且仅当所有维度i上都满足xi≤πi≤yi。这种表示d维数据集的方式使我们能够导航和分析数据中的实体及其关系,并提供了一种结构化的方法来提取可能编码在数据点几何形状和相对位置中的有意义的信息。

基于Allen[46]的开创性工作,他定义了十三种时间区间关系,这些关系简洁地描述了线性时间线上区间对的可能相对位置,我们将这些概念扩展到d维空间。Allen的区间关系为如何并置区间提供了定性词汇,例如相遇、重叠或相互前置。如表1所示,每个关系RX,其中X∈X={A,L,B,E,D,O}都与一个模态运算符〈X〉相关联;此外,每个关系RX都有一个对应的逆运算符RX¯。为了将Allen的区间关系转移到d维数据的领域,我们必须考虑超区间。两个超区间H和H′之间的关系表示为RX1…Xd,其中每个Xi∈X∪{=}代表Allen原始的区间关系之一,或者是等号。就像在一维情况下关系R=被舍弃因为它不产生模态运算符一样,在d维情况下关系R=,=,…,=也被排除;因此,d维关系的集合包含了13d−1个元素。所以在d维空间中,Allen关系集中的每个维度的关系组合起来形成了一个全面的关系,捕捉了超区间H和H′之间的几何方向。这种泛化使我们能够定性地分析更大维度数据集中通常存在的复杂空间关系,为关于数据结构和模式的逻辑推理提供了基础。

在Allen[46]的工作基础上,我们扩展了区间时间逻辑的语言和语义,现在将HS逻辑定义为HS到d维空间的泛化。基于一组命题变量P,HSd中的良构公式根据语法⩴φ⩴p∣¬φ∣φ∧φ∣〈X1…Xd〉φ构建,其中p代表P中的一个命题变量;与关系的情况一样,每个维度i上的Xi∈X。形式为〈X1,…,Xd〉的运算符被称为存在性的,表示可以在模型中转换到不同的超区间。剩余的布尔运算符以及13d−1个存在性运算符的通用版本通过对偶性定义为快捷方式(例如,[X1,…,Xd]φ≡¬〈X1,…,Xd〉¬φ)。

为了阐明HSd的语义,我们定义了一个d维模型,其类型为M=〈I(Dd),ϕ〉,其中I(Dd)是d维空间Dd中所有超区间的集合,ϕ:P→2I(Dd)是一个赋值函数,它将每个命题变量映射到它成立的超区间集合。在模型M中的超区间H上,HSd公式φ的真值遵循一组归纳定义的条件,这些条件与典型的布尔运算符一致,并通过HSd特有的存在性构造进行了扩展:M,H⊩piffH∈ϕ(p),对于每个p∈P;M,H⊩¬ψiffM,H⊮ψ;M,H⊩ψ1∧ψ2iffM,H⊩ψ1和M,H⊩ψ2;M,H⊩〈X1…Xd〉ψiff∃H′s.t.HRX1…XdH′且M,H′⊩ψ。注意,通用运算符[U]d确保公式在每个模态的超区间上都适用,当d从上下文中明确时,我们简单地使用[U]。

当d=1时,HSd变成了Halpern和Shoham的时间间隔模态逻辑HS[44];其运算符是表1中的那些,公式在线性模型上解释(例如,〈A〉p被解释为从当前区间结束的某个区间开始,p成立)。当d=2时,HSd变成了有限平面上的矩形模态逻辑;其运算符类型为〈X1,X2〉,其中〈X1〉和〈X2〉都来自表1,并包含众所周知的语言,如RCC8或RCC5(它们是拓扑关系逻辑[47]),以及诸如部分重叠的〈PO〉或外部连接的〈EC〉等运算符。从计算角度来看,可能还没有研究过超过两个维度的HSd版本;然而,在某些情况下它们的有用性是不可否认的。

有了这些逻辑构造,我们观察到,当由一组特征提取函数F支持时,可以通过d维模型的视角来查看由一组变量V描述的d维数据集。因此,命题变量的词汇是从这些函数、变量、比较运算符和实数值的组合中派生出来的,定义为P={f(V)⋈v∣f∈F,V∈V,⋈∈{<,≤,=},v∈R}。对于特定实例I中的每个超区间H,这些命题变量评估一个超矩阵I(V,H),该超矩阵由超区间H中每个维度的变量V的区间范围内的实数值元素组成:ϕ(f(V)⋈v)={H∣H∈I(Dd)且f(I(V,H))⋈v}。

当使用模态决策树和模态随机森林来探测d维数据集时,它们可以揭示可以用HSd[29]、[30]、[31]、[48]表达的模式。这些模式的例子,翻译成自然语言,涵盖了关于超区间上特征值的所有可能的定性表达。因此,在时间情况下,我们可能会看到这样的模式/句子:当患者在某个时间区间内的温度峰值数量大于3时,他的/她的血压下降速度超过每小时10毫米汞柱,在一个假设的案例中,观察中的患者由包括温度(temp)和血压(blood)作为变量的多变量时间序列描述,这将对应于这样的公式:[U](peaks(temp)>3→〈D〉(deriv(blood)>10)。在空间情况下,例如当图像中‘红色’频率的最大值大于125时,存在某个相邻矩形的‘绿色’最小值小于64,在另一个假设的案例中,实例是卫星图像,其像素由可见颜色(红色和绿色)的数量描述,这将产生这样的公式:[U](max(red)>125→〈EC〉(min(green)<64)。

从数据集中发现模态公式的方式与发现命题公式的方式相同:通过对所有实例进行系统化的模型检查。这种计算过程本质上是昂贵的,这也是为什么适用的学习方法在设计上是不精确的(例如,是贪婪算法),并且要检查的变量数量、特征提取函数和超区间的数量对性能有很大影响。考虑到典型的多维数据集的范围,其中包含数百甚至数千个跨多个维度的变量,并且受到众多候选特征提取函数的影响,潜在特征集的数量会激增到数万。因此,数据处理的一个关键方面是仔细选择一组更小且更易于处理的特征子集进行深入分析。这种选择不是随机的,而是基于对多维分析空间中数据实例中超区间及其潜在关系的逻辑驱动的检查。

下载:下载高分辨率图像(138KB)
下载:下载全尺寸图像
图1. 维度特征提取和选择的图示表示。

模态符号学习的例子。在最近的文献中,模态符号学习在从维度数据中提取信息的几个案例中被证明是有用的。在[30]中,考虑了一个包含志愿者咳嗽和呼吸样本记录的数据集,并标记了他们的COVID-19状态,研究了使用区间时间决策树和森林进行自动分类的问题;获得的模型不仅优于使用相同数据集获得的最新技术,而且其结果也优于应用于其他数据集的大多数非符号技术。在[29]中,分析的问题是在观察艺术品期间评估受试者的EEG信号,并使用时间决策树和森林(即d=1维数据上的模态决策树和森林)提取特定电极在特定频率下的电信号背后的明确规则;所得模型的性能与现有文献相当,同时能够提供有关数据理解的有用建议,包括每个电极的重要性、信息传递的确切频率的相关性,以及应该应用于信号以揭示这些信息的最有信息量的度量(特征函数)。在[48]中,考虑了来自燃气轮机的振动水平,目的是预测涡轮机故障的发作;再次利用模态决策树,可以选择最有信息量的变量并生成相对可靠的模型。最后,在[49]中,问题是从卫星数据中提取符号机器学习模型,即d=2维数据,尽可能使用空间关系来增强分类;模态树和森林在统计性能和结果的可解释性方面再次被证明是优越的。

3. 维度特征提取和选择
一种系统化的维度数据特征提取和选择方法可以如图1所示,并概述如下:
超区间。在一个d维数据集中,每个实例由每个轴上的N个点界定,不同超区间的数量是(N(N+1)/2)d。在这些超区间内,根据不同的函数评估变量会增加计算负载。直接处理所有超区间上所有变量和函数的每一种潜在组合在计算上是不可行的,甚至是完全不可行的。作为一种实用的替代方案,我们引入了超窗口方法。这种方法将有限的d维空间划分为一组可管理的超区间W,称为超窗口。这组超窗口必须覆盖空间中的每个点,确保全面覆盖而无需穷举,但它们不必是互斥的。超窗口参数的选择决定了数据集特征的粒度和覆盖范围。通过评估这些超窗口内的特征,人们可以用可控的计算成本来近似所有超区间范围内特征的行为。在建立数据集的超窗口划分后,特征提取工作就开始了。提取所有超窗口中的特征会得到一个转换后的数据集,其维度受到所应用的特征提取函数数量的影响。对提取的特征进行归一化对于保持不同尺度之间的可比性至关重要。这一过程产生了一个表格形式的数据集,它结构化地汇总了超窗口内的内在变化。这个表格数据集——包含了每个超窗口中每个特征提取函数的应用结果——为后续的选择步骤奠定了基础。接下来是一个无监督的特征选择步骤,该步骤利用归一化来确定每个变量-超窗口-函数组合的个体得分。保留得分最高的预设比例的组合,从而进一步压缩数据集。这一步骤是独立运行的,并通过其应用“修剪”数据集,消除最不可能携带相关信息的特征。这种降维有助于在分析的后期阶段进行更集中的研究,特别是因为监督方法往往计算成本更高。

在接下来的阶段,监督特征选择应用类似的评分和修剪过程,但是在一个目标导向的背景下进行的。通过考虑特征与结果之间的关系,监督选择为特征组合分配相关性得分并过滤数据集以隔离最具预测性的特征组合。请注意,当标签不可用或因某些原因被忽略时,可以跳过监督选择步骤。

聚合函数。应用维度特征提取和选择后,会得到一组形式为(变量,超窗口,函数)的三元组。这些三元组可以与聚合函数结合使用。一个非常简单的聚合函数是评估每个特征在选定的三元组中被选中的次数;同样的方法也可以用于窗口和特征提取函数。其他更复杂的聚合方法可以考虑具体的得分。一般来说,聚合可以合并多个维度上的得分,使我们能够专注于最具影响力的变量、函数或窗口。最后需要指出的是,在监督情况下,存在基于假设检验的流行特征选择方法。然而,在有数千个潜在候选者的情况下,这种策略应谨慎使用,因为累积概率误差可能导致不可靠的结果。不过,可以选择的三元组可以测试它们区分类别的能力(这与将测试结果作为选择过程的一部分不同)。在所提出的框架中,我们包括了一组对随机子选定的三元组的事后测试,这使我们能够评估结果的质量。

图2展示了时间案例中这一过程的一个例子。所描述的方法在d维数据集中平衡了计算可行性和全面特征检查。超窗口划分代表了一种创新的折中方案,将原本无法处理的分析负担转化为一种可行的策略。然而,超窗口的大小和排列至关重要,可能需要通过实证调整来充分捕捉数据集的细微差别。特征提取和双层选择过程体现了一种分层方法,有效地将计算资源从非特定的(无监督的)转向了有针对性的(监督的)降维。然而,所选特征提取函数的适当性仍然至关重要且依赖于具体情境。关键的是,虽然这种方法提高了可管理性,但也可能基于选择的超窗口和特征提取函数引入偏见。此外,尽管有助于降维,但聚合可能会掩盖具有局部预测能力的特征。

下载:下载高分辨率图像(667KB)
下载:下载全尺寸图像

图2. 高维数据集的特征提取和特征选择的分层流程。

实施。我们已经将上述方法开发并集成到了Sole.jl [43]中,这是一个专注于数据分析、学习和模型分析的符号方法的开源框架。在处理无监督步骤时,我们采用了基于方差的标准过滤方法(Var),该方法封装了著名的方差阈值方法[50]。该框架还提供了互信息(MI)[51]和Fisher得分(FS)[52]方法,用于监督情况,这些方法根据特征与类别的关系来评估特征。使用这种技术涉及每个应用的一些关键步骤:1. 选择合适的函数集F;2. 确定无监督和监督选择阶段后要保留的特征百分比;3. 选择如何聚合结果以供分析;4. 决定在存活的特征中随机选择多少个进行基于均值的假设检验步骤,作为验证阶段使用。这种结构化的方法确保用户可以根据具体需求定制分析过程,促进了符号学习启发式分析技术的灵活性和效率。

4. 结果与讨论
为了展示我们方法及其实现的有效性和效率,我们考虑了两种不同的维度案例:一维(时间数据)和二维(空间数据)场景。

时间案例。专注于时间数据,我们的分析包括来自一项研究脑电(EEG)记录的数据集,该研究调查了神经系统内的放电过程。这一过程对于区分内部来源和外部来源的刺激至关重要。实验让有和精神分裂症以及没有精神分裂症的受试者执行旨在引发这种区分的任务,让他们按下按钮产生音调、被动听音调或按下按钮而不产生音调。这些任务产生了三个不同的数据集:T1、T2和T3,每个数据集反映了不同的动作顺序。精神分裂症与这种放电过程中的潜在干扰有关,这支持了我们预期控制组和精神分裂症患者在EEG信号上存在可观察差异的假设。先前的研究表明,控制组在自生成音调时脑电波的负偏转被抑制,而精神分裂症患者则没有这种效应[53]。

下载:下载高分辨率图像(695KB)
下载:下载全尺寸图像

图3. T1数据集的结果。

下载:下载高分辨率图像(644KB)
下载:下载全尺寸图像

图4. T2数据集的结果。

下载:下载高分辨率图像(629KB)
下载:下载全尺寸图像

图5. T3数据集的结果。

数据来自[54]、[55],包括32名对照组受试者和49名精神分裂症患者,共计81名受试者。这是更大数据集的一部分,该数据集还包含了fMRI数据[56]。每位参与者平均参与了大约285次试验,从而产生了相对丰富的数据集(按两个类别标记)。之前的研究也使用了相同的数据集(例如,参见[57]、[58])。对该数据集应用的预处理包括过滤、分时期、基线校正、典型相关分析和异常值剔除。每个EEG记录从64个电极(通道)捕获数据,这些电极按照10-20系统排列,并以1024Hz的采样率记录了3秒的时间段,提供了每个记录中3072个数据点的全面脑活动视图。对每个通道应用短时傅里叶变换(STFT)有助于从0到40Hz提取40个1Hz宽的频率带。这一操作将我们的特征集扩展到了每个记录2560个(n=64×40)。之后,根据之前描述的三个不同任务对数据集进行了分割,分别得到了7836、7631和7734个实例的子集。这种分割反映了受试者对每个任务的重复执行。每个任务特定数据集的大小大约为13GB(CSV格式)。

为了捕捉每次试验中的时间动态,我们定义了五个不同的时间窗口W={[1,639],[610,1247],[1217,1855],[1825,2462],[2433,3072](|W|=5)。这种结构确保所有试验在开始时对齐,任何显著事件都发生在启动后150毫秒内。此外,我们考虑了三个统计量——平均值、最大值和最小值(F={平均值,最大值,最小值},l=3)——以丰富我们的特征分析,将潜在的特征数量增加到每个数据集38400个。

特征选择过程从无监督步骤开始,使用方差分析(Var)将我们庞大的特征集缩小到原始大小的2.5%,得到960个特征。然后通过监督阶段进一步精炼,利用互信息(Mutual Information)确定前10个特征,这些特征占之前选定子集的1%。这些最终特征经过Mann–Whitney U检验[59]的严格验证,显著性阈值设为α=0.05,确保它们的统计相关性和对我们研究目标的稳健性。我们的分析结果详细显示在图3、4和5中。图3(a)、4(a)和5(a)显示了从左到右方差得分的显著下降,突出了特征相关性的快速下降。具体来说,初始的无监督选择阶段分别占T1、T2和T3总方差的42%、37%和35%。更深入的分析表明,要达到50%的方差解释需要更大的特征集(T1为1410个特征,T2为1957个特征,T3为2129个特征),这验证了我们无监督步骤后选择2.5%的特征集是高效且充分的。类似的检查显示,如图3(b)、4(b)和5(b)所示,归一化互信息得分的下降比方差得分的下降更为平缓。结合这一理解,可以看出,那些在无监督步骤后仍然存在的特征的互信息得分是通过评估它们与目标变量的关系来计算的。这种方法强调了得分的逐渐下降,反映了保留特征的相关性和它们对目标的信息量。

特征的形式为(V,W,f),其中V是一对(电极,频率)。因此,最终的10个特征可以通过出现次数和得分(在监督过滤后)以四种不同的方式聚合。这种方法分别在图3(c)、3(d)、3(e)、3(f)、4(c)、4(d)、4(e)、4(f)、5(c)、5(d)、5(e)和5(f)中产生了两组四个图表。可以看出,在10个选定特征中出现次数最多的电极是AF7、CP3、F1、F5、F7、Fp1、Fp2、Pz、T7(对于T1),AF4、AF7、CP4、FC5、Fp1、P7、P9、T7(对于T2),以及AF7、Cz、F4、F6、F7、FC5、FC6、FT7、Fp2、Fpz(对于T3);这些电极在0.5Hz和1.5Hz频率带上的信息量最大。此外,事件发生前的时间窗口特别具有信息量,突显了事件前脑活动的预测潜力。最后,这10个选定特征经过了Mann–Whitney U检验。图3(g)、4(g)和5(g)显示,T1、T2和T3分别有7个、4个和3个特征通过了检验。需要注意的是,参数选择是预先确定的;然而,也可以进行其他选择。这项实验的主要目的是证明该协议的可行性。这种细致的特征选择和统计测试验证方法强调了我们方法的稳健性。这项工作可能是另一项研究的初步部分。实际上,通过关注统计上显著的EEG模式及其与特定神经过程的相关性,我们的研究不仅揭示了精神分裂症的神经基础,还加深了我们对大脑区分自生成刺激和外部刺激能力的理解。

空间案例。为了证明我们的方法在空间案例中的有效性,我们选择了三个多类数据集:Indian Pines(IP)、Pavia University(PU)和Pavia Centre(PC),每个数据集都是土地覆盖分类领域的基准。这项任务涉及为遥感图像的每个像素分配一个标签,表示土地用途,如森林、城市区域或农田。尽管类似于标准图像分割,但土地覆盖分类主要被视为图像分类挑战,其中图像通常来自卫星或航空传感器,是高光谱的。这意味着它包含广泛的空间变量(光谱通道),每个通道代表特定电磁波长的信号强度,单个像素的分类依赖于其邻近像素的集合。注意,与EEG频率的情况类似,光谱通道也划分了电磁带。

具体来说,IP数据集包含1600张图像(m=1600),每张图像被组织成5×5像素矩阵,包含200个光谱变量C1,…,C200,范围从400到2500纳米(n=200),分为16个不同的类别(k=16)。对于PU数据集,我们遇到了103个光谱变量(C1,…,C103),范围从430到860纳米(n=103),分布在900张图像(m=900)中,并分为9个类别(k=9)。PC数据集反映了这种结构,包含102个变量(C1,…,C102),波长范围从430纳米到860纳米(n=102),这些变量被分为9个类别(k=9),分布在900张图像中(m=900)。这三个数据集分别占用61兆字节、18兆字节和18兆字节的空间。在我们的分析中,使用了以像素为中心的3×3窗口W1=([2,2],[4,4]),以及包围整个邻域的5×5窗口W2=([1,1],[5,5])(W={W1,W2}),并结合了三种提取函数(F={mean, maximum, minimum},其中l=3),从而为每个数据集定制了特征空间——IP为1200个特征,PU为618个特征,PC为612个特征。深入分析如图6、7和8所示,空间数据集中的方差减少趋势比时间数据集更为平缓。通过方差进行无监督过滤后,得到了一个潜在的特征池——IP为120个特征,PU和PC各为62个特征。进一步通过监督互信息步骤精炼后,每个数据集的核心特征集减少到12个特征——IP为10个特征,PU和PC各为20个特征(四舍五入到最接近的整数)。值得注意的是,最初的(无监督)特征提取分别解释了IP、PU和PC总方差的46%、24%和27%。仔细观察发现,其中一部分特征——IP为138个,PU为176个,PC为137个——就足以解释50%的方差,这表明采用策略性、简约的特征选择方法可以非常有效。

下载:下载高分辨率图像(664KB)
下载:下载全尺寸图像
图6. IP数据集的结果。
下载:下载高分辨率图像(674KB)
下载:下载全尺寸图像
图7. PU数据集的结果。
下载:下载高分辨率图像(688KB)
下载:下载全尺寸图像
图8. PC数据集的结果。

特征分析揭示了各个数据集中具有显著性的光谱带。IP的分析确定了一个关键的光谱带,对应于通道C21–C36,这些通道位于红外边缘(波长在596–738纳米之间)。较窄的空间窗口(W1)和以最大值函数为主的特征提取方法在区分土地覆盖类别方面起到了关键作用。相比之下,PU突出显示了一个重要的光谱带,对应于通道C14–C32,这些通道对应于可见光中的青色和绿色(波长在488–563纳米之间),在较宽的空间窗口(W2)下以及使用最大值和平均值函数时,分类变得更加清晰。PC数据集也显示了类似的模式,指出了一个具有显著影响的光谱带(C89–C102,波长在802–856纳米之间),类别的清晰度得益于更宽的空间窗口(W2)和相似的特征提取方法。我们的协议从12个核心特征中随机选择了10个特征进行验证。Mann–Whitney U检验验证了这10个选定的特征——与时间数据集的情况相同。图6(f)、7(f)和8(f)显示,所有10个特征在所有数据集中都通过了检验,证明了选择方法的有效性。

这项复杂的分析强调了空间数据解释中的复杂性。它展示了光谱带、空间窗口和统计函数在揭示土地覆盖类型镶嵌图中的协同作用。值得注意的是,这项研究填补了现有文献中的一个空白,特别是在图像分割和分类特征方面,这一空白比时间数据集的情况更为突出。我们的工作有可能开启一个新的研究领域,引入新的方法。选定特征的准确验证突显了我们方法的精确性,为理解土地覆盖的细微差别提供了有力的工具。因此,我们的发现不仅推动了高光谱图像分析在土地覆盖分类领域的进展,还为未来的研究指明了方向,体现了其新颖性和重要性。

5. 结论

这项研究在大数据分析方面取得了重要进展,主要体现在它创新性地结合了用于高维数据分析的符号方法。这里采用的符号视角丰富了我们的方法论工具箱,并加深了我们对数据内在结构和关系的概念理解。通过开发和分享一个开源软件包,我们为在更广泛的科学和技术社区中应用、检验和扩展这些符号技术奠定了坚实的基础。从符号的角度来看,我们的工作解决了高维数据集带来的多方面挑战,包括可扩展性、噪声和特征相关性等问题。这种方法有助于发现更加细致、可解释的模型,对各种领域的复杂数据分析具有重大意义。我们研究的符号维度促使人们重新评估传统的数据分析范式,推动向既注重计算效率又注重可解释性和理论合理性的方法论转变。虽然在我们的实验中我们仅限于使用特定的单变量过滤器(包括无监督和监督方法),但我们的框架设计可以容纳几乎所有相同类型的技术,包括但不限于平均绝对差异和离散度比率,以及各种典型的相关性指数(如皮尔逊相关系数、斯皮尔曼相关系数和肯德尔相关系数)。实际上,我们方法的核心原则是能够像处理表格数据一样准确地研究维度数据。

展望未来,这项研究中引入的方法为数据分析的新时代奠定了基础,在这个新时代中,符号方法在解开大数据复杂性方面发挥着核心作用。我们贡献的开源性质鼓励了一种协作创新的方式,邀请研究人员和实践者探索符号数据分析的全部潜力。总之,我们的研究强调了符号方法在推进大数据分析领域中的关键作用。它呼吁社区接受这些方法,创造一个能够揭示数据最深刻见解的环境。随着我们继续探索这一充满前景的前沿,我们的共同努力无疑将带来更加复杂、有洞察力和影响力的数据分析技术,塑造我们理解和与周围数字世界互动的方式。

CRediT作者贡献声明:
P. Cavina:撰写——审稿与编辑、验证、软件开发。
F. Manzella:撰写——审稿与编辑、软件开发、方法论、形式分析。
G. Pagliarini:软件开发、方法论、数据分析。
G. Sciavicco:撰写——初稿撰写、验证、方法论、数据分析、概念化。
I.E. Stan:撰写——审稿与编辑、监督、概念化。

关于生成式AI使用的声明:
在准备这项工作时,没有使用任何生成式AI工具,作者对内容负全责。

生物通微信公众号
微信
新浪微博


生物通 版权所有