许凯强
大连理工大学,数学科学学院,计算数学专业
高维数据在机器学习、信号和图像处理、计算机视觉等许多领域无处不在。数据的高维度不仅增加了算法的计算时间和内存需求,而且由于噪声影响和相对于环境空间维度的样本数量不足,也对算法的性能产生了不利影响。然而,高维数据往往位于低维结构中,而不是均匀分布在整个环境空间中。恢复数据中的低维结构不仅有助于减少算法的计算成本和内存需求,而且还可以减少数据中高维噪声的影响,从而提高算法的性能。实际上,在许多问题中,一个类别中的数据通常可以由高维环境空间的低维子空间很好地表示。于是,来自多个类别的数据集合往往位于低维子空间的并集中。子空间聚类指的是根据数据所在的隐藏子空间来分离数据的问题。