Skip to content

特征选择 vs 数据降维:区别与联系

字数 1,474阅读时间 3 分钟Ayaskt
2026/03/12 19:42:45 CST

基于 ML Lecture 4 Part I & Part II 内容整理

一、核心区别

1. 基本定义

方面特征选择 (Feature Selection)数据降维 (Dimension Reduction)
定义从原始数据集中识别并选择最相关、信息量最大且非冗余特征(变量)子集的过程,直接丢弃无关或嘈杂的特征利用数学或统计方法将高维数据转换为低维表示,通过特征组合/转换创建新特征
操作方式直接丢弃原始特征转换/组合原始特征,创建新特征
保留的特征保留原始特征集中的子集(仍然是原始特征)创建新的特征(通常是原始特征的线性或非线性组合)

2. 关键区别总结

特征选择

  • 保留原始特征:选出的特征仍然是原始特征集中的一部分
  • 可解释性强:保留的是原始特征,含义清晰(如"年龄"、"收入")
  • 直接丢弃:不重要的特征直接被移除
  • ⚠️ 局限性:如果所有特征都重要,直接丢弃会导致性能下降

数据降维

  • 创建新特征:通过数学变换创建新的特征(如PCA的主成分)
  • 特征组合:新特征通常是原始特征的线性或非线性组合
  • 保留信息:即使所有原始特征都重要,也可以通过组合保留信息
  • ⚠️ 可解释性降低:新特征的含义可能不如原始特征直观(如"主成分1"、"主成分2")

二、具体方法对比

特征选择方法(Lecture 4 Part I)

方法类型代表方法特点
过滤法 (Filter)方差阈值法、卡方检验、F检验、互信息法基于统计特性,模型无关,速度快
包裹法 (Wrapper)前向选择、后向消除、递归特征消除 (RFE)基于模型性能,计算成本高,但更准确
嵌入法 (Embedded)L1正则化、决策树特征重要性在模型训练过程中同时完成特征选择

降维方法(Lecture 4 Part II)

方法类型代表方法特点
线性降维PCA、LDA、SVD通过线性变换创建新特征
非线性降维核PCA、LLE、t-SNE、VAE通过非线性变换创建新特征

三、应用场景对比

选择特征选择的情况

需要保留原始特征含义

  • 医疗诊断:医生需要知道哪些具体指标(如"血压"、"血糖")最重要
  • 特征可解释性要求高的场景

特征数量适中

  • 特征数量不是特别多,可以直接筛选

需要快速筛选

  • 使用过滤法可以快速筛选特征

选择数据降维的情况

所有特征都重要,但维度太高

  • 如果直接丢弃特征会导致信息损失
  • 需要通过组合保留所有特征的信息

需要缓解"维数灾难"

  • 特征数量远大于样本数量
  • 数据在高维空间中过于稀疏

需要可视化

  • 将数据降至2D/3D进行可视化分析

计算效率优先

  • 降维后可以显著提高后续模型训练效率

四、为什么分成两个 Lecture 讲解?

1. 方法本质不同

  • 特征选择:关注的是选择哪些原始特征,方法包括统计检验、模型性能评估等
  • 数据降维:关注的是如何转换/组合特征,方法包括矩阵分解、线性变换等

2. 数学基础不同

  • 特征选择

    • 统计学方法(卡方检验、F检验、互信息)
    • 模型训练与评估
    • 正则化理论(L1正则化)
  • 数据降维

    • 线性代数(特征分解、奇异值分解)
    • 矩阵理论(协方差矩阵、散度矩阵)
    • 优化理论(最大化方差、最大化类间可分性)

3. 应用场景不同

  • 特征选择:更注重可解释性特征重要性分析
  • 数据降维:更注重信息保留计算效率

4. 教学逻辑

  • Part I(特征选择):从简单到复杂

    • 过滤法(最简单,基于统计)
    • 包裹法(中等复杂度,需要训练模型)
    • 嵌入法(在训练中完成,最复杂)
  • Part II(降维):从线性到非线性

    • 线性降维(PCA、LDA、SVD)
    • 非线性降维(核方法、流形学习等)

5. 知识体系完整性

分开讲解可以:

  • ✅ 更深入地讲解每种方法的原理和细节
  • ✅ 避免概念混淆(特征选择 vs 特征转换)
  • ✅ 便于学生理解两种不同的解决思路
  • ✅ 为后续选择合适方法提供清晰指导

五、两者的联系

虽然方法不同,但常见目标或潜在收益相近:

  • 🎯 减少特征数量
  • 🎯 提高模型性能
  • 🎯 降低计算成本
  • 🎯 提高泛化能力

实际应用中

  • 可以先进行特征选择(去除明显无关的特征)
  • 然后再进行降维(对剩余的重要特征进行组合/转换)
  • 或者直接使用降维(如果所有特征都重要)

六、总结

维度特征选择数据降维
核心操作直接丢弃特征转换/组合特征
保留内容原始特征的子集新创建的特征
可解释性高(保留原始特征)低(新特征含义不直观)
适用情况有明显无关特征所有特征都重要但维度高
数学基础统计学、模型评估线性代数、矩阵分解
主要方法过滤法、包裹法、嵌入法PCA、LDA、SVD等

关键理解

特征选择是"选哪些",降维是"怎么变"。

如果特征明显不重要 → 用特征选择直接丢弃

如果所有特征都重要但维度太高 → 用降维进行组合/转换

除特别注明外,本站原创内容采用 CC BY-NC-SA 4.0 协议授权;引用的歌词、课程材料、图片等第三方内容版权归原权利人所有。
Built with VitePress.