【ML】数据预处理——标准化 | Cry̵̴̷̧̛͠stal P̷̢͢͢͜͝uNK's Blog

type

status

date

slug

summary

为什么需要标准化？

当数据的不同维度（特征）取值范围差异很大时，可能会导致以下问题：

模型难以收敛：

例如在梯度下降优化中，大范围的特征会产生较大的梯度更新，而小范围的特征则更新很慢，导致优化过程不平衡，甚至可能无法收敛。

模型的权重偏向大范围特征：

一些模型（如线性回归、逻辑回归、支持向量机等）对特征的尺度敏感。如果某些特征的取值范围大，模型可能会倾向于赋予它们更高的权重，导致模型偏向这些特征，而忽略了其他重要特征。

距离计算失衡：

在基于距离的模型（如 KNN、K-means、PCA）中，取值范围较大的特征会主导距离的计算，从而影响模型效果。

`preprocessing.StandardScaler()` 的作用

StandardScaler 是 Scikit-learn 中的一种常见的标准化工具。它的作用是将数据进行标准化处理，即将每个特征的分布调整为均值为 0、标准差为 1。

公式如下：

XXX 是原始特征值。

μ\muμ 是特征的均值（mean）。

σ\sigmaσ 是特征的标准差（standard deviation）。

特点：

均值为 0，标准差为 1：

标准化后的数据集中，特征的均值变为 0，标准差变为 1。

适合正态分布特征：

如果特征的分布接近正态分布，StandardScaler 会表现得更好。

代码示例

以下是使用 StandardScaler 的简单示例：

输出：

使用场景

1. 适合大多数机器学习模型

线性模型：如线性回归、逻辑回归、支持向量机（SVM）。

神经网络：标准化有助于梯度下降的快速收敛。

距离相关模型：如 KNN、K-means、PCA。

2. 数据分布接近正态分布

当特征的分布接近正态分布（钟形曲线）时，使用 StandardScaler 会更有效。

什么时候不使用 `StandardScaler`？

尽管 StandardScaler 非常常用，但在一些特殊场景下，可能需要使用其他预处理方法：

特征分布偏离正态分布：

如果特征分布极度偏斜，可以使用 RobustScaler（对异常值更鲁棒）或 MinMaxScaler（将数据缩放到固定范围，如 [0, 1]）。

特征有固定范围：

如果特征本身已经在某个固定范围内（如 [0, 1] 或 [-1, 1]），无需标准化。

稀疏特征：

对于稀疏数据（如文本数据中的词频矩阵），StandardScaler 可能破坏稀疏性，建议使用专门的预处理方法（如 TF-IDF）。

其他预处理方法对比

1. MinMaxScaler

将数据缩放到 [0, 1] 区间。

适合特征范围已知且分布不接近正态分布的情况。

公式：

代码示例：

2. RobustScaler

对异常值鲁棒，基于中位数和四分位数（IQR）缩放数据。

适合存在较多异常值的数据。

公式：