標準化(Standardization)
標準化(Standardization)は、データの平均値を0、標準偏差を1に変換する前処理方法です。
これは、特徴量(feature)のスケールが異なると機械学習モデルが正しく学習できない問題を防ぐために行われます。特に、線形回帰・ロジスティック回帰・SVM・K近傍法(KNN)・ニューラルネットワークなど距離や勾配計算に依存するアルゴリズムでは効果的です。
標準化では、各データ Xを次の式で変換します。
-
μ = 特徴量の平均値
-
σ = 特徴量の標準偏差
これにより、変換後のデータは平均0・分散1の標準正規分布(Standard Normal Distribution)に近づきます。
ただし、元の分布が完全に正規分布になるわけではなく、あくまでスケールを整えるのが目的です。
標準化は、特徴量間の単位や値の範囲が異なる場合や学習の収束速度を速めたい場合に有効です。ディープラーニングでは活性化関数の飽和を防ぎ、勾配消失問題を軽減する効果もあります。
標準化(Standardization)関連用語
標準化(Standardization)に関連する単語は以下の通りです。
- 正規化(Normalization)
- スケーリング(Scaling)
- 標準偏差(Standard Deviation)
標準化(Standardization)やさしい解説
標準化(Standardization)は、「データを同じ基準にそろえる作業」です。
例えば、テストの点数(50〜100点)と身長(150〜180cm)を一緒にAIに渡すと身長の数値のほうが大きいので、AIは「身長が大事」と思ってしまうかもしれません。
そこで、それぞれのデータから平均を引いて、標準偏差で割ります。すると、どちらも「平均0、ばらつき1」のそろった状態になり、AIが公平に判断できるようになります。
AI関連の用語集【まとめ】
AI関連の用語集が気になる方のために、用語集一覧を作成しました。AIに関する学びを深めたいとお考えの方はぜひご覧ください。
\AIの導入・開発・相談なら【クラベルAI】に相談しよう!/