目次
層化k分割交差検証(Stratified k-Fold Cross-Validation)
層化k分割交差検証(Stratified k-Fold Cross-Validation)とは、「データの偏り」に左右されずに正しく評価するための手法です。個に分割してテストを繰り返す「k分割クロス検証」に「各グループ内のラベル(正解)の割合を、元のデータ全体と同じにする」という工夫を加えたものです。
-
役割:データ数が少ない場合や、特定のクラスが驚くほど少ない「不均衡データ」を扱う際に、評価結果が「たまたま」に左右されるのを防ぎます。
-
仕組み:全体の比率が「A:B = 8:2」なら、分割されたどのグループも必ず「8:2」になるように調整します。
層化k分割交差検証(Stratified k-Fold Cross-Validation)関連用語
層化k分割交差検証(Stratified k-Fold Cross-Validation)に関連する単語は以下の通りです。
- 不均衡データ(Imbalance Data)
- ホールドアウト法
- 偏り
やさしい解説
層化k分割横断検証(Stratified k-Fold Cross-Validation)を例えるなら、「学校全体の学力を測り、各クラスからよくバランス生徒を選んで小さなテストを行うため」のようなものです。
具体例は、全校生徒は「男子600人、女子400人(6:4)」の学校で、代表10人を選んで意見を聞いています。
- 普通の選択:適当に選ぶと、たまたま「男子10人」になってしまった、女子の意見は全く反映されないかもしれない。
- 層化(ストラティファイド)な選択:「学校全体が6:4なので、10人も必ず男子6人、女子4人にしよう」と決めて選ぶ方法です。
さらにこれを「横断検証」するなら、
これを5回繰り返して、最後に全員の平均点を出す。
全員を6:4の割合を保ったまま5つのチームに選ぶ。
「Aチームをテスト、残りを練習」する。
次は「Bチームをテスト、残りを練習」します。
層化k分割横断検証(Stratified k-Fold Cross-Validation)のすごい点は、たまたま選ばれたメンバーが「優秀な人ばかり」だったり「とんでもない意見の人ばかり」だった時に結果がラッキーやアンラッキーで決まってしまうのを防ぐからです。
AI関連の用語集【まとめ】
AI関連の用語集が気になる方のために、用語集一覧を作成しました。AIに関する学びを深めたいとお考えの方はぜひご覧ください。
\AIの導入・開発・相談なら【クラベルAI】に相談しよう!/

