モデルの選択プロセス
ラベル列が float 型または complex 型の場合、AutoML は XGBRegressor を使用して回帰モデルをトレーニングします。
分類モデルの場合、AutoML は以下の選択プロセスを使用して、最も正確なモデルを決定します。
-
データセットが大きすぎる場合、AutoML はデータをダウン・サンプル (圧縮) して、モデル選択プロセスを高速化します。モデルの選択後は、引き続き完全なデータセットがトレーニングに使用されます。
データセットのサイズは、列数と行数を掛けて計算されます。この計算されたサイズがターゲット・サイズよりも大きい場合、サンプリングが必要になります。ターゲット・サイズを列数で割って、使用できる行数が計算されます。この数の行がデータセット全体からランダムに選択され、モデルの選択のためにのみ使用されます。
-
AutoML はデータセットに二項分類の問題があるかどうか、または複数のクラスがあるかどうかを確認します。
-
二項分類の問題がある場合は、ROC AUC スコアリング・メトリックが使用されます。
-
それ以外の場合は、F1 スコアリング・メトリックが使用されます。
-
-
その後、モンテカルロ交差検証を使用して、3 つのトレーニング/テストを 70%/30% で分割して、モデルごとにこれらのスコアリング・メトリックが計算されます。トレーニング・モードに応じて、最適なモデルは次のように決定されます。
Note:以下にリストされている数式で、model_score は手順 2 のスコアリング・メトリックを表し、model_time はモデルのトレーニングに費やした時間を表します。
トレーニング・モード モデル比較の式 TIME (model_score)/(model_time^1.2) BALANCE (model_score)/(model_time) SCORE model_score 例えば、次の 3 つのモデルを比較するとします。
モデル model_score model_time モデル A 0.7 500 モデル B 0.85 600 モデル C 0.87 800 TIME トレーニング・モードでは、モデル A が選択されます。
BALANCE トレーニング・モードでは、モデル B が選択されます。
SCORE トレーニング・モードでは、モデル C が選択されます。