モデルの選択プロセス
ラベル列が float 型または complex 型の場合、AutoML は XGBRegressor を使用して回帰モデルをトレーニングします。
分類モデルの場合、AutoML は以下の選択プロセスを使用して、最も正確なモデルを決定します。
-
データセットが大きすぎる場合、AutoML はデータをダウン・サンプル (圧縮) して、モデル選択プロセスを高速化します。モデルの選択後は、引き続き完全なデータセットがトレーニングに使用されます。
データセットのサイズは、列数と行数を掛けて計算されます。この計算されたサイズがターゲット・サイズよりも大きい場合、サンプリングが必要になります。ターゲット・サイズを列数で割って、使用できる行数が計算されます。この数の行がデータセット全体からランダムに選択され、モデルの選択のためにのみ使用されます。
-
AutoML はデータセットに二項分類の問題があるかどうか、または複数のクラスがあるかどうかを確認します。
-
その後、モンテカルロ交差検証を使用して、3 つのトレーニング/テストを 70%/30% で分割して、モデルごとにこれらのスコアリング・メトリックが計算されます。トレーニング・モードに応じて、最適なモデルは次のように決定されます。
Note:
以下にリストされている数式で、model_score は手順 2 のスコアリング・メトリックを表し、model_time はモデルのトレーニングに費やした時間を表します。
トレーニング・モード |
モデル比較の式 |
TIME |
(model_score)/(model_time^1.2) |
BALANCE |
(model_score)/(model_time) |
SCORE |
model_score |
例えば、次の 3 つのモデルを比較するとします。
モデル |
model_score |
model_time |
モデル A |
0.7 |
500 |
モデル B |
0.85 |
600 |
モデル C |
0.87 |
800 |
TIME トレーニング・モードでは、モデル A が選択されます。
BALANCE トレーニング・モードでは、モデル B が選択されます。
SCORE トレーニング・モードでは、モデル C が選択されます。