モデルの選択プロセス

ラベル列が float 型または complex 型の場合、AutoML は XGBRegressor を使用して回帰モデルをトレーニングします。

分類モデルの場合、AutoML は以下の選択プロセスを使用して、最も正確なモデルを決定します。

データセットが大きすぎる場合、AutoML はデータをダウン・サンプル (圧縮) して、モデル選択プロセスを高速化します。モデルの選択後は、引き続き完全なデータセットがトレーニングに使用されます。
データセットのサイズは、列数と行数を掛けて計算されます。この計算されたサイズがターゲット・サイズよりも大きい場合、サンプリングが必要になります。ターゲット・サイズを列数で割って、使用できる行数が計算されます。この数の行がデータセット全体からランダムに選択され、モデルの選択のためにのみ使用されます。
AutoML はデータセットに二項分類の問題があるかどうか、または複数のクラスがあるかどうかを確認します。
- 二項分類の問題がある場合は、ROC AUC スコアリング・メトリックが使用されます。
- それ以外の場合は、F1 スコアリング・メトリックが使用されます。
その後、モンテカルロ交差検証を使用して、3 つのトレーニング/テストを 70%/30% で分割して、モデルごとにこれらのスコアリング・メトリックが計算されます。トレーニング・モードに応じて、最適なモデルは次のように決定されます。

Note:

以下にリストされている数式で、model_score は手順 2 のスコアリング・メトリックを表し、model_time はモデルのトレーニングに費やした時間を表します。

トレーニング・モードモデル比較の式

TIME (model_score)/(model_time^1.2)

BALANCE (model_score)/(model_time)

SCORE model_score

例えば、次の 3 つのモデルを比較するとします。

モデル model_score model_time

モデル A 0.7 500

モデル B 0.85 600

モデル C 0.87 800

TIME トレーニング・モードでは、モデル A が選択されます。
BALANCE トレーニング・モードでは、モデル B が選択されます。
SCORE トレーニング・モードでは、モデル C が選択されます。

トレーニング・モード	モデル比較の式
TIME	(model_score)/(model_time^1.2)
BALANCE	(model_score)/(model_time)
SCORE	model_score

モデル	model_score	model_time
モデル A	0.7	500
モデル B	0.85	600
モデル C	0.87	800

使用されるアルゴリズム