Skip to main content

This documentation is for an older version of this product. See the latest version of this content.Opens in a new tab

モデルの選択プロセス

ラベル列が float 型または complex 型の場合、AutoML は XGBRegressor を使用して回帰モデルをトレーニングします。

分類モデルの場合、AutoML は以下の選択プロセスを使用して、最も正確なモデルを決定します。

  1. データセットが大きすぎる場合、AutoML はデータをダウン・サンプル (圧縮) して、モデル選択プロセスを高速化します。モデルの選択後は、引き続き完全なデータセットがトレーニングに使用されます。

    データセットのサイズは、列数と行数を掛けて計算されます。この計算されたサイズがターゲット・サイズよりも大きい場合、サンプリングが必要になります。ターゲット・サイズを列数で割って、使用できる行数が計算されます。この数の行がデータセット全体からランダムに選択され、モデルの選択のためにのみ使用されます。

  2. AutoML はデータセットに二項分類の問題があるかどうか、または複数のクラスがあるかどうかを確認します。

    • 二項分類の問題がある場合は、ROC AUC スコアリング・メトリックが使用されます。

    • それ以外の場合は、F1 スコアリング・メトリックが使用されます。

  3. その後、モンテカルロ交差検証を使用して、3 つのトレーニング/テストを 70%/30% で分割して、モデルごとにこれらのスコアリング・メトリックが計算されます。トレーニング・モードに応じて、最適なモデルは次のように決定されます。

    Note:

    以下にリストされている数式で、model_score は手順 2 のスコアリング・メトリックを表し、model_time はモデルのトレーニングに費やした時間を表します。

    トレーニング・モード モデル比較の式
    TIME (model_score)/(model_time^1.2)
    BALANCE (model_score)/(model_time)
    SCORE model_score

    例えば、次の 3 つのモデルを比較するとします。

    モデル model_score model_time
    モデル A 0.7 500
    モデル B 0.85 600
    モデル C 0.87 800

    TIME トレーニング・モードでは、モデル A が選択されます。

    BALANCE トレーニング・モードでは、モデル B が選択されます。

    SCORE トレーニング・モードでは、モデル C が選択されます。

FeedbackOpens in a new tab