Skip to main content

This documentation is for an older version of this product. See the latest version of this content.Opens in a new tab

IntegratedML の概要

IntegratedML は、自動機械学習機能を SQL から直接使用して予測モデルを作成および使用できる InterSystems IRIS® の機能です。

目的

成功している組織は、大量のデータを効果的に利用するアプリケーションを開発する必要性を認識しています。そして、機械学習を使用して大規模なデータセットから予測モデルをトレーニングし、そのデータに基づいて重要な意思決定を行いたいと考えています。このことから、機械学習モデルを構築するための専門知識を持たない組織はきわめて不利な状況に置かれています。インターシステムズが IntegratedML を作成した理由はここにあります。

IntegratedML では、開発者やデータ・アナリストは、特徴量エンジニアリングや機械学習アルゴリズムに関する専門知識がなくても、SQL 環境内に機械学習モデルを導入することができます。IntegratedML を使用すると、開発者は SQL クエリを使用して機械学習モデルを作成、トレーニング、検証、および実行できます。

IntegratedML により、機械学習を使用する際の参入障壁が著しく下がり、未加工データから実装済みモデルへの迅速な移行が可能になります。IntegratedML は、データ・サイエンティストに取って代わるのではなく、データ・サイエンティストを補完することを目的としています。

機械学習の概要

IntegratedML を理解するには、まず、よく使用されるいくつかの用語を理解している必要があります。

  • 機械学習

  • モデル

  • トレーニング

  • 特徴とラベル

  • モデルの検証

機械学習とは

機械学習とは、データからパターンを識別および抽出して、予測モデルを構築して使用するコンピュータ・アルゴリズムの研究分野です。

従来のプログラミングと機械学習

従来のプログラミングでは、入力データに対して実行すると目的の出力が生成されるプログラムを手動で開発していました。機械学習では、コンピュータがサンプル・データと既知の (または予想される) 出力を取得してプログラム (この場合、予測モデル) を開発し、その後さらなるデータに対してそのプログラムを実行できます。

モデルのトレーニング

トレーニング・プロセスとは、機械学習アルゴリズムが予測モデルを開発する方法です。アルゴリズムはサンプル・データ、すなわちトレーニング・データを使用して、入力を目的の出力にマッピングするパターンを識別します。これらの入力 (特徴) と出力 (ラベル) は、データ・セットの列です。トレーニングされた機械学習モデルでは、特徴と生成されたラベルとの間に、アルゴリズムで導出された関係があります。

モデルの検証

モデルをトレーニングした後、導入する前にモデルを検証して、トレーニングに使用したデータ以外でもそのモデルが有用であることを確認できます。モデルの検証とは、モデルの出力と実際のデータの結果を比較して、モデルの予測パフォーマンスを評価するプロセスです。モデルのトレーニングにはトレーニング・データを使用しましたが、検証にはテスト・データを使用します。最も単純なケースでは、テスト・データセットは、トレーニング・データとは別に確保しておいた元のデータセットのデータです。

モデルの使用

トレーニングされた機械学習モデルを使用し、新しいデータに基づいて予測を行います。このデータは、トレーニング・データおよびテスト・データと同じ特徴を収めていますが、ラベル列はありません。ラベルはモデルの出力であるからです。

FeedbackOpens in a new tab