AutoML の主な機能

ここでは、予測モデルをすばやく生成するため、AutoML で使用されるいくつかの機械学習機能について説明します。

自然言語処理

AutoML は自然言語処理 (NLP) を利用してテキスト特徴量を数値特徴量に変換し、予測モデルを生成します。また、TIFDF (Term frequency-inverse document frequency ：単語の出現頻度と逆文書頻度) を使用して、テキスト列とリスト列のキーワードを評価します。

Multi-Hot エンコーディング

ほとんどのデータはスパースですが、機械学習アルゴリズムが理解できるのはデンス・データのみです。大半のデータ・モデリング・ワークフローでは、スパース・データをデンス・データに変換する困難で面倒な作業を手動で行わなければならず、データ・サイエンティストの負担になっています。

このような手動ステップを必要とする多くのワークフローとは異なり、AutoML はこの変換をシームレスに実行します。リストと一対多のリレーションシップが適切に “Multi-Hot エンコーディング” され、複数値を表す列になります。

例えば、各 person の持病のリストを含むテーブルを考えてみます。

Person	条件
Person A	[‘diabetes’, ‘osteoporosis’, ‘asthma’]
Person B	[‘osteoporosis’, ‘hypertension’]
Person C	[‘asthma’, ‘hypertension’]
Person D	[‘hypertension’, ‘asthma’]

多くの機械学習関数では、これらのリストは別個のエンティティとして one-hot エンコーディングで処理され、次のように変換されます。

Person	[‘diabetes’, ‘osteoporosis’, ‘asthma’]	[‘osteoporosis’, ‘hypertension’]	[‘asthma’, ‘hypertension’]	[‘hypertension’, ‘asthma’]
Person A	[1]	0	0	0
Person B	0	[1]	0	0
Person C	0	0	[1]	0
Person D	0	0	0	[1]

AutoML ではむしろ、bag-of-words を使用して、各リストの値ごとに別個の列を作成します。

Person	‘diabetes’	‘osteoporosis’	‘asthma’	‘hypertension’
Person A	[1]	[1]	[1]	0
Person B	0	[1]	0	[1]
Person C	0	0	[1]	[1]
Person D	0	0	[1]	[1]

他の関数では、各 person はそれぞれ別個の持病リストを持つものとして処理されるのに対し、AutoML の手法では、モデルがこれらの各 person の持病セット間のパターンを適切に見つけることができます。

AutoML では、順序は重要ではないと見なします。Person C と Person D は、順序が異なるだけの、同じ持病セットを共有しています。他の関数はこれら 2 つのリストを異なるものとして処理しますが、AutoML は同じものであると識別します。

特徴量エンジニアリング

AutoML の概要