インデックス作成結果
インターシステムズは、InterSystems IRIS® 自然言語処理 (NLP) を非推奨Opens in a new tabにしました。インターシステムズ製品の今後のバージョンから削除される可能性があります。以下のドキュメントは、既存ユーザのみに向けたリファレンスとしています。代替のソリューションを見いだすためのサポートを必要とする既存ユーザはインターシステムズのサポート窓口Opens in a new tabにお問い合わせください。
インデックス作成結果を使用すると、個々のデータ・ソースの内容の NLP インデックスを表示できます。このユーザ・インタフェースは、ドメイン・アーキテクトの一部です。
このツールで提供されるすべての機能は、ObjectScript を使用して、NLP クラスのメソッドとプロパティを呼び出すことでも使用できます。
概要
[インデックス化の結果] ツールを使用すると、個々のデータ・ソースの内容の NLP インデックスを表示できます。これにより、[インデックス付きの文]、[概念]、および [CRC] という 3 つのリストが表示されます。[インデックス付きの文] の表示には、エンティティ・タイプ (概念、関係、無関係、パス関係) を示す色分けされたテキストと、属性およびその範囲を示す色分けされた強調表示の両方が含まれます。
[インデックス化の結果] ツールにアクセスするには、InterSystems IRIS 管理ポータルから [Analytics]、[Text Analytics] の順に選択します。[Analytics] のオプションが表示されるのは、[アナリティクス] が有効になっているネームスペース内にいる場合のみです。目的のネームスペースを選択します。これにより、[Analytics] のツールが表示されます。以下に示す 2 つの方法のいずれかで [インデックス作成結果] ツールにアクセスできます。
-
[Text Analytics]、[インデックス作成結果] オプションの順に選択します。
-
[Text Analytics]、[ドメイン・アーキテクト] オプションの順に選択します。ドメイン・アーキテクトで既存のドメインを開くか、新しいドメインを定義します。コンパイル済みのドメインでは、[ツール] タブの [インデックス化の結果] ボタンを使用して、NLP でデータのインデックスがどのように作成されたかを表示できます。この場合、[インデックス作成結果] ツールが個別のブラウザ・タブとして表示されます。
[インデックス作成結果] ツールを使用すると、指定したドメイン内のデータまたは手動入力データのインデックス作成結果を表示できます。
右上にある [インデックス作成結果] のオプションを表示するには、水平方向にスクロールしなければならない場合があります。
ドメイン・データ
[インデックス作成結果] ウィンドウの右上には、定義されているドメインのドロップダウン・リストがあります。既定では、最初に定義されたドメインが表示されます。目的のドメインを選択します。
ウィンドウの上部にある幅の広い空白のボックスをクリックすると、インデックスが作成された各データ・ソースの内容の単一行ドロップダウン・リストが表示されます。これらのソースのいずれかを選択すると、そのソースのインデックス作成結果が表示されます。
[>>] ボタンを使用すると、幅の広い単一行ソース・ボックスを折りたたむ (非表示にする) ことができます。これにより、水平方向にスクロールせずにインデックス作成結果を表示できるようになります。[<<] ボタンを使用すると、幅の広い単一行ソース・ボックスを空白のボックスとして展開 (再表示) することができます。その空白のボックスをクリックして、別のデータ・ソースを選択できます。
手動入力データ
NLP インデックス作成結果分析用のテキストを直接入力するには、[インデックス作成結果] ウィンドウの右上にある [手動入力] ボタンを選択します。これにより、[リアルタイム入力] ボックスが開きます。空白のボックスに入力テキストを入力するか、貼り付けます。[構成] ドロップダウン・ボックスを使用して既存 (または既定) の構成を選択するか、[言語 —>] を選択した後、2 つ目のドロップダウン・リストを使用して各国言語または [自動検出] を選択します。
[インデックス付きの文]
ソース内の文は、1 行に 1 文ずつ順にリストされます。エンティティ・タイプ (概念、関係、無関係、パス関係) と属性は、色分けと強調表示によって示されます。
[インデックス作成結果] ウィンドウの右上で、[強調表示] タイプ ([ライト] または [フル]) を選択できます。[ライト] では、色分けと下線を使用してエンティティ・タイプと属性が示されます。これは、強調を抑えて文を読みやすくすることを目的としています。[フル] では、NLP のインデックス付き構造をより明確に示すために、各エンティティの周りにボックスが表示され、属性には太線が使用されます。どちらのタイプの強調表示でも情報の内容は同じです。既定値は [フル] です。
文のテキストは、エンティティについては以下のように強調表示されます。
-
概念 : 青、ボックス付き
-
関係 : 薄緑、ボックス付き
-
無関係 : グレー、ボックスなし
-
パス関係 : 黒、グレーのボックス
文のテキストは、属性については以下のように強調表示されます。
-
否定属性の語句には赤いテキストが使用されます (概念は太字、関係は通常の文字で示されます)。概念と関係は、[フル] の強調表示でさらに明確化されます。周りのボックスは、エンティティ・タイプの色です (概念の場合は青、関係の場合は薄緑)。否定のキーワードには、赤い下線が引かれます。複数の単語による否定の用語 (“was not” など) は、各単語に赤い下線が引かれた状態で表示されます。
-
時間、期間、または頻度属性の語句には、オレンジの点線で下線が引かれます。時間属性のキーワードには、オレンジの下線が引かれます。期間属性のキーワードには、明るい緑の下線が引かれます。頻度属性のキーワードには、黄色の下線が引かれます。
-
測定属性には、マゼンタの点線で下線が引かれます。測定のキーワードには、マゼンタで下線が引かれます。
-
否定的な感情属性には、紫の点線で下線が引かれます。この感情のキーワードには、紫で下線が引かれます。
-
肯定的な感情属性には、緑の点線で下線が引かれます。この感情のキーワードには、緑で下線が引かれます。
これらを組み合わせることで、エンティティと属性の組み合わせを強調表示することができます。例えば、否定属性の語句に含まれる測定属性などです。
[概念] および [CRC]
[インデックス作成結果] には、ソース内のすべての概念を示すリストと、ソース内のすべての CRC を示すリストが表示されます。
-
[概念] : ソース内の概念が降順に示されます。
-
CRC : ソース内の CRC が概念と関係を示す強調表示付き (上記参照) で降順に示されます。[CRC] のリストには、無関係な単語やパス関係の単語は含まれず、属性は示されません。
[インデックス作成結果] ウィンドウの右上にある [次でソート] ボタンを使用すると、[概念] と [CRC] のリストを切り替えて、頻度のカウントまたは優位性の値を降順で表示できます。
[概念] のリストでは、最も優位性の高い概念に、優位性の値 1000 が割り当てられます。優位性の低い概念には、小さい値が割り当てられます。ソースが大きくなると、優位性が最低の値が小さくなる傾向があります。例えば、25 個の概念が含まれているソースでは、優位性の範囲が 1000 から 83、300 個の概念が含まれているソースでは、優位性の範囲が 1000 から 2 のようになります。
[CRC] のリストでは、優位性スコアは、概念と関係の優位性の値を加算したものになります。
ドメインでサポートされる唯一の言語が日本語の場合、[インデックス作成結果] には、[概念] と [CRC] のリストの代わりに、1 つの [エンティティ] のリストが表示されます。