Skip to main content

ドメイン・エクスプローラ

Important:

インターシステムズは、InterSystems IRIS® 自然言語処理 (NLP) を非推奨Opens in a new tabにしました。インターシステムズ製品の今後のバージョンから削除される可能性があります。以下のドキュメントは、既存ユーザのみに向けたリファレンスとしています。代替のソリューションを見いだすためのサポートを必要とする既存ユーザはインターシステムズのサポート窓口Opens in a new tabにお問い合わせください。

ドメイン・エクスプローラは、特定のエンティティに注目することで、NLP ドメイン内のデータを分析するためのツールです。このユーザ・インタフェースは、ドメイン・アーキテクトの一部です。

このツールで提供されるすべての機能は、ObjectScript を使用して、NLP クラスのメソッドとプロパティを呼び出すことでも使用できます。

概要

ドメイン・エクスプローラには、以下の 2 つの方法でアクセスできます。

  • 管理ポータルの [Analytics] オプションで、[Text Analytics] オプションを選択します。これにより、[ドメインエクスプローラー] オプションが表示されます。このオプションを選択すると、ドロップダウン・リストから既存のドメインを選択するように求められます。

  • 管理ポータルの [Analytics] オプションで、[Text Analytics] オプションを選択します。ドメイン・アーキテクトにアクセスして、ドメインを作成するか、ドメインにアクセスします。データ位置を指定し、[ビルド] ボタンを使用して、対象のデータをドメインに入力すると、[ツール] タブから [ドメインエクスプローラー] を選択できます。これにより、現在のドメインが選択された状態で、ドメイン・エクスプローラが個別のブラウザ・タブとして表示されます。

ドメイン・エクスプローラは、幅広い用途を持つ表示インタフェースです。ドメイン内でインデックス作成済みのソース・テキスト・データについて、豊富な情報が表示されます。これは、最初に上位の (最も頻繁に出現する) 概念、または優位な (最も優位性の高い) 概念のいずれかのリストを表示します。この 2 つのリストを切り替えることができます。

エンティティを選択すると、[ドメイン・エクスプローラ] は、類似エンティティと関連概念の分析、およびより大きなテキスト・ユニット (ソース、パス、および CRC) における指定したエンティティの出現についての分析を提供します。ここでは、データに含まれる内容について一目でわかるコンテキスト・ビューが示されます

[ドメイン・エクスプローラ] には、メタデータ条件に基づいて、ドメインに含まれるソースのサブセットの選択をサポートする、汎用フィルタがあります。このインタフェースは、NLP スマート・インデックス作成を使用して大量のドキュメントの概観と移動をすばやく行う方法のサンプルを示しています。

ドメイン・エクスプローラの設定

既定では、[ドメインエクスプローラー] には、[ドメインエクスプローラー] を呼び出したときにドメイン・アーキテクトで現行だったドメインまたは選択していたドメインの分析が表示されます。

別のドメインを選択する手順は以下のとおりです。

  1. [ドメイン・エクスプローラ] の右上にあるギアのアイコンを選択します。[設定] ボックスが表示されます。

  2. [設定] ボックスには、[ドメインの切り替え] ドロップダウン・リストが含まれています。このリストからドメインを選択します。既定では、このリストには、現在のネームスペースで定義されているドメインが表示されます。[他のネームスペースを含める] チェック・ボックスにチェックを付けると、すべてのネームスペースで定義されているドメインがドロップダウン・リストに表示されます。

skiplist を適用する手順は以下のとおりです。

  1. [ドメイン・エクスプローラ] の右上にあるサングラスのアイコンを選択します。定義されている skiplist がドメインにない場合、このアイコンは表示されません。

  2. [Skiplists] ボックスには、定義されているそれぞれの skiplist についてチェック・ボックスが用意されています。1 つ以上にチェックを付け、[適用] ボタンをクリックします。

語幹解析を使用する手順は以下のとおりです。

  1. [ドメイン・エクスプローラ] の右上にあるギアのアイコンを選択します。[設定] ボックスが表示されます。

  2. ドメインに語幹解析が構成されている場合、[設定] ボックスには、[エンティティの代わりに語幹を使用する] チェック・ボックスと [語幹の表現形式を表示する] チェック・ボックスも含まれています。[エンティティの代わりに語幹を使用する] にチェックを付けると、[ドメイン・エクスプローラ] によって語幹解析が実行され、[ドメイン・エクスプローラ] の見出しが以下のように変更されます。[上位の概念]/[優位な概念] は [上位の語幹]/[優位な語幹] になり、[類似エンティティ] は [類似語幹] になり、[関連概念] は表示されなくなり、[近似プロファイル] はそのままで、[CRC] タブは表示されなくなります。[語幹の表現形式を表示する] にチェックを付けると、それぞれの語幹が代表語として表示されます。チェックを外すと、語幹自体が表示されます。既定では、両方のチェック・ボックスにチェックが付いています。

[ドメイン・エクスプローラ] の右上の数字は、選択したドメインでロードされたソースの数で、データ分析に使用できます。フィルタを適用することでこの数字を制限できます。

すべての概念のリスト

ドメイン・エクスプローラは最初、ドメインにロードされたデータ・ソースについて概念の分析を提供します。概念をリストする方法は、頻度別と優位性別の 2 つあります。この 2 つを切り替えることができます。そのためには、[頻度] または [優位性] のいずれかのボタンを選択します。

  • [上位の概念][頻度] ボタンを選択すると、ソースのすべての概念が頻度の降順でリスト表示されます。複数の概念が同じ頻度の場合、文字列照合の降順でリスト表示されます。各概念は、頻度 (すべてのソース内での合計出現回数) および分布 (その概念を含んでいるソースの数) と共にリストされます。1 つのソースに対する頻度のカウント数を表示するには、インデックス作成結果ツールを使用します。

  • [優位な概念][優位性] ボタンを選択すると、ソースのすべての概念が優位性スコアの降順でリスト表示されます。複数の概念が同じ優位性スコアの場合、文字列照合の降順でリスト表示されます。優位性スコアは、ソースごとの優位性の値を考慮に入れ、ロードされたすべてのソースにわたる概念の優位性を判断する平均化アルゴリズムを使用して計算されます。1 つのソースにおける優位性の値は、整数値になります。最も優位性の高い概念には、優位性に 1000 が割り当てられます。1 つのソースに対する優位性の値を表示するには、インデックス作成結果ツールを使用します。

指定したエンティティの分析

特定のエンティティの分析を表示する方法は 2 つあります。

  • [上位の概念] または [優位な概念] のリストのいずれかから概念を選択します。

  • 左上隅にある入力フィールドでは、エンティティに含まれる単語の先頭の数文字 (最小 2 文字、大文字小文字の区別なし) を入力でき、ドメイン・エクスプローラには、その文字で始まる単語を含むすべての既存のエンティティのドロップダウン・リストが表示されます。このドロップダウン・リストからエンティティを選択して、[エクスプローラ] ボタンをクリックします。このオプションを使用して関係または概念を表示できます。両方のタイプのエンティティがドロップダウン・リストに表示されます。

1 つのエンティティを選択すると、そのエンティティについて関連するエンティティコンテキストで指定されるエンティティの 2 種類の分析が表示されます。

関連するエンティティ

1 つのエンティティを選択すると、以下のリストが表示されます。

  • [類似エンティティ] : 指定したエンティティに似ている概念と関係、およびそれぞれの概念または関係の頻度 (すべてのソース内での合計出現回数) および分布 (その概念を含んでいるソースの数) のリスト。先頭にリストされる類似エンティティは、常に指定したエンティティ自体になります。概念については、先頭にリストされるこのエンティティが、その概念の [上位の概念] リストと同じになります。

  • [関連概念][関連] ボタンを選択すると、指定した概念に関連する概念のリストがそれぞれの概念の頻度 (すべてのソース内での合計出現回数) および分布 (その概念を含んでいるソースの数) と共に表示されます。関連概念とは、指定した概念で CRC に出現する概念のことです。

  • [近似プロファイル][近似] ボタンを選択すると、近似プロファイル・テーブルが表示されます。このテーブルには、指定した概念との近似によって関連付けられた概念がリストされます。それぞれの概念の近似スコアも示されます。

[類似エンティティ][関連概念]、または [近似プロファイル] のリストからエンティティを選択すると、すべてのリストがそのエンティティの分析に変更されます。[上位の概念][優位な概念] のリストは変更されません。

コンテキストのエンティティ

エンティティを選択すると、コンテキストのそのエンティティについて以下のリストも表示されます。

  • [ソース] : 指定したエンティティ (緑色で強調表示) を含むソース・テキストのリスト、内部のソース ID (整数) および外部のソース ID。ソースは、内部のソース ID 順 (降順) でリストされます。ソース・テキストは、ソースにありこのエンティティを含むすべての文を表示します。間にあるこのエンティティを含まない文は表示されませんが、省略記号 (...) で示されます。最初に表示される文がソースの最初の文ではない場合には先頭の省略記号は表示されませんが、最後に表示される文が実際にソースの最後の文の場合でも、最後の文の後に末尾の省略記号が常に表示されます。

    赤いテキストは否定を示し、否定属性の範囲内ではエンティティは赤い文字になります。否定の範囲は、対応するパス、文、または CRC と同じであるとは限りません。

    [目のアイコン] を選択またはソースのリストのどこかをクリックすると、ソースのフルテキストが表示されます。フルテキストでは、指定したエンティティは出現するたびに強調表示され、否定範囲のそれぞれのテキストは赤い文字で表示されます。(指定したエンティティのすべての出現をこのフルテキスト・ボックスで表示するには、% オプションを 100% に設定する必要があります。)

    [矢印アイコン] を選択すると、インデックス作成結果ツールが表示されます。

  • [パス] : 指定したエンティティを含むパスのリスト。パスは、ID 順 (降順) でリストされます。パス ID はソース単位で割り当てられるため、同じパス・テキストが、複数回、異なるパス ID でリストされることがあります。

    パスのエンティティと属性は、[インデックスされたセンテンス] のインデックス作成結果ツールの説明に記載されているように色分けして強調表示されます。また、[エクスプローラ] エンティティは黄橙で表示されます。

    パス要素を選択すると、すべてのリストがそのエンティティの分析に変更されます。[上位の概念][優位な概念] のリストは変更されません。

    [目のアイコン] を選択すると、ソースのフルテキストが指定エンティティと共に緑色に強調表示されて表示されます。

    [矢印アイコン] を選択すると、インデックス作成結果ツールが表示されます。

  • [CRC] : 指定したエンティティを含む CRC (概念 - 関係 - 概念) シーケンス、頻度 (すべてのソース内でのその CRC の合計出現回数) および分布 (その CRC を含んでいるソースの数) のリスト。多くの CRC に含まれる概念は 1 つのみです (CR または RC)。エンティティ・タイプの強調表示は、[パス] の強調表示と同じですが、パス関係の単語は CRC の一部ではないため、表示されません。属性は、[CRC] のリストでは強調表示されません。

    CRC 要素を選択すると、すべてのリストがそのエンティティの分析に変更されます。[上位の概念][優位な概念] のリストは変更されません。

    [目のアイコン] を選択すると、[選択した CRC を持つソース] ボックスが表示され、その CRC のインスタンスを含むそれぞれのソースがリスト表示されます。CRC は、その文のコンテキストで緑色に強調表示され、そのソースのソース ID のフラグが立てられます。ソース ID のリストには、指定した CRC を含む複数の文を含めることができます。間にあるこの CRC を含まない文は省略記号で示されます。[選択した CRC を持つソース] ボックスから [目のアイコン] を選択して、CRC を含むソースでソースのフルテキストを指定エンティティ (CRC ではない) と共に緑色に強調表示して表示できます。

Note:

ドメインでサポートされる唯一の言語が日本語の場合は、ドメイン・エクスプローラの表示が異なり、[関連概念] および [CRC] のリストは表示されません。[エンティティ・ベクトル] のリストが、[パス] のリストの代わりになります。

フルテキスト・ボックス

[目のアイコン] では、選択したソースのフルテキストが表示されます。このテキスト・ボックスはソースの外部 ID で識別されます。例えば :SQL:1171:1171 です。

ソースのテキストは、以下のようにタグ付けされます。

  • 指定したエンティティは緑色で強調表示されます。

  • 赤いテキストは否定を示し、否定属性の範囲内ではエンティティは赤い文字になります。

このフルテキスト・ボックスには以下のオプション・ボタンが用意されています。

  • [メタデータ] : ソースのメタデータを表示します。すべてのソースに DateIndexed メタデータ・フィールドがあります。この日付スタンプは、現在のロケールの表示形式で UTC 日付/時刻として表されます。小数部は切り捨てられます。ソース・テキストに戻るには、再度 [メタデータ] ボタンをクリックします。

  • [強調表示] : 何も実行しません。

  • [インデックス作成] : ソースのテキストを強調表示し、以下のようにエンティティのタイプを示します。

    • 緑 : 指定したエンティティ (概念または関係)。

    • 青 : 概念。

    • 白 : 関係。

    • 薄い青 : パス関係の単語

    • イタリック : 無関係な単語。

    否定範囲のテキストは赤い文字で表示されます。

  • [ディクショナリ] : 何も実行しません。

  • [%] : ソースのテキストを要約します。既定のパーセントは 100% (フルテキスト) です。100 未満の整数を指定してから [%] ボタンをクリックすると、ソースの他の文と比べて関連性スコアが低い文を削除することによって、指定したサイズ近くにテキストが減らされ、ソースのテキストが要約されます。要約によって、指定したエンティティを含む文が保持されるとは限りません。

分析するソースの制限

データ分析の範囲は、フィルタを使用して制限できます。フィルタを使用すると、ドメインにロードされたデータ・ソースが分析に包含または除外されます。既定では、[ドメイン・エクスプローラ] は、ドメインにロードされたすべてのデータ・ソースを分析します。

  • ドメイン・エクスプローラの右上にある [フィルタ・アイコン] (漏斗) ボタンをクリックするとフィルタが適用され、指定した条件に基づいて分析からソースが包含または除外されます。いくつかの種類のフィルタを指定できます。また、複数のフィルタを適用できます。複数のフィルタを AND、OR、NOT AND、または NOT OR の各ロジックを使用して関連付けることができます。

    フィルタを追加するには、ドロップダウン・リストからフィルタのタイプを選択し、フィルタの条件を指定してから [追加] ボタン、[適用] ボタンの順に選択します。複数のフィルタを追加する場合、[追加] ボタンを選択してから AND/OR ロジック・オプションを選択してフィルタを関連付け、[適用] ボタンを選択します。

    1 つ以上のフィルタが有効になると、[フィルタ・アイコン] が緑色で表示されます。

    [フィルタ・アイコン] の左側の数字は、フィルタの適用後に取り込んだソースの数を示しています。フィルタが適用されていない場合、この数字はドメイン内のソースの合計数です。

  • 1 つのフィルタを削除するには、[フィルタ・アイコン] を選択し、フィルタの説明の横にある黒い [X] を選択してから [適用] ボタンを選択します。すべてフィルタを削除するには、[フィルタ・アイコン] を選択し、[クリア] ボタンを選択してから [適用] ボタンを選択します。

    以下のタイプのフィルタがサポートされています。

    • [メタデータ] : メタデータの値で、ソースを除外するために使用します。既定では、すべてのソースに DateIndexed メタデータがあります。DateIndexed メタデータを適用するには、このフィールドを選択し、演算子を選択して、カレンダ・アイコンをクリックして日付値を選択してから、目的の日を選択します。

    • [ソース ID] : 取り込むソースをソース ID で選択する場合に使用します。単一のソース ID、またはソース ID のコンマ区切りのリストを指定できます。

    • [ソース ID の範囲] : 取り込むソースをソース ID で選択する場合に使用します。値の範囲を指定することによって、ソース ID の範囲を指定できます。指定値も範囲に含まれます。

    • [外部 ID] : 取り込むソースを外部 ID で選択する場合に使用します。例えば :SQL:1171:1171 です。単一の ID、またはコンマ区切りの ID のリストを指定できます。外部ソース ID は [ソース] リストにリスト表示されます。

    • [SQL] : SQL クエリを指定して取り込むソースを選択する場合に使用します。

FeedbackOpens in a new tab