iKnow アーキテクト
Caché には、iKnow ドメインの作成、ドメインへのデータの移入、およびインデックス付きデータに対する分析の実行に向けた、対話型のインタフェース iKnow アーキテクトがあります。iKnow アーキテクトにアクセスするには、Caché 管理ポータルを使用します。
これは、以下の 3 つのツールで構成されています。
-
アーキテクト : iKnow ドメインを作成し、そのドメインにソース・テキスト・データを移入するためのツールです。
-
ナレッジ・ポータル : 特定のエンティティに注目することで、iKnow ドメイン内のデータを分析するためのツールです。
-
インデックス作成結果 : iKnow が、ソースに含まれるテキスト・データをどのように分析したかについて表示するためのツールです。さまざまなタイプのエンティティを示すために強調表示が使用されます。
iKnow アーキテクトが提供するすべての機能は、ObjectScript を使用して、iKnow クラスのメソッドとプロパティを呼び出すことでも使用できます。
iKnow アーキテクトへのアクセス
iKnow アーキテクトにアクセスする場合の開始点は、管理ポータルの [システム・エクスプローラ] オプションになります。ここから、[iKnow] オプションを選択します。
すべての iKnow ドメインは、特定のネームスペース内に存在します。したがって、いずれかの管理ポータル・インタフェース・ページの上部にある [切り替え] オプションを選択して、使用するネームスペースを指定する必要があります。これにより、利用可能なネームスペースのリストが表示され、その中から選択できます。
ネームスペースは、使用する前に、iKnow 対応にしておく必要があります。iKnow 対応ネームスペースを選択すると、iKnow の [ドメイン・アーキテクト] オプションが表示されます。
iKnow 対応ネームスペースを選択しても [ドメイン・アーキテクト] オプションが表示されない場合は、ユーザに有効な iKnow ライセンスがありません。管理ポータルのヘッダで、[ライセンス先] を調べてください。ライセンス・キーを確認するか、有効にしてください。
ネームスペースの有効化
ネームスペースは、iKnow アーキテクト で使用する前に、iKnow 対応にしておく必要があります。
-
iKnow 対応のネームスペースが存在しない場合は、[iKnow] オプションに、“No iKnow-enabled namespaces found” という灰色 (無効) のメッセージが表示されます。
-
現在のネームスペースが iKnow 対応でない場合は、[iKnow] オプションに、iKnow 対応のネームスペースのリストが表示されます。表示されたネームスペースの 1 つを選択すると、そのネームスペースは、[ネームスペース選択] ウィンドウから選択できるようになります。
管理ポータルからネームスペースを iKnow で有効にするには、[システム管理]→[セキュリティ]→[アプリケーション]→[ウェブ・アプリケーション] を選択します (システム, セキュリティ管理, ウェブ・アプリケーション)。これにより、Web アプリケーションのリストが表示されます。3 番目の列には、リストされた項目がネームスペースであるか ([はい])、ネームスペースでないかが示されます。リストから、目的のネームスペース名を選択します。これにより、[ウェブ・アプリケーション編集] ページが表示されます。[iKnow] の [有効] チェック・ボックスにチェックを付けます。[保存] ボタンをクリックします。
%SYS ネームスペースを有効にすることはできません。これは、%SYS ネームスペースにおいての iKnow ドメイン作成が不可能となっているためです。
管理ポータルの既定のネームスペースを設定できます。管理ポータルの [システム管理]→[セキュリティ]→[ユーザ] を選択します (システム, セキュリティ管理, ユーザ)。目的のユーザの名前を選択します。これにより、ユーザ定義を編集できるようになります。[一般] タブで、ドロップダウン・リストから [開始ネームスペース] を選択します。[保存] をクリックします。
ドメインの作成
iKnow アーキテクトで、[新規作成] ボタンをクリックして、ドメインを定義します。以下のドメイン値を記載された順序で指定します。
-
[ドメイン名] : ドメインに割り当てる名前は、現在のネームスペースに対して一意にする必要があります (パッケージ・クラス内で一意にするだけではいけません)。ドメイン名に、長さの制限はありません。また、入力可能な任意の文字 (スペースを含む) を使用できます (% 文字も有効ですが、その使用を避けてください)。ドメイン名は、大文字と小文字が区別されません。ただし、iKnow アーキテクトは、既定のドメイン定義クラス名を生成する際に、ドメイン名を使用するため、ドメインに名前を付けるときには、やむを得ない理由があり、ほかに方法がない場合を除いて、クラスの名前付け規約に従うことをお勧めします。
-
[定義クラス名] : ピリオドで区切られた、ドメイン定義パッケージ名とクラス名。最初にドメイン名を指定した場合は、[定義クラス名] をクリックすることで、ドメイン定義パッケージとクラスの既定の名前が生成されます。パッケージ名は、既定で User に設定されます。クラス名は、既定でドメイン名に設定されます (英数字以外の文字は取り除かれます)。この既定値は、そのまま使用することも、変更することもできます。
パッケージ名とクラス名には、英数文字のみ使用できます (大文字と小文字が区別されます)。既存のパッケージ名と大文字小文字のみが異なるパッケージ名を指定すると、エラーが発生します。パッケージ内で既存のクラス名と大文字小文字のみが異なるクラス名を指定すると、エラーが発生します。
-
[カスタム更新の許可] : (オプション) このドメインに、データまたはディクショナリを手動で追加する場合は、これを選択します。既定では、カスタムの更新は許可されません。
[完了] ボタンをクリックして、ドメインを作成します。これにより、[モデル要素] の選択画面が表示されます。
新しく作成したドメインは、終了前に [保存] して、[コンパイル] する必要があります。
ドメイン名とドメイン定義は、どちらもネームスペース内で一意にする必要があります。重複が発生すると、iKnow アーキテクトは、以下の操作を実行します。
ドメインの重複 : ネームスペース内に、ドメイン定義が異なる 2 つの同じドメイン名が作成されると、iKnow アーキテクトは両方のドメインを作成するように見えます。ただし、そのドメインをコンパイルしようとすると、2 番目のドメイン名がコンパイルに失敗します。
ドメイン定義の重複 : ドメイン定義が同じで名前が異なる 2 つのドメインを作成すると、iKnow アーキテクトは、最初のドメインを 2 番目のドメインで上書きします。これは、削除と置換の操作であり、名前の変更ではありません。iKnow アーキテクトは、この上書きの実行時に、メッセージを発行しません。
その他の方法でドメインを作成する場合は、"iKnow ドメイン" を参照してください。iKnow アーキテクトは、ドメイン定義パッケージ名とクラス名を定義できる、単なるドメイン作成インタフェースであることに注意してください。
ドメインを開く方法
管理ポータル・インタフェースを使ってドメインを作成すると、そのドメインが直ちに開き、新しいドメインをすぐに管理できます。
既存のドメインを管理するには、[開く] ボタンをクリックして、ネームスペース内に存在するすべてのドメインをリスト表示します。この表示ではドメインを含むパッケージがリストされます。パッケージを選択してそのドメインを表示します。既存のドメインを選択します。これにより、[モデル要素] の選択画面が表示されます。
ドメイン名とチェック・ボックスの変更
ドメインを作成したり開いたりすると、[モデル要素] ウィンドウが表示されます。このウィンドウ内でドメイン名をクリックすると、[詳細] タブに、[ドメイン名] フィールド、[ドメイン・テーブル・パッケージ] フィールド、[カスタム更新の許可] および [無効] のチェック・ボックスが表示されます。ドメインに関するこのような特性は、変更が可能です。[ドメイン名] を変更しても、[定義クラス名] を変更することにはなりません。
[カスタム更新の許可] チェック・ボックスにチェックを付けると、iKnow アーキテクト以外のインタフェースを使用して、データ・ソースとディクショナリをこのドメインに手動でロードできるようになります。
[無効] チェック・ボックスにチェックを付けると、ビルド操作中にいずれのデータ (ソース・データ、メタデータ、ディクショナリ・マッチング・データ) もロードできなくなります。これらのデータ型それぞれに個別の [無効] チェック・ボックスがあり、データ型ごとに個別にロードを無効にできます。
名前を変更したしたドメインは、終了前に [保存] して、[コンパイル] する必要があります。
ドメインの削除
現在のドメインを削除するには、[削除] ボタンをクリックします。すると、[削除] ドメイン・データ・ウィンドウが表示されます。ドメインの内容だけを削除したり、ドメインの定義を削除したりできます。[ドメインおよび定義クラスの削除] をクリックして、ドメインと、そのドメインに関連付けられたクラス定義を削除します。データ・ソース、ブラックリスト、およびその他のモデル要素の仕様も削除します。
モデル要素
ドメインの作成後、または既存のドメインを開いた後で、そのドメインのモデル要素を定義できます。モデル要素を追加または変更するには、いずれかの見出しの横にある、展開表示用の三角形をクリックします。初期状態では、展開表示は行われません。いくつかのモデル要素を定義した後で、展開表示用の三角形をクリックすると、定義したモデル要素が表示されます。
モデル要素を追加するには、見出しをクリックします。その後で、右側の [詳細] タブに表示される [追加] ボタンをクリックします。名前と値を指定します。[詳細] の領域から別の場所に移動すると、モデル要素が自動的に生成されます。モデル要素は作成順にリスト表示され、一番最後に作成した要素がリストの先頭に配置されます。モデル要素を変更しても、リスト内での位置は変わりません。
モデル要素を変更するには、見出しを展開して、定義済みのモデル要素をクリックします。現在の値は、右側の [詳細] タブに表示されます。必要に応じて、名前や値を変更します。[詳細] の領域から別の場所に移動すると、モデル要素が自動的に再生成されます。
モデル要素の作成が完了したら、[すべて展開] ボタン (または展開表示用の三角形のいずれか) をクリックして、これらの定義済みの値を表示します。[要素タイプ] 列には、各モデル要素のタイプが表示されます。赤色の “X” をクリックすると、そのモデル要素が削除されます。
[保存] ボタンをクリックすると、すべての変更内容が保存されます。未保存の変更がある場合は、[ドメイン・アーキテクト] のページ見出しの後に、アスタリスク (*) が表示されます。[保存] をクリックして、変更内容を保存します。
[元に戻す] ボタンをクリックすると、直近の未保存の変更が元に戻されます。[元に戻す] を繰り返しクリックして、変更を加えたときと逆の順序で、未保存の変更を元に戻すことができます。一度変更を保存すると、このボタンは表示されなくなります。
以下の [モデル要素] が用意されています。
ドメイン設定
このモデル要素を使用すると、ドメインの特性を変更できます。すべてのドメイン設定はオプションであり、既定値が採用されます。[ドメイン設定] には、以下のオプションがあります。
-
[言語] : テキスト・データ内で iKnow が識別するようにする言語を 1 つ以上選択します。複数の言語にチェックを付けると、自動言語識別が有効になります。これにより、テキストに対して要求される処理が増加します。そのため、選択した言語のテキストが実際にデータ・セットの一部になる見込みがない場合には、複数の言語を選択しないでください。既定の言語は、英語です。
-
[パラメータの追加] : このボタンを使用すると、ドメイン・パラメータの値を指定できます。ドメイン・パラメータの名前と新しい値を指定します。ドメイン・パラメータ名は、大文字と小文字が区別されます。例えば、Name=SortField、Value=1 のように指定します。検証は実行されません。すべての未指定のドメイン・パラメータには、既定値が採用されます。追加したパラメータを表示するには、[ドメイン設定] の見出しを展開します。
-
[最大概念長] : 概念としてインデックスを付ける必要のある、単語の最大数です。このオプションは、長いシーケンスの単語が概念としてインデックス付けされないようにするために提供されています。既定値 (0) は、単語の最大数に対する言語固有の既定値を使用します。変更する特別な理由がない限り、この既定値を使用する必要があります。
-
[ユーザ・ディクショナリの管理] : このボタンを使用すると “[ユーザ・ディクショナリの管理]” ボックスが表示され、そこで 1 つ以上の文字列をユーザ・ディクショナリに指定できます。指定された文字列のそれぞれは、新しい文字列に書き直す文字列を指定するか、ドロップダウン・リストから属性レベルを割り当てる文字列を指定します。
メタデータ・フィールド
[メタデータの追加] : このボタンを使用すると、ソース・メタデータ・フィールドを指定できます。それぞれのメタデータ・フィールドに、フィールド名、データ型 (String、Number、または Date)、サポートされる操作、およびストレージ・タイプを指定します。ドメインの作成後、必要に応じて、ソースをフィルタ処理するための条件として使用できるメタデータ・フィールドを 1 つまたは複数指定できます。メタデータ・フィールドは、iKnow データ・ソースに関連付けられたデータで、iKnow がインデックスを作成しないデータです。例えば、テキスト・ソースがロードされた日時は、そのソースのメタデータ・フィールドです。メタデータ・フィールドは、テキスト・データ・ソースをドメインにロードする前に定義する必要があります。
[大小文字区別] チェック・ボックス : 既定では、メタデータ・フィールドは大小文字を区別しません。大小文字を区別させるには、このボックスにチェックを付けます。
[無効] チェック・ボックス : [無効] チェック・ボックスにチェックを付けると、すべてのメタデータ・フィールドを無効にできます。または個々のメタデータ・フィールドと共に表示されている [無効] チェック・ボックスにチェックを付けると、そのメタデータ・フィールドのみを無効にできます。無効化したフィールドは、ビルド操作時にロードされません。
ここで指定したメタデータ・フィールドは、[メタデータ・マッピング] というタイトルの下にある、データ位置の詳細項目 [テーブルからのデータの追加] および [クエリからのデータの追加] に表示されます。
データ位置
追加するデータのソースを指定します。オプションには、[テーブルからのデータの追加]、[クエリからのデータの追加]、[ファイルからのデータの追加]、[RSS データの追加]、および [グローバルからのデータの追加] があります。
-
[ビルド前に既存のデータを削除する] チェック・ボックスを使用すると、ここで指定したソース・テキスト・データを追加する前に、この iKnow ドメインのインデックス作成済みのソース・テキスト・データを削除するかどうかを指定できます。このチェック・ボックスを使用してデータを削除する場合は、データのロードを無効にすることはできません。新しいデータをロードすることなく、既存のデータを削除するには、[削除] ボタンの [ドメインのコンテンツのみ削除] オプションを使用します。
-
[無効] チェック・ボックスを使用すると、ソースのインデックス作成を無効にできます。無効にしたソース・データは、ビルド操作時にロードされません。データのロードが無効にされていると、[ビルド前に既存のデータを削除する] チェック・ボックスは無視されます。
多数のテキストに対するビルド操作は、時間がかかる場合があります。すでにデータ位置をロードしてから、メタデータまたはマッチング・ディクショナリを追加または変更したい場合は、データ位置の [無効] チェック・ボックスにチェックを付けて、データ位置を再ロードすることなくこれらのモデル要素にインデックスを作成できます。
データ位置を指定した後に、ドメインを [保存] および [コンパイル] してから、[ビルド] ボタンを選択して、データのインデックスをビルドする必要があります。
[テーブルからのデータの追加]
このオプションを使用すると、現在のネームスペース内に存在する SQL テーブルに保存されたデータを指定できます。このオプションには、以下のフィールドがあります。
-
[名前] : 抽出対象の結果セット・テーブルの名前を指定するか、そのテーブルの既定の名前を採用します。SQL テーブルの名前付け規約に従ってください。既定の名前は Table_1 です (抽出対象の結果セット・テーブルを追加で定義するたびに、整数がインクリメントされます)。
-
[バッチモード] : ソース・テキスト・データをバッチ・モードでロードするかどうかを示すチェック・ボックスです。
-
[スキーマ] : このドロップダウン・リストから、現在のネームスペースに存在するスキーマを選択します。
-
[テーブル名] : このドロップダウン・リストから、選択したスキーマ内に存在するテーブルを選択します。
-
[ID フィールド] : このドロップダウン・リストでは、選択したテーブルから ID フィールド (プライマリ・レコード識別子) として機能するフィールドを選択します。ID フィールドには、NULL 以外の一意の値が格納されている必要があります。
ドロップダウン・リストから [カスタム] を選択するとフィールド名を入力できます (例えば、非表示の RowId フィールドや (まだ) 存在していないフィールド)。フィールド名は、大文字と小文字が区別されません。[カスタム] を選択すると、[既定のオプションを表示する] ボタンも表示されます。このボタンは、ドロップダウン・リストからテーブルの最初の非表示ではないフィールドを選択します。また、フィールドのドロップダウン・リストに戻ることもできます。
-
[グループ・フィールド] : 選択したテーブルからセカンダリ・レコード識別子を取得する SQL select-item 式です。このフィールドは、既定で最初の [ID フィールド] の選択に設定されています。
ドロップダウン・リストから [カスタム] を選択するとフィールド名を入力できます (例えば、非表示の RowId フィールドや (まだ) 存在していないフィールド)。フィールド名は、大文字と小文字が区別されません。[カスタム] を選択すると、[既定のオプションを表示する] ボタンも表示されます。このボタンは、ドロップダウン・リストからテーブルの最初の非表示ではないフィールドを選択します。また、フィールドのドロップダウン・リストに戻ることもできます。
-
[データ・フィールド] : このドロップダウン・リストでは、選択したテーブルから、データ・フィールドとして機能するフィールドを選択します。データ・フィールドには、iKnow インデックス作成に向けてロードしたテキスト・データが格納されます。
ドロップダウン・リストから [カスタム] を選択するとフィールド名を入力できます (例えば、非表示の RowId フィールドや (まだ) 存在していないフィールド)。フィールド名は、大文字と小文字が区別されません。[カスタム] を選択すると、[既定のオプションを表示する] ボタンも表示されます。このボタンは、ドロップダウン・リストからテーブルの最初の非表示ではないフィールドを選択します。また、フィールドのドロップダウン・リストに戻ることもできます。
-
[WHERE 節] : 結果セット・テーブルに取り込むレコードを限定するために、必要に応じて SQL WHERE 節を指定できます。WHERE キーワードは含めないでください。
このドメインに対して 1 つ以上のメタデータ・フィールドを定義済みの場合、[メタデータ・マッピング] オプションでこのテーブルのメタデータ・フィールドを指定できます。ドロップダウン・リストから、選択されたテーブルのフィールドを選択するか、[マップなし] を選択するか、[カスタム] を選択できます。[カスタム] を選択すると、アーキテクトは空のフィールドを表示します。このフィールドに、カスタム・マッピングを指定できます。
このドメインに対してメタデータ・フィールドが定義されていない場合、[メタデータ・マッピング] オプションには、[メタデータの追加] ドメイン・オプションを表示する [メタデータの宣言] ボタンが用意されています。
[クエリからのデータの追加]
[クエリからのデータの追加] は、[テーブルからのデータの追加] とほとんど同じですが、既存のテーブル (複数も可) に対する整形式の SQL クエリを指定できます。このテーブルから、以下のフィールドを指定します。
-
[名前] : 抽出対象の結果セット・テーブルの名前を指定するか、そのテーブルの既定の名前を採用します。SQL テーブルの名前付け規約に従ってください。既定の名前は Query_1 です (抽出対象の結果セット・テーブルを追加で定義するたびに、整数がインクリメントされます)。
-
[バッチモード] : ソース・テキスト・データをバッチ・モードでロードするかどうかを示すチェック・ボックスです。
-
[SQL] : クエリ・テキストです (Caché SQL SELECT 文)。クエリを定義すると、JOIN 構文を使用して、複数のテーブルからフィールドを選択できます。複数のテーブルを指定する場合は、選択したフィールドに列エイリアスを割り当てます。また、クエリを定義すると、グループ・フィールドとして使用可能な式フィールドを指定できます。
以下のフィールド選択ドロップダウン・リストには、選択したフィールドが表示されます。テーブル・エイリアス接頭語は表示されません。フィールドに列エイリアスがある場合、フィールド名ではなく、このエイリアスがリストされます。
-
[ID フィールド] : このドロップダウン・リストでは、選択したテーブルから、ID フィールドとして機能するフィールドを選択します。ID フィールドには、NULL 以外の一意の値が格納されている必要があります。
-
[グループ・フィールド] : このドロップダウン・リストでは、クエリからセカンダリ・レコード識別子 (グループ・フィールド) として機能する select-item 式 (SQL 関数式など) を選択します。例えば、YEAR(EventDate) などです。
-
[データ・フィールド] : このドロップダウン・リストでは、選択したテーブルから、データ・フィールドとして機能するフィールドを選択します。データ・フィールドには、iKnow インデックス作成に向けてロードしたテキスト・データが格納されます。
このドメインに対して 1 つ以上のメタデータ・フィールドを定義済みの場合、[メタデータ・マッピング] オプションで、各定義済みのメタデータ・フィールドに対して [マップなし] または [カスタム] のどちらかを選択できます。既定値は [マップなし] です。[カスタム] を選択すると、アーキテクトは空のフィールドを表示します。このフィールドに、カスタム・マッピングを指定できます。
このドメインに対してメタデータ・フィールドが定義されていない場合、[メタデータ・マッピング] オプションでは、[メタデータの追加] ドメイン・オプションを表示する [メタデータの宣言] ボタンが用意されています。
[モデル要素] ウィンドウの [要素タイプ] 列には、FROM 節内の最初のテーブル名以降が切り詰められた形式で、定義したクエリが表示されます。完全なクエリは、[詳細] ウィンドウに表示されます。
[ファイルからのデータの追加]
このオプションを使用すると、ファイルに保存されたデータを指定できます。このオプションには、以下のフィールドがあります。
-
[名前] : 抽出対象のデータ・ファイルの名前を指定するか、そのファイルの既定の名前を採用します。既定の名前は File_1 です (抽出対象のデータ・ファイルを追加で定義するたびに、整数がインクリメントされます)。
-
[パス] : 目的のファイルが格納されているディレクトリへの、完全なディレクトリ・パスです。パスの構文は、ファイルシステムによって異なります。Windows システムの場合は、以下のようになります。C:\\temp\iKnowSources\
-
[拡張子] : ファイルの拡張子です (txt や xml など)。ファイル拡張子を指定する場合は、先頭のドットを含めないでください。複数の拡張子は、コンマ区切りリストとして指定します。例えば、txt,xml のようにドットやスペースは含めません。これを指定すると、指定した拡張子を含むファイルのみが、結果として抽出されるデータに含まれます。[拡張子] フィールドを空白 (既定) のままにすると、拡張子に関係なく、すべてのファイルが含まれます。
-
[フィルタ条件] : 結果として抽出されるデータに含めるファイルを制限するために使用する条件です。
-
[再帰] : 再帰的にファイルを選択するかどうかを示すチェック・ボックスです。チェックを付けると、指定したディレクトに含まれるファイルと、そのディレクトリのすべてのサブディレクトリに含まれるファイルからデータを抽出できます。チェックを付けない場合は、指定したディレクトリ内のファイルからのみデータを抽出できます。既定は、非再帰です (チェック・ボックスにチェックが付いていません)。
-
[バッチモード] : ソース・テキスト・データをバッチ・モードでロードするかどうかを示すチェック・ボックスです。
-
[エンコーディング] : ファイルの処理に使用する、文字セット・エンコーディングの種類のドロップダウン・リストです。
[RSS データの追加]
このオプションを使用すると、RSS ストリーム・フィードからのデータを指定できます。このオプションには、以下のフィールドがあります。
-
[名前] : 抽出対象のデータの名前を指定するか、そのデータの既定の名前を採用します。既定の名前は RSS_1 です (抽出対象の RSS ソースを追加で定義するたびに、整数がインクリメントされます)。
-
[バッチモード] : ソース・テキスト・データをバッチ・モードでロードするかどうかを示すチェック・ボックスです。
-
[サーバ名] : URL が検出されたホスト・サーバの名前です。
-
[URL] : 実際の RSS フィードへのサーバ・アドレスに含まれるナビゲーション・パスです。
-
[テキスト要素] : RSS フィードからロードするテキスト要素のコンマ区切りリストです。例えば、title,description などです。既定値は、空です。
[グローバルからのデータの追加]
このオプションを使用すると、Caché グローバルからのデータを指定できます。このオプションには、以下のフィールドがあります。
-
[名前] : 抽出対象のデータの名前を指定するか、そのデータの既定の名前を採用します。既定の名前は Global_1 です (抽出対象のグローバル・ソースを追加で定義するたびに、整数がインクリメントされます)。
-
[バッチモード] : ソース・テキスト・データをバッチ・モードでロードするかどうかを示すチェック・ボックスです。
-
[グローバル参照] : ソース・データを抽出するグローバルです。
-
[開始添え字] : 取り込む添え字の範囲で最初のグローバル添え字です。
-
[終了添え字] : 取り込む添え字の範囲で最後のグローバル添え字です。
-
[フィルタ条件] : 結果として抽出されるデータに含めるファイルを制限するために使用する条件です。
ブラックリスト
ブラックリストの定義 : ドメインの作成後、必要に応じて、そのドメインに 1 つまたは複数のブラックリストを作成できます。ブラックリストは、クエリから返されることを望まない用語 (単語や語句) のリストです。したがって、ブラックリストを使用して、ドメインにロードされたデータ・ソース内の特定の用語を無視する iKnow 処理を実行できます。
-
[名前] : 新しいブラックリストの名前を指定するか、既定の名前を採用します。ブラックリストの名前は、大文字と小文字が区別されません。重複するブラックリスト名を指定すると、コンパイル・エラーが発生します。既定の名前は Blacklist_1 です (追加のブラックリストを定義するたびに、整数がインクリメントされます)。
-
[エントリ] : ブラックリストに含める用語を指定します (行ごとに 1 つの用語)。用語は、小文字にする必要があります。重複する用語は許容されます。ブラックリスト間で用語のコピーおよび貼り付けを実行できます。用語のグループを区切るために、空白行を含めることができます。用語リストの末尾に改行を入れるかどうかは任意です。空白行はエントリと見なされません。
ブラックリストを追加、変更、または削除する場合、その変更を有効にするには、ドメインを [保存] および [コンパイル] する必要があります。
ブラックリストの定義が、ドメインへのデータのロード方法に影響を与えることはないため、ブラックリストに対する変更ではドメインの再構築は必要ありません。
ブラックリストの定義が、ドメインへのデータのロード方法に影響を与えることはありません。ここで定義したブラックリストは、コンパイルされてから、ナレッジ・ポータルに渡されます。このポータルでは、ドメインにロードしたソース・テキスト・データの分析時に、1 つまたは複数のブラックリストを指定できます (指定しないこともできます)。ブラックリストは、一部の (すべてではない) ナレッジ・ポータルの分析に適用されます。
マッチング
[マッチング] オプションには、ディクショナリを定義し、その項目と用語を指定する [ディクショナリの追加] オプションが用意されています。
[マッチング] オプションには、以下の 4 つのチェック・ボックス・オプションが用意されています。
-
[無効] : [無効] チェック・ボックスにチェックを付けると、すべてのディクショナリを無効にできます。または個々のディクショナリと共に表示されている [無効] チェック・ボックスにチェックを付けると、そのディクショナリのビルドを無効にできます。個別の [無効] チェック・ボックスにチェックを付けることによって、変更したディクショナリのみをビルドできます。既定はオフです。
-
[DropBeforeBuild] : 既定はオン
-
[AutoExecute] : 既定はオン
-
[IgnoreDictionaryErrors] : 既定はオン
ディクショナリの追加
[ディクショナリの追加] ボタンは、ディクショナリ名 (既定値を表示)、オプションの説明、iKnow がサポートする言語のドロップダウン・リストから選択されたディクショナリの言語、および無効のチェック・ボックスというディクショナリ定義オプションを表示します。既定の名前は Dictionary_1 です (追加のディクショナリを定義するたびに、整数がインクリメントされます)。
[項目の追加] ボタンは、項目名 (既定値を表示)、URI 名 (既定値を表示)、iKnow でサポートする言語のドロップダウン・リストから選択された項目の言語、および無効のチェック・ボックスという項目定義オプションを表示します。さらに項目を定義するには、ディクショナリ名を選択します。項目は作成順にリストされます (一番最後に作成されたものがリストの先頭にきます)。各項目内で 1 つ以上の用語を定義できます。既定の名前は Item_1、既定の URI 名は uri:1 です (このディクショナリ用に追加の項目を定義するたびに、整数がインクリメントされます)。
[用語の追加] ボタンは、用語を指定する文字列、iKnow がサポートする言語のドロップダウン・リストから選択された用語の言語、および無効のチェック・ボックスという用語定義オプションを表示します。さらに用語を定義するには、項目名を選択します。用語は作成順にリストされます (一番最後に作成されたものがリストの先頭にきます)。
保存、コンパイル、およびビルド
ドメインは、用意されているボタンを使用して、保存、コンパイル、およびビルドする必要があります。モデル要素を追加、変更、または削除した後には、ドメインを保存してコンパイルする必要があります。
[保存] ボタンでは、現在のドメイン定義を保存します。ドメイン定義が開かれていない場合は、アーキテクトにより [保存] ボタンが灰色表示 (無効化) されます。アーキテクトは、変更していないドメイン定義を保存しても、エラーを発行しません。
[コンパイル] ボタンでは、現在のドメイン定義をコンパイルします。ドメイン定義を構成するクラスとルーチンのすべてがコンパイルされます。ドメイン定義に加えた変更を保存していない場合は、コンパイル処理により、コンパイル前にドメイン定義を保存するように促すプロンプトが表示されます。
[ビルド] ボタンでは、指定したソースを現在のドメインにロードします。データ位置、メタデータ・フィールド、またはマッチング・ディクショナリに変更を加えた場合は、ドメインをビルドする必要があります。[ドメインのビルド] ウィンドウには、以下に示すような進行状況メッセージが表示されます。
13:50:48: Loading data... 13:51:49: Finished loading 3 sources 13:51:49: Creating dictionaries and profiles... 13:51:49: Finished creating 1 dictionaries, 1 items, 3 terms and 0 formats 13:51:49: Matching sources... 13:51:50: Finished matching sources 13:51:50: Successfully built domain 'mydomain'
ビルド処理には時間がかかる場合があります。特定のモデル要素の [無効] チェック・ボックスにチェックが付けられていると、それに対応するソースは、ビルド処理でロードされません。個別の [無効] チェック・ボックスにチェックを付けることによって、変更したモデル要素のみをビルドできます。
ナレッジ・ポータル
[ツール] タブには、[ナレッジ・ポータル] ボタンがあります。データ位置を指定し、[ビルド] ボタンを使用して、このデータをドメインに入力すると、データの iKnow 分析を表示する、[ナレッジ・ポータル] を選択できます。これにより、ナレッジ・ポータルが個別のブラウザ・タブとして表示されます。
ナレッジ・ポータルとは、幅広い用途を持つ、Zen ページ・クエリの表示インタフェースです。ドメイン内でインデックス作成済みのソース・テキスト・データについて、豊富な情報が表示されます。これは、最初に上位の (最も頻繁に出現する) 概念、または優位な (最も優位性の高い) 概念のいずれかのリストを表示します。この 2 つのリストを切り替えることができます。
エンティティを選択すると、[ナレッジ・ポータル] は、類似エンティティと関連概念の分析、およびより大きなテキスト・ユニット (ソース、パス、および CRC) における指定したエンティティの出現についての分析を提供します。ここでは、データに含まれる内容について一目でわかるコンテキスト・ビューが示されます
[ナレッジ・ポータル] には、メタデータ条件に基づいて、ドメインに含まれるソースのサブセットの選択をサポートする、汎用フィルタがあります。このインタフェースは、iKnow スマート・インデックス作成を使用して大量のドキュメントの概観と移動をすばやく行う方法のサンプルを示しています。
ドメインの選択
既定では、[ナレッジ・ポータル] は、[ナレッジ・ポータル] を呼び出したときに iKnow アーキテクト で現行だったドメインの分析を表示します。
別のドメインを選択するには、以下のようにします。
-
[ナレッジ・ポータル] の右上にある [ギア・アイコン] を選択します。[設定] ボックスが表示されます。
-
[設定] ボックスには、[ドメインの切り替え] ドロップダウン・リストが含まれています。このリストからドメインを選択します。
[ナレッジ・ポータル] の右上の数字は、選択したドメインでロードされたソースの数で、データ分析に使用できます。フィルタを適用することでこの数字を制限できます。
すべての概念のリスト
ナレッジ・ポータルは最初、ドメインにロードされたデータ・ソースについて概念の分析を提供します。概念をリストする方法は、頻度別と優位性別の 2 つあります。この 2 つを切り替えることができます。そのためには、[頻度] または [優位性] のいずれかのボタンを選択します。
-
[上位の概念] : [頻度] ボタンを選択すると、ソースのすべての概念が頻度の降順でリスト表示されます。複数の概念が同じ頻度の場合、文字列照合の降順でリスト表示されます。各概念は、頻度 (すべてのソース内での合計出現回数) および分布 (その概念を含んでいるソースの数) と共にリストされます。1 つのソースに対する頻度のカウント数を表示するには、インデックス作成結果ツールを使用します。
-
[優位な概念] : [優位性] ボタンを選択すると、ソースのすべての概念が優位性スコアの降順でリスト表示されます。複数の概念が同じ優位性スコアの場合、文字列照合の降順でリスト表示されます。優位性スコアは、ソースごとの優位性の値を考慮に入れ、ロードされたすべてのソースにわたる概念の優位性を判断する平均化アルゴリズムを使用して計算されます。1 つのソースにおける優位性の値は、整数値になります。最も優位性の高い概念には、優位性に 1000 が割り当てられます。1 つのソースに対する優位性の値を表示するには、インデックス作成結果ツールを使用します。
指定したエンティティの分析
特定のエンティティの分析を表示する方法は 2 つあります。
-
[上位の概念] または [優位な概念] のリストのいずれかから概念を選択します。
-
左上隅にある入力フィールドでは、エンティティに含まれる単語の先頭の数文字 (最小 2 文字、大文字小文字の区別なし) を入力でき、ナレッジ・ポータルには、その文字で始まる単語を含むすべての既存のエンティティのドロップダウン・リストが表示されます。このドロップダウン・リストからエンティティを選択して、[エクスプローラ] ボタンをクリックします。このオプションを使用して関係または概念を表示できます。両方のタイプのエンティティがドロップダウン・リストに表示されます。
1 つのエンティティを選択すると、そのエンティティについて関連するエンティティとコンテキストで指定されるエンティティの 2 種類の分析が表示されます。
関連するエンティティ
1 つのエンティティを選択すると、以下のリストが表示されます。
-
[類似エンティティ] : 指定したエンティティに似ている概念と関係、およびそれぞれの概念または関係の頻度 (すべてのソース内での合計出現回数) および分布 (その概念を含んでいるソースの数) のリスト。先頭にリストされる類似エンティティは、常に指定したエンティティ自体になります。概念については、先頭にリストされるこのエンティティが、その概念の [上位の概念] リストと同じになります。
-
[関連概念] : [関連] ボタンを選択すると、指定した概念に関連する概念のリストがそれぞれの概念の頻度 (すべてのソース内での合計出現回数) および分布 (その概念を含んでいるソースの数) と共に表示されます。関連概念とは、指定した概念で CRC に出現する概念のことです。
-
[近似プロファイル] : [近似] ボタンを選択すると、近似プロファイル・テーブルが表示されます。このテーブルには、指定した概念との近似によって関連付けられた概念がリストされます。それぞれの概念の近似スコアも示されます。
[類似エンティティ]、[関連概念]、または [近似プロファイル] のリストからエンティティを選択すると、すべてのリストがそのエンティティの分析に変更されます。[上位の概念] と [優位な概念] のリストは変更されません。
コンテキストのエンティティ
エンティティを選択すると、コンテキストのそのエンティティについて以下のリストも表示されます。
-
[ソース] : 指定したエンティティ (緑色で強調表示) を含むソース・テキストのリスト、内部のソース ID (整数) および外部のソース ID。ソースは、内部のソース ID 順 (降順) でリストされます。ソース・テキストは、ソースにありこのエンティティを含むすべての文を表示します。間にあるこのエンティティを含まない文は表示されませんが、省略記号 (...) で示されます。最初に表示される文がソースの最初の文ではない場合には先頭の省略記号は表示されませんが、最後に表示される文が実際にソースの最後の文の場合でも、最後の文の後に末尾の省略記号が常に表示されます。
赤いテキストは否定を示し、否定属性の範囲内ではエンティティは赤い文字になります。否定の範囲は、対応するパス、文、または CRC と同じであるとは限りません。
[目のアイコン] を選択またはソースのリストのどこかをクリックすると、ソースのフルテキストが表示されます。フルテキストでは、指定したエンティティは出現するたびに強調表示され、否定範囲のそれぞれのテキストは赤い文字で表示されます。(指定したエンティティのすべての出現をこのフルテキスト・ボックスで表示するには、% オプションを 100% に設定する必要があります。)
[矢印アイコン] を選択すると、インデックス作成結果ツールが表示されます。
-
[パス] : 指定したエンティティを含むパスのリスト。パスは、ID 順 (降順) でリストされます。パス ID はソース単位で割り当てられるため、同じパス・テキストが、複数回、異なるパス ID でリストされることがあります。
パスの要素はタイプごとに強調表示されます。
-
緑 : 指定したエンティティ (概念または関係)。
-
青 : 概念。
-
白 : 関係。
-
薄い青 : パス関係の単語。
否定範囲のテキストは赤い文字で表示されます。
パス要素を選択すると、すべてのリストがそのエンティティの分析に変更されます。[上位の概念] と [優位な概念] のリストは変更されません。
[目のアイコン] を選択すると、ソースのフルテキストが指定エンティティと共に緑色に強調表示されて表示されます。
[矢印アイコン] を選択すると、インデックス作成結果ツールが表示されます。
-
-
[CRC] : 指定したエンティティを含む CRC (概念 - 関係 - 概念) シーケンス、頻度 (すべてのソース内でのその CRC の合計出現回数) および分布 (その CRC を含んでいるソースの数) のリスト。多くの CRC に含まれる概念は 1 つのみです (CR または RC)。エンティティ・タイプの強調表示は、[パス] の強調表示と同じですが、パス関係の単語は CRC の一部ではないため、表示されません。
CRC 要素を選択すると、すべてのリストがそのエンティティの分析に変更されます。[上位の概念] と [優位な概念] のリストは変更されません。
[目のアイコン] を選択すると、[選択した CRC を持つソース] ボックスが表示され、その CRC のインスタンスを含むそれぞれのソースがリスト表示されます。CRC は、その文のコンテキストで緑色に強調表示され、そのソースのソース ID のフラグが立てられます。ソース ID のリストには、指定した CRC を含む複数の文を含めることができます。間にあるこの CRC を含まない文は省略記号で示されます。[選択した CRC を持つソース] ボックスから [目のアイコン] を選択して、CRC を含むソースでソースのフルテキストを指定エンティティ (CRC ではない) と共に緑色に強調表示して表示できます。
ドメインでサポートされる唯一の言語が日本語の場合は、ナレッジ・ポータルの表示が異なり、[関連概念] および [CRC] のリストは表示されません。[エンティティ・ベクトル] のリストが、[パス] のリストの代わりになります。
フルテキスト・ボックス
[目のアイコン] では、選択したソースのフルテキストが表示されます。このテキスト・ボックスはソースの外部 ID で識別されます。例えば :SQL:1171:1171 です。
ソースのテキストは、以下のようにタグ付けされます。
-
指定したエンティティは緑色で強調表示されます。
-
赤いテキストは否定を示し、否定属性の範囲内ではエンティティは赤い文字になります。
このフルテキスト・ボックスには以下のオプション・ボタンが用意されています。
-
[メタデータ] : ソースのメタデータを表示します。すべてのソースに DateIndexed メタデータ・フィールドがあります。この日付スタンプは、現在のロケールの表示形式で UTC 日付/時刻として表されます。小数部は切り捨てられます。ソース・テキストに戻るには、再度 [メタデータ] ボタンをクリックします。
-
[強調表示] : 何も実行しません。
-
[インデックス作成] : ソースのテキストを強調表示し、以下のようにエンティティのタイプを示します。
-
緑 : 指定したエンティティ (概念または関係)。
-
青 : 概念。
-
白 : 関係。
-
薄い青 : パス関係の単語。
-
イタリック : 無関係な単語。
否定範囲のテキストは赤い文字で表示されます。
-
-
[ディクショナリ] : 何も実行しません。
-
[%] : ソースのテキストを要約します。既定のパーセントは 100% (フルテキスト) です。100 未満の整数を指定してから [%] ボタンをクリックすると、ソースの他の文と比べて関連性スコアが低い文を削除することによって、指定したサイズ近くにテキストが減らされ、ソースのテキストが要約されます。要約によって、指定したエンティティを含む文が保持されるとは限りません。
分析するソースの制限
データ分析の範囲は、フィルタを使用して制限できます。フィルタを使用すると、ドメインにロードされたデータ・ソースが分析に包含または除外されます。既定では、[ナレッジ・ポータル] は、ドメインにロードされたすべてのデータ・ソースを分析します。
-
ナレッジ・ポータルの右上にある [フィルタ・アイコン] (漏斗) ボタンをクリックするとフィルタが適用され、指定した条件に基づいて分析からソースが包含または除外されます。いくつかの種類のフィルタを指定できます。また、複数のフィルタを適用できます。複数のフィルタを AND、OR、NOT AND、または NOT OR の各ロジックを使用して関連付けることができます。
フィルタを追加するには、ドロップダウン・リストからフィルタのタイプを選択し、フィルタの条件を指定してから [追加] ボタン、[適用] ボタンの順に選択します。複数のフィルタを追加する場合、[追加] ボタンを選択してから AND/OR ロジック・オプションを選択してフィルタを関連付け、[適用] ボタンを選択します。
1 つ以上のフィルタが有効になると、[フィルタ・アイコン] が緑色で表示されます。
[フィルタ・アイコン] の左側の数字は、フィルタの適用後に取り込んだソースの数を示しています。フィルタが適用されていない場合、この数字はドメイン内のソースの合計数です。
-
1 つのフィルタを削除するには、[フィルタ・アイコン] を選択し、フィルタの説明の横にある黒い [X] を選択してから [適用] ボタンを選択します。すべてフィルタを削除するには、[フィルタ・アイコン] を選択し、[クリア] ボタンを選択してから [適用] ボタンを選択します。
以下のタイプのフィルタがサポートされています。
-
[メタデータ] : メタデータの値で、ソースを除外するために使用します。既定では、すべてのソースに DateIndexed メタデータがあります。DateIndexed メタデータを適用するには、このフィールドを選択し、演算子を選択して、カレンダ・アイコンをクリックして日付値を選択してから、目的の日を選択します。
-
[ソース ID] : 取り込むソースをソース ID で選択する場合に使用します。単一のソース ID、またはソース ID のコンマ区切りのリストを指定できます。
-
[ソース ID の範囲] : 取り込むソースをソース ID で選択する場合に使用します。値の範囲を指定することによって、ソース ID の範囲を指定できます。指定値も範囲に含まれます。
-
[外部 ID] : 取り込むソースを外部 ID で選択する場合に使用します。例えば :SQL:1171:1171 です。単一の ID、またはコンマ区切りの ID のリストを指定できます。外部ソース ID は [ソース] リストにリスト表示されます。
-
[SQL] : SQL クエリを指定して取り込むソースを選択する場合に使用します。
-
インデックス作成結果
2 つの方法で [インデックス作成結果] ツールへアクセスできます。
-
Caché 管理ポータルの[システム・エクスプローラ]の iKnow オプションから。すべての iKnow ドメインは、特定のネームスペース内に存在します。したがって、利用できるネームスペースのリストから使用するネームスペースを指定する必要があります。ネームスペースは、使用する前に、iKnow 対応にしておく必要があります。iKnow 対応ネームスペースを選択すると、iKnow の [インデックス作成結果] オプションが表示されます。
-
iKnow ナレッジ・ポータルの [ツール] タブの [インデックス作成結果] ボタンから。データ位置を指定し、[ビルド] ボタンを使用して、このデータをドメインに入力すると、iKnow によるデータのインデックス作成方法を表示する、[インデックス作成結果] を選択できます。これにより、[インデックス作成結果] ウィンドウが個別のブラウザ・タブとして表示されます。
[インデックス作成結果] ウィンドウの左上にあるドロップダウン・リストには、ドメインにロードしたソースが表示されます (ドメインは、右上のドロップダウン・リストに表示されます)。ドロップダウン・リストからデータ・ソースを選択して、[手動入力] ボタンをクリックします。
これにより、[インデックス付きの文]、[概念]、および [CRC] という 3 つのリストが表示されます。
[インデックス付きの文]
ソース内の文は、1 行に 1 文で順にリストされます。iKnow インデックス作成が、強調表示で示されます。文のテキストは、以下のように強調表示されます。
-
黄色 : 概念。
-
下線 : 関係。
-
イタリック : 無関係な単語。
-
赤色 : 否定属性の語句。否定の単語は、赤色の四角形で囲まれます。複数の単語による否定の用語 (“was not” など) は、各単語が赤い四角形で囲まれて表示されます。否定の語句に含まれる概念と関係は、それぞれに該当する強調表示 (黄色の強調または下線) で示され、語句のテキストが赤色で示されます。語句に含まれる無関係なものは、赤色で表示されません。
[概念] および [CRC]
[インデックス作成結果] には、ソース内のすべての概念を示すリストと、ソース内のすべての CRC を示すリストが表示されます。
-
[概念] : ソース内の概念が降順に示されます。
-
CRC : ソース内の CRC が概念と関係を示す強調表示付き (上記参照) で降順に示されます。CRC のリストでは、否定属性が示されません。また、このリストには無関係な単語は含まれません。
ウィンドウの上部にある [次でソート] ボタンを使用すると、[概念] と [CRC] のリストが切り替えられ、頻度のカウントまたは優位性の値のどちらかが降順で表示されます。
[概念] のリストでは、最も優位性の高い概念に、優位性の値 1000 が割り当てられます。優位性の低い概念には、小さい値が割り当てられます。ソースが大きくなると、優位性が最低の値が小さくなる傾向があります。例えば、25 個の概念が含まれているソースでは、優位性の範囲が 1000 から 83、300 個の概念が含まれているソースでは、優位性の範囲が 1000 から 2 のようになります。
ドメインでサポートされる唯一の言語が日本語の場合、[インデックス作成結果] には、[概念] と [CRC] のリストの代わりに、1 つの [エンティティ] のリストが表示されます。