Vault は、検索用語に一致する適切なドキュメントを検索し、最も関連する順番に並べるため、複数の内部規定を利用します。本稿は、ドキュメントの検索および並べ替えに使用する「水面下」の理論について説明しています。予想していたドキュメントが表示されない、またはドキュメントが適切な順番に表示されない場合、当社の検索アルゴリズムの基本を理解することで、ドキュメントのより効率的な検索に役立ちます。
検索手順
デフォルトでは、Vault は常に、入力された検索ストリングから始まる用語を検索します。例えば、ind を検索すると independent を返しますが、find や rescind は返しません。この手順で引用符を使用すると、完全一致検索を行います。
注: 数値タイプフィールドは、検索に含まれません。
完全一致特殊テキストフィールド
チェックサムのような一部のフィールドは、テキスト (完全一致) と呼ばれるフィールドタイプを使用しています。検索時に、検索用語がドキュメントのフィールド値の完全一致である場合 (大文字化も含む)、Vault は、このタイプのフィールドにのみ一致します。このフィールドタイプは、ごくまれに検索されるフィールドに使用されるか、あるいは完全一致の検出が理に適っている場合にのみ使用されます。
ストップワード
ストップワードとは、非常に一般的な用語であるため、検索に含めると結果が多くなりすぎてしまう単語のことです。Vault は、言語ごとにストップワード一覧を設定しています。英語のストップワードには、and、the、および on などが含まれます。これらの単語が検索用語に含まれている場合、Vault は検索を行う際に削除します。引用符を使用すると、検索にこれらの用語を含めることができます。ストップワードの全一覧をご覧ください。
英数字 & 区切られたフィールドでの検索
Vault は、検索用語をさまざまなセグメントに分割します。このプロセスは「トークン化」と呼ばれます。以下のテーブルは、Valut による用語の区分方法を説明したものです:
トークン化ルール | 元の用語 | トークン化された用語 |
前後の句読点の削除 | レポート (FDA) | レポート, FDA |
先行ゼロの削除および保持 | 0008670 | 0008670, 8670 |
句読点で分割 (ハイフン、アンダースコア、ピリオド、アポストロフィーなど) | CholeCap-300mg/400iu | CholeCap, 300mg, 400iu |
スペースで分割 | 109839 CC US | 109839, CC, US |
数字の分割 | CC356 | CC, 356 |
大文字/小文字の変換 | GludactaBrochure | Gludacta, Brochure |
句読点間の文字列の保持 | GL-45RLC-JA | GL, 45RLC, JA |
すべての連結 | CA-MDD-415A | CAMDD415A |
上記のいずれかを含むドキュメントフィールドを検索する際には、以下を行うことを推奨します。
- 分かる場合は完全なフィールド値で検索する: CA-MDD-415A
- 用語の末尾だけで検索しないでください。例えば、9A-SOP は 129A-SOP を検索しません。
- 文章を検索する場合は、二重引用符を使用する: Report FDA
- 先行ゼロは、元の用語に含まれている場合のみ使用します。先行ゼロは検索用語から削除されません。元の用語が 0123 の場合、000123 で検索しても見つかりません。
Vault は、「前方一致」検索を行うため、先頭を含んだセグメントに一致する部分のみを検索します。例えば、検索用語が DD415A の場合、MDD415A は検索されません。
特殊文字
Vault では、よく使用される特殊文字 (@、#、$、Δ など) をテキストフィールドに入力することができます。Vault 検索は、英数文字列の一部である場合 (53.4% や #wonderdrug など) と、特殊文字だけで使用されている場合の両方の場合で、特殊文字の一致を検出することができます。
ただし、特殊文字のサポートはメタデータフィールドのみです。ドキュメントまたは添付ファイルのコンテンツをフルテキスト検索にインデックスする場合、Vault はコンテンツの特殊文字を用語を分割するシグナルとみなします。以下の例は、文字列がドキュメントコンテンツまたはドキュメントメタデータのいずれで見つかったかに基づいて、Vault がどのように扱うかを示したものです。
文字列 | 見つかった場所 | インデックスされた文字列 |
wonderdruginfo@veeva.com | ドキュメントフィールド | wonderdruginfo@veeva.com |
wonderdruginfo@veeva.com | ドキュメントソースファイル | wonderdruginfo, veeva, com |
引用符
完全一致検索を行うには、用語に二重引用符を使用します。(一重引用符では Vault 検索方法を変更できません。)単一の検索用語に引用符を使用しても、セグメント化は行われません。これは、単語および単語順の完全一致を検索します。例えば、"reduced blood pressure" を検索すると、blood pressure reduced という文章を含むドキュメントは返しません。という文章を含むドキュメントは返しません。これにより検索用語のセグメント化は妨げられません。
同義語
管理者が同義語検索を設定する場合、Vault は管理者が作成したシソーラスに基づいて検索結果を展開します。シソーラスのエントリとしてリストされている用語を検索すると、Vault はその項目の同義語を含む結果も返します。管理者は、各エントリが多方向であるかどうかを選択することもできます。エントリが多方向の場合、Vault は同義語の検索を拡張してそのエントリを含めます。
検索演算子
引用符を使用せずに複数の検索用語を入力した場合、Vault は “OR“ 演算子を使って検索を行います。“OR“ 演算子は、1 つ以上の検索用語を含むドキュメントの一致を検索します。複数の用語が一致するドキュメントは、検索結果の上位に表示されます。結果順位の詳細は、以下をご覧ください。
ドキュメントバージョン間の一致
Vault は、すべてのドキュメントバージョン間の条件を検索しますが、ユーザにドキュメントの表示権限がある最新のバージョンが検索条件に一致する場合にのみドキュメントを返します。
複数のグループに属しているためにドキュメントで複数のロールが割り当てられている場合、Vault は最新のドキュメントバージョンを返さない場合があります。これは、検索条件が以前のドキュメントバージョンとのみ一致し、そのバージョンが割り当てられたロールの 1 つがアクセスできる最新のものである場合に発生します。
検索 & 結果の例
以下の表は、各ドキュメントに存在するバージョンと、Thomas にドキュメントの表示権限があるかどうかを示したものです。
ドキュメント番号 | バージョン & ステータス | 権限の表示 | 一致の詳細 |
SOP-1 | 0.1 – ドラフト | はい | 一致 |
0.2 – レビュー中 | はい | – | |
1.0 – 承認済 | はい | ユーザに最新 | |
SOP-2 | 1.0 – 承認済 | はい | – |
1.1 – ドラフト | はい | ユーザに最新 & 一致 | |
1.2 – レビュー中 | いいえ | – |
Thomas は、高度な検索を使用してドキュメント = SOP とステータス = 下書きで検索します。この検索について、Vault は以下の結果を返します:
- SOP-1: 一致なし
- SOP-2: v1.1 に一致
結果順位
検索結果は、関連する順に表示されます。これは、検索で見つけるドキュメントではなく、Vault が表示する順番に影響を与えます。関連する順番について、Vault は様々な条件を使って、検索結果の上位に表示するドキュメントを決定します。
- 検索用語の頻度: 単一検索用語の一致が複数あるドキュメントは上位に表示されます。
- 検索用語の近接度: 複数用語の検索では、すべての検索用語を含むドキュメントが最上位に表示され、一部の検索用語を含むドキュメントがそれに続きます。すべての一致用語が近接している場合 (同じドキュメントフィールドなど)、このようなドキュメントも上位に表示されます。
- 完全一致: ドキュメントに検索用語の完全一致が含まれている場合、用語の部分一致が含まれるドキュメントよりも上位に表示されます。
- ドキュメント名フィールド: 検索用語がドキュメント名フィールドの単語と一致する場合、このドキュメントは上位に表示されます。
- 分類フィールド: 検索用語が分類フィールドの単語と一致する場合 (ドキュメントタイプの一部)、このドキュメントは上位に表示されます。
多言語検索
デフォルトでは、Vault は Vault の基本言語に基づいて検索を実行します。多言語検索を使用するには、管理者は多言語ドキュメント処理を有効にする必要があります。これにより、言語標準ドキュメントフィールドが Vault に追加されます。Vault は言語フィールドに自動的に入力されますが、いつでも編集してドキュメントの言語を更新できます。Vault の言語固有の検索機能を正しく機能させるには、言語フィールドを正しい言語に設定する必要があります。
ユーザが検索する際、Vault は、単語区切り、停止単語(例:英語では "a" や "the" を無視する)、および語幹など、言語に特有の要素を組み込むことによりドキュメントの言語を考慮します。言語フィールドは、ドキュメントコンテンツとメタデータの両方で Vault 検索に影響します。