標準検索ではドキュメントフィールドの一致のみ検索しますが、フルテキスト検索は、ドキュメントコンテンツで検索用語に一致する検索結果を検索できます。
注: パフォーマンスに関する理由から、標準検索では最初の 5,000 件の一致ドキュメントのみを返します。
ドキュメントコンテンツを検索するには
高度検索ダイアログのフルテキスト検索のみ使用できます。検索にドキュメントコンテンツを含める:
- 検索バーにある双眼鏡アイコンをクリックして、詳細検索を開きます。
- 検索範囲でコンテンツを含むを選択します。
- 必要に応じて残りのフィールドに記入します。
Vault は、英数字フィールドと句読点フィールドで検索するときに、検索用語をさまざまなセグメントに分割します。このプロセスは「トークン化」と呼ばれます。
検索結果について
ドキュメントのコンテンツ内を検索すると、Vault はドキュメントフィールドとドキュメントコンテンツを別々に検索してから、最終的な結果セットをマージします。検索結果に 5,000 件を超えるドキュメントが含まれている場合、Vault は結果を、検索用語に最も関連性の高い最初の 5,000 件のドキュメントに制限し、警告を表示します。ユーザは、別のフルテキスト検索を実行する前に追加フィルタを適用するとすべての結果を表示することができます。
検索結果ページ
Vault がドキュメントコンテンツで検索用語の一致を見つけた場合、検索結果ページは、一致する用語の文脈を含むドキュメントからの引用を表示します。
フルテキスト検索のインデックス
フルテキスト検索をサポートするため、Vault はサポートされているソースファイル形式のドキュメントのフルテキストに自動でインデックスを作成します。ドキュメントコンテンツは、通常、アップロードから数分以内に検索できるようになりますが、Vault が同時に多くのドキュメントをアップロードしている場合、遅れが生じる場合があります。インデックスはドキュメントおよびオブジェクトの添付ファイルにも作成されます。
検索可能スキャン済みドキュメント
Vault は、ユーザが画像または PDF ファイルとしてアップロードしたスキャン済みソースドキュメント内のテキストの抽出とインデックス作成を行うことができます。この機能は光学文字認識 (OCR) と呼ばれ、これらのドキュメントのフルテキスト検索ができるようになります。Vault が抽出するのは、タイピング入力された英語のテキストのみです。
テキスト抽出がサポートされている形式
OCR はサポートされている形式のファイルから自動でテキストの抽出を試みます:
- PDF (PDF にすでにテキストが含まれていない場合のみ)
- ポータブルネットワークグラフィックス (PNG)
- タグ付きイメージファイルフォーマット (TIF、TIFF)
- JPEG (JPEG、JPG)
- グラフィックスインターチェンジフォーマット (GIF)
- ビットマップ (BMP)