オープンジェミニのクエリインデックス構造解析

2年 ago

桜, 春樹

1 minute

ジェミニは、高速検索およびドキュメントデータの抽出に使用されるクエリインデックス構造を提供する、オープンソースの検索エンジンプロジェクトです。以下では、ジェミニクエリインデックス構造の解析の概要を示します。

インデックスを作るため、単語を内部のデータ構造の出現位置にマッピングします。各単語について、単語が含まれるすべての文書と位置情報が記録されます。
インデックステーブル（Inverted Index Table）：インデックステーブルはインデックスの一覧を格納するデータ構造です。各単語にそれぞれの文書とその中の場所の一覧を結びつけて、検索時に関連する文書を素早く見つけることができるようにします。
インバートインデックスファイルは、インバートインデックスを永続的に格納するファイルです。インデックスの読み込み効率とストレージスペースの利用率を向上させるために、通常は分割と圧縮が行われます。
Geminiはインデックスを作成する際、すべてのドキュメントを検索し、それぞれをトークン化して処理し、処理されたトークンをドキュメントIDと関連付けて最終的にインバーテッドインデックステーブルとインバーテッドインデックスファイルを作成する。
検索処理：ユーザーが検索を行った際のクエリ文字列を解析し、インデックスからクエリのワードに関連するドキュメントや位置情報を取得。関連性を考慮しドキュメントをソートし、検索結果を返す。

つまり、Geminiのインデックス構造は、主に(1) 倒立インデックス、(2) 倒立インデックステーブル、(3) 倒立インデックファイルをキーとしている。これらの構造によって、Geminiは高速かつ正確にドキュメントデータの検索・抽出が可能となる。