Elasticsearchで重複データを検索する方法

2年 ago

陽, 向宇

1 minute

重複データを Elasticsearch で検出するには、いくつの集計とクエリ手法を使用できます。重複データを調べるために使用できる方法は次のとおりです。

アグレゲーション技術を用いる：
terms集計とcount基準を使用して、フィールドでグループ化し、各グループのドキュメント数を数えます。重複データは通常、フィールド値が同じドキュメントに複数回表示されます。
bucket_selectorを使用してカウントが1より大きいグループを選択し、重複データを検出します。
termsによる検索：
terms検索を使用してフィールドをグループ化し、min_doc_countパラメータを2に設定して1回のみ出現する値を除外します。
フィールド値が重複するドキュメントを検索できます。
スクリプトを使用してクエリを実行します
重複する文書を検索するために、フィールド値の一致を照会するスクリプトを使用する。
スクリプトクエリを使用して、スクリプト内でフィールド値を比較するロジックを書きます。

以下に、termsアグリゲーションとクエリを使用して重複データを検索するリクエストの例を示します。

GET /index/_search
{
  "size": 0,
  "aggs": {
    "duplicate_docs": {
      "terms": {
        "field": "duplicate_field",
        "min_doc_count": 2
      }
    }
  }
}

これにより、フィールド値が重複するドキュメントのグルーピングが返されます。ニーズに応じてクエリと集計パラメータを調整して、さまざまなフィールドの重複データを検索できます。