Elasticsearchで日本語人名検索を実装した時のまとめ - 炎と硝煙にむせる開発現場から

f:id:kitahashi-ryoichi:20160110143523p:plain

ゴール：Elasticsearchでサジェストが実装できるようになる

ゴール：Elasticsearchでサジェストが実装できるようになる
Elasticsearchを１分インストール手順
- 必要環境
- インストール手順
RESTで設定とデータを突っ込む
まとめ

Elasticsearchを１分インストール手順

必要環境

java 7+
Linux (CentOS 6.7)

インストール手順

Elasticsearch 1.7.4 (本体) v2系はプラグイン未対応が多いため非推奨

wget https://download.elasticsearch.org/elasticsearch/elasticsearch/elasticsearch-1.7.4.tar.gz -O elasticsearch.tar.gz
tar xvzf elasticsearch.tar.gz
mv elasticsearch-1.7.4/ /opt/.
cd /opt
ln -s elasticsearch-1.7.4 elasticsearch

kuromojiプラグインインストール（日本語形態素プラグイン）

cd elasticsearch
bin/plugin install elasticsearch/elasticsearch-analysis-kuromoji/2.7.0

headプラグインインストール（データ参照プラグイン）

bin/plugin install mobz/elasticsearch-head

config設定 /opt/elasticsearch/config/elasticsearch.yml

network.bind_host: 0.0.0.0
cluster.name=xxxxx

※Elasticsearchはデフォルトクラスター構成になっているので、同じネットワークにあるマスターから勝手にコピーしたり、自分がマスターになって荒ぶったことをするためcluster.nameは変えておいた方が身のためです。

Elasticsearch起動！

/opt/elasticsearch/bin/elasticsearch start &

headプラグインで起動確認！

http://serverip:9200/_plugin/head

RESTで設定とデータを突っ込む

Elasticsearchは全部RESTAPI経由でやれるので今回はそれを利用しました。

インデックスを作ってサジェストさせるまでの流れ

データセットを準備
設定jsonをcurlで叩き込む
データをcurlで叩き込む
サジェストAPIを叩く

データセットを準備

ここから芸能人Instagramランキングのスクレイピングデータをダウンロードしてください。

設定jsonをcurlで叩き込む

データセットはこんなフィールドになっています。

{
"name": "木下優樹菜",
"instagram_name": "yuuukiiinaaa",
"instagram_id": "173974522",
"content": "タレント、モデルの木下優樹菜（ゆっきーな）さんのInstagram(インスタグラム)アカウントです。夫はお笑い芸人の藤本敏史。木下優樹菜（きのしたゆきな）：1987年12月4日生まれ　出身地：東京都　血液型：A型 ",
"category": "女性タレント",
"profile_picture": "https://scontent.cdninstagram.com/hphotos-prn/t51.2885-19/10809026_387581471408973_2084297648_a.jpg",
"user_full_name": "yuuukiiinaaa"
}

とりあえずnameを入れたらサジェストされる所だけならこれを実行。kana_convなどのフィルターやトークナイザーはひらがなデータがある場合にElasticsearch側がいいかんじにしてくれる用なので今回は使用していません。

設定

index "instagram"
type "user"
サジェストするfield "name"

curl -XPUT 'localhost:9200/instagram' -d '
{
  "settings": {
  "analysis": {
    "filter": {
      "kana_conv": {
         "type": "kuromoji_readingform",
         "use_romaji": false
      }
    },
    "analyzer": {
      "kuromoji_analyzer": {
         "type": "custom",
         "tokenizer": "kuromoji_tokenizer"
       }
     }
   }
 },
 "mappings": {
   "user": {
     "_source": {
        "enabled": true
     },
     "_all": {
        "enabled": true,
        "analyzer": "kuromoji_analyzer"
     },
     "properties": {
        "name": {
            "type": "completion",
            "analyzer": "kuromoji_analyzer",
            "search_analyzer": "kuromoji_analyzer",
            "payloads": false
        }
      }
    }
  }
}'

{"acknowledged":true}が帰ってきたら設定OK

ポイントはtype completionでフィールドを定義してインデックスを作ること。payloadsをtrueにしてサジェスト結果にデータを持たせることもできます。

参考：Completion Suggester

データをcurlで叩き込む

得意のワンライナーでデータを入れます。

cat instagram_data.json | while read line; do curl -XPOST http://localhost:9200/instagram/user/?pretty -d "${line}"; done

headから入れたデータを確認するとこんな感じ

http://serverip:9200/_plugin/head

f:id:kitahashi-ryoichi:20160110141324p:plain

サジェストAPIを叩いてみる

[request]
curl -X POST 'localhost:9200/instagram/_suggest?pretty' -d '{
  "hoge" : {
    "text" : "木下",
    "completion" : {
      "field" : "name",
      "size" : 10
    }
   }
}'
※hogeとなっているところは何でも良い、使ってないらしい

[response]
{
 "_shards" : {
 "total" : 5,
 "successful" : 5,
 "failed" : 0
 },
 "hoge" : [ {
 "text" : "木下",
 "offset" : 0,
 "length" : 2,
 "options" : [ {
 "text" : "木下ココ",
 "score" : 1.0
 }, {
 "text" : "木下優樹菜",
 "score" : 1.0
 }, {
 "text" : "木下安奈",
 "score" : 1.0
 }, {
 "text" : "木下愛未",
 "score" : 1.0
 }, {
 "text" : "木下春奈",
 "score" : 1.0
 }, {
 "text" : "木下理樹",
 "score" : 1.0
 }, {
 "text" : "木下隆行",
 "score" : 1.0
 } ]
 } ]
}