検索エンジンの作り方を調べた
はじめに
プライベートで、簡易的な検索エンジンを作る仕組みを考えたので、
その時勉強したことのメモ。
メモ
検索エンジンの仕組み
参考
連載 検索エンジンを作る
http://gihyo.jp/dev/serial/01/make-findspot
形態素解析
自分で形態素解析器を作るのは無いので、既存の仕組みを調べてみた
Mecabを使う
- 意外と簡単にインストール出来た。辞書カスタマイズもできそうなのでちゃんと作るときによさそう。
- URL http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html
YahooAPIを使う
- 前職でもちょろっと使ったことあるけど、使いやすいし精度が高い
- テキスト数制限や回数制限がネック
- キーフレーズ抽出がいい感じ
- URL http://developer.yahoo.co.jp/webapi/jlp/
キーフレーズ抽出ではYahooAPIが手軽でいいなと思った。 独自でカスタマイズするにはMecab使っていくのが良さそうです。
オープンソース検索エンジン
既に検索システム自体もオープンソース化されていて、こういうのを活用したほうがよさそう
- ElaticSearch を使う
- wantedlyでつかわれている
- 簡単にセットアップできそう
- 解析器はkurimoji
- URL http://engineer.wantedly.com/2014/02/25/elasticsearch-at-wantedly-1.html
- groonga
- 解析器にmecabを指定できる
- セットアップは簡単そう
- URL http://groonga.org/ja/