SimStringという類似文字列検索を使う.
SimStringという類似文字列検索を使う.
$ cat /etc/redhat-release
> CentOS release 6.6 (Final)
$ cd /usr/local/src
$ sudo wget http://www.chokkan.org/software/dist/simstring-1.0.tar.gz
$ sudo tar zxvf simstring-1.0.tar.gz
$ cd simstring-1.0
$ sudo ./configure
$ sudo make
$ sudo make install
$ which simstring
> /usr/local/bin/simstring
$ cd ~/
$ mkdir database
# FILE_NAME.txtに書かれている文章のリストからデータベースを作成する.
$ simstring -b -d database/DATABASE_NAME.db < FILE_NAME.txt
# 対話モードの起動
$ simstring -d database/DATABASE_NAME.db -t 0.4 -s cosine
参考: SimString