hasen's tech life

Twitter: @hasen

SimStringという類似文字列検索を使う.

SimStringという類似文字列検索を使う.

$ cat /etc/redhat-release
> CentOS release 6.6 (Final)

$ cd /usr/local/src
$ sudo wget http://www.chokkan.org/software/dist/simstring-1.0.tar.gz
$ sudo tar zxvf simstring-1.0.tar.gz
$ cd simstring-1.0
$ sudo ./configure
$ sudo make
$ sudo make install
$ which simstring
> /usr/local/bin/simstring

$ cd ~/
$ mkdir database
# FILE_NAME.txtに書かれている文章のリストからデータベースを作成する.
$ simstring -b -d database/DATABASE_NAME.db < FILE_NAME.txt
# 対話モードの起動
$ simstring -d database/DATABASE_NAME.db -t 0.4 -s cosine

参考: SimString