GETAを再度関連するエントリ抽出に使ってみる

まえに GETAを関連エントリ抽出に使ってみる でいじった後、けっきょくお手軽だけど英単語しか見ていない Related Posts に落ち着いていた関連エントリ抽出を、最近のここのブログをいじりたい機運にまかせて再挑戦。
前回はテストだったのでsolaris10だったけど、今回は

uname -a
FreeBSD pico.ido.nu 6.1-SECURITY FreeBSD 6.1-SECURITY #0: Mon Dec  4 07:53:55 UTC 2006 root@builder.daemonology.net:/usr/obj/usr/src/sys/GENERIC  i386

こんな環境。

いつのまにか第3版が出ていたけれど、どうもconfigureがうまくいかなくてdwut.h.inからヘッダファイルが生成されない。あきらめて汎用連想計算エンジン(GETA) (第2版:単独PC用)を使う。
configureするとき、

SHELL=/usr/local/bin/zsh

になっていると、うまく動かないlibtoolが生成されてmakeしたときに

../libtool:1: no such file or directory: /usr/bin/sed -e 1s/^X//

と出るので

SHELL=/bin/zsh

に変更してからconfigureしないといけない。前もPHP extensionのビルドでこの問題に遭遇しているけどこれってマシンの問題なのかな。

./configure  --with-charset=utf8 --prefix=/usr/local/mecab-0.95

のあとmakeして前回同様テストしてみて問題なし。

そのあとmecabを入れてまた同様にfreqfileを生成して類似エントリを出してみるものの、何かが悪いのか大半のエントリが類似エントリなしになってしまう。類似エントリが出ているものも、どうも中身が正しくない。
ひとことしか書かれていない喫茶セーヌに対して、

というふうに、そもそも同じ単語が出てこないエントリが類似のものとして出てくる。UTF-8だからだめなのかとおもってEUCにしてみたけどやはりだめ。バイナリがうまく生成できてないとか、そもそも使い方がおかしいとかなのかな。

GETA化はまた延期。意外と英単語が似ているかどうかだけで判断しているっぽい related posts も、固有名詞が英単語なことが多いこのブログではそれなりに機能していてあんまり不満はなかったりもする….


About this entry