GETAを再度関連するエントリ抽出に使ってみる
まえに GETAを関連エントリ抽出に使ってみる でいじった後、けっきょくお手軽だけど英単語しか見ていない Related Posts に落ち着いていた関連エントリ抽出を、最近のここのブログをいじりたい機運にまかせて再挑戦。
前回はテストだったのでsolaris10だったけど、今回は
uname -a
FreeBSD pico.ido.nu 6.1-SECURITY FreeBSD 6.1-SECURITY #0: Mon Dec 4 07:53:55 UTC 2006 root@builder.daemonology.net:/usr/obj/usr/src/sys/GENERIC i386
こんな環境。
いつのまにか第3版が出ていたけれど、どうもconfigureがうまくいかなくてdwut.h.inからヘッダファイルが生成されない。あきらめて汎用連想計算エンジン(GETA) (第2版:単独PC用)を使う。
configureするとき、
SHELL=/usr/local/bin/zsh
になっていると、うまく動かないlibtoolが生成されてmakeしたときに
../libtool:1: no such file or directory: /usr/bin/sed -e 1s/^X//
と出るので
SHELL=/bin/zsh
に変更してからconfigureしないといけない。前もPHP extensionのビルドでこの問題に遭遇しているけどこれってマシンの問題なのかな。
./configure --with-charset=utf8 --prefix=/usr/local/mecab-0.95
のあとmakeして前回同様テストしてみて問題なし。
そのあとmecabを入れてまた同様にfreqfileを生成して類似エントリを出してみるものの、何かが悪いのか大半のエントリが類似エントリなしになってしまう。類似エントリが出ているものも、どうも中身が正しくない。
ひとことしか書かれていない喫茶セーヌに対して、
- __untitled__ (ツタヤにまつわる愚痴)
- 機関車切り離し
- nlog (CDの並べ替え問題)
- 地下道にハト
- __untitled__ (鶴見線に行く途中の武蔵小杉駅にて)
というふうに、そもそも同じ単語が出てこないエントリが類似のものとして出てくる。UTF-8だからだめなのかとおもってEUCにしてみたけどやはりだめ。バイナリがうまく生成できてないとか、そもそも使い方がおかしいとかなのかな。
GETA化はまた延期。意外と英単語が似ているかどうかだけで判断しているっぽい related posts も、固有名詞が英単語なことが多いこのブログではそれなりに機能していてあんまり不満はなかったりもする….
About this entry
You’re currently reading “GETAを再度関連するエントリ抽出に使ってみる,” an entry on ku
- Published:
- 2007.03.25 / 3am
- Category:
- GETA

No comments
Jump to comment form | comments rss [?] | trackback uri [?]