やっぱりインデックスのサイズが大きいなぁ。

やっぱりインデックスのサイズが大きいなぁ。

 例によってconfigureとかmakeでいろいろ大変でしたが、とりあえずなんとか。

 さっそくインデックスを作ると、元データの10倍くらいになった。N-gramだとこんなものかな。MeCabを使ってるんでもうちょっと小さくなるかと思ったけど*1

 Rastのほうはどうなんじゃろ。

追記

 解説ページによると転置ファイルのバッファ領域として最初に130MBほど確保するとのこと。だから大きいのね。

さらに追記

 データ量が少ないことが分かっているならバッファはかなり小さくしても大丈夫、かも。

 ちなみにテストしたデータでは解説にあった分量より小さくなった。

*1:うまくmake出来てないだけかもしれないけど。