アラサーのメモ帳

ジャンルにこだわらず自分の興味関心を書いていく自己満日記

windowsでmecab-ipadic-neologdの導入に行き詰った.

スクレイピングしたツイートデータがあるので内容について探ってみようと形態素解析に手を出してみましたが,うまくいきませんでした....

 筆者の確認不足で導入時に不備がありました...

デフォルトのshift-jisではなくUTF-8でインストールすることで無事動作しました.

助言頂いたHYT MachineWorks様ありがとうございました.

 

windows上でMongoDBやpythonなど開発環境を作っていたので,MeCabもwin上で動かしたいと思いこちら

hytmachineworks.hatenablog.com

を参考にさせていただきインストールしました.

 

一応文の分かち書きは出来るのですが,ツイート特有の口語や流行言葉などがあり標準辞書のipadicではうまく分かち書きがされていない場面も多々ありました.

 

解決策としてmecab-ipadic-neologdを使えば良くなるらしいので,インストールしよ...と思いきやwinには対応してないとのこと.

 

winでも抜け道としてlinuxからmecab-ipadic-neologdをインストール→ディレクトリごとwinへコピーすれば使えないこともないそうなのでやってみました.

 

結果,そんなファイルないよ!と怒られて使えない状況から抜け出せない.

 

ディレクトリをmecabのdic内にコピーして,辞書参照先であるファイルmecabrcをipadicからmecab-ipadic-neologdに書き換えたのにダメでした.

もちろんlinux上ではmecab-ipadic-neologdとipadic両方の辞書で使い分けが出来るのですが,win上では使えないです.

 

パスは間違っていないし考えられるとしたら,linuxでインストールしてコンパイルしたものを単純にwinにもってこれない何かがあるのかなぁとか...

 

生半可の知識(といってもネットの受け譲り)ではだめですね.勉強しないと...