HarukaのMEMO

Linuxやプログラミング関係の備忘録

自然言語処理

Python3 gensimでUnicodeDecodeError

久しぶりにgensimのword2vecを使いたいなと思ってやってたら、model作成の際にエラーが出て悩んだ。下記のようなエラーである。 UnicodeDecodeError: 'utf-8' codec can't decode...結論から言うと、学習用txtファイルがおかしくなっていたみたい。iconvコマ…

Gensimを使ったWord2vec

現在研究にてword2vecを用いた単語の類似度の取得をしています。Gensimを用いた方法が割と手軽で、速度もまずまずであったため、残しておきます。