Harukaのnote

Linuxやプログラミング,写真,旅行等の記録帳

自然言語処理

Wikipedia等のプレーンテキストの句点分割(括弧「」内の句点)

忘れるのでメモ 方法 以下の方法で,括弧(「」,『』)内の句点をタグに置き換えます. import re # 正規表現ライブラリ def clean(org_text): text = org_text[:] # 鍵括弧内句点置き換え regex_list = [r'「.*?」', r'『.*?』'] for regex in regex_list:…

Gensim の KeyedVectors でエラー (is this really the text format?)

自分で Word2Vec のような各単語に対し,そのベクトルを表記したモデルを作成したとき,KeyedVectors を使います.model.txt 等には以下の用に書き出します. [単語数] [次元数] word1 -0.101747 -0.011735 word2 -0.017135 0.051458 ︙これを KeyedVectors …

Word2Vec で全ての単語とベクトルを処理

よく忘れるので. for word in model.wv.vocab: print(word, model[word])

OpenSUSE等Linuxでnaist-jdicインストール時にエラー

以下のようなエラーが出ました. chasen_config required for making dictionarychecking for chasen-config... no configure: error: chasen_config required for making dictionary今まで出たことが無かったのですが.... 5分後に追記:何故かわかった.na…

Janome を Pyinstaller で exe 化するときのエラー

少し前に起きたエラーで,解決してからだいぶ経ったので,忘れかけていますが,これ以上忘れる前に記載します.先輩が直面したエラーで,解決策が見つからず困っていました. エラー内容 exe 化したあとの Janome を使ったプログラムが「No attribute... 'di…

BoWをgensimのLSIで次元圧縮する際のエラー

はじめに 今回は本当にメモ程度に残します。 対策も英語のサイトばかりでしたので。下記のようなコードで準備したデータをscikit-learnのsvm.SVCでfitすると、データのサイズが違うよ、とエラーが出ました。 # 分かち書きされたテキストのリスト list_wakati…

MeCabインストール時の「make: /usr/local/libexec/mecab/mecab-dict-index: コマンドが見つかりませんでした」エラー

MeCabのインストールをUbuntu以外のLinux(OpenSUSE)から行う場合、こちらのインストール方法を参考にソースからコンパイルする必要があると思います。 MeCabのインストールはうまく行くのですが、ipadicのインストールの際にエラーが発生しました。 バージ…

Python3 gensimでUnicodeDecodeError

久しぶりにgensimのword2vecを使いたいなと思ってやってたら、model作成の際にエラーが出て悩んだ。下記のようなエラーである。 UnicodeDecodeError: 'utf-8' codec can't decode...結論から言うと、学習用txtファイルがおかしくなっていたみたい。iconvコマ…

Gensimを使ったWord2vec

現在研究にてword2vecを用いた単語の類似度の取得をしています。Gensimを用いた方法が割と手軽で、速度もまずまずであったため、残しておきます。