HarukaのNote

Linuxやプログラミング関係+旅行等の記録帳

Python

Gensim の KeyedVectors でエラー (is this really the text format?)

自分で Word2Vec のような各単語に対し,そのベクトルを表記したモデルを作成したとき,KeyedVectors を使います.model.txt 等には以下の用に書き出します. [単語数] [次元数] word1 -0.101747 -0.011735 word2 -0.017135 0.051458 ︙これを KeyedVectors …

Word2Vec で全ての単語とベクトルを処理

よく忘れるので. for word in model.wv.vocab: print(word, model[word])

Janome を Pyinstaller で exe 化するときのエラー

少し前に起きたエラーで,解決してからだいぶ経ったので,忘れかけていますが,これ以上忘れる前に記載します.先輩が直面したエラーで,解決策が見つからず困っていました. エラー内容 exe 化したあとの Janome を使ったプログラムが「No attribute... 'di…

BoWをgensimのLSIで次元圧縮する際のエラー

はじめに 今回は本当にメモ程度に残します。 対策も英語のサイトばかりでしたので。下記のようなコードで準備したデータをscikit-learnのsvm.SVCでfitすると、データのサイズが違うよ、とエラーが出ました。 # 分かち書きされたテキストのリスト list_wakati…

Python3 gensimでUnicodeDecodeError

久しぶりにgensimのword2vecを使いたいなと思ってやってたら、model作成の際にエラーが出て悩んだ。下記のようなエラーである。 UnicodeDecodeError: 'utf-8' codec can't decode...結論から言うと、学習用txtファイルがおかしくなっていたみたい。iconvコマ…

TornadoでHTMLタグを出力する方法

Tornadoでは、 <body> {{"<h1>Hello World!!</h1>"}} </body> で出力できるのは有名ですが、この時htmlタグもそのまま表示されます。 つまり、<h1>Hello World!!</h1>みたいになります。 これを解決する方法をあまり日本語記事で見つけられず、試行錯誤していました。しかし、…

Linux(OpenSUSE)にPyenvをインストールする

Pythonを使う際は必ず導入するPyenvですが、導入方法と依存ソフトに関してまとめて記載しているサイトがあまり無かったため、残しておきます。

Gensimを使ったWord2vec

現在研究にてword2vecを用いた単語の類似度の取得をしています。Gensimを用いた方法が割と手軽で、速度もまずまずであったため、残しておきます。

TornadoのHTML内でHTMLを読み込む

Tornadoで共通のheaderやfooterを読み込みたいとき TornadoはまだRailsやPHPほど日本語の記事がなく、やり方がわからず困っていました。 jQueryなどでhtmlファイルからhtmlファイルを呼び出せないかあがいていましたが、Tornado側から非常に簡単に呼び出すこ…

herokuにアップしたTornadoでPostgreSQLを使う

herokuでPostgreSQLを使うのが意外と面倒だったので、残しておきます。