機械学習で災害に関するツイートかどうかを判定する

これです。

なんか自然言語処理について色々知見があった気がしたので覚え書きをします。

なんか数千のツイートが与えられるので「災害に関する内容か」をそれぞれ判定してください。学習用データも与えられるよ。

学習用と称して渡されたデータを見てみます。

#3: Car Recorder ZeroEdgeå¨ Dual-lens Car Camera Vehicle Traffic/Driving History/Accident Camcorder Large Re... http://t.co/kKFaSJv6Cj

EARTHQUAKE SAFETY LOS ANGELES ÛÒ SAFETY FASTENERS XrWn

tensorflowのtokenizerに渡して単語ごとに分割してもらおうというところですが、先に学習の妨げになる要素を破壊しておいた方が良いでしょう。

正規表現ライブラリreを使ってきれいにしましょう。

ついでにnltkのSnowballStemmerで単語を語幹だけにしてやります。

データがきれいになったのでtensorflowのtokenizerでとーくんにしてもらいます。

この時にtrain用のデータをちょっと分割して試験用のデータを分けておきましょう。

適当にscipyでTF-IDFしても得点が伸びなかったのでGloVeを拝借しました。これでベクタライズはばっちりだと思います。

kerasのレイヤ多すぎて何がなんだかわからないわね

この辺自在に使えるようになりたいね

train用データから分離させたデータでテスト

77.259 %

と出た。いいんじゃないの。scipyで色々なモデルつかって学習させてみても70%いかなかったのでびっくり。

提出データの正答率

78.732 %

レイヤまわりがまだよくわかってない。日本語だったら分かち書きなんかが必要になってもっと面倒くさそうだなってかんじ。

perarduaadastra