こんにちは!!ようこそ、当ブログgcbgardenへ。管理人のsakurabaaa(@sakurabaaa_g)です。
センター英語の単語頻出度合いを調べるツールをつくろうとしたんですが作るよりいろいろネットサーフィンをしていたらとっても便利なツールに出会ったので、忘れないようにメモとして残しておきます。
テキストマイニングツール
ぼくが出会ったとっても便利なツールはユーザーローカルさんが提供しているテキストマイニングツールです。
できることとしては、
- 単語の頻出数
- スコア※1
- 共起ネットワーク※2
- ワードクラウド※3
- ※1,単語ごとに表示されている「スコア」の大きさは、与えられた文書の中でその単語がどれだけ特徴的であるかを表しています。通常はその単語の出現回数が多いほどスコアが高くなりますが、「言う」や「思う」など、どのような種類の文書にも現れやすいような単語についてはスコアが低めになります。
- ※2,文章中に出現する単語の出現パターンが似たものを線で結んだ図。出現数が多い語ほど大きく、また共起の程度が強いほど太い線で描画されます。
- ※3,スコアが高い単語を複数選び出し、その値に応じた大きさで図示しています。色が品詞に対応しています。
このようなことを調べることができます!!
サンプルで太宰治さんの『走れメロス』をテキストマイニングツールを使った場合はこのような感じになります。
おおお、なんかすごいぞ!!
このように解析したい文字列を入力するだけで決まったルールのもと、とっても便利なアウトプット成果を得ることができます!!
いろいろなデータを活用してみたいです。
LINKテキストマイニングツール
この記事を書いた人。
20代。とあるネットベンチャーでがんばる働き屋さん、ブロガー。
書きたいことを気ままに書いてます!
Python、プログラミング、米株、カメラ、野球観戦がすき。趣味は新宿散策。