キャンプ場レビューからWordCloudを生成

趣味のキャンプに役立つ何かをということで キャンプ場のレビューコメントからWordCloudを生成するというのをやってみました。

やったこと

  1. キャンプ場のレビューを集める
  2. MeCabで単語に分割する
  3. WordCloudを生成する

キャンプ場のレビューを集める

なっぷ というキャンプ場検索・予約サイトのレビューページをスクレイピングしました。 www.nap-camp.com

なっぷ自体は使ってませんがなっぷの運営会社のスペースキーさんが運営しているキャンプ情報サイト、CAMP HACK はよく利用させてもらっています m( )m

スクレイピングPythonでお馴染みのBeautifulSoupを使います。

特に工夫はなくページのhtmlをインスペクタで調べながらゴリゴリ抽出していきます。

MeCabで単語に分割する

辞書はNEologdを使いました。 github.com

MeCab関連でハマった箇所が以下。 2行目の tagger.parse('') がないと UnicodeDecodeError: 'utf-8' codec can't decode byte 0x90 in position 0: invalid start byte というエラーが出てしまいました..

tagger = MeCab.Tagger('-Ochasen')
tagger.parse('')  # https://teratail.com/questions/88592
node = tagger.parseToNode(text)

WordCloudを生成する

よくお世話になっている西丹沢のバウアーハウスジャパンと そのお隣のウェルキャンプ西丹沢のWordCloudを生成し、比べてみます。

WordCloudは以下のライブラリを使って作ります。 github.com

pipでインストールでき、使い方も簡単です。

生成画像

バウアーハウスジャパン

f:id:sanshonoki:20180928225102p:plain

行ったことある人しか分からないかもしれなけど、

一言で言えば、「分かる」

ウェルキャンプ西丹沢

f:id:sanshonoki:20180928225126p:plain

こちらはやや残念な感じになってしまいました。。 隣接しているので雰囲気はなんとなく分かるのですが私の想像以上に満足度は低いようです.. 「狭い」印象は確かにあります

どちらも 「トイレ」の文字が大きく表示されており、キャンプ場の評価として大きなウェイトをもつということなのでしょう。

何だかキャンプ場の雰囲気はいくらか汲み取れてそうです。 思ったより面白かったので関心のある他のキャンプ場でもやってみようと思います。

今回使ったコードはこちらです。 github.com