趣味のキャンプに役立つ何かをということで キャンプ場のレビューコメントからWordCloudを生成するというのをやってみました。
やったこと
- キャンプ場のレビューを集める
- MeCabで単語に分割する
- WordCloudを生成する
キャンプ場のレビューを集める
なっぷ というキャンプ場検索・予約サイトのレビューページをスクレイピングしました。 www.nap-camp.com
なっぷ自体は使ってませんがなっぷの運営会社のスペースキーさんが運営しているキャンプ情報サイト、CAMP HACK はよく利用させてもらっています m( )m
スクレイピングはPythonでお馴染みのBeautifulSoupを使います。
特に工夫はなくページのhtmlをインスペクタで調べながらゴリゴリ抽出していきます。
MeCabで単語に分割する
辞書はNEologdを使いました。 github.com
MeCab関連でハマった箇所が以下。
2行目の tagger.parse('') がないと
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x90 in position 0: invalid start byte
というエラーが出てしまいました..
tagger = MeCab.Tagger('-Ochasen') tagger.parse('') # https://teratail.com/questions/88592 node = tagger.parseToNode(text)
WordCloudを生成する
よくお世話になっている西丹沢のバウアーハウスジャパンと そのお隣のウェルキャンプ西丹沢のWordCloudを生成し、比べてみます。
WordCloudは以下のライブラリを使って作ります。 github.com
pipでインストールでき、使い方も簡単です。
生成画像
バウアーハウスジャパン
行ったことある人しか分からないかもしれなけど、
一言で言えば、「分かる」
ウェルキャンプ西丹沢
こちらはやや残念な感じになってしまいました。。 隣接しているので雰囲気はなんとなく分かるのですが私の想像以上に満足度は低いようです.. 「狭い」印象は確かにあります
どちらも 「トイレ」の文字が大きく表示されており、キャンプ場の評価として大きなウェイトをもつということなのでしょう。
何だかキャンプ場の雰囲気はいくらか汲み取れてそうです。 思ったより面白かったので関心のある他のキャンプ場でもやってみようと思います。
今回使ったコードはこちらです。 github.com