Octparseで春の京都の客室単価をBooking.comからスクレイピングしてみた

突然ですが,スクレイピングとかクローリングという言葉をご存知でしょうか?

いえ,全くもって初耳です

そうですよね。簡単に言うと,WEB上に載ってる膨大なデータを,自動的に読み込んでくる技術のことです。

なるほど。なんか,プログラミングとかする感じのやつですか?

うん,僕もちょっと前までそう思ってて,Excelのマクロを使ったり,Rubyを使ってみたりしてたんだ。でも世の中,日進月歩なわけで,親切な人が便利なソフトを開発してくれて,プログラミング無しでもスクレイピングは可能になったんだよ。

やったらウチでも使えるかも?

そうだね。今日は,宿泊予約サイトBooking.comに掲載されている春休み期間の京都市内宿泊施設を,1月22日時点で検索したときの価格を整理してみました。Octoparseの使い方については,下記の記事を参考にしてください。

集計結果

まずは,日付別に価格帯の分布を単純に整理した結果から。

3月の平均価格は3万円前後やけど,4月に入ったら4万円くらいまで上がってますね!

うん。同じ春休みでも,4月のほうが需要が多いみたいだね。掲載件数も4月に入ってから減ってるから,売り切れになってる所が多いんでしょう。

せやけど,なんで4月のほうが高くなるんですか?

このデータだけではわからないけど,4月のほうが桜を見られる可能性が高いからだろうね。去年は開花時期が遅かったっていうのも影響してるかも。あと,今年のイースター休暇は4/1~4/8だから,キリスト教系の外国人旅行者がたくさん来るっていうのもあるね。

なるほど~,そしたら日本人観光客は,3月中に行ったほうが,ゆっくり桜見れそうですね!

次に,宿泊施設のタイプ別の特徴を比較してみました。タイプの定義は,もともとBooking.comで設定されているものをベースに,ざっと僕の目で確認して修正を加えたものです。旅館業法の登録区分と一致しているわけではないし,必ずしも,Booking.comの分類が正しいわけでもないので,ここはある程度主観的な操作があっても問題ないということでご了承ください。

旅館が一番高いんですね!ホテルが安いのも意外です。

うーん,まぁこれは分類が微妙っていうのもあるかもね。ホテルっていっても,5つ星のホテルもあれば,ビジネスホテルとかもあるから。このあたり,今後目視で修正して精度を高めようと思ってます。

最後に,エリア別の違いを見てみましょう。

伏見稲荷はめちゃくちゃ高いですね。さすが人気エリア。でも,稲荷以外の伏見エリアは逆に安いんですね。大して距離変わらんのに意外です。

そうだね。伏見稲荷から歩いて行ける距離であることに価値があるのかもね。稲荷山を登るのは結構ハードだから宿に荷物を預けてから行くとか,朝早くに人がいないあいだに散歩したいとか。

なるほどー。ここまで細かいデータが取れると,いろんなことが分かりそうですね。

うん,ただ,逆に言うと,こうやって簡単にデータを取得できるようになってきたんだから,データを抱えている業者は,データを隠すよりも積極的に公開して,他社とコラボしていったほうがトータルでは得になる,って考え方に切り替えて欲しいなぁって思います。

オープンイノベーションってやつですね!。

そのとおり!では,今日はこのくらいにしておきましょう。