前回のつづき。pythonでのWebスクレイピングについて調べてみる。
調べてみた
python スクレイピングで検索。
Scrapy + Scrapy Cloudで快適Pythonクロール+スクレイピングライフを送る - Gunosyデータ分析ブログ
BeautifulSoup、Mechanizeでおいしくデータをすする -- PythonによるWebスクレイピング - 蟲!虫!蟲! - #!/usr/bin/bugrammer
Python による Web スクレイピング - RAMBO
想像を絶する面倒くささが待っている気がする。
面倒くさそうなこと
- HTTPリクエスト
- ログイン
- Cookie
- 認証
- DOM取得
- Formとinputの取得
- HTTPリクエスト作成
ライブラリを使えば簡単、とはいかないと思う。その仕組みから学習しないと。
そのほかにも。
- User-Agentによる応答差異
- サーバ負荷対策
- HTTP通信エラー時の対応
- ページ変更されたときの対応
変更される可能性もあるからいずれ動かなくなるかもしれない。そんなものに力を割くべきか。ブログ作成を少しでも楽にしたいという本質とまったく違うところで苦労させられる気がする。
所感
あまりにも学習項目が多すぎる。「とりあえず動かす」までが遠そう。これならAPIでできる範囲をやるほうがよさそう。
もしくは、静的サイトやMarkdownを作成するテンプレートでも作ったほうがよさそう。