Webスクレイピング
原因はreCAPTUCHA。こいつのせいでログインできず公開範囲が「自分のみ」のフォルダにある画像一覧をRSSから取得できない。
RSSデータがDB最新より新しいかチェックする。
本文抽出がうまくいかないだろうから、1件だけ登録する。
あっさりできた。
ためしにやってみた。
これが結構大変だった。
これだからPythonは嫌い。
本文はHTMLでなくプレーンテキスト。だが、スクレイピングに大問題。
<p>の先頭に全角スペースを、</p>の末尾に改行2つを挿入する。
Webスクレイピングの一種。