やってみる

アウトプットすべく己を導くためのブログ。その試行錯誤すらたれ流す。

Webスクレイピング

はてなフォトライフの全画像を自動取得したいができなかった(reCAPTCHA)

原因はreCAPTUCHA。こいつのせいでログインできず公開範囲が「自分のみ」のフォルダにある画像一覧をRSSから取得できない。

PythonでRSSからHTMLの本文を抽出してSQLite3に挿入する(未登録のみ挿入する)

RSSデータがDB最新より新しいかチェックする。

PythonでRSSからHTMLの本文を抽出してSQLite3に挿入する(重複してしまう版)

本文抽出がうまくいかないだろうから、1件だけ登録する。

PythonでのWebスクレイピング環境構築(chromium-driver,selenium,beautifulsoup4)

あっさりできた。

PythonでRSSを取得する(feedparser)

ためしにやってみた。

ニュースサイトを探す

これが結構大変だった。

ニュース用Webクローラ&抽出したかったがインストールできずエラー(news-please )

これだからPythonは嫌い。

NewsApiのURLから本文を抽出してSQLite3に挿入する

本文はHTMLでなくプレーンテキスト。だが、スクレイピングに大問題。

HTMLから本文を抽出してフォーマットする(改行+全角スペース)

<p>の先頭に全角スペースを、</p>の末尾に改行2つを挿入する。

HTMLから本文テキストだけを抽出したい(python-extractcontent)

Webスクレイピングの一種。