やってみる

アウトプットすべく己を導くためのブログ。その試行錯誤すらたれ流す。

2021-10-01から1ヶ月間の記事一覧

ニュースサイトを探す

これが結構大変だった。

新聞の読み方

テキストが主な内容のWebサイトでも使えるか。

ニュース用Webクローラ&抽出したかったがインストールできずエラー(news-please )

これだからPythonは嫌い。

NewsApiのURLから本文を抽出してSQLite3に挿入する

本文はHTMLでなくプレーンテキスト。だが、スクレイピングに大問題。

HTMLから本文を抽出してフォーマットする(改行+全角スペース)

<p>の先頭に全角スペースを、</p>の末尾に改行2つを挿入する。

今月の目標:今週のお題で記事を書く

今週のお題「今月の目標」に答える。

HTML文書におけるルビの振り方について考える(<ruby><rp><rt>)

前回、HTMLをテキスト化するときルビの表示がいくつかのパターンに分かれた。では、どう書くべきか? 気になったので考えてみた。

HTMLから本文テキストだけを抽出したい(python-extractcontent)

Webスクレイピングの一種。

NewsApiのJSONからSQLite3DBファイルへ挿入する(未登録のみ)

DB内にある最新より新しいニュースだけを取り込む。

眠れないときにすること:①耳鳴り音に集中する ②むずかしい哲学書を読む

今週のお題「眠れないときにすること」

SQLite3に登録済みのNewsApiデータから最新を取得する

重複しないための手順1。