やってみる

アウトプットすべく己を導くためのブログ。その試行錯誤すらたれ流す。

2021-10-01から1ヶ月間の記事一覧

Pythonニュース取得が遅いので、BeautifulSoup4のHTMLパーサをlxmlに変更した

html.parserはPython製のため遅いらしい。そこでC言語製のlxmlにすると高速だとか。

Pythonニュース取得が遅いので、重複時はHTML取得しないようにした

RSSから30件のニュースを得て本文を抽出するまで10分近くかかった。20秒/1件。遅すぎる。

Pythonでフィードから得た日時テキストをUTC形式に変換してSQLite3DBへ挿入する

前回 * bashのブツを合併した。

Pythonでフィード(RSS/Atom/RDF)から取得された日時テキストをdatetime型に変換する

最新の環境構築が面倒なのでコード書いた。

Pythonでニュース取得してSQLite3DBに登録する(一意制約エラー時)

コンフリクトを変更した。

RSSリーダInoreaderを使ってみる

Webサービス。

HTMLの本文抽出(readability-lxml)

最高だった。extractcontent3より良さげ。

いつか読みたい本:嫌われる勇気

今週のお題「読書の秋」に答える

PythonでRSSからニュースを取得しSQLite3DBに保存する

リポジトリを作り直した。いくつか修正。

Pythonのfeedparserで取得したRSS/Atomの日付をUTCにしたいが、死ぬほど大変そう

RSSの日付データはテキスト。その表現形式はUTC,JSTなどがありうる。これらをすべてYYYY-mm-ddTHH:MM:SSZ形式にしたい。SQLite3DBに登録するために。

RSSやAtomにおける日付フォーマット

違う。共通でない。

はてなブログの目次記法とid記法

え、こんなのあったんだ。知らんかった。

RaspberryPiでWiFiネットワークのパスワードを表示する方法

はてなのワクチン情報統制? 正しい情報とは一体

急に「はてなブログでは標準的な医療情報と異なる見解が含まれたブログに警告を掲載することがあります」と言い出した。怖いので少し調べてみた。

列名でアクセスする(sqlite3.Row)

外部ライブラリを使わなくてもできる。

お題「私が◯◯にハマる10の理由」

はてなブログ10周年特別お題「私が◯◯にハマる10の理由」に答える。

Python3.5.3におけるSQLite3のバージョンは3.16.2だった

私が自分でビルドしたやつは3.29.0なのに。

お題「はてなブロガーに10の質問」+1

はてなブログ10周年特別お題「はてなブロガーに10の質問」に答える。

Pythonでカレントディレクトリを取得する os.getcwd()

ターミナルのcdコマンドで移動したものが反映される

好きなプログラミング言語10選

好きなプログラミング言語10選 はてなブログ10周年特別お題「好きな◯◯10選」に答える。

PythonでRSSからHTMLの本文を抽出してSQLite3に挿入する(未登録のみ。UNIQUE制約でチェック)

DBにまかせてPythonコードを減らす。

10年で変わった・変わらなかったこと:貧困化・復興せず

はてなブログ10周年特別お題「10年で変わったこと・変わらなかったこと」に答える。

SQLite3 公開日時とURLで一意チェックする(表制約)

表制約で複数列の一意チェックをする

PythonでRSSからHTMLの本文を抽出してSQLite3に挿入する(未登録のみ挿入する)

RSSデータがDB最新より新しいかチェックする。

Pythonで二分探索する

ソート済みリストの中から指定した値の位置を探す。高速に。

お風呂での過ごし方:アカ飛ばし

今週のお題「お風呂での過ごし方」に答える。

Pythonでソート(複数キーでdescとasc混在)

1キーずつ。ソート順位が低いほうから順に。

PythonでRSSからHTMLの本文を抽出してSQLite3に挿入する(重複してしまう版)

本文抽出がうまくいかないだろうから、1件だけ登録する。

PythonでのWebスクレイピング環境構築(chromium-driver,selenium,beautifulsoup4)

あっさりできた。

PythonでRSSを取得する(feedparser)

ためしにやってみた。