Python
まだ取りこぼしが起こりうる。
html.parserはPython製のため遅いらしい。そこでC言語製のlxmlにすると高速だとか。
RSSから30件のニュースを得て本文を抽出するまで10分近くかかった。20秒/1件。遅すぎる。
前回 * bashのブツを合併した。
最新の環境構築が面倒なのでコード書いた。
コンフリクトを変更した。
最高だった。extractcontent3より良さげ。
リポジトリを作り直した。いくつか修正。
RSSの日付データはテキスト。その表現形式はUTC,JSTなどがありうる。これらをすべてYYYY-mm-ddTHH:MM:SSZ形式にしたい。SQLite3DBに登録するために。
外部ライブラリを使わなくてもできる。
私が自分でビルドしたやつは3.29.0なのに。
ターミナルのcdコマンドで移動したものが反映される
DBにまかせてPythonコードを減らす。
ソート済みリストの中から指定した値の位置を探す。高速に。
1キーずつ。ソート順位が低いほうから順に。
Py2, 3対応。改行やタブで作ったツリーテキストとオブジェクトを相互変換する。ノードを取得・編集する多くのメソッドがある。ツリー構造の編集も可。
リリース修飾子のところは差異がある。
配列のインデックス値を除算で求めたらエラー発生した。
前回のpython版。
前回のpython版。
必要そうな項目を網羅。
どこがどれくらい自動化できそうか。
めっちゃ大変やで。
整理した。
PyPIパッケージ名でのトラブルをここに記す。
もうめちゃくちゃ。
古いと問題になることがあるらしいので。
wheelを使うとOS差異によるエラーを減らせるのだとか。
PyPIで配布するための圧縮ファイルなどを作成する。
なにが必要かわからんかったので調べた。