やってみる

アウトプットすべく己を導くためのブログ。その試行錯誤すらたれ流す。

Webサイトを丸ごとダウンロードしたいときはwgetコマンドを使う

忘れぬようメモ。

開発環境

wget

あるサイト内の全ページを取得するコマンド。

wget -r -l inf -p -k -w 1 --restrict-file-names=nocontrol http://プログラマが知るべき97のこと.com/
引数 意味
-r ディレクトリを再帰的に捜査し取得する。
-l inf ディレクトリの階層を無限にする。デフォルトは5階層までらしい。
-p 画像、CSSJavaScriptなどもダウンロードする。
-k リンクの参照を絶対パスでなく相対パスにする。(ダウンロード後ローカルで参照可能にする)
-w 1 1回アクセスするのに1秒間のウェイトを置く。サーバ負荷対策。
--restrict-file-names=nocontrol 文字化け対策。

wget コマンド | コマンドの使い方(Linux) | hydroculのメモ

所感

この方法でPythonドキュメントも入手した。