形だけ。

成果物

前回まで

実行ファイルパスの取得が冗長かつ暗号的 os.path.abspath(os.path.dirname(__file__))
パス結合APIのために結局文字列操作を要する。APIの存在意義…
- http://qiita.com/FGtatsuro/items/1ab9ebf6505bef1834f8
- こういう細かいパス文字列の違いをうまいことやってくれるからパスAPIを使うと思うのだが…

/whatsnews/3.6.hmltの3.6もディレクトリにする
- 葉ノードでない場合で.htmlファイルにリンクがある場合、そのファイル名をディレクトリにする。
  - index.htmlはそのディレクトリ名をディレクトリにする
- リンクが見出し(https://docs.python.jp/3/whatsnew/3.6.html#pep-498-formatted-string-literals)#pep-498-formatted-string-literalsの場合、見出しをディレクトリにする

見出しディレクトリ配下をどのような構成にするか。

課題はPythonドキュメントの細分化なので木構造にできるかもしれない。部分集合として綺麗に分けることができるかもしれない。

しかし、疑問については木構造化が難しいと思われる。事前に全体像がわかっているなら可能だが、それなら疑問自体生じない。わからない上でインデックス化するなら時系列リストが妥当か。

以前の集計では葉ノード数は2938件だった。節ノード数をあわせるともっと多いはず。ファイラによると3622個件のアイテムがあるらしい。

学習する見出しが2938件、グループは684件(= 3622 - 2938)。見出しから1コードに落とし込める単位として「課題」にする予定。すべての見出しに対して課題を作ると2938件以上になる。

f:id:ytyaru:20170516113843p:plain f:id:ytyaru:20170516113847p:plain

さすがに手動では多すぎるのでできてよかった。ざっくり規模を定量化してみたが多すぎて無謀。自動化、優先順位、絞り込みが必要か。