やってみる

アウトプットすべく己を導くためのブログ。その試行錯誤すらたれ流す。

GitHubサイトからWebスクレイピングしてAPI仕様を抜き出すにはどうすればいいか考える

できれば自動化したいが。

抜き出す項目

https://developer.github.com/v3/

  • 右側のメニューからAPIページのURLを抜き出す
    • API仕様書でないページも紛れ込んでいる。どうやって選別するか。
    • APIページから各APIの見出しを抜き出す

抜き出す項目

APIページの見出しからそのAPIの詳細な情報を抜き出す。

  • Request
    • Endpoint
    • HttpMethod
    • DocumentUrl
    • 見出し

APIと各情報の紐付けが難しそう。

難しそうor無理と思われる項目

  • Request
    • AuthMethods(認証方法(Basic,Token,2FA,OAuth?,SCMI?))
    • Scope
    • Accept
    • Parameter
      • 引数名
      • 説明文
        • 制約
  • Response
    • Link(ページネーション有無)

自然言語の解読など、マシンリーダブルになっていないから難しい。

所感

Endpointの網羅くらいしかできなさそう。スクレイピングできたとしても、あくまでDB作成のうちEndpointを穴埋めする程度か。ほかの必要なデータを埋めるにはサイト目視&手入力でDB挿入になりそう…。