やってみる

アウトプットすべく己を導くためのブログ。その試行錯誤すらたれ流す。

名字のTSVファイルを修正した

 重複排除した。1対多のも作った。

成果物

ファイル 行数 説明
uniq_yk.tsv 47594 「読み」と「表記」が1対1である。
union_yk.tsv 29318 「読み」と「表記」が1対多である。
union_ky.tsv 6388 「表記」と「読み」が1対多である。

経緯

 前回、名字ジェネレータを作った。しかし、精査してみると問題だらけだった。

  • 出力件数に応じた重複排除を実装していなかった
  • そもそもTSVに重複行があった

 というわけで、まずはTSVファイルの重複を排除することにした。ついでに、1対多の形式にしたファイルも作ってみた。

所感

 実行に時間がかかった。全部で1時間。遅すぎる……。シェルの欠点ですわ。while,forのループが遅い。

対象環境

$ uname -a
Linux raspberrypi 4.19.97-v7l+ #1294 SMP Thu Jan 30 13:21:14 GMT 2020 armv7l GNU/Linux