重複排除した。1対多のも作った。
成果物
ファイル | 行数 | 説明 |
---|---|---|
uniq_yk.tsv | 47594 | 「読み」と「表記」が1対1である。 |
union_yk.tsv | 29318 | 「読み」と「表記」が1対多である。 |
union_ky.tsv | 6388 | 「表記」と「読み」が1対多である。 |
経緯
前回、名字ジェネレータを作った。しかし、精査してみると問題だらけだった。
- 出力件数に応じた重複排除を実装していなかった
- そもそもTSVに重複行があった
というわけで、まずはTSVファイルの重複を排除することにした。ついでに、1対多の形式にしたファイルも作ってみた。
所感
実行に時間がかかった。全部で1時間。遅すぎる……。シェルの欠点ですわ。while
,for
のループが遅い。
対象環境
- Raspbierry pi 4 Model B
- Raspbian buster 10.0 2019-09-26 ※
- bash 5.0.3(1)-release
$ uname -a Linux raspberrypi 4.19.97-v7l+ #1294 SMP Thu Jan 30 13:21:14 GMT 2020 armv7l GNU/Linux