重複行を結合してカンマ区切りデータにした版。
成果物
「読み」と「表記」が1対多
ファイル | 行数 | 「読み」 | 「表記」 |
---|---|---|---|
yk_om_m.tsv | 2106 | 男のみ | 男のみ |
yk_om_f.tsv | 1468 | 女のみ | 女のみ |
yk_om_c.tsv | 380 | 男女共通 | 男女共通 |
yk_om_mc.tsv | 563 | 男のみ | 男女共通 |
yk_om_fc.tsv | 638 | 女のみ | 男女共通 |
yk_om_cm.tsv | 384 | 男女共通 | 男のみ |
yk_om_cf.tsv | 391 | 男女共通 | 女のみ |
「表記」と「読み」が1対多(同じ「表記」に対して「読み」が2つ以上ある場合のみ抽出対象)
ファイル | 行数 | 「読み」 | 「表記」 |
---|---|---|---|
ky_om_m.tsv | 10168 | 男のみ | 男のみ |
ky_om_f.tsv | 7668 | 女のみ | 女のみ |
ky_om_c.tsv | 299 | 男女共通 | 男女共通 |
ky_om_mc.tsv | 469 | 男のみ | 男女共通 |
ky_om_fc.tsv | 553 | 女のみ | 男女共通 |
ky_om_cm.tsv | 811 | 男女共通 | 男のみ |
ky_om_cf.tsv | 1162 | 男女共通 | 女のみ |
所感
前回のTSVを入力ファイルにしてある。実行時間は今回も4時間近くかかった。ファイル容量も行数も減らせた。
対象環境
- Raspbierry pi 4 Model B
- Raspbian buster 10.0 2019-09-26 ※
- bash 5.0.3(1)-release
$ uname -a Linux raspberrypi 4.19.97-v7l+ #1294 SMP Thu Jan 30 13:21:14 GMT 2020 armv7l GNU/Linux