やってみる

アウトプットすべく己を導くためのブログ。その試行錯誤すらたれ流す。

日本人の名前TSVファイルを作る2

 重複行を結合してカンマ区切りデータにした版。

成果物

「読み」と「表記」が1対多

ファイル 行数 「読み」 「表記」
yk_om_m.tsv 2106 男のみ 男のみ
yk_om_f.tsv 1468 女のみ 女のみ
yk_om_c.tsv 380 男女共通 男女共通
yk_om_mc.tsv 563 男のみ 男女共通
yk_om_fc.tsv 638 女のみ 男女共通
yk_om_cm.tsv 384 男女共通 男のみ
yk_om_cf.tsv 391 男女共通 女のみ

「表記」と「読み」が1対多(同じ「表記」に対して「読み」が2つ以上ある場合のみ抽出対象)

ファイル 行数 「読み」 「表記」
ky_om_m.tsv 10168 男のみ 男のみ
ky_om_f.tsv 7668 女のみ 女のみ
ky_om_c.tsv 299 男女共通 男女共通
ky_om_mc.tsv 469 男のみ 男女共通
ky_om_fc.tsv 553 女のみ 男女共通
ky_om_cm.tsv 811 男女共通 男のみ
ky_om_cf.tsv 1162 男女共通 女のみ

所感

 前回のTSVを入力ファイルにしてある。実行時間は今回も4時間近くかかった。ファイル容量も行数も減らせた。

対象環境

$ uname -a
Linux raspberrypi 4.19.97-v7l+ #1294 SMP Thu Jan 30 13:21:14 GMT 2020 armv7l GNU/Linux