azusatokohaの日記

人生ラバーダッキング会場

GenderEstimate

この前Twitterでチラッと見かけたんだけれども(どういう経緯だったかは忘れた)、人名から性別を推定するGender Estinameっていうエクセルマクロを見かけた。控えめに言って頭おかしい・・・(畏怖)

れどめにもある通り、「100%の判定精度」は端から求めていないのだろうけれども、93%のマッチ率と99%の正解率があるらしい。

100%を求めないならば「恐らくできるだろう」という感覚はわかるし、実際にわれわれは人名から性別を推測するという事を無意識的に行っているので、それを機械的に行おうという発想は「当たり」だったわけだけれども、これだけ詰めるのにどれだけかかったんだ?

おそらく作業としては単純で、いくつかの検知パターンを設定した後、実際に特定の学習用名簿データを振り分けてみて、「足せる」検知パターンをどんどん足して行ったんだろうな。

で、こういう振り分けであれば、DeepLearning的に教師あり学習データをガンガン食べさせていって…というアプローチもできるわけで、個人的にはそっちのほうが「技術での解決」という意味で正解なんじゃないか?と思ってしまうけど、おそらくそれは現実的に適用できない。

手に入る学習データは限りがあるし、少数の学習データに過適合しないように適度に検知パターンを詰めていくなら、まだまだ「人の目」に勝るツールは無いんだろうな。

きちんとチューニングするために、「事前のチューニング」が為されたデータと、決して軽くない動作環境を要する以上、まだまだコストがかかる「本当の機械処理」と、心理的なコスト見積を比較した時、人の目はまだまだ強いのかもしれない。