機械学習セミナー参加記録(某有名企業主催)

プレゼンテーションとポスターセッションがあった。

(一つ目) 発表者:大学の先生

出力種類が複数あるタスクの効率的な学習の進め方に関する研究。

重み付きヘテロジニアスマルチタスクラーニングという手法を提案。
Task-wise early stopping:条件を満たしたタスクの学習を停止
例えば目・鼻・口を検出する教師あり学習をする場合に、目の検出精度が高くなったが、鼻・口の精度が高まらないときに、目のネットワークの学習率を落とし(止めて)、鼻・口の学習を重点的にさせると言った工夫を行う。
またGAN+属性推定(男・女、笑っている、メガネかけているなど)を別の入力して投入するマルチタスクで、 生成する画像の特定の属性を操作することができるようになる。
例:男かつ笑っていない生成画像と笑っている生成画像をパラメータを一ついじり変化させることができる

参考論文:
http://personal.ie.cuhk.edu.hk/~ccloy/files/eccv_2014_deepfacealign.pdf
DSSD:複数の層から予測を行うマルチタスクな物体検出
https://arxiv.org/pdf/1701.06659.pdf

(二つ目)発表者:主催企業の従業員

アノテーション作業の負担軽減に関する研究

1、RNNを使ってアノテーションを半自動化する手法
矩形で物体を囲むとその物体の詳細な境界を自動で表示してくれる。しかも点群で囲まれるので、アノテーションが間違っている場合、手動でその点を動かしてより良いアノテーションに修正することができる。またアノテーターが複数人いる場合に必ず発生してしまう囲み具合の個人差を少なくすると言った作業平準化にも役立つ可能性あり。
->データの質向上にも
参考論文:
https://arxiv.org/pdf/1704.05548.pdf

2、様々センサーを組み合わせて教師データを自動作成する。 (センサー間の情報統合作業、すなわちキャリブレーションが難しいらしい)
参考論文:
https://arxiv.org/pdf/1610.01238.pdf
https://pdfs.semanticscholar.org/ed15/5d1a146e0cba6be98fd7128461439f88732a.pdf https://pdfs.semanticscholar.org/1f97/022c8c826c1eb51de9e810d3dd07620fc902.pdf

コメント:金ないとできない…

3、CGによる学習データ自動生成
UnityやUnrealEngineで教師データを作成する手法に関する研究。自動車に関しては、イノシシが飛び出してきた場合の検出や、人が飛び出してきた場合の検出等、実物ではなかなか実現できないシチュエーションを簡単に作成できるメリットがある。ただし、CGのクオリティによって作成された教師データの質が変化する模様。
参考論文:
http://refbase.cvc.uab.es/files/RSM2016.pdf
https://arxiv.org/pdf/1612.02401.pdf

4、GANで教師データを作成する方法
あまりよくわからなかったが、車をアノテーションする場合に、車の画像をGANで生成し、アノテーションに使う(セグメンテーションされた画像もペアとしてGANで生成?)
参考論文:
GANをSemantic segmentationに応用した方法:
https://arxiv.org/pdf/1703.09695.pdf
視線検出タスクにGANとCGを組み合わせた方法:
https://arxiv.org/pdf/1612.07828.pdf

ポスターセッション(内容のみ)

  • 半導体をAIで生成 (専門外でよくわからなかった)
  • 強化学習の事例紹介(印象に残ったのは多関節ロボットに強化学習でフリースローを学習させるというもの。何百回かトレーニングして、フリースロー成功率を100%にしたらしい)
  • seq2seqの出力を変えて、seq2move?のようなものを作成したというもの。(移動指示を文で入れるとロボットの動き(関節移動角など)が出力されるというもの)
  • AIの品質・法的責任?(専門外でよくわからなかった)

総評

主催企業のリクルーティング目的のセミナーだと思っていたが、発表の質は高い・無料・食事だったのでかなり有意義であった。 アノテーションを自動化するツールは試してみたい。フリースローの実演を見て見たい。