オープンワールド画像認識

画像認識をはじめとする機械学習ベースのAIシステムでは、どのようにして新しい物事を教えていくかが鍵になります。基盤モデルの発展により、現在のAIはWeb上のデータがカバーする幅広い知識を得ることが可能となりましたが、実世界はWebとは異なります。オープンな世界では常に未知の事象が起こるわけですから、これらに柔軟に対応し、自律的に知識獲得をしていける必要があります。

研究室では、マルチモーダル情報を活用した転移学習や、物体発見などを重要な技術と考えて開発しています。この時、単にアプリケーションとして実世界システムへ実装するだけでなく、実世界から得られる情報を積極的に活用しループを回すことが重要であると考えています。

プロジェクトページトップへ戻る

オープンセット継続学習

基本的な機械学習では、訓練データに含まれない未知の事象がテスト時に発生すること(これをオープンセットと呼びます)は想定されていませんが、現実の世界ではそのような状況がしばしば起こりえます。オープンセットでは、既知の事象の認識精度は維持しながら、未知の事象を正しく未知だと判断できなければいけませんが、これらは背反する要求であるため両立させるのは非常に困難です。 また、未知事象を発見したあとには、これを新たに学習し、知識をダイナミックに追加していく継続学習も重要です。これらに加え、後述するドメイン適応などの問題を、個別ではなく総合的に考えることが実世界システムにおいて重要であると考え、そのための手法やデータセットを開発しています。


  • Katsumata et al., “OSSGAN: Open-Set Semi-Supervised Image Generation”, IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.11175-11183, 2022. pdf
  • Kishida et al., "Object Recognition with Continual Open Set Domain Adaptation for Home Robot", IEEE Winter Conference on Applications of Computer Vision (WACV), pp.1517-1526, 2021. pdf

ドメイン適応・一般化

優れた認識システムを構築するためには、システムを訓練するためのデータセットが重要となりますが、一般にデータセットの作成は非常に高コストです。 このため、既に存在する大規模データセットでシステムを訓練することが考えらえますが、現実的には訓練時のデータとテスト時のデータの分布にずれ(これをドメインギャップと呼びます)が発生するため、そのままでは良い認識精度は得られません。例えば、Web上からマイニングされる画像知識を実世界アプリケーションへ転用するアプローチは古くから研究されていますが、Web上の商品画像と現実世界でロボットが目にする画像は大きく見た目が異なることから、そのままでは認識は容易ではないことが想像できるでしょう。
研究室では、そのようなドメインギャップを乗り越えるためのドメイン適応・ドメイン一般化といった技術の研究を行っています。この時、画像のみならず複数のモダリティを活用することで、より効率的な知識転移を行うことが可能であると考えています。


  • Katsumata et al., "Open-Set Domain Generalization via Metric Learning", IEEE International Conference on Image Processing (ICIP), pp.459-463, 2021.
  • Masaya Okamoto, Hideki Nakayama, "Unsupervised visual domain adaptation using auxiliary information in target domain", In Proceedings of IEEE International Symposium on Multimedia (ISM), 2014. pdf

ゼロショット・少ショット認識

機械学習ではデータを増やせば増やすほど性能が上がることはよく知られていますが、人はニューラルネットワークのように何百何千と画像を見ることなく、ごく少数の事例からでもしっかりと新しい物事を学ぶことができます。少ないデータから優れた汎化性能を実現することは、機械学習の大きな夢の一つであると言ってよいでしょう。 研究室では、メタ学習や大規模言語モデルのin-context learningに注目し、少ショット学習の手法開発を行っています。さらに、外部の知識グラフを接続することで、一切訓練データを与えていない未知事象についても認識を可能とするゼロショット認識についても成果を挙げています。


  • KuanChao Chu and Hideki Nakayama, "Two-Path Object Knowledge Injection For Detecting Novel Objects With Single-Stage Dense Detector", IEICE Transactions on Information and Systems, 2023. (in press)
  • Vo et al., "NOC-REK: Novel Object Captioning with Retrieved Vocabulary from External Knowledge", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.17979-17987, 2022. pdf
  • Taiga Kashima, Kento Masui, and Hideki Nakayama, "Unsupervised Visual Relationship Inference", IEEE International Conference on Image Processing (ICIP), pp.1476-1480, 2020.
  • Takumi Ohkuma and Hideki Nakayama, "Efficient Base Class Selection Algorithms for Few-shot Classification", Proceedings of the ACM International Conference on Multimedia Retrieval (ICMR), pp.271-275, 2020. pdf

Cosegmentationによる物体発見

Cosegmentationは入力として与えられた複数の画像から、共通する物体の領域を抽出するタスクです。コンピュータビジョン分野では、インターネット上の画像や実世界でロボット等が観測する画像から、自動的に新しい物体を発見し画像認識のための知識ベースを構築する研究が古くから行われています。しかし、実際の画像の多くは雑多な背景を含んでおり、知識ベースを構築する上でのノイズとなってしまいます。Cosegmentationはそれらのノイズを除去するための手法として注目されています。 研究室では、深層学習やグラフマッチングに基づくcosegmentation手法の開発に取り組んでいます。


  • Hong Chen, Yifei Huang, Hideki Nakayama, "Semantic Aware Attention Based Deep Object Co-segmentation", In Proceedings of ACCV, pp.435-450, 2018. pdf
  • Takanori Tamanaha, Hideki Nakayama, "Unsupervised Cosegmentation Based on Global Graph Matching", In Proceedings of ACM International Conference on Multimedia, 2015. pdf

ノイズに頑健な認識

実世界の画像認識システムでは、訓練時に想定していないノイズが運用時に観測されることがあります。例えば、悪天候により雨や霧が映り込んだり、光の加減により画像が白飛びしたりといった現象が想像できるでしょう。あらかじめ予期できるものについては訓練データに含めることができますが、このような異常な状況を事前に全て網羅することは困難であると言えるでしょう。
このため我々は、ノイズの性質に一切の仮定を置かず、画像認識システムのテスト時におけるノイズ耐性を高めるための手法開発を行っております。鍵となる考え方は入力や特徴表現の量子化であり、画像の本質的な情報を出来るだけ残しながら外乱の影響を吸収することで、予期しないノイズについても頑健な認識が可能となります。


  • Ikki Kishida and Hideki Nakayama, "Pixel to Binary Embedding Towards Robustness for CNNs", International Conference on Pattern Recognition (ICPR), 2022. pdf
  • Ryuichiro Hataya and Hideki Nakayama, "DJMix: Unsupervised Task-agnostic Image Augmentation for Improving Robustness of Convolutional Neural Networks", International Joint Conference on Neural Networks (IJCNN), 2022.

プロジェクトページトップへ戻る