画像の認識理解

プロジェクトページトップへ戻る

一般物体認識

画像から多種多様な物体やイベントを認識し、言語で記述する能力(一般物体認識)の実現は、古くから人工知能の大きな目標の一つでした。 研究室では深層学習の登場以前から画像認識への取り組みを続けており、物体認識・物体検出・画像キャプショニングなどを得意領域としています。 特に最近では、訓練時とテスト時のデータ分布のずれに起因する問題(未知物体の認識、ドメイン適応など)を実用上重要と捉え、力を入れて研究しています。(オープンワールド画像認識を参照)


  • Vo et al., "A-CAP: Anticipation Captioning with Commonsense Knowledge", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.10824-10833, 2023. pdf
  • Vo et al., "NOC-REK: Novel Object Captioning with Retrieved Vocabulary from External Knowledge", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.17979-17987, 2022. pdf
  • Natsuda et al., "Generating Video Description using Sequence-to-sequence Model with Temporal Attention", International Conference on Computational Linguistics (COLING), 2016. pdf
  • Hideki Nakayama, "Augmenting descriptors for fine-grained visual categorization using polynomial embedding", IEEE International Conference on Multimedia & Expo (ICME), 2013. pdf
  • Hideki Nakayama, Tatsuya Harada, and Yasuo Kuniyoshi,"Global Gaussian Approach for Scene Categorization Using Information Geometry", In Proceedings of IEEE Computer Vision and Pattern Recognition (CVPR), 2010. pdf

物体関連性認識・シーングラフ生成

画像認識におけるシーングラフとは、個々の物体のラベルだけでなく、物体の属性や複数物体の関係性などさまざまな情報をグラフ形式で表した表現です。シーングラフの抽出を自動で行うことができれば、画像のより深い理解や説明性の向上へつながると同時に、自然言語処理やロボットなど他のシステムへ接続するインタフェースとしての活用も期待できます。


  • Taiga Kashima, Kento Masui, and Hideki Nakayama, "Unsupervised Visual Relationship Inference", IEEE International Conference on Image Processing (ICIP), pp.1476-1480, 2020.
  • Kento Masui, Akiyoshi Ochiai, Shintaro Yoshizawa and Hideki Nakayama, "Recurrent Visual Relationship Recognition with Triplet Unit", IEEE International Symposium on Multimedia (ISM), 2017. pdf

医用画像認識

医療は画像認識の重要な応用領域ですが、データのプライバシーやアノテーションコストの高さなどから、十分な量の訓練画像が必ずしも得られないことが問題になります。我々は、複数の拠点から得られるマルチドメインのデータセットを活用する認識手法や、GANを用いたデータ拡張により認識精度を向上する手法など、さまざまな側面から医用画像認識の研究を行っています。


  • Changhee Han et al., "MADGAN: unsupervised Medical Anomaly Detection GAN using multiple adjacent brain MRI slice reconstruction", BMC Bioinformatics, Vol.22, No.31, 2021. pdf
  • Changhee Han et al., "Learning More with Less: Conditional PGGAN-based Data Augmentation for Brain Metastases Detection Using Highly-Rough Annotation on MR Images", In Proceedings of the 28th ACM International Conference on Information and Knowledge Management (CIKM), 2019. pdf
  • Changhee Han et al., "Synthesizing Diverse Lung Nodules Wherever Massively: 3D Multi-Conditional GAN-based CT Image Augmentation for Object Detection", In Proceedings of the International Conference on 3D Vision (3DV), 2019. pdf
  • Leonardo Rundo, Changhee Han et al., "USE-Net: incorporating Squeeze-and-Excitation blocks into U-Net for prostate zonal segmentation of multi-institutional MRI datasets", Neurocomputing, Volume 365, Pages 31-43, 2019. pdf

自然画像内多言語テキスト認識

文字・テキストの認識は古くから取り組まれてきたタスクですが、例えば漢字圏の言語では文字の種類(クラス数)が非常に多く、類似している文字も多いように、正確な認識は容易ではありません。特に、一般的な風景画像の中の、任意の言語や字体のテキストを正確に認識することは依然として困難であるといえます。我々は、自然画像中のテキストの表記体系や文字認識の精度向上を目指した手法開発を行っており、特に画像生成を用いたデータ拡張で興味深い結果を得ています。


  • Jan Zdenek and Hideki Nakayama, "JokerGAN: Memory-Efficient Model for Handwritten Text Generation with Text Line Awareness", In Proceedings of the 29th ACM International Conference on Multimedia (ACMMM), pp.5655-5663, 2021. pdf
  • Jan Zdenek, Hideki Nakayama, "Bag of Local Convolutional Triplets for Script Identification in Scene Text", International Conference on Document Analysis and Recognition (ICDAR), 2017.
  • ズデニェク ヤン, 中山 英樹, "Script Identification using Bag-of-Words with Entropy-weighted Patches", 人工知能学会全国大会, 2017.
    (全国大会学生奨励賞) pdf

畳み込みニューラルネットワークの構成法と初期化法

画像認識分野で標準的に用いられる深層学習モデルの一つである畳み込みニューラルネットワーク(CNN)の性能向上や高速化のための基礎的な研究も行っています。具体例として、CNNの畳み込み層を一層ごとに基本的な多変量解析手法の解析解を用いて識別的にpre-trainingし、高速かつ決定的にネットワークを学習する手法を考案しました。

別のアプローチとして、周波数領域を用いた畳み込み演算の研究も行っています。畳み込みニューラルネットワークの肝である畳み込み演算は、周波数領域では単純な要素積として計算できるため、元の空間領域における畳み込みよりも高速に計算できることが知られています。我々は、離散コサイン変換(DCT)を用いたCNNの実装方法を開発しています。DCTは実数領域のみで計算可能であり、DFTに基づく実装よりも少ない計算量で畳み込み演算が実現できます。


  • Yuhao Xu and Hideki Nakayama, "DCT-based Fast Spectral Convolution for Deep Convolutional Neural Networks", In Proceedings of the International Joint Conference on Neural Networks (IJCNN), 2021.
  • Yuhao Xu and Hideki Nakayama, "Shifted Spatial-Spectral Convolution for Deep Neural Networks", In Proceedings of the 1st ACM International Conference on Multimedia in Asia (MM Asia), 2019.
  • Yuhao Xu, Hideki Nakayama, "DCT Based Information-Preserving Pooling for Deep Neural Networks", In Proceedings of the 26th IEEE International Conference on Image Processing (ICIP), 2019.
  • Hideki Nakayama, "Efficient discriminative convolution using Fisher weight map", In Proceedings of British Machine Vision Conference (BMVC), 2013. pdf

プロジェクトページトップへ戻る