画像・動画像生成

プロジェクトページトップへ戻る

画像生成モデル

画像生成は近年急速に発達した技術であり、人間の目から見ても本物の画像と区別がつかないほどリアルな画像を生成できるようになってきたことから、社会的にも大きな注目を集めています。 われわれは、敵対的生成ネットワーク(GAN)や拡散モデルなどの深層生成モデルに関する基礎的な理論開発を行っています。特に、動画像の生成はフレーム間の整合を保ちながら長期的なダイナミクスを考慮する必要があるため、挑戦的な問題となっています。


  • Rui Yang et al., "Indirect Adversarial Losses via an Intermediate Distribution for Training GANs", In Proceedings of the IEEE Winter Conference on Applications of Computer Vision (WACV), pp.4641-4650, 2023. pdf
  • Rui Yang et al., "Stochastically Flipping Labels of Discriminator’s Outputs for Training Generative Adversarial Networks", IEEE Access, Vol.10, pp.103644-103654, 2022. pdf
  • Rui Yang et al., "Improving Noised Gradient Penalty with Synchronized Activation Function for Generative Adversarial Networks", IEICE Transactions on Information and Systems, Vol.E105-D, No.9, pp.1537-1545, 2022. pdf
  • Duc Minh Vo et al., "PPCD-GAN: Progressive Pruning and Class-Aware Distillation for Large-Scale Conditional GANs Compression", In Proceedings of the IEEE Winter Conference on Applications of Computer Vision (WACV), pp.2436-2444, 2022. pdf

雑多なデータからの生成モデルの学習

クラス条件付きGANの学習では、生成したいクラスに関する大量の教師画像を集めラベル付きの訓練データセットを構築することが基本になります。しかしながら、一般に良質な教師画像を集めるためには高いアノテーション(ラベル付け)コストが必要となります。 このため、ラベルなしのデータも活用できる半教師あり学習が有望となりますが、ラベルなしデータは管理されていないため、全く関係のないクラスのデータが混入することがありえます。さらに、ラベル付きデータの中でもラベル誤りはしばしば発生します。 我々は、このような雑多なデータからでも安定に学習できることが生成モデルを広く応用していくために重要であると考えており、半教師あり学習、オープンセット、ラベルノイズなどの問題を包括的に扱える学習法を開発しています。


  • Kai Katsumata et al., "OSSGAN: Open-Set Semi-Supervised Image Generation", In Proceedings of the Conference on Computer Vision and Pattern Recognition (CVPR), pp.11175-11183, 2022. pdf

画像の編集・操作

画像生成の技術をクリエイティブな活動へ応用していくためには、人の意図通りに画像を細かく編集・操作できることが重要になるでしょう。 研究室では、マスクや参照画像、属性情報などさまざまな条件付け情報を効率よく活用し、柔軟に画像を生成・変換できる手法の開発に取り組んでいます。


  • Katsumata et al., "Balancing Reconstruction and Editing Quality of GAN Inversion for Real Image Editing with StyleGAN Prior Latent Space", AI for Content Creation (AI4CC) Workshop at CVPR 2023, 2023. pdf
  • Kai Katsumata and Hideki Nakayama, "Semantic Image Synthesis from Inaccurate and Coarse Masks", Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp.2285-2289, 2021.

医用画像生成

脳MRI画像などについて、画像生成技術により人工的に症例画像を作り、データ拡張等に活用する枠組みを提案しています。医療知識を適切に画像生成の条件付けへ用いることにより、 専門医にとっても本物の画像との見分けが困難なほどリアルかつ多様な医用画像が生成できることが示されています。


  • Changhee Han et al., "MADGAN: unsupervised Medical Anomaly Detection GAN using multiple adjacent brain MRI slice reconstruction", BMC Bioinformatics, Vol.22, No.31, 2021. pdf
  • Changhee Han et al., "Learning More with Less: Conditional PGGAN-based Data Augmentation for Brain Metastases Detection Using Highly-Rough Annotation on MR Images", In Proceedings of the 28th ACM International Conference on Information and Knowledge Management (CIKM), 2019. pdf
  • Changhee Han et al., "Synthesizing Diverse Lung Nodules Wherever Massively: 3D Multi-Conditional GAN-based CT Image Augmentation for Object Detection", In Proceedings of the International Conference on 3D Vision (3DV), 2019. pdf
  • Changhee Han et al., "Combining Noise-to-Image and Image-to-Image GANs: Brain MR Image Augmentation for Tumor Detection", IEEE Access, Vol.7, pp.156966-156977, 2019. pdf
  • Changhee Han et al., "GAN-based Synthetic Brain MR Image Generation", IEEE International Symposium on Biomedical Imaging (ISBI), 2018. pdf

文字画像生成・編集

文字は人間にとってもっとも重要なコミュニケーションツールの一つです。我々は、さまざまな観点から文字の生成や編集を行うアプリケーションを研究しています。 例えば、一般的なシーン画像から文字を自然に消去したり、別の文字や文へ置き換える文字編集アルゴリズムを開発しています。また、文字のスタイルを自在に変換することで、 文書の可読性やデザイン性を高めたり、文字認識アルゴリズムの認識精度を高めるデータ拡張に利用できることも分かっています。


  • Jan Zdenek and Hideki Nakayama, "Handwritten Text Generation with Character-specific Encoding for Style Imitation", Proceedings of the 17th International Conference on Document Analysis and Recognition (ICDAR), pp.313–329, 2023.
  • Jan Zdenek and Hideki Nakayama, "JokerGAN: Memory-Efficient Model for Handwritten Text Generation with Text Line Awareness", Proceedings of the 29th ACM International Conference on Multimedia (ACMMM), pp.5655-5663, 2021. pdf
  • Jan Zdenek and Hideki Nakayama, "Erasing Scene Text with Weak Supervision", Proceedings of the 2020 IEEE Winter Conference on Applications of Computer Vision (WACV), 2020. pdf

プロジェクトページトップへ戻る