大規模一般画像認識

一般的な画像は見え方(アピアランス)の変化が非常に大きいため,一般画像認識の精度を上げるためにはできるだけ多数のサンプルから学習する必要があります. このため,Web上の大量の画像や,ImageNetのような大規模な画像データセットを用いた画像認識の研究が盛んにされています. この中で,一枚の画像へ複数のキーワードを付与する画像アノテーションとよばれるタスクでは,最近傍法に基づくアプローチが有効であることが知られており,現在の主流になっています. しかしながら,近傍サンプルの検索は多くの場合画像特徴空間上の距離を基準として行われるため,意味レベルの近さを必ずしも有効に測れないという,いわゆるsemantic gapが大きな課題となります.
私たちは,Canonical Contextual Distance (CCD) という,確率的正準相関分析を応用した距離計量に基づく新しい画像アノテーション手法を開発しました. この手法は,学習サンプルの画像特徴と単語特徴を利用し,識別的な潜在空間を学習し,この空間上で近傍サンプルの検索を行います. 類似手法と比べてシンプルかつスケーラブルであるため,大規模な問題において特に効果的です. 博士論文では,1200万枚のFlickr画像からなるデータセットを構築し,本手法の有効性を検証しました.
また,本手法を元に ImageNet Large Scale Visual Recognition Challenge に参加し,世界第3位の成績を収めました.


主な関連文献

  • 中山英樹, 原田達也, 國吉康夫,
    "大規模Web 画像のための画像アノテーション・リトリーバル手法," 電子情報通信学会論文誌, Vol.J93-D, No.8, pp.1267-1280, 2010.
  • Hideki Nakayama, Tatsuya Harada, and Yasuo Kuniyoshi,
    "Evaluation of Dimensionality Reduction Methods for Image Auto-Annotation," British Machine Vision Conference (BMVC), 2010. link
デモ


画像特徴表現

画像をどのように特徴ベクトル化するかは,識別手法と対を成す重要な課題です. 現在,まず一枚の画像からSIFTなどの局所特徴を数千点程度抽出し, これを一本の大域特徴ベクトルへ加工するアプローチが主流になっています. 代表的なものとして,ベクトル量子化に基づく手法であるbag-of-keypointsが挙げられます. これは,混合正規分布の混合比のみを特徴化していると解釈でき, 高次のモデルのパラメータを疎に利用しているといえます.
この研究では,逆のアプローチを考え,低次モデルのパラメータを密に利用しています. すなわち,各画像の局所特徴分布は一つのガウシアンによって表されます. 指数分布族の関数であるため,情報幾何の枠組みを用い, 平坦な空間を為すパラメータ座標系を簡単に計算することができます. この空間を利用することで,近似的に線形識別器で学習を行うことが可能になります. 実験では,シーン認識のベンチマークにおいて,bag-of-keypointsに匹敵する高い識別性能を得ています. また,本手法とbag-of-keypointsは局所特徴分布に関する異なる統計的情報をとらえているため,両者を併用することでさらに識別性能を向上させることができます.


主な関連文献

  • Hideki Nakayama, Tatsuya Harada, and Yasuo Kuniyoshi,
    "Global Gaussian Approach for Scene Categorization Using Information Geometry," IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2010. link
  • Hideki Nakayama, Tatsuya Harada, and Yasuo Kuniyoshi,
    "Dense Sampling Low-Level Statistics of Local Features," ACM International Conference on Image and Video Retrieval (CIVR), 2009. link


人工知能ゴーグル

2007年から2009年まで,東大情報理工國吉・原田研究室で行っていた研究です.
前述の画像認識手法を実装したアプリケーションとして,装着するだけで汎用的かつ高精度・高速に環境中のさまざまな事物を認識・検索できるAIゴーグルを提案しました. これは,カメラを備えたゴーグルと小型モバイルPC (Core2Duo, 1.2GHz) からなるシステムです(写真). システムは,装着者の視界をとらえたカメラ画像を取得し,リアルタイムに物体認識を行い,認識結果をHead Mount Display (HMD) に出力します. 同時に,認識結果と取得画像を合わせてデータベースに随時保存します.また,検索時にはデータベースから適切な画像を選び,HMDへ出力します. これらの機能により,視覚支援や忘れ物検索などへの応用が期待できます.
開発時のシステムでは,研究室内外の事物約100種類をあらかじめ学習しています.また,その場で提示される新しい物体についても即時にオンライン学習を行うことができます. 今後は,どうやってより多くの一般物体を学習させ,汎用的なシステムにしていくかが重要な課題です.


主な関連文献

  • 原田達也, 中山英樹, 國吉康夫,
    "AI Goggles: 追加学習機能を備えたウェアラブル画像アノテーション・リトリーバルシステム," 電子情報通信学会論文誌, Vol.J93-D, No.6, pp.857-869, 2010.
  • Hideki Nakayama, Tatsuya Harada, and Yasuo Kuniyoshi,
    "AI Goggles: Real-time Description and Retrieval in the Real World with Online Learning," Canadian Conference on Computer and Robot Vision (CRV), pp.184-191, 2009.