五感に実現する知識・メディアのマルチモーダルAIを目指す
画像、映像、音声、オーディオ、テキスト、赤外線、ハイパースペクトル画像、点群データの融合により 、マルチモーダルAIを新たなパラダイムへ
研究方向
映像と音声を融合したイベント検索
映像分析と赤外線画像を融合した行動認識
ハイパースペクトル画像の空間超解像度
マルチモーダルAIによる走行支援システム
クロスモーダルアライメントを用いた不完全なデータの情報処理
悪天候などの環境要因に与えた影響を低減する自動運転技術
映像イベント検索
映像クリップ単位の時系列情報を抽出して、音声と画像の共起関係を統合することにより、イベントごとの時系列を表現するマルチモーダルのEnd-End CNNフレームワーク
映像行動認識
行動認識の教師データ作成コストが高い問題に対して、2段階で精度高い学習モデルを構築する。教師データを容易に準備できる質の良い物体検出の教師データを物体分割へ適用し、少量の精度高い教師データににより遷移学習、弱教師手法を取入れる。
空間超解像
観測された低解像度画像から、教師なし手法による一枚のLR画像から超解像画像へ