Next Generation Artificial Intelligence

Crossmodal Processing
Speech and Audio Processing
Image and Video Processing
Natural Language Processing

About

「MediaGnosis®」は、音声音響処理・画像映像処理・自然言語処理・クロスモーダル処理といった
マルチメディアの情報処理を統合的にオールインワンで扱うことで、
これまでよりも効率的な「学習」と高精度かつ総合的な「推論」を実現する
次世代メディア処理AIです。
「MediaGnosis®」は、
音声音響処理・画像映像処理・自然言語処理・
クロスモーダル処理といった
マルチメディアの情報処理を統合的に
オールインワンで扱うことで、
これまでよりも効率的な「学習」と
高精度かつ総合的な「推論」を実現する
次世代メディア処理AIです。

従来のアーキテクチャ

各メディア処理、各エンジンが完全に疎結合。
しばしばエンジンごとに別会社のものを用いており、機能間の相乗効果が見込めない。

MediaGnosisの知識集約型
アーキテクチャ

人間が1つの脳で様々な処理を実施できることと同様に、
様々なメディア処理の知識を1つに集約させることで、高精度かつ柔軟性の高い判断を実現。

A社製
音声処理AI
B社製
画像処理AI
C社製
言語処理AI

一つの統合されたAIが
音声・画像・言語を処理

内部でそれぞれのAIが連携し
より高精度な出力が可能

Natural Language
Processing

自然言語処理 AI

Image and Video
Processing

画像映像処理 AI

Speech and Audio
Processing

音声音響処理 AI

Crossmodal
Processing

統合処理 AI

Technology

MediaGnosisの「知識集約型アーキテクチャ」では、入力情報(音声音響情報・画像映像情報・自然言語情報、など)、および出力情報(数値・ベクトル・ラベル・テキスト、など)の両者に対して、複数の機能間で同様の役割を持つ情報処理機構(理解部)を、複数の機能間で共通化できます。
これにより、1つのモデルの中に様々なAI処理機能を統合することが可能となります。
MediaGnosisでは様々な機能がサポートされてます。また、知識集約型アーキテクチャ以外にも、サポートする機能ごとに、査読付き国際会議や論文誌にも採録されているNTT独自技術が複数内包されています。

Speech and
Audio

Processing

  • 音声分類

    年齢性別分類、感情分類、言語分類、音響シーン分類、など

  • 音声特徴変換

    雑音抑圧、残響抑圧、など

  • 音声ベクトル変換

    話者認証、話者ダイアライゼーション、キーワードスポッティング、など

  • 音声ラベリング

    音声区間検出、笑い声区間検出、特定話者検出、など

  • 音声テキスト変換

    音声認識、音キャプション生成、など

Image and
Video

Processing

  • 画像分類

    一般物体認識、顔年齢分類、表情分類、など

  • 画像特徴点検出

    ランドマーク検出、など

  • 画像テキスト変換

    情景文字認識、画像キャプション生成、など

  • 画像検出

    物体検出、顔検出、など

  • 画像方向推定

    顔向き推定、など

  • 画像ベクトル変換

    顔認証、など

  • 映像分類

    行動認識、しぐさ認識、など

  • 映像テキスト変換

    ビデオキャプショニング、など

Natural
Language

Processing

  • テキスト分類

    方言タイプ分類、話題分類、対話行為分類、質問タイプ分類、要件分類、など

  • テキスト系列
    ラベリング

    文書セグメンテーション、文書構造理解、など

  • テキスト変換

    話し言葉書き言葉変換、翻訳、方言変換、 誤り訂正、要約、など

  • 単語系列
    ラベリング

    形態素解析、固有表現抽出、など

  • テキストベクトル
    変換

    類似文検索、など

Crossmodal

Processing

  • クロスモーダル
    分類

    オーディオビジュアル 感情分類、など

  • クロスモーダル
    ベクトル
    変換

    クロスモーダル検索、など

  • クロスモーダル
    テキスト
    変換

    画像/動画質問応答、など

Demonstration

MediaGnosisの各種機能をブラウザから
手軽にお試しいただくことができます。

Human Sensing

カメラとマイクを使用して、音声と顔映像の入力から様々な情報をリアルタイムにセンシングするアプリケーションをお試しいただけます。

Contents

MOTESSENSE

次世代メディア処理AI「MediaGnosis®」が潜在的なモテ因子(=魅力的な個性)を発見。5つの観点から個性を分析し、自分らしい魅力向上のためのアドバイスをお届け。

次世代音声処理技術

発展的・実用的なユースケースに対応したMediaGnosisの音声処理技術を紹介。

文章執筆支援技術

自動的に文章を添削し、文章の質を向上させるMediaGnosisの文章執筆支援技術を紹介。