Next Generation Artificial Intelligence

About

「MediaGnosis®」は、音声音響処理・画像映像処理・自然言語処理・クロスモーダル処理といった

マルチメディアの情報処理を統合的にオールインワンで扱うことで、

これまでよりも効率的な「学習」と高精度かつ総合的な「推論」を実現する

次世代メディア処理AIです。

「MediaGnosis®」は、

音声音響処理・画像映像処理・自然言語処理・

クロスモーダル処理といった

マルチメディアの情報処理を統合的に

オールインワンで扱うことで、

これまでよりも効率的な「学習」と

高精度かつ総合的な「推論」を実現する

次世代メディア処理AIです。

従来のアーキテクチャ

各メディア処理、各エンジンが完全に疎結合。
しばしばエンジンごとに別会社のものを用いており、機能間の相乗効果が見込めない。

MediaGnosisの知識集約型アーキテクチャ

人間が１つの脳で様々な処理を実施できることと同様に、
様々なメディア処理の知識を１つに集約させることで、高精度かつ柔軟性の高い判断を実現。

A社製
音声処理AI

B社製
画像処理AI

C社製
言語処理AI

一つの統合されたAIが
音声・画像・言語を処理

内部でそれぞれのAIが連携し
より高精度な出力が可能

Natural Language
Processing

自然言語処理 AI

Image and Video
Processing

画像映像処理 AI

Speech and Audio
Processing

音声音響処理 AI

Crossmodal
Processing

統合処理 AI

Key Points

世界トップクラスの AI 機能群をオールインワンで提供。

ニーズに合った機能を必要なだけ選んで使えます。

音声認識

機械翻訳

文書分類

話者認証

表情推定

顔認証

性別年齢推定

物体検出

議事録を作りたい

イベントの効果測定をしたい

AI 議事録作成

音声認識で会話をリアルタイムにテキスト化し、話者認証で「誰が話したか」を自動判定。文書分類で議題ごとに内容を整理し、会議終了と同時に構造化された議事録を自動生成します。

会議直後に議事録が完成
話者の自動判別で発言者を明確化
議題ごとの自動分類で検索性向上

イベント効果測定

表情推定で参加者の感情変化をリアルタイムに計測し、性別年齢推定で来場者の属性を把握。笑い声検知で盛り上がりのピークを検出し、イベントの効果を定量的に可視化します。

参加者の感情変化をリアルタイム計測
来場者の属性分析が自動化
盛り上がりのピークを定量的に可視化

マルチモーダル情報と LLM を複合的に用いた推論が可能。

様々なビジネスシーンで単体 AI では実現が困難な価値を提供可能に。

Case1

AI ロールプレイ

面談練習、接客シミュレーションなどのスキルアップトレーニングを、自分のペースで実施可能に。ヒューマンリソースの効率化、育成コストの削減へご活用ください。

マイク

カメラ

音声認識タスク特化型LLM顔表情認識第一印象推定音声感情認識

ロールプレイ
レポート

Case2

営業サポート

複数人での会話を話者別に分析できます。話者別のマイクの準備は不要、発声が重なっていても分析可能です。営業活動や店舗窓口業務のサポートにご活用ください。

マイク

複数人同時発話音声認識話者ダイアライゼーション音声感情認識音声年齢認識音声性別認識話し言葉書き言葉変換話し方認識

対話記録

Case3

グループ分析

映像内の人物についての分析だけでなく、「誰と誰が同じグループか」を推定可能です。オフィスやオープンスペースの利用者分析、展示会でのオートマーケティングなど、広い用途にご活用ください。

カメラ

顔・人物検出追跡グループ検出顔年齢認識顔性別認識顔表情認識行動認識所持品認識マイクロジェスチャ認識

構造化
データ

高性能かつ超軽量。全ての推論処理を CPU 上で実現。

リソースコストの削減や小規模システムにも向いています。

Demonstration

MediaGnosisの各種機能をブラウザから手軽にお試しいただくことができます。

カメラとマイクを使用して、音声と顔映像の入力から様々な情報をリアルタイムにセンシングするアプリケーションをお試しいただけます。

詳しく見る

Technology

MediaGnosisの「知識集約型アーキテクチャ」では、入力情報（音声音響情報・画像映像情報・自然言語情報、など）、および出力情報（数値・ベクトル・ラベル・テキスト、など）の両者に対して、複数の機能間で同様の役割を持つ情報処理機構（理解部）を、複数の機能間で共通化できます。
これにより、1つのモデルの中に様々なAI処理機能を統合することが可能となります。