音声認識/音情報処理クラウド(mimi®)

mimi®は非常に高速な音声認識/環境音認識プラットフォームです。

mimi®には、以下の4つの機能が含まれています

  • 音声認識機能(mimi®ASR:Automatic Speech Recognition)
  • 環境音認識機能(mimi®ESR:Environmental Sound Recognition)
  • 話者識別機能(mimi®SRS:Speaker Recognition System)
  • 音前段処理機能(mimi®AFE:Advanced Front End module)

各機能はモジュールになっており、連携または独立して利用できます。

mimi®(開発元)フェアリーデバイセズ株式会社

音声認識/音情報処理クラウド(mimi®)の構成機能

音声認識機能

ディープラーニング(深層学習)による高速かつ自然な音声認識を実現します。
音声認識の精度向上とともに、自然なコミュニケーション・音声対話に利用するために、認識速度の高速性をできる限り高めるような工夫がされています。

環境音認識機能

環境音認識は、mimi®独自の機能です。
環境の様々な音の特徴を学習し、多様な音を識別することを実現します。
例えば、人間の声以外の音として、「拍手」「咳、くしゃみ」「笑い声」 「大きな息の音」の識別ができます。
お客様との協業で、さらに多様な音を識別する開発を進めています。

話者識別機能

事前に発話者の音声を学習しておくことで、数秒程度の短い発話から、 高精度に発話者を識別することができます。
識別に用いる発話は、どのような発話内容でもよく、発話者に意識をさせることがなく、 自然に話者を識別できます。
事前に音声を学習しない場合でも、自動学習機能により話者を識別することも可能です(開発中)。

音前段処理機能

mimi®の各機能に共通する音処理機能(音声区間抽出、雑音抑制、残響音抑制、音源定位、音源分離など)を 処理する機能をモジュール化しています。

  • 音区間抽出
  • 雑音抑制(ノイズリダクション)
  • 残響音抑制(デリバブレーション)
  • 多音源入力処理
  • 各種音響フィルタ(HPF、LPF)他

音声認識/音情報処理クラウド(mimi®)の特徴

mimi®による音声情報処理は、すべてクラウド上で実現しており、 音声/音認識に必要な高速・大規模・大容量の情報処理が、手軽で、 リーズナブルな費用でご利用いただけます。
また、機能を絞ることでローカル側でのご利用も可能です。

mimi®機能のポイント

  • 高速認識
  • 孤立単語認識(お客様専用辞書により、確実な認識可能)、自然文認識(認識単語の自由度が高い)の使い分けが可能
  • クラウドサービスにより、大規模アクセス時の能力向上が容易
  • 音声認識と同時に周りの環境音(笑い声、咳など)の認識や話者の特定が可能
  • 雑音抑制技術
  • 複数マイクロフォンによるマイクロフォンの指向性制御(ビームフォーミング)が可能
  • ソフトウエア処理による音源方向推定が可能

音声認識/音情報処理クラウド(mimi®)の活用事例

詳細はお問い合わせください。

コミュニケーション

  • 接客システム
  • 介護、病院、対話システム
  • ロボット
  • おもちゃ

高速テキスト作成支援

  • 営業日報/連絡帳システム
  • 字幕作成システム
  • 障碍者支援システム

自然言語処理はこちら

会話認識

  • IVR/コールセンターシステム
  • 議事録作成システム    他

 

 

音声認識/音情報処理クラウド(mimi®)に関するお問い合わせ

ICTソリューション営業本部/新規事業推進本部

音声認識/音情報処理クラウド(mimi®)のお問い合わせはこちら

 |  mimi®AFE ≫