音声認識/音情報処理クラウド(mimi®)
mimi®は非常に高速な音声認識/環境音認識プラットフォームです。
mimi®には、以下の4つの機能が含まれています。
- 音声認識機能(mimi®ASR:Automatic Speech Recognition)
- 環境音認識機能(mimi®ESR:Environmental Sound Recognition)
- 話者識別機能(mimi®SRS:Speaker Recognition System)
- 音前段処理機能(mimi®AFE:Advanced Front End module)
各機能はモジュールになっており、連携または独立して利用できます。
mimi®開発元:フェアリーデバイセズ株式会社
音声認識/音情報処理クラウド(mimi®)の構成機能
音声認識機能
音声認識の精度向上とともに、自然なコミュニケーション・音声対話に利用するために、認識速度の高速性をできる限り高めるような工夫がされています。
環境音認識機能
環境の様々な音の特徴を学習し、多様な音を識別することを実現します。
例えば、人間の声以外の音として、「拍手」「咳、くしゃみ」「笑い声」 「大きな息の音」の識別ができます。
お客様との協業で、さらに多様な音を識別する開発を進めています。
話者識別機能
識別に用いる発話は、どのような発話内容でもよく、発話者に意識をさせることがなく、 自然に話者を識別できます。
事前に音声を学習しない場合でも、自動学習機能により話者を識別することも可能です(開発中)。
音前段処理機能
- 音区間抽出
- 雑音抑制(ノイズリダクション)
- 残響音抑制(デリバブレーション)
- 多音源入力処理
- 各種音響フィルタ(HPF、LPF)他
音声認識/音情報処理クラウド(mimi®)の特徴
mimi®による音声情報処理は、すべてクラウド上で実現しており、 音声/音認識に必要な高速・大規模・大容量の情報処理が、手軽で、 リーズナブルな費用でご利用いただけます。
また、機能を絞ることでローカル側でのご利用も可能です。
mimi®機能のポイント
- 高速認識
- 孤立単語認識(お客様専用辞書により、確実な認識可能)、自然文認識(認識単語の自由度が高い)の使い分けが可能
- クラウドサービスにより、大規模アクセス時の能力向上が容易
- 音声認識と同時に周りの環境音(笑い声、咳など)の認識や話者の特定が可能
- 雑音抑制技術
- 複数マイクロフォンによるマイクロフォンの指向性制御(ビームフォーミング)が可能
- ソフトウエア処理による音源方向推定が可能
音声認識/音情報処理クラウド(mimi®)の活用事例
詳細はお問い合わせください。
コミュニケーション
- 接客システム
- 介護、病院、対話システム
- ロボット
- おもちゃ
会話認識
- IVR/コールセンターシステム
- 議事録作成システム 他