音声認識ソリューションに話者識別機能を! スマートデバイスのパーソナライズを可能に。 ~mimi® SRS 正式リリース!~

 フェアリーデバイセズ株式会社(本社:東京都文京区、代表取締役:藤野真人、以下「当社」)は、当社の音声認識クラウドAPIサービス「mimi® cloud API service」において、これまでβ版として提供してきた話者識別API「mimi® SRS」を正式サービスとしてリリースしました。

 

■ mimi SRSとは *SRS : Speaker Recognition System
 

 対話コミュニケーションにおいては「誰の発言なのか」という情報は極めて重要です。

 mimi SRSとは、入力された音声データから発話者を識別する機能です。事前に音声を学習させた複数の話者が所属する話者グループの中から音声によって話者を特定し、どの話者が発話したか、もしくは話者グループには含まれない別の話者であるとして識別します。

 また、mimi cloud APIを通じて「話者」の登録や学習、識別候補者の集合である「話者グループ」の作成や編集ができます。



■ mimi SRSの特長

 どんな発話内容でも、事前学習と話者識別が可能。
 数秒程度の発話から、高精度に発話者を識別。
 mimi cloud API serviceの他API群とシームレスに連携。

mimi SRS の特徴

 

■ mimi SRSの利用イメージ
 

利用事例1

 

 家庭にあるコミュニケーションロボット一台を家族みんなで共用するような場合、話者識別なしでは、ロボットからは画一的な応答になりがちです。

 mimi SRSはユーザーに意識させることなく自然に話者識別を行うため、コミュニケーションロボット等による「パーソナライズされた応答」を可能にします。

 

利用事例2

 

 会議での発言内容を記録するソリューションなどでは音声認識によって発言内容をテキスト化することはできますが、それのみでは「誰の発言内容であるか」まではわかりません。

 mimi SRSで発言内容と発話者を紐づけることで、より効果的なソリューションに進化することができます。

 

 ■ 高精度な認識・識別結果のためには

 

高精度な認識のために

 

 高精度な音声認識、話者識別結果のためには、クリアな音声集音が不可欠です。

複数人で利用するような場合、会議室などの実際の業務現場はさまざまな雑音に満ちています。そのため「認識しやすいように」マイクに向かって大きな声で発話させるようなものではユーザー側に負担を強いるだけでなく、コミュニケーションの妨げにもなります。 


 当社の音前段処理「mimi XFE」に含まれる「音源定位」「音源分離」などと組み合わせることで、発話者の方向を特定し、その声だけをクリアに抽出することができるため、音声認識と話者識別の精度を高めることができます。ユーザーもマイクを意識する必要がありません。


 mimi XFEは音声認識技術のフロントエンド処理を担い、マルチマイクハードウェアのFairy I/O®シリーズに搭載されています。



■ 今後の展開について


 当社は人間と機械とのコミュニケーションをより自然なものとする技術開発に力を注いでいます。そのためには音声認識処理に関連するソフトウェア開発のみならず、音声を正確に集音するためのハードウェア開発が必要であり、その両面を合わせて行うことで、人と機械の境界面を革新しようとしています。


 「話者識別機能」に加え当社の持つ多言語での「音声認識・翻訳・音声合成」、「環境音認識」などを組み合わせることで、企業研修、社内ブレスト、接客カウンターでの活用など様々な業務現場でのビジネスやソリューション開発を支援することも可能です。


 当社は業務現場における音声AI技術活用のリーディングカンパニーとして、デジタルトランスフォーメーションのさらに先の世界を見据え、これまでの音声認識技術では踏み込めなかった領域を、ソフトウェア・ハードウェアの一体開発によって切り拓いてまいります。



■ 「mimi」 について 


 高度な音声対話システムを構築するための疎結合なソフトウェアスタックであり、マイクアレイ・フロントエンド処理機能を担う「mimi XFE」、多言語での音声認識及び翻訳機能、音声合成を担う「mimi ASR/TRA/TTS」、話者識別機能を担う「mimi SRS」、環境音識別機能を担う「mimi ESR」等からなるクラウドAPIサービスです。「mimi」利用製品は、累計200万台に達します。

 ※開発者向けのデベロッパーコンソールはこちらです。https://console.mimi.fd.ai/
  一日50回までの無償評価試用ができます。



■ 「Fairy I/O」について 


 「Fairy I/O」シリーズは、「mimi」の開発と運用で培われた知見を基に開発された、音声対話システムを構築する上で最適なホワイトレーベルハードウェア製品シリーズです。

 先進的なスマートスピーカーに求められる機能を備えた、高さ14.5cm、直径7.5cmのタンブラー型マルチマイクハードウェア「Fairy I/O Tumbler」や、サイネージやロボットなどさまざまなデバイスへの組込みを想定したレイアウトフリーマルチマイク「Fairy I/O T-02」の企業向け販売をしております。これにより、お客様ブランドでのスマートスピーカー商品の開発や、マルチマイクハードウェアを応用した先進的なソリューションの開発を促進していきます。



■ フェアリーデバイセズ株式会社について


 フェアリーデバイセズ株式会社は、「使う人の心を温かくする一助となる技術開発」をコーポレート・アイデンティティとして掲げ、VUI・VPA関連技術、音/音声認識と関連する機械学習諸分野の応用研究開発、及び対話システム・UXデザインの設計と評価に強みを持ちます。

VUI:Voice User Interface VPA :Voice Personal Assistant



※本プレスリリースに記載されている会社名、製品名は各社の登録商標または商標です。

 


【本件に関するお問い合わせ先】

フェアリーデバイセズ株式会社
お問い合わせ窓口
電子メール  contact@fairydevices.jp


 


■本サイトに記載の製品名は商標または登録商標です。
■一部の写真は機能説明のために各ランプを点灯したものです。実際の使用状態を示すものではありません。■一部の写真は合成・イメージです。
トップへ