TOP
NEWS
mimi®︎API搭載「駅案内ロボット」が近鉄大和西大寺駅で試験運用開始！

音声認識API「 mimi®︎」を搭載した「駅案内ロボット」が
近鉄大和西大寺駅で試験運用開始！

音声認識・機械翻訳・音声合成の音声認識プラットフォーム「mimi cloud API service」

フェアリーデバイセズ株式会社（本社：東京都文京区、代表取締役：藤野真人、以下「当社」）は、オムロングループのオムロンソーシアルソリューションズ株式会社（本社：東京都港区、代表取締役社長：細井俊夫、以下「OSS」）が開発した「駅案内ロボット」が2020年7月１日より、近鉄大和西大寺駅にて試験運用を開始したことをお知らせいたします。駅案内ロボットには、当社の開発した音声処理技術およびマルチマイクハードウェアを提供しています。

導入の背景

多様な利用客が行き交う公共施設では、接客業務の負荷軽減を行うために業務を代替するロボットの実現が求められています。このようなロボットに適切な接客対応を行わせるためには、騒音環境下で正確に音声を収集し、適切に聞き取る音声処理技術、および多言語での認識技術が必要となります。今回、当社が持つ音声処理技術を提供することで、騒音が多い駅構内の環境においても高い精度で音声対話が可能なロボットを実現しました。

音声処理技術について

当社は、実業務現場に音声技術を適用するために必要な、ほぼ全ての要素技術をハードウェアを含む形で提供しています。今回、音声処理技術については、当社のソフトウェア製品シリーズ「mimi®」を提供。マルチマイクはハードウェア製品シリーズ「Fairy I/O®」を提供しています。

　一般的に音声認識処理の精度は、マルチマイク（複数マイク）である方が精度が高まることが知られています。マルチマイクでの集音時に、マイクの異なる配置による音声の位相差や振幅差などを適切に処理することで、目的とする音声のみを強調することができ、それにより音声認識の精度向上がなされますが、その反面、マイク・スピーカー配置や筐体設計などのハードウェア的側面や、マルチマイク処理のアルゴリズムなどのソフトウェア的側面の両面を十分に擦り合わせる必要があり、高度な全体設計が求められます。「mimi XFE」はマルチマイク処理のソフトウェア側を担うソフトウェア・ライブラリであり、当社の業務用スマートスピーカー Fairy I/O Tumbler を始めとした様々なマルチマイク製品で利用されています。
16chを8ch２つに分け、認識精度の向上と自由なレイアウトを可能とし、音前段処理を担う「mimi XFE」、クラウドでの「高速音声認識処理 mimi ASR」と連携することで、ロボット/サイネージなどへの搭載に最適な構成となっています。

＞「Fairy I/O®︎ T-02　16chマルチマイク（バー型）」
ロボットから発せられるモーターなどの作動音の影響をできるだけ削減し、発話者の音声をクリアに集音することに適したマイクハードウェアです。２本のバー型形状により、自由なレイアウトを実現します。

＞エッジAI：mimi XFE
「mimi XFE」は、音声を扱うために必要となる様々な音処理機能を提供しています。今回、雑音の多い環境においても正確な音声を収音するために、「mimi XFE」が持つ以下の技術を活用しています（主要機能のみ）

VAD（発話区間抽出）：人が話し始めこと、また話し終わったことを検出します。
エコーキャンセル　　：ロボットが発話している最中でも人間の声を認識することができるバージイン対応（割り込み発話対応）を実現しています。
ビームフォーミング　：目的とする音声のみを強調して集音します。

＞mimi powered by NICT

10言語に対応した音声認識、機械翻訳、音声合成からなるAPIプラットフォーム。人と人との会話は想像以上に速いやり取りがなされています。クラウドでの音声認識処理の速度を高速化し人間に近づけることで、人とロボットとの違和感のない会話体験に貢献しております。

＞バージイン対応（割り込み対話機能）

ロボットが発話している最中でも、人の声を認識できる技術により、ロボットがしゃべり終わるのを待つ必要のない、スムースで自然な対話を実現しました。
これまでのコミュニケーションロボットなどにおける対話ソリューションでは、「機械の準備が整うまで待つ」「機械がしゃべり終わるまで待つ」というように、人間側に不自然なコミュニケーションを強制している場合が多くありましたが、ロボットがバージイン対応となることで、人間にとってより自然なコミュニケーションを実現しています。

＞自動言語識別機能^＊１

従来の言語識別方式では10秒程度の長い発話でないと言語の識別は困難でした。知識蒸留学習^＊2により、「短い発話でも識別精度が高く、かつリアルタイムで識別可能な小規模ニューラルネット」を作成することで、1.5秒程度の音声での識別率9割以上を実現しています。

8言語^＊3に対応し、短い音声をリアルタイムで識別し、翻訳の言語設定が不要。
発話時間1.5秒の音声の識別率9割以上、識別時間0.15秒以内のリアルタイム識別。
何語を話しているかわからない外国人の言葉も、即座に識別し、認識・翻訳が可能。

＊1：本機能は、国立研究開発法人情報通信研究機構（NICT）が開発したものです。
＊2：規模の大きいニューラルネットは識別精度が高い代わりに、計算に時間を要する問題があり、リアルタイム処理を求められる場合には適しません。一方、高速演算可能な小規模ネットワークはそのまま学習させただけでは識別精度が悪いという問題があります。知識蒸留学習では、大規模ネットワークを（教師モデル）として、小規模ネットワーク（生徒モデル）が教師モデルと同じ結果になるよう学習させることで、高速かつ高精度の結果を得ることが可能となります。
＊3：自動言語識別機能の対応言語は（日、英、中、韓、タイ、ミャンマー、ベトナム、インドネシア）の8言語。「駅案内ロボット」での対応言語は４言語（日、英、中、韓）となります。

mimi®️ API 無償提供の拡大

現在、当社では新型コロナウイルス「COVID-19」の感染拡大の対策支援として、同対策をするシステムを開発される方向けに、当社の「mimi®️ cloud API service」の音声認識・機械翻訳・音声合成APIの無償提供を拡大し、1日５００回まで無償で利用可能とし、皆様のサービス開発をサポートさせていただいております。

詳細はこちらをご覧ください。

※このキャンペーンは終了しました。

今後の展開について

当社は人間と機械とのコミュニケーションをより自然なものとする技術開発に力を注いでいます。そのためには音声認識処理に関連するソフトウェア開発のみならず、音声を正確に集音するためのハードウェア開発が必要であり、その両面を合わせて行うことで、人と機械の境界面を革新しようとしています。

多言語での「音声認識・翻訳・音声合成」に加え、当社の持つ「話者識別」「環境音認識」などを組み合わせることで、コミュニケーションロボットのパーソナライズ対応を可能にしたり、本件の駅案内ロボットにも採用されたレイアウトフリーマルチマイク「Fairy I/O　T-02」を使用することで、騒音環境下でも適切に音声認識が可能なサイネージへの導入など様々な業務現場でのビジネスやソリューション開発を支援することが可能です。

当社は業務現場における音声AI技術活用のリーディングカンパニーとして、デジタルトランスフォーメーションのさらに先の世界を見据え、これまでの音声認識技術では踏み込めなかった領域を、ソフトウェア・ハードウェアの一体開発によって切り拓いてまいります。

※オムロンソーシアルソリューションズ株式会社について

オムロンソーシアルソリューションズ株式会社は、これまで独自のオートメーション技術により、自動改札機などの駅務自動化システムをはじめ、世界初・日本初の社会公共システムを数多く生み出してきました。これからも労働力不足やエネルギー、レジリエントなどの社会課題をいち早く捉え、IoT・AI・ロボティクスなどの最先端技術、ソフトウェア、運用・メンテナンスのトータルサービスでソリューションを構築し、安心・安全・快適な社会づくりに貢献してまいります。

参考URL：https://socialsolution.omron.com