話しかけるだけで自動言語識別。

〜音声対話型AI搭載「駅案内ロボット」の外国語対応機能を強化〜

フェアリーデバイセズ株式会社(本社:東京都文京区、代表取締役:藤野真人、以下「当社」)は、オムロングループのオムロン ソーシアルソリューションズ株式会社(本社:東京都港区、代表取締役:細井俊夫、以下「OSS」)が2019年3月16日から8月27日まで京王電鉄株式会社 井の頭線下北沢駅で試験運用しておりました駅案内ロボットに提供中の当社の多言語音声翻訳エンジン「mimi® powered by NICT」に加え、9月18日より「自動言語識別機能」を用いた実証実験を共同で行うことをお知らせいたします。
なお本機能の搭載に合わせて、駅案内ロボットは京王線新宿駅に移設されます。

導入の背景

少子高齢化による労働力不足により、接客業務の負荷軽減を目的として業務を代替するロボットの実現が求められています。このようなロボットに適切な接客対応を行わせるために、当社では騒音環境下でも正確に音声を収集し、適切に聞き取ることができる音声処理技術を提供しています。

現在、京王電鉄 井の頭線下北沢駅で実施していた実証実験では、日本語、英語、中国語、韓国語の4か国語で案内対応をしており、そのうち利用者の約3割が外国語を使用されていたことから、さらなる利便性の向上を目指し、新たに「自動言語識別機能」を試験提供しました。

本機能により、お客さまに画面上で手動により使用言語を選択いただく必要なく、話しかけていただいた言語を自動で識別することが可能になります。

自動言語識別機能*1の特長

従来の言語識別方式では10秒程度の長い発話でないと言語の識別は困難でした。
知識蒸留学習*2により、「短い発話でも識別精度が高く、かつリアルタイムで識別可能な小規模ニューラルネット」を作成することで、1.5秒程度の音声での識別率9割以上を実現しています。

  • 8言語*3に対応し、短い音声をリアルタイムで識別し、翻訳の言語設定が不要。
  • 発話時間1.5秒の音声の識別率9割以上、識別時間0.15秒以内のリアルタイム識別。
  • 何語を話しているかわからない外国人の言葉も、即座に識別し、認識・翻訳が可能。

*1:本機能は、国立研究開発法人情報通信研究機構(NICT)が開発したものです。
*2:規模の大きいニューラルネットは識別精度が高い代わりに、計算に時間を要する問題があり、リアルタイム処理を求められる場合には適しません。一方、高速演算可能な小規模ネットワークはそのまま学習させただけでは識別精度が悪いという問題があります。知識蒸留学習では、大規模ネットワークを(教師モデル)として、小規模ネットワーク(生徒モデル)が教師モデルと同じ結果になるよう学習させることで、高速かつ高精度の結果を得ることが可能となります。
*3:自動言語識別機能の対応言語は(日、英、中、韓、タイ、ミャンマー、ベトナム、インドネシア)の8言語。本試験運用での対応言語は4言語(日、英、中、韓)となります。

今後の展開について

当社は人間と機械とのコミュニケーションをより自然なものとしたいと願っています。そのため、音声認識処理に関連するソフトウェアのみならず、音声を正確に集音するためのハードウェアの技術開発にも力を注いでいます。
 
多言語での「音声認識・翻訳・音声合成」に加え、当社の持つ「話者識別」「環境音認識」などを組み合わせることで、コミュニケーションロボットのパーソナライズ対応を可能にしたり、本件の駅案内ロボットにも採用されたレイアウトフリーマルチマイク「Fairy I/O T-02」を使用することで、騒音環境下でも適切に音声認識が可能なサイネージへの導入など様々な業務現場でのビジネスやソリューション開発を支援することが可能です。

当社は業務現場における音声AI技術活用のリーディングカンパニーとして、デジタルトランスフォーメーションのさらに先の世界を見据え、これまでの音声認識技術では踏み込めなかった領域を、ソフトウェア・ハードウェアの一体開発によって切り拓いてまいります。

関連製品
関連ニュース

※本プレスリリースに記載されている会社名、製品名は各社の登録商標または商標です。



CONTACT

お問い合わせ
お見積もり・デモのご依頼
ご相談・お問い合わせはお気軽に!


■本サイトに記載の製品名は商標または登録商標です。
■一部の写真は機能説明のために各ランプを点灯したものです。実際の使用状態を示すものではありません。■一部の写真は合成・イメージです。
トップへ