音声対話システムの開発プロセス

はじめに


近年、個⼈⽤・家庭⽤・産業⽤など幅広い⽤途において、⾳声対話システムの重要性が増しています。その⼀⽅で、⾳声対話システムの開発は技術的側⾯・⼈の⼼理的側⾯などさまざまな要因が絡んだ困難なチャレンジであり、誰でも容易に開発できるとは⾔いがたい状況です。

ここでは、特にビジネス⽬的で製品化に向けて⾳声対話システムを開発する場合の、典型的なプロセスを紹介します。
(実際の開発はそれぞれ状況が異なり、ここで紹介する典型例とは相違が発生する可能性があります)

以下の図は典型的な音声対話システムの開発プロセスを示しています。

図1. 典型的な音声対話システムの開発プロセス

より詳しい完全版はこちらでご覧いただけます。

デザインフェーズ


初めに、⾳声対話システムの⽬的(果たすべき役割、実現するべき価値)を定めます。その上で、システムそのものの「⼈格」である「エージェント」のデザインを⾏います。

エージェントデザイン

エージェントはユーザーの印象や期待を裏切らないことが重要です。そのため、「ペルソナ」・「ボディ」・「アビリティ」の3要素の⼀貫性を保ちつつ、現在の技術⽔準において実現可能なものであるかどうかを検証しながらデザインしていきます。

ペルソナ

エージェントの性格特性。システムの基本的な振る舞いを規定します。

図2 エージェントデザインの3要素

アビリティ

エージェントの能⼒。システムが実⾏可能なサービス内容を規定します。

ボディ

エージェントの外⾒。ユーザーに提供するインタフェースとコミュニケーション⼿段を規定します。

対話シナリオ作成

エージェントのデザインに沿って対話ルールの基本的な枠組みを決定し、ユーザー試験のための台本(対話シナリオ)を作成します。例えばインテンション・スロットという枠組みでは、⼊⼒(ユーザー発話)・出⼒(システムの応答)とこれらの⼊出⼒を決定するルールを考えて、対話シナリオを作成していきます。

WOZ

デザインの妥当性を検証します。この時点では⾳声対話システムの実物はまだありません。そこでシステムの役割を⼈間が担うWizard of Oz (WOZ) ⽅式のテストを⾏います。実際の利用環境に近づけたモックアップのシステムを用意し、ユーザーには裏で人間が操作していることを伏せてシステムを使用してもらいます。
エージェントデザインが一貫していること、システムが目的に沿っていること、この時点で期待する水準に達していることが確認できるまでWOZ方式のテストを繰り返します。

プロトタイピングフェーズ


再び開発プロセスを確認しましょう。

⾳声対話システムの⽬的に基づいたエージェントのデザインが定まるまでデザインフェーズを繰り返し⾏い、デザインが定まった時点で、実際に動作するプロトタイピング版の開発に進みます。

図1. 典型的な音声対話システムの開発プロセス

対話ルール作成

デザインフェーズで作成した基本的な対話ルールを拡張し、ユーザーの利用状況に即した網羅的な対話ルールを作成していきます。

システム設計・システム実装

典型的な⾳声対話システムの構成は以下のようになります。エージェントデザイン、およびシステムの⽬的と利⽤状況に基づいて、論理的に設計していきます。

図3 典型的なシステム構成

⾳声対話システムはさまざまな要素技術を必要とします。ユーザーインターフェースの役割を果たすハードウェア本体、及びクラウド上の計算資源の割り当て、ソフトウェア構成、そして機械学習のモデルやアルゴリズムを、各々の選択肢の特性、期待される性能、準備するためのコスト、メンテナンス性などを考慮して決定していきます。

図4 システム設計の3要素

ユーザー評価試験

プロトタイプ版のシステムを実際にユーザーに使ってもらって、問題点を洗い出します。⼤きな問題がなくなるまで、システムの改善と評価を繰り返します。

製品化フェーズに⾄るまでに、⾳声対話システムに特有のタスクをすべて決着させ、通常のシステム開発に落とし込んでおかなければなりません。

製品化フェーズ


期待した性能水準を達成するまでプロトタイピングフェーズを繰り返し行い、達成した時点で製品版の開発に進みます。
本フェーズの内容は通常のシステム開発と同様です。ただし製品版において要求される安定性、セキュリティ、スケール性、メンテナンス性などの⽔準を満たすように設計の修正を⾏う必要があります。

まとめ


ビジネス⽬的で製品化に向けて⾳声対話システムを開発する場合の、典型的な開発プロセスを紹介しました。システムの⽬的や想定する製品の特性ごとに、適切にデザインや設計を⾏う必要があります。これには⾳声⾔語処理・⾳声対話システムの技術的な専⾨知識、およびシステム設計・実装の経験が必要となります。また、システムを構成する諸要素(エージェントデザイン・ハードウェア・ソフトウェア・アルゴリズム)はシステムの⽬的、および技術的妥当性の制約から論理的に決定すべきものです。これらの構成要素は互いに関連しているため、各々を独⾃あるいは恣意的に選択することはできません。そのため、⾳声対話システム開発の最初期の段階から、専⾨家の助⾔の下で判断と設計を行うことをおすすめします。

より詳しい完全版はこちらでご覧いただけます。

音声対話システム開発のご相談はこちらへ


■本サイトに記載の製品名は商標または登録商標です。
■一部の写真は機能説明のために各ランプを点灯したものです。実際の使用状態を示すものではありません。■一部の写真は合成・イメージです。
トップへ