“総務大臣会見の音声を、音声認識を使って自動で会見録にする”
このプロジェクトの開発を主導した弊社代表取締役CEO/CTO藤野真人、技術営業部長 森克己にその内容を聞きます。
今回の「会見テキスト化支援システム」について教えてください。
各省庁で多く行われている大臣の会見(会見室、ぶら下がり会見、Webメディア)における音声を国立研究開発法人情報通信研究機構(NICT)の音声認識エンジンおよびフェアリーデバイセズの音処理技術、クラウド音声認識サービスを使ってテキスト化するシステムです。
会見録作成の担当者様が簡単に操作できるGUIアプリケーションを備え、Web経由で音声データを音声認識エンジンに送り、得られたテキスト結果を修正加筆することができます。新規単語、フレーズを継続追加登録するメンテナンス作業についてもシステムに含まれます。
初期の目的としては総務大臣会見内容のテキスト化、記録、Web等への配信を自動作成・配信・デジタルデータ化することから始め、最終目標としては各省庁の会見内容のテキスト化を支援する「会見テキスト化支援システム」の構築を目指しています。
開発に着手した理由はなんでしょうか?
総務省所管の国立研究開発法人情報通信研究機構(NICT)様とのお話の中で、大臣会見の発言記録を作成することに会見録作成の担当者様の作業時間が多くかかっているとの課題をお聞きしました。
NICT様の研究開発成果の社会実装を長年サポートしてきた弊社の技術や知見がこの難しい課題の解決に役に立つと考え、開発に着手しました。
また、NICT様から音声認識精度向上に関する技術支援や、総務省様からも評価環境や大きなアドバイスをいただき、協働して進めることができました。
具体的にどのようなプロジェクトが行われたのでしょうか?
まずは、自動テキスト化・テキスト作成の作業性を向上するため、会見における音声認識の精度向上を目指して改善していきました。
NICT様からのご提案で、総務省のご担当部門、ご担当者様とのお打ち合わせを実施し、実際の総務大臣会見の音声や作業状況のお話もお聞きし、開発を進めました。
NICTエンジンの特徴である言語モデルの適用・強化や新単語登録等を駆使することで、他社エンジンよりも高い音声認識精度を出すこととともに、人手による書き起こし、その後の修正作業を行う場合よりも合計作業時間が短縮される結果を導きました。
音声認識は手作業よりも60-80%程度の作業時間短縮を実現しておりますが、現状は認識精度を補完するための確認修正に時間を要するため最大で15%程度の時間削減に留まりました。しかしながら、トータルとしての作業時間は、現在行われている作業と比較して、短縮されており、今後、音声認識の認識精度の向上によりさらなる効率化が期待できます。
そのうえで、さらに会見録作成の担当者のテキスト確認・追記・修正のしやすさを追求するため、「会見テキスト化支援システム」としてUIを整えたアプリの準備も実施しました。
会見テキスト化支援システムの効果について
実際に総務省 大臣官房政策評価広報課 広報室のご担当者様に確認をいただき、「実用化に向けて、さらなる期待や要望はあるが、会見室で大臣会見を実施した場合の音声認識は合格点に達している」との感想をいただいています。
音声認識の精度については、まだ、常に100%の精度を保証できるものではありませんが、今後の認識精度ブラッシュアップにより、すべてを人手を介した会見議事録作成作業から音声認識とアプリを使用した作業へと業務標準のスイッチが起こり、さらに作業時間が短縮される可能性がでてきました。
「会見テキスト化支援システム」の今後の展望を教えてください。
総務大臣会見で得られた成果、課題をもとに、NICT様と協働してさらなる音声認識精度の向上を図り、会見録作成作業の効率化を目指していきます。さらに大臣会見以外にも対象を広げていくことを想定しています。
また、このシステムの発展としては、会見録作成担当部門以外の部門への会見内容確認の自動連絡や部門間の情報共有の連携のしやすさを高めていく開発する予定です。また、会見録のテキストのデジタル活用性の向上として、ホームページでのテキスト公開や、その他のデジタルデータ(音声、テキスト、YouTubeなど)との連携の円滑化、一元管理を進めます。
今回実現した「会見テキスト化支援システム」の活用範囲を広げ、多くの省庁での利用に広げていくことが、霞が関全体の働き方改革にお役に立つと考えています。
Copyright © 2020 Fairy Devices Inc. All rights reserved.