高精度な音声合成を自動生成するAIシステムを開発

“橋”、“箸”、“端”などのイントネーションを正確に生成

大日本印刷株式会社(DNP)とグループ会社で企業の総合的なマーケティング施策を支援する株式会社DNPコミュニケーションデザイン(DCD)は、人間の音声を人工的に作り出す「音声合成」の制作時に起きる読み間違いを減らし、人が読むナレーションのイントネーションやアクセント、間合いに近い自然な音声を自動生成できるAI(人工知能)を活用した音声合成システムを開発しました。

今回開発したシステムは、音声合成の制作時に起きる漢字の「誤読」や、“橋/箸/端”など同じ読み仮名で異なる「イントネーションの違い」に関して、従来のDNPの音声合成の制作と比較してこれらの読み間違いを約50~70%削減します。これにより、高齢者や身体障がいの有無に関わらず、誰でも必要な情報に簡単にたどり着けるアクセシビリティの向上を図ります。音声合成が利用されている学校教材や電子書籍、生命保険・損害保険の約款や契約書、e-Learningや研修教材などに広く活用できます。

独自開発のAI音声合成システムで精度向上。正しく情報を伝えることが必要なコンテンツに最適

【音声合成を自動生成するAIシステム開発の背景】

近年、多様なすべての人々に、できるだけわかりやすく情報を伝達する機器やサービスの開発が進み、その利用が拡大しています。例えば、文字等を読むことが困難な人のための国際標準規格DAISY(デイジー:Digital Accessible Information System)に準拠したデジタル録音図書をはじめ、さまざまな手法で人間の音声を人工的に作り出す音声合成は、交通情報や施設のナビゲーション、電話の自動音声ガイダンスなどで幅広く利用されています。

こうした音声合成の精度は年々向上しているものの、漢字の誤読や発音・イントネーションの間違いが依然として発生していることが課題となっています。この課題に対してDNPとDCDは、多くの企業のマニュアルや約款、研修用コンテンツ等で音声合成を制作してきた技術・ノウハウを活かし、「単語の読みや発音で、間違いのない音声データ」を機械学習させて、誤読が少なくスムーズな発音の音声合成を自動生成できるDNP独自のAIシステムを開発しました。

【音声合成を自動生成するAIの特長と効果】

1.正確な読み仮名の自動付与により、漢字の読みの間違いを大幅に削減

DCDが保有する読み間違いのない音声データをAIに機械学習させることで、正確な読みを自動付与できるようになります。約款や契約書、自治体・行政機関等の公式文書、製品の解説書といった正しい情報提示が必要でテキスト量が多いものへの利用に適しています。

2.人が読むナレーションに近い自然な音声合成を生成

イントネーションとアクセントを文章の文脈を加味して自動生成するため、従来の方法と比較して、人が読むナレーションに近い自然な音声を生成します。特に正しい読みやナレーションを重視する学校教材や電子書籍などに最適です。

3.追加学習により「読み」の正確性や自然なナレーションの精度を向上

既存の音声データに加え、追加学習によってデータを増やすほど、読みの正確性やイントネーションおよびアクセントの精度が向上します。複数の生命保険会社の約款で汎用性の検証を実施したところ、「読み」「アクセント」「間」について約85%以上の正確性が確認されました。今後、DNPとDCDは追加学習を重ねることでさらなる精度の向上を図ります。

【主な活用イメージ】

特に情報を正しく伝えることが重要であり、テキスト量の多いコンテンツなどで高い効果を発揮します。

〇学校教材・副教材、電子書籍など

〇金融機関関係・生命保険・損害保険等の約款・契約書など

〇自治体・行政などの公式文書・お知らせ・広報紙など

〇企業のe-Learningや研修教材、製品のマニュアル・カタログなど

【今後の展開】

DNPグループは、社会を構成する多様な人々に価値を提供し続けるため、一人ひとりのあらゆる違いを尊重し、それを強みとして掛け合わせる「ダイバーシティ&インクルージョン(多様性と包摂)」の取り組みに注力しています。DNPとDCDは今後も、AIの精度向上と適応分野の拡大に努めるとともに、AIを活用した音声合成の付加価値を高め、幅広い分野に向けてサービスを提供していきます。


※記載された製品の仕様、サービス内容などは発表日現在のものです。今後予告なしに変更されることがありますので、あらかじめご了承下さい。