ATR子供日本語音声データベース

概要

子供日本語音声データベースは、日本語を母語とする6歳~9歳(小学校低学年) および 9歳~13歳(小学校高学年) の子供を対象に、 あらかじめ準備した絵本や文章の台詞を読み上げてもらい、その音声を収録した音声データベースです。

収録はスマートフォンを用いて行っており、実環境に近い収録条件下での子供音声を収集している点が特長です。そのため、研究用途における基礎データとしてはもちろん、 実サービスを想定した音声認識・音声理解技術の評価や検証にも適しています。

本データベースでは、
 ●子供特有の発話速度・発音のばらつき
 ●年齢による音声特性の違い
 ●大人音声とは異なる音響的特徴
を含んでおり、子供音声を対象とした音声認識(ASR)、音声理解、音声対話システムの研究・開発に広く活用されています。

子供向け音声インターフェース、教育支援システム、見守り・対話型AIなど、 子供音声を扱う実サービスを想定した研究・開発用途においても、有用なデータセットです。

低学年/高学年における音声特性の違いについて

 子供の音声は、成長段階に応じて音響的・言語的特性が大きく変化します。
本データベースでは、小学校低学年(6~9歳) と 小学校高学年(9~13歳) を分けて収録することで、年齢による音声特性の違いを体系的に扱えるよう設計しています。

■ 小学校低学年(6~9歳)の音声特性
低学年の子供音声には、以下のような特徴が見られます。
 ●発話速度が比較的遅く、文中での間(ポーズ)が不規則
 ●音素の脱落や置換が起こりやすく、発音が安定しない
 ●母音・子音の長さや強さにばらつきが大きい
 ●抑揚やイントネーションが誇張されやすい
 ●読み上げ時に文字と音声の対応が不完全になる場合がある。
これらの特性は、大人音声や高学年音声を前提とした音声認識モデルでは誤認識が生じやすい要因となります。
低学年音声は、子供向けASRや教育支援システムの研究・評価において、特に重要なデータです。

■ 小学校高学年(9~13歳)の音声特性
高学年になると、音声特性は次第に大人音声に近づきますが、完全には一致しません。
 ●発話速度が安定し、文構造が明瞭になる
 ●音素の欠落は減少するが、成人話者とは異なる揺らぎが残る
 ●声質や基本周波数(F0)は個人差が大きく、成長段階の影響を受けやすい
 ●読み上げ精度は向上するが、感情や緊張による変動が見られる
高学年音声は、子供音声から大人音声への移行段階を捉えたデータとして価値があり、 年齢適応型ASRや、年齢推定・話者特性分析などの研究にも活用できます。

■ 低学年/高学年を分けて収録する意義
本データベースでは、低学年・高学年を明確に区分することで、以下のような検証が可能になります。
 ●年齢別に最適化された音声認識モデルの構築・評価
 ●同一テキストにおける年齢差による発音・韻律の比較
 ●子供音声特有の誤認識要因の分析
 ●教育・対話・見守りシステムなど用途別の性能検証
このように、年齢層を分けた構成は、単なるデータ量の確保ではなく、子供音声の多様性を正しく扱うための設計思想に基づいています。

■ 大人音声データとの併用について
低学年/高学年音声と大人音声データを併用することで、
 ●年齢による音声特性の連続的変化の分析
 ●子供から大人への適応性能評価
 ●実運用環境を想定したロバスト性検証
といった、より高度な研究・開発が可能になります。

仕様

タイトル数
フルセットとサブセット9タイトルの計10タイトル(全発話者数:男子175名、女子236名)
内訳 ※詳しい内容はパンフレット、詳細製品情報をご参照ください。
構成
音声データ(サンプル
原稿データ(サンプル

パンフレット

詳細製品情報

価格

商用利用 (低学年)  ¥5,360,000(税別) / 研究利⽤︓(低学年)  ¥3,220,000

商用利用 (高学年)  ¥6,720,000(税別) / 研究利⽤︓(高学年)  ¥4,040,000

※年齢別セットおよびアカデミック価格につきましては、個別にお問い合わせください。
※ライセンス区分については、こちらをご覧ください。