ATR子供中国語音声データベース
概要
子供中国語音声データベースは、成長期にある子供の音声特性を捉えることを目的として構築された、中国語子供音声のための音声データベースです。
中国語を母語とする 小学生(6~12歳) を対象に、あらかじめ準備された台詞を読み上げてもらい、その音声を収録しています。
収録はスマートフォンを用いて行っており、実利用環境に近い条件下での子供音声を収集している点が特長です。
これにより、研究用途における基礎データとしてだけでなく、実サービスを想定した音声認識(ASR)・音声合成(TTS)・音声理解技術の評価・検証にも適しています。
本データベースでは、低学年(1~3年生)/高学年(4~6年生)の区分を設け、年齢層および男女比を考慮した、バランスの取れた話者構成としています。
発話文リストが付属しており、音声とテキストの対応関係が明確なため、モデル学習・評価・比較実験に利用しやすい構成となっています。
音声認識・音声合成モデルの学習や評価に加え、教育支援アプリ、発話発達研究、子供向け音声インターフェースなど、子供音声を対象とした幅広い研究・開発分野で活用可能です。
また、本データベースは、アカデミック・研究・商用利用に対応したライセンス形態で提供しており、研究機関から企業での製品開発・評価用途まで、柔軟にご利用いただけます。
主な特徴
・中国語を母語とする 小学生(6~12歳) を対象とした子供音声コーパス
・低学年/高学年 による年齢層区分を含む構成
・男女比・年齢バランスを考慮した話者設計
・読み上げ文による統制された発話スタイル
・発話文リスト付属(音声×テキスト対応)
・スマートフォン収録による実環境性
・音声認識・音声合成・音声理解・教育AI研究に対応
・アカデミック/研究/商用利用に対応したライセンス提供
子供中国語音声コーパスの用途
■ 音声認識(ASR)用途
子供音声は、大人音声と比べて発音や発話速度、韻律にばらつきが大きく、一般的なASRモデルでは認識精度が低下しやすいことが知られています。
(利用イメージ)
・子供向け音声認識システムの学習・評価
・年齢別(低学年/高学年)による認識性能差の分析
・大人音声モデルとの差分評価・ロバスト性検証
・教育・対話・見守り用途を想定した実環境評価
■ 音声合成(TTS)用途
子供の声質や話し方は年齢とともに大きく変化するため、子供向けTTSや年齢適応型音声合成の研究において、実音声データが重要となります。
(利用イメージ)
・子供音声を想定した音声合成モデルの検証
・年齢層による音声表現・自然さの比較
・教育コンテンツ・読み上げアプリ向け音声表現研究
■ LLM × 音声(音声理解・要約・対話)用途
ASRとLLMを組み合わせた音声理解・対話システムでは、子供音声特有の認識誤りや発話の不安定さが、最終的なLLM出力に影響します。
(利用イメージ)
・子供音声 → ASR → LLM による要約・説明文生成
・子供向け対話AIにおける質問理解・応答品質評価
・ASR誤りを含む入力に対するLLM補正効果の検証
・大人音声との比較による音声LLMの弱点分析
■教育支援・発話発達研究用途
子供中国語音声データは、言語発達段階を反映した音声データとして、教育・発話発達分野の研究にも活用できます。
(利用イメージ)
・年齢別の発話特徴・韻律変化の分析
・読み上げ能力・発話安定性の評価
・教育支援アプリ・学習支援AIの設計検証
■ 実サービスを想定した検証・評価用途
スマートフォン収録による実環境性を活かし、研究用途にとどまらず、商用サービスを想定した評価にも適しています。
(利用イメージ)
・子供向け音声UI・対話型アプリの事前評価
・ノイズ・端末差を含む条件下での性能検証
・実運用を想定した品質確認・リスク分析
デモ・サンプル紹介
音声データ:WAV形式(16kHz,16bit,MONO)サンプル1(女性:低学年) サンプル2(女性:高学年)
発話文リスト:発話文
サンプル1(女性:低学年) サンプル2(女性:高学年)
(音声波形)
サンプル1 サンプル2
仕様ピックアップ
| 発話タスク | あらかじめ準備した台詞 |
| 総話者数(男/女別) | 345名(169名/176名) |
| 総発話時間(*1) | 160.05時間 |
| 総発話数 | 81,473発話 |
価格
商用利用 (低学年) ¥4,505,000 (税抜) / (高学年) ¥3,995,000(税抜)
研究利用 (低学年) ¥3,180,000 (税抜) / (高学年) ¥2,820,000(税抜)
ライセンス区分については、こちらをご覧ください


