ATR多数話者音声データベース音素バランス文48k

DAT(Digital Audio Tape)で収録した48kHz音源をリサンプルすることなくまとめたデータベースです。
オリジナルの音質を忠実に再現し、より豊かでクリアなサウンドを実現しています。

ATR多数話者音声データベース音素バランス文」の48kHz版です。


48kHz高サンプリング音声データの用途

 音声合成分野では、48kHz高サンプリング音声コーパスを活用することで、より自然で感情豊かな表現を実現できます。 AI音声番組、ポッドキャストなど臨場感のある音声コンテンツ制作においてもご活用いただけます。

 音声認識(ASR)分野では、音声認識エンジンの改良や地域イントネーションの強化に加え、車内や騒音の多い環境など、 さまざまな音響環境に対応するためのトレーニングデータとしてご活用いただけます。さらに、ノイズ耐性やエコーキャンセルの アルゴリズム向上にも貢献し、実環境における高い認識精度を実現します。

 音声品質評価(MOS)では、高品質な音声の基準として利用できます。ユーザーの主観的な聴取体験を数値化できるため、より精密な評価が可能となります。


仕様ピックアップ

発話タスク ATR音素バランス503文
総話者数(男/女別) 3,771名(1,380名/2,391名)
総発話時間(*1) 127.46時間
総発話数 112,560発話
(*1) 音声データから発話前後の無音区間を除き実効発話区間のみで計算

詳細製品情報


データ構成

                         男性    女性
48k音声データ :WAV形式(48kHz,16bit,MONO)  サンプル1  サンプル2
ラベルデータ :書き起こし音素列,発話区間時刻   サンプル1  サンプル2
収録情報データ:収録要件情報            サンプル1  サンプル2


価格

商用利用   ¥6,000,000 (税抜)

  ライセンス区分については、こちらをご覧ください