ATR多数話者音声データベース音素バランス文48k

DAT(Digital Audio Tape)で収録した48kHz音源をリサンプルすることなくまとめたデータベースです。
オリジナルの音質を忠実に再現し、より豊かでクリアなサウンドを実現しています。

48kHz高サンプリング音声データの用途

　音声合成分野では、48kHz高サンプリング音声コーパスを活用することで、より自然で感情豊かな表現を実現できます。 AI音声番組、ポッドキャストなど臨場感のある音声コンテンツ制作においてもご活用いただけます。

　音声認識(ASR)分野では、音声認識エンジンの改良や地域イントネーションの強化に加え、車内や騒音の多い環境など、さまざまな音響環境に対応するためのトレーニングデータとしてご活用いただけます。さらに、ノイズ耐性やエコーキャンセルのアルゴリズム向上にも貢献し、実環境における高い認識精度を実現します。

　音声品質評価(MOS)では、高品質な音声の基準として利用できます。ユーザーの主観的な聴取体験を数値化できるため、より精密な評価が可能となります。

仕様ピックアップ

データ構成

　　　　　　　　　　　　　　　　　　　　　　　　　男性　　　　女性
48k音声データ：WAV形式(48kHz,16bit,MONO)　　サンプル1　　サンプル2
ラベルデータ　：書き起こし音素列,発話区間時刻　　サンプル1　　サンプル2
収録情報データ：収録要件情報　　　　　　　　　　サンプル1　　サンプル2

発話タスク	ATR音素バランス503文
総話者数(男/女別)	3,771名(1,380名/2,391名)
総発話時間(*1)	127.46時間
総発話数	112,560発話