ATR-MOBILE503音声データベース
概要
ATR-MOBILE503音声データベースは、国際電気基礎技術研究所(ATR)で開発されたATR音素バランス503文(ATR503文)を、スマートフォン(iPhone)を用いて実環境条件下で収録した音声データベースです。
ATR503文が持つ 音素カバレッジの高さと標準性 を維持しつつ、スマートフォン収録による 実運用に近い音響条件 を反映している点が大きな特長です。
そのため、研究用途だけでなく、実サービスを想定した音声AIシステムの学習・評価・品質検証に適しています。
本データベースは、音声認識(ASR)、VUI(Voice User Interface)、音声対話システム、さらには ASR+LLM を組み合わせた音声理解・要約・対話システムの検証まで、幅広い用途で利用可能です。
■実環境ASR・VUI評価
・スマートフォン入力を前提としたASR性能評価
・実環境ノイズ・端末特性を含む条件下での認識率検証
・VUI/音声UI向けモデルの品質評価・比較
■モデル学習・ベンチマーク用途
・ATR503文による音素バランスを保った学習データ
・条件差(クリーン収録 vs モバイル収録)の比較実験
・16kHz/48kHzなどサンプリング条件差の検証
■ASR × LLM(音声理解・議事録・対話)
・音声認識結果をLLMに入力した要約・対話品質評価
・実環境音声を用いた議事録自動生成・音声要約の検証
・認識誤りがLLM出力に与える影響分析
仕様ピックアップ
●発話タスク ATR音素バランス503文
●話者数(男/女別) 120名(60名/60名)
●発話数/話者) 110~123/話者
●総発話時間長(男/女別) 23時間(11時間/12時間) 発話前後の無音区間を含む
●総発話数(男/女別) 13,855(6,926/6,929)
データ構成
男性 女性
音声データ :WAV形式(16kHz,16bit,MONO) サンプル サンプル
ラベルデータ:発話文カナ表記,発話区間時刻 サンプル サンプル
価格
商用利用 ¥1,000,000(税別)



