検索パネルを開く 検索パネルを閉じる メニューを開く メニューを閉じる

2025年8月 7日

お知らせ

音声言語処理における世界最大の国際学会Interspeech2025に、NTTから18本の論文が採択

2025年8月17日~21日にオランダのロッテルダムで開催される国際会議Interspeech2025(the 26th edition of the Interspeech Conference)に、NTTの研究所より提出された18本の論文が採択されました。Interspeechは、人と人、人と計算機/AIの音声コミュニケーションを支える音声言語処理の技術および科学に関する世界最大かつもっとも包括的な国際会議で、音声認識・音声合成・音声対話から音声学まで、幅広い分野を対象としています。またInterspeechの会場では、これらの採録論文に加えて、重要な分野の動向を解説するSurvey Talkや、Show & Tellセッションにおけるデモを発表予定です。
 なお、所属としてそれぞれ略称で書かれている研究所名は、以下の通りです(所属は投稿時点)。
CS研:NTTコミュニケーション科学基礎研究所
人間研:NTT人間情報研究所
CD研:NTTコンピュータ&データサイエンス研究所
SIC:NTTソフトウェアイノベーションセンタ

  1. Towards Pre-training an Effective Respiratory Audio Foundation Models(効果的な呼吸音基盤モデルの事前学習の検討)
    1. 仁泉 大輔 リサーチスペシャリスト(CS研)、竹内 大起 研究員(CS研)、安田 昌弘 研究員(CS研/CD研)、グエン ビン ティエン リサーチアソシエイト(CS研)、大石 康智 主幹研究員(CS研)、原田 登 上席特別研究員(CS研)
    2. AIの医用応用に向けて「呼吸音」向け基盤モデルが注目されています。しかしその学習データは多様性が乏しく、また従来の手法による事前学習はこの分野において十分検証されていません。そこで私達は、音の基盤モデル21種類について有効性を調査、必要な事前学習のプラクティスを洗い出しました。また、得られた知見を基にした改善により、従来のベンチマークを大幅に更新できることを示しました。本研究の成果は、呼吸音を用いる健康状態のモニタリングなど、今後の研究の発展に寄与します。
  2. CLAP-ART: Automated Audio Captioning with Semantic-rich Audio Representation Tokenizer(CLAP-ART: 意味情報を考慮した音響表現トークナイザを用いた音響説明文生成)
    1. 竹内 大起 研究員(CS研)、安田 昌弘 研究員(CS研/CD研)、グエン ビン ティエン リサーチアソシエイト(CS研)、仁泉 大輔 リサーチスペシャリスト(CS研)、大石 康智 主幹研究員(CS研)、原田 登 上席特別研究員(CS研/CD研)
    2. 音響説明文生成は音響イベント・シーンに含まれる意味的内容を自然言語で記述する技術で、大規模言語モデルに多様な音を理解させるうえで鍵となる技術です。従来手法では、音の圧縮が目的の音響信号符号化による離散トークンを、説明文生成のための入力特徴量として利用していました。しかし、この離散トークンは音を忠実に復元するために設計されており、音の意味的内容を十分に捉えてきれていないという課題がありました。本研究では、データが多少変形しても意味的情報は変わらないことに基づいた事前学習による音響表現の特徴量から意味的内容をよく捉えた離散トークンを獲得し、入力特徴量とする説明文生成手法を提案しました。実験では、音響信号符号化の離散トークンを用いる従来手法から精度を改善し、小規模な言語モデルでも大規模言語モデルを用いた最先端手法に匹敵する性能を達成することを確認しました。 本成果は、多様な音を理解できる大規模言語モデル実現の基盤技術となり、高度な見守りシステムや音コンテンツ検索など、音声に限らない多様な音を理解するマルチモーダルAIの基盤技術として貢献することが期待されます。
  3. Analysis of Semantic and Acoustic Token Variability Across Speech, Music, and Audio Domains(音声・音楽・音響ドメイン間に関する離散トークンの多様性分析)
    1. 芦原 孝典 主任研究員(人間研)、デルクロア マーク 特別研究員(CS研)、落合 翼 研究主任(CS研)、松浦 孝平 研究員(人間研)、堀口 翔太 リサーチスペシャリスト(人間研)
    2. 連続的な音声波形を離散的な単位(トークン)に変換する技術が、さまざまな音声処理タスクで活用されています。本研究では、音トークンが異なるドメイン(例:音声,音楽,環境音)においてどのように振る舞いが変化するのかを分析しました。その結果、ドメインに依存しないトークン表現の特徴や、ドメイン間で共有可能な性質を明らかにしました。本成果は今後、音トークンを活用した音処理システムや機械学習モデルの設計において、ドメイン汎用性の観点から有用な指針を提供するものです。
  4. Attention-Free Dual-Mode ASR with Latency-Controlled Selective State Spaces(遅延制御型SSMを用いたAttention不要なデュアルモード音声認識)
    1. 森谷 崇史 准特別研究員(人間研/CS研)、三村 正人 主任研究員(人間研)、松井 清彰 研究主任(人間研)、佐藤 宏 研究員(人間研)、松浦 孝平 研究員(人間研)
    2. 入力音声を自動でテキストに変換する音声認識のタスクにおいて、計算量が指数オーダーで増加するAttention機構が不要なState Space Model(SSM)を用いたモデル構造、および入力音声をチャンクごとに認識するストリーミング音声認識のためのデコードアルゴリズムを提案します。実験結果では、提案手法を用いたSSMベースの音声認識モデルは高度なAttention機構を用いたモデルと比較して同程度の認識性能を保ちながら高速に認識処理できることを示しています。本成果によりさらに高速かつ高性能な音声認識システムの構築が可能となり、会議議事録支援や対話システムでの利用が期待されます。
  5. MOVER: Combining Multiple Meeting Recognition Systems(MOVER: 複数の会議音声認識システムの統合)
    1. 加茂 直之 研究員(CS研)、落合 翼 主任研究員(CS研)、デロクロア マーク 特別研究員(CS研)、中谷智広 上席特別研究員(CS研)
    2. 会話音声認識は複数人が会話している音声データから、いつ、誰が、何を話しているかを推定するタスクです。本研究は、複数の会話音声認識システムの結果が得られたときに、それらの結果を統合する手法を提案しています。従来、音声認識結果のシステム統合の手法は存在していましたが、会話音声認識において、従来の統合手法を適用する場合、同じ話者の同じ時間区間に対する発話の認識結果である必要があり、一般の会話音声認識システムには適用できませんでした。そこで本研究では、異なる時間、異なる時間区間に対する認識結果の対応関係を決めたうえで、音声認識結果のシステム統合を行う手法を提案しました。本研究の成果により、会話音声認識の性能を更に向上させることが可能になりました。
  6. Switch Conformer with Universal Phonetic Experts for Multilingual ASR(スイッチ Conformerと普遍的音素エキスパートを用いた多言語音声認識)
    1. 三村 正人 主任研究員(人間研)、イ ジェヨン(京大)、河原 達也(京大)
    2. 多言語end-to-end音声認識は、異なる文字体系・語彙・文法構造に対応するために、モデルは計算コストの高い大規模なものになります。本研究では、標準的なConformerとほぼ同等の推論コストを維持しながらモデル容量を拡張するswitch Conformerを提案します。本手法では、各Conformerブロックにおけるフィードフォワードネットワークモジュールを、独立したエキスパートの集合に置き換え、入力ごとに単一のエキスパートのみを活性化することで、言語固有の特徴を効率的に学習します。さらに、言語普遍的な音声特性を捉える機構として共有エキスパートを追加しました。ストリーミング音声認識実験の結果、これらのエキスパートが相乗的に機能し、モデルパラメータの追加を最小限に抑えつつ、ベースラインのConformerを上回る性能を達成しました。本技術は、多言語コミュニケーションを円滑にする支援システムでの活用が期待されます。
  7. Why is children's ASR so difficult? Analyzing children's phonological error patterns using SSL-based phoneme recognizers(子ども音声認識はなぜ難しい?SSLベースの音素認識器のエラーパターンの分析)
    1. 堀井 こはる 社員(CS研)、俵 直弘 主任研究員(CS研)、小川 厚徳 主任研究員(CS研)、荒木 章子 主幹研究員(CS研)
    2. 便利で高精度な教育・育児支援アプリの開発には正確な子ども音声認識が必要です。一方で、子どもの声は、声の高さや話す速さが大人と大きく異なるうえ、成長とともに変化するため、一般的な音声認識モデルでは正確に認識することが難しいとされています。そこで本研究では、音声の最小単位である音素に着目し、最新の自己教師あり学習(SSL)を用いて構築した子ども向け英語音素認識器を用い、5~15歳の音声を分析することで、子ども音声認識が難しい要因や、年齢による誤認識の傾向の変化を明らかにしました。これらの知見は、今後の子ども音声認識研究の指針となるとともに、音声・言語発達研究の自動化や、年齢や発達段階に応じた高精度な教育・育児支援アプリの開発にも貢献することが期待されます。
  8. Pick and Summarize: Integrating Extractive and Abstractive Speech Summarization(選択と要約: 音声要約における抽出要約と抽象要約の統合)
    1. 叶 高朋 研究主任(CS研)、小川 厚徳 主任研究員(CS研)、デルクロア マーク 特別研究員(CS研)、福田 りょう 社員(CS研)、ウィリアム チェン(カーネギーメロン大学)、渡部 晋治(カーネギーメロン大学)
    2. 音声要約には、重要な発話を抽出して要約を構築する「抽出要約」と、発話内容を自由に記述する「抽象要約」の2種類の手法があります。本研究では、これら2つの要約手法を統合し、1つの深層学習モデルで同時に学習する手法を提案しました。本提案手法では、音声要約モデルが長い独話の中から重要な発話を選択して出力した後、会話全体と自身が抽出した要約文に基づいて、よりトピックに関連した具体的な語彙を用いた抽象要約を生成します。これにより、全体的な要約精度の向上に成功しました。本技術により、音声言語AIが話者の発言を要約する際に、どの部分に着目し、どのように要約したかを2段階で出力することが可能となり、生成された要約の解釈性と正確性の向上が期待されます。
  9. Unified Audio-Visual Modeling for Recognizing Which Face Spoke When and What in Multi-Talker Overlapped Speech and Video(複数話者の重畳音声及び映像から誰がいつ何を話したかを推定するための統一音映像モデリング)
    1. 牧島 直輝 研究員(人間研)、河田 尚孝 研究員(人間研)、山根 大河 研究員(人間研)、庵 愛 研究員(人間研)、田中 智大 研究主任(人間研)、鈴木 聡志 研究主任(人間研)、折橋 翔太 研究主任(人間研)、増村 亮 特別研究員(人間研)
    2. 複数の話者が同時に話す動画の理解において、重なり合った音声と複数話者の動画から、「誰が(どの顔が)、いつ、何」を話したかを認識することが実用上重要です。従来法では、このタスクに対応するため、音声分離、アクティブスピーカー検出、音声認識を組み合わせる必要があります。しかし、部分最適化されたこれらシステムの組み合わせは全体を複雑化し、最適でない結果を生じさせます。本研究では、複数話者の「どの顔がいつ何を話したか」を単一のトークン系列にシリアライズし、統一の1モデルを用いて再帰的に推定することでこの問題を改善し、「誰が、いつ、何」を話したかの推定精度を向上させました。本研究により、AIは視覚と聴覚の情報を結びつけることが可能となり、従来の音だけ、映像だけのシステムに比べてより高度な環境理解とコミュニケーション支援を行うことができるようになります。
  10. SOMSRED-SVC: Sequential Output Modeling with Speaker Vector Constraints for Joint Multi-Talker Overlapped ASR and Speaker Diarization(話者ベクトル制約をかけた自己回帰モデリングによる複数話者音声認識及び話者ダイアライゼーション)
    1. 牧島 直輝 研究員(人間研)、河田 尚孝 研究員(人間研)、山根 大河 研究員(人間研)、庵 愛 研究員(人間研)、田中 智大 研究主任(人間研)、鈴木 聡志 研究主任(人間研)、折橋 翔太 研究主任(人間研)、増村 亮 特別研究員(人間研)
    2. 複数の話者が同時に話している重畳音声から「誰が、いつ、何を」話したのかを推定するタスクにおいて、従来法のSOMSREDが高い性能を示しています。SOMSREDでは、「誰が」の推定を離散化された話者トークンとその中間特徴量である話者ベクトルの推定問題として音声認識と同時に解くことで、音声全体が重なっているようなオーバーラップ率の大きい音声においても高精度の推定を行います。しかし、話者トークンの離散化は、話者ベクトルの品質劣化を引き起こしていました。本研究では、話者ベクトルに連続特徴量空間で制約をかける損失関数を導入し、これによりSOMSREDの話者ベクトル性能と音声認識性能を改善しました。本研究は、AIによる環境理解や円滑な音声コミュニケーションへの活用が期待されます。
  11. Pretraining Multi-Speaker Identification for Neural Speaker Diarization(複数話者照合を用いたニューラル話者ダイアライゼーションの事前学習)
    1. 堀口 翔太 リサーチスペシャリスト(人間研)、安藤 厚志 主任研究員(人間研)、デルクロア マーク 特別研究員(CS研)、俵 直弘 主任研究員(CS研)
    2. 話者ダイアライゼーションは音声からいつ誰が発話したのかを推定するタスクです。精度の良い話者ダイアライゼーションモデルを得るには、大量の疑似会話データを作成して事前学習を行う必要がありましたが、本研究では数秒程度の0~2話者音声のみを用いた事前学習手法を提案し、モデルの性能向上を実現しました。本成果は、会議や商談といった複数人が発話する状況における音声の認識・理解への活用が期待されます。
  12. Mitigating Non-Target Speaker Bias in Guided Speaker Embedding(目的話者特徴量抽出における非目的話者によるバイアスの低減)
    1. 堀口 翔太 リサーチスペシャリスト(人間研)、芦原 孝典 主任研究員(人間研)、デルクロア マーク 特別研究員(CS研)、安藤 厚志 主任研究員(人間研)、俵 直弘 主任研究員(CS研)
    2. 話者特徴量とは、その類似度に基づいて話者が同一か否かを判定することができるようなベクトル表現です。本研究では、複数の話者が発話する音声から特定の話者に対応する話者特徴量を抽出する手法において、抽出対象とする話者の発話区間から計算した統計量に基づいて特徴量の重みづけを行うことで、その抽出精度を向上させる手法を提案します。本成果は、会議や商談といった複数人が発話する状況における音声の認識・理解への活用が期待されます。
  13. Voice Impression Control in Zero-Shot TTS(音声の印象を制御可能なZero-shot音声合成)
    1. 藤田 健一 研究員(人間研)、堀口 翔太 リサーチスペシャリスト(人間研)、井島 勇祐 特別研究員(人間研)
    2. わずか数秒の音声から、その話者に似た音声を合成できるzero-shot音声合成技術において、合成音声の印象を制御できる手法を開発しました。本手法では、「冷たい–温かい」や「弱々しい–迫力がある」といった11種類の音声の印象を数値化し、その数値ベクトルを操作することで、元々の話者の特徴を残しながら合成音声の印象を制御することが可能です。これにより、ユーザが求める音声やシーンに合った音声をより簡単に生成できるようになります。
  14. FasterVoiceGrad: Faster One-step Diffusion-Based Voice Conversion with Adversarial Diffusion Conversion Distillation(FasterVoiceGrad:敵対的拡散変換蒸留によるより高速なワンステップ拡散型声質変換)
    1. 金子 卓弘 特別研究員(CS研)、亀岡 弘和 上席特別研究員(CS研)、田中 宏 研究主任(CS研)、近藤 祐斗 社員(CS研)
    2. 声質変換は、話している内容はそのままで、声の特徴だけを別の人のものに変える技術です。最近は、「拡散モデル」という最新のAI技術を使った声質変換が注目されていますが、高性能な一方で、変換には反復計算が必要で、また、言語情報の取得に時間がかかるという課題がありました。この課題を解決するため、本研究では、「敵対的拡散変換蒸留」という新しい手法を開発し、従来と同じくらい高品質な声質変換を、より短時間で実現しました。この技術は、限られた時間でも高性能な声質変換を可能にするもので、将来的な実用化に向けて、重要な技術になると期待されています。
  15. Vocoder-Projected Feature Discriminator(ボコーダ投影特徴識別器)
    1. 金子 卓弘 特別研究員(CS研)、亀岡 弘和 上席特別研究員(CS研)、田中 宏 研究主任(CS研)、近藤 祐斗 社員(CS研)
    2. 音声合成や変換では、音の特徴を予測するモデルと、その予測から音を作るモデルを別々に学習する「2段階の方法」がよく使われています。本研究では、より高品質な音声を作るため、最初の予測モデルの性能向上に取り組みました。この分野では、モデル同士を競わせる「敵対的学習」が使われていますが、学習が不安定になりやすいという課題があります。そこで本研究では、「ボコーダ投影特徴識別器」という新しい仕組みを使い、音の特徴を効果的に捉えながら安定した学習を可能にしました。その結果、音声変換の品質を保ちながら、学習時間とメモリ使用量を大幅に削減することに成功しました。この技術により、音声AIの開発コストを削減でき、環境負荷の少ないAIの実現に向けた重要な技術になると期待されています。
  16. JIS: A Speech Corpus of Japanese Idol Speakers with Various Speaking Styles(JIS: 様々な発話スタイルからなるアイドル音声コーパス)
    1. 近藤 祐斗 社員(CS研)、亀岡 弘和 上席特別研究員(CS研)、田中 宏 研究主任(CS研)、金子 卓弘 特別研究員(CS研)
    2. テキスト音声合成や音声変換などの音声生成AIの研究の促進を目的として、150人以上のライブアイドルの計17時間の音声を収録し彼女達を話者とする多数話者音声コーパスJISを構築しました。音声生成AIの性能評価のために頻繁に行われている生成音声と目標話者音声との間の話者類似度に関するアンケートでは今までは比較的寛容な評価しか行えませんでしたが、JISのもつ性質(例:芸名IDを活用しての各話者のファンによる判別性の高い評価)により今後はより緻密な類似度評価が可能となると期待されます。JISの著作権はNTTに属します。使用用途を非商用の基礎研究に限定して希望する他研究機関へJISを無償で提供する予定であり、JISは日本中の研究グループによる高品質な音声生成AIの研究開発を一層促進すると期待しています。
  17. Leveraging LLMs for Written to Spoken Style Data Transformation to Enhance Spoken Dialog State Tracking(LLMを活用した書き言葉から話し言葉へのデータ変換による音声対話システムの強化)
    1. グルザー ハリス 研究員(SIC)、ブスト モニカ 研究員(SIC)、正木 晶子 担当課長(SIC)、江田 毅晴 担当部長(SIC)、増村 亮 特別研究員(人間研)
    2. Task Oriented Dialog(TOD)システムにおいて、Dialog State Tracking(DST)は、人間の会話を通じて様々なタスクを遂行するための重要な要素です。しかし、書き言葉を用いて学習された従来のTODシステムは、人間の発話に特有の言いよどみや音声認識の誤りにより、音声環境下では性能が著しく低下します。さらに、音声スタイルのラベル付きデータは、コストやプライバシー上の問題により極めて入手困難です。本研究では、発話スタイルのTODデータを大規模言語モデル(LLMs)を活用して生成した結果、音声TODシステムにおけるJoint Goal Accuracy(JGA)を絶対値で3.39%、相対値で11.6%向上させることに成功しました。本稿では、データ生成とDSTモデルの学習における「分割統治」アプローチを提示します。既存の対話システムを音声対話に適応させることで、支援ロボット、車載AIアシスタント、コールセンター向け自動応答エージェント等の応用における性能を大幅に向上させる可能性があります。
  18. Improving User Impression of Spoken Dialogue Systems by Controlling Para-linguistic Expression Based on Intimacy(親しみに基づくパラ言語表現の操作による音声対話システムのユーザ評定の向上)
    1. 川西 翔貴(東北大)、伊藤 彰則(東北大)、千葉 祐弥 主任研究員(CS研)、能勢 隆(東北大)
    2. 音声対話システムの応答の親しみを言語的・パラ言語的表現の両方の側面で、対話の継続に合わせて段階的に変化させる制御手法を提案し、対話実験によってその有効性を確認しました。これまでの親しみに基づく対話制御は言語的表現において効果が確認されていましたが、音声の韻律や話速といったパラ言語的な側面は見過ごされていました。本研究では、話者間の親しみが異なる会話から抽出された発話を用いて音声合成モデルを学習し、音声のパラ言語的表現も変化させます。本研究成果は、継続的に会話を行うシステムにおけるユーザのエンゲージメントを維持するための設計指針として役立つことが期待されます。

また、期間中、下記のSurvey Talkを行ないます。

  1. Advances in Conversational Speech Recognition(会話音声認識の進展)
    1. デルクロア マーク 特別研究員(CS研)
    2. 会話音声認識(Conversational Speech Recognition, CSR)は、会議などの複数人話者による会話の正確な書き起こしおよび、各発話への話者ラベルと時間情報の付与を目的としています。このタスクは、発話同士の重なりや、話者の多様性、さまざまな録音環境など、複数の人が自由に話す会話ならではの難しさが存在します。本講演では、CSRについて包括的に概観します。まず、その定義、一般的に使用されるデータセット、標準的な評価指標について説明します。次に、既存のCSRフレームワークを分析し、この分野における最近の進展を概観します。最後に、依然として残る課題についても議論します。

また、Show and Tellセッションにて、デモンストレーションを伴う発表も行ないます。

  1. Real-time TSE demonstration via SoundBeam with KD(SoundBeam with KDによるリアルタイムTSEデモンストレーション)
    1. 若山 圭吾 研究主任(CD研)、川瀬 智子 主任研究員(CD研)、森谷 崇史 准特別研究員(人間研/CS研)、デルクロア マーク 特別研究員(CS研)、佐藤 宏 研究員(人間研)、落合 翼 研究主任(CS研)、安田 昌弘 研究員(CD研/CS研)、荒木 章子 主幹研究員(CS研)
    2. 録音した混合音からリアルタイムで所望の音源を抽出する目的音抽出(TSE)システムのデモを提案します。提案システムは、NTTのSoundBeam TSEアプローチを因果的システムに拡張し、非因果的TSEシステムからの知識蒸留(KD)を利用することで高い抽出性能を維持します。今後、リアルタイムTSEシステムの改良を積極的に進めることで、没入型システムや聴覚デバイスをはじめ、幅広い分野への応用をめざします。

トピックスに記載している情報は、発表日時点のものです。
現時点では、発表日時点での情報と異なる場合がありますので、あらかじめご了承いただくとともに、ご注意をお願いいたします。