パスワードを忘れた? アカウント作成
2103624 journal
日記

aitoの日記: 音響学会3日目午後 音楽音響&音声A

日記 by aito

音楽音響 音楽情報処理I

・楽曲間主観的類似度データの収集実験(名大)
武田研。80局の楽曲について主観的な類似度評価を行った。その結果の統計を分析。また、楽曲から抽出された短時間特徴量による特徴ベクトルをカテゴリごとにベクトル量子化し、そのコードベクトルの出現頻度の対数を特徴量とする。そのユークリッド距離と、主観的に似ていると答えた人数の相関を観測する。「楽器構成」の主観的類似度との相関が比較的高い。「似ている」の定義についてディスカッションがあった。

・旋律に潜むジャンルの特徴(東京都市大)
メロディーの塊(音高フレーズ)の形状を特徴として分析。音高フレーズは、上がって下がるメロディーを1つの単位としてみたもの。音高フレーズの形について、音符数・高さ・幅・非対象性などの特徴を抽出し、その特徴とジャンルの関係を調べる。

・同一音高の音符の相関を利用した「音高関数」の周波数スペクトル(福岡教育大)
音楽を時間関数だと思ってスペクトルを求めると1/fになるという一連の研究の一つ。今回は音高を使ってスペクトルを求めている。超低周波領域(0.1Hz程度)で1/f構造が現れ、そのへんにあるピークが曲の特徴を表す(?)。よくわからない。

・動的計画法に基づく音楽構造解析とその音楽信号符号化への応用(東大)
嵯峨山研。音楽の繰り返し構造などの大域的構造を符号化に利用しようというアイデア。対数振幅スペクトログラム上で繰り返しを検出する。アルゴリズムはDP。解析手法自体は既存じゃないのかなあ。研究自体の意義について山田先生から疑問が呈された。音楽を圧縮する必要があるのかといわれるとオーディオ圧縮の研究はつらいなあ。

音声A 言語モデル
・Language Model for Efficient Error Correction in Speech Recognition (Tokyo Inst. Tech)
移動のため聞けなかった。

・予稿の話し言葉変換に基づく言語モデルによる講演音声認識(京大)
学生さんの研究だが秋田先生が発表。書き言葉を話し言葉に変換する統計変換モデルの話だが、パラレルコーパスがなくて単純な変換モデルが適用できない場合への対応。書き言葉をルールベースで口語体(話し言葉口調だがフィラーなどがない)に一旦変換し、それをさらに統計的変換によって話し言葉(発言体)に変換する。学習データはCSJ(人手で口語体に変換)。手法単独だとCSJ+ドメイン依存の予稿集データと同程度だが、混合するとやや性能向上。どうせパラレルコーパスを作って学習するなら一気に文語体から発話体にできないのかな。

・WFSTの状態結合に基づく混合言語モデル(NICT)
2つの言語モデルの結合を、WFSTの状態統合の形で実装した。2つのモデルのWFSTを単に並列につなげるだけでなく、共通に現れるノードを統合して1つにする。評価タスクはVoiceTra。実験の結果、単純なコーパス混合や線形結合、WFSTの並列結合よりも性能向上。

・言語モデルの順向き最尤文選択適応への教師なしクロスバリデーション適応法の応用(千葉大)
篠崎先生。順向き最尤推定法は、学習セットから文を1つずつ取り除きながらテストセットのパープレキシティを最小化する手法。これを教師なし適応に適用したのがこの研究のキモ。ただしこのまま実行すると最初の音声認識誤りを引きずってしまうので、クロスバリデーション適応を使うことで悪影響を回避する。

・話し言葉音声認識における言語モデル適応のための未知語推定(東北大)
当研究室の佐藤君(@souichi_sato)。STDを使って音声ドキュメント中の未知語を推定したいという研究なのだが、研究内容としてはまだまだ。未登録語を網羅的に検出するのは難しいんじゃないのという当然のコメントを中川先生からいただいた。

音声A 音声ドキュメント処理・音声対話

・高次元識別モデルによる音声ドキュメント検索(NTT)
単語リストや音素リストを特徴として使い、線形モデルを利用する音声ドキュメント検索。ドキュメントごとに識別器を学習し、クエリがそのドキュメントに属しているかどうかを識別する。クエリが少ないため、各ドキュメントから言語モデルを作り、そのモデルから疑似クエリを自動生成して、そこから識別モデルを学習する。ベクトル空間モデルよりも性能が向上。

・複数音節の事前検索結果に基づく音声中の検索語検出の高速化(岩手県立大)
サブワード単位のSTD。検索を高速化するため、検索対象をブロックに区切り、N音節からなるすべての音節列を事前に検索して結果を索引化しておく。検索時には、まず音節列の検出結果索引からブロック候補を選び、そのブロックに対して連続DPを実行する。また、Nが大きい事前検索結果を作っておくのは計算量的に難しいので、N=2の検索結果をあわせることで長い検索結果を得る。検索速度は2倍ちょっと高速化。

・放送大学の講義音声を対象とした高速キーワード検索の性能評価(豊橋技科大)
新田研。サフィックスアレイを使ったキーワード検索手法を放送大学の講義音声に適用してみた。CSJよりも音素認識精度が高い。講義ごとの詳細な結果があったのだが字が小さくて読めない。後でチェックするかな。

・Speaker Adaptation for Dialog Act Recognition (Tokyo Inst. Tech,)
発話行為の認識。識別器はCRF。話者ごとにモデルを適応することで認識精度が上がるかを検討。適応手法はMAP。CRFの重みパラメータにガウス事前分布を仮定し、それを適応によって動かす。ICSI meeting corpusでの実験で、F値が少し向上。yeah, right, uh などの重みが大きく変化した。もっとも精度が向上したのがQuestionだったのはなぜか、という質問があった。Questionは発話が長いので特徴が多かったせいかもね、という答え。

・音声認識結果を用いた統計的機械翻訳による音声情報案内システム応答文の分析(奈良先端大)
鹿野研。たけまるシステムの応答文生成。以前からやっている「質問文を翻訳して応答文を生成する」という無理がある枠組みを実音声認識に対応させた。音声認識結果とそれに対応する応答文を対訳ペアとして翻訳モデルを学習する。このとき、認識結果のn-bestも利用する。複数認識仮説を使った方が応答の妥当性が向上。

・拡張現実感を用いた音声対話エージェントの評価(東北大)
当研究室の三宅君。音声対話とARを組み合わせる。物にタグをつけて、そのタグを撮影することで操作対象を特定し、エージェントを描画して、そのエージェントと対話をする。エージェントを使った場合と使わなかった場合のユーザ発話の変化について考察した。表示するキャラクタの違いによるユーザ態度の変化について質問があった。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

UNIXはシンプルである。必要なのはそのシンプルさを理解する素質だけである -- Dennis Ritchie

読み込み中...