パスワードを忘れた? アカウント作成
795166 journal
日記

aitoの日記: 9月20日 音響学会1日目

日記 by aito

音声B [音声・オーディオ符号化]

☆スペクトログラムの振幅・位相量子化と範囲制限位相復元に基づく音響信号符号化の検討(東大)
嵯峨山研。スペクトログラムをオーディオ符号化に利用する。位相は適当に符号化して、復元には位相復元技術を使う。位相復元過程で、復元値が「もともとの位相があったはずの範囲」を越えたら元の範囲に戻す操作を行う。デコーディングには繰り返しが必要なので、リアルタイムデコーディングはできない。ビットレートはAACと比べればまだまだ。

☆時間冗長性を利用したオーディオロスレス符号化に関する研究(千葉工大)
ロスレス符号化で、LPC残差信号に対してLZ符号化的な方法を用い、残差をさらに圧縮する。LPC残差に現れるリズムパターンなどの規則性を利用するのが目的だったが、それがうまくいっていないのではないか。

☆付加情報を用いた混合音楽信号操作システムにおける伴奏考慮方法の検討(東北大)
うちのMJこと佐々木君。ボーカル音声の調波成分と伴奏成分との比率を付加情報として送ることで、ボーカル強調性能を向上させる。嵯峨山先生から、パートの数が増えても同じアルゴリズムが使えるのかという質問があった。

○帯域拡張音声に対する客観評価尺度と主観評価値の関係について(東芝)
帯域拡張音声を既存の客観評価手法で評価すると主観評価との相関がよくないので、主観評価と相関の高い客観評価手法を開発した。帯域拡張音声の評価軸として「自然性」と「帯域感(帯域が広がっている感じ)」の2つを考えるという考え方が新しい。既存の客観評価では、PESQとMOS-LQOが主観評価と高い相関を持つ。この発表では「自然性」をPESQで、「帯域感」をスペクトル歪みで評価するのがよいと言う結論。また、この2つを組み合わせてMOS値を模擬するモデルを作った。

音声B [言語教育・学習支援]

○発達段階別に見た日本人英語学習者の母語と第二言語の音声語彙生成についての検討(順天堂大学)
言語流暢性検査(Verbal Fluency Test)を使って、口頭での音声語彙の生成能力を測る。言語流暢性検査は、制限時間内に「特定の音から始まる単語をできるだけ多く挙げる」(Phonemic VF)「特定のカテゴリーの単語をできるだけ多く挙げる」(Categorical VF)というもの。中学2年~大学2年の男女で、日本語・英語の双方について比較。年齢とともに課題成績が上がる。日本語ではphonemicよりもcategoricalの方が多くの例を挙げられるが、英語では逆。年齢が上がると、phonemicとcategoricalの成績が拮抗する。

○Acquisition of L2 Rhythm (昭和音大)
Donna Ericsson先生。英語のリズムを日本語母語話者にどう教えたらいいか。ストレスのある音節では口の開きが大きいので、そのような音節ではF1の値が変わる。コンピュータを使ったリズム練習と、単にメトロノームを使った練習を行ったクラスを比較すると、コンピュータ利用のクラスの方がより改善した。

-----------------------------------------
この後、役員会&コミュニティセッション。音楽音響セッションとかも面白そうだったのだが。その後は休憩室で仕事。

-----------------------------------------

音声A [連続音声認識]

☆音声の構造的表象を用いた連続数字音声認識(東大)
構造的表象を連続音声認識に利用するため、構造的表象スコアをN-bestリスコアリングに利用する。2音素の分布感の関係をGMMで表現し、そのスコアを使う。連続数字認識で誤りを17.4%削減。

☆連続音声認識における仮説の低遅延逐次確定アルゴリズムの評価(名工大)
認識途中で認識結果を確定する。従来行っていた孤立単語での逐次確定では単語の木構造辞書中でそれ以上分岐がないノードに到達したときに確定を行っていた。連続単語の場合には、単語履歴も含めた木構造の中で分岐のないノードを探す。大語彙では性能が出ない。

○線形識別型言語モデルの縮減法(NTT)
大庭君の研究だが、堀さんが発表。識別型言語モデルは線形モデルだが、そのサイズを小さくする方法。非常に簡単な方法で線形モデルを縮減でき、性能もよい。

☆小学校授業の音声認識のための児童向けサイトを用いた言語モデルの構築(龍谷大)
小学校授業音声認識。言語モデル作成のために、CSJと子供向けWebサイト(NHK週間こどもニュース、Yahoo!きっずニュース)を併せて学習する。それぞれから語彙を選び、CSJモデルとこどもコーパスモデルを線形結合(8:2)。補正パープレキシティと未知語率での評価。

-----------------------------------------
このあと、プラバホールで特別企画「古い楽器も新しい楽器も楽しもう!」。バスで会場からホールまで移動する。

企画の最初は森太郎先生によるピアノの進化のレクチャー、2番目は柳田先生によるバイオリンの進化。バイオリンとビオラ・ダ・ガンバがどう違うのか初めて分かった。3番目は山田真司先生による電子楽器の進化。テルミンから初音ミクまで。面白かった。

後半はコンサート。パイプオルガン、トロンボーン、合唱など。トロンボーンの進化前楽器であるサックバットという楽器の演奏があった。トロンボーンを細く小さくしたような楽器だったが、演奏が大変そうだった。
-----------------------------------------
21時過ぎに終了。研究室メンバーと居酒屋で2時間ほど。ホテルに戻ってすぐ寝る。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

にわかな奴ほど語りたがる -- あるハッカー

読み込み中...