FIT2013 9月6日　午後　音声情報処理 | aitoの日記

aitoの日記： FIT2013 9月6日　午後　音声情報処理 0

日記 by aito 2013年09月06日 17時28分

E-031 初等中等教育授業における教師発話の言語的特徴のモデル化のための学習データ選択方法の検討
○南條浩輝・谷奥大喜（龍谷大）
小中学校の授業での先生の発話の音声認識が目標．授業（特に小学校など）では子供にわからせるために特殊な表現が使われる．このような言語データは少ないので，従来はCSJと子供向けWebサイト（週刊こどもニュース，Yahoo!きっずニュース）を使って学習していた．これだけでは子供向けデータが少ないので，一般のWebデータの中から子供向けの表現を含むページを自動で集める．選択はパープレキシティ基準．そのままナイーブベイズ的に識別すると，大人向けと子供向け表現のどちらからも遠いデータが雑音的に抽出されるので，子供表現への絶対的な近さも考慮する．集めても子供向け表現は全体の半分ぐらいということで，なかなか難しそうだ．

E-032 Web日本語Nグラムを用いた高頻度連鎖語表現の選定
○高橋伸弥・森元　逞（福岡大）
形態素連鎖を１つにまとめて単位とする方法．元データはGoogle N-gramだが，評価はCSJ．評価値は単語連鎖確率の対数の算術平均．500～1000ぐらい連鎖語を選ぶと何もしないより改善する．全体の語彙サイズが20000なので，語彙を追加していくと普通の単語が削れているところが問題．考え方自体は非常に古いので，連鎖語の選択基準が昔と比べてより優れているのかどうか比較評価してほしかった．

E-033 カテゴリ分類による音声認識誤り単語の補正手法の改良
◎山崎史生・吉村枝里子・土屋誠司・渡部広一（同志社大）
音声認識結果の誤り訂正．認識対象はJNAS（雑音を重畳したもの）．評価文は，認識結果の中で誤認識単語が1つだけ（しかも名詞）の文と，誤りがない文を集めたもの．認識文は「政治」「スポーツ」などのカテゴリのいずれかに属すると仮定していて，認識文とカテゴリとの「記事関連度計算」（謎の手法．ルールベース？）によりカテゴリを特定する．関連度の計算には日本語語彙体系のシソーラスを使うらしい．つぎに，それぞれのカテゴリに対して「あっても不自然でない単語および上位概念」の一覧を持っておいて，認識文中の単語がそこに含まれるかどうかによって誤認識単語を特定する．次に，複数候補を使って誤認識単語の代わりの単語を列挙し，カテゴリに最も近い単語を出力する．この発表では，カテゴリ数を4から28に拡張することで誤認識単語検出の適合率を上げようとしている．カテゴリが少ないときよりも性能は上がったが，誤認識の検出・訂正性能は3割ぐらい．

E-034 漸次的な発話理解のための単語部分木を出力する音声認識システム
○高橋伸弥・森元　逞・吉村賢治・乙武北斗（福岡大）
認識中に（入力音声が終わる前に）逐次レスポンスを返すシステム．こういうのを昔NTTでやってなかったっけ？HUMEとかいったような気が．それはともかく，早期確定と違うのは，途中までの認識結果に対応する木(N-bestの戦闘がまとまったもの）を生成する．言語モデルはFSA．

E-035 GPGPUによる音声分析合成システムTANDEM-STRAIGHTの高速化
◎森勢将雅・小澤賢司（山梨大）
MATLAB版TANDEM-STRAIGHTのGPU化．GPU化の部分はMATLAB parallel computing toolbox（商品）を使う．GPUによるFFT演算高速化と，workerによるF0抽出マルチコア化を検討．また，TANDEM-STRAIGHTスペクトルを求めるところ（1フレームあたりFFT4回）もGPUで高速化する．16コアのマシンで分析を実行（Extractor15個）．スペクトル包絡は4倍，F0抽出は7倍程度の高速化が可能．メモリ転送が結構遅くて，CPU→GPUよりもGPU→CPUのほうが倍くらい遅いのが謎．この発表がFIT奨励賞．

E-036 ヤンバルクイナの鳴き声検出精度向上のためのアルゴリズムの検討
◎宇根健一郎・藏屋英介・神里志穂子・野口健太郎（沖縄高専）・金城道男・長嶺　隆（どうぶつたちの病院）・嘉
手苅修（沖縄コカ・コーラボトリング）
ヤンバルクイナの生息数調査のための鳴き声検出．現在，実際にコカ・コーラの自販機にマイクロホンを設置して，録音音声を人間が聴いて鳴き声を検出しているので，それを自動化したい．ヤンバルクイナの鳴き声特徴として，2.5～3.2kHzに強い成分があり，その周波数帯はもともと森の中の環境音で成分の弱いところだというのが面白い．従来法ではその部分の音をBPFで取り出し，出力を包絡線検波してゼロクロスを求め，その継続時間にしきい値をひいて検出をする．提案法では，包絡線検波出力の変化率を見ることで，定常雑音の影響や距離の影響をキャンセルする．再現率・適合率とも向上．検出できない鳴き声は主に声が小さいもの．

E-037 音声から疲労程度を推定するスマートフォン用アプリケーションの開発
青木由希・○宮島崇浩・菊池英明（早大）・塩見格一（電子航法研）
電子航法研究所での「ヒューマンエラーを防ぐ」というプロジェクトで，発話音声から疲労を推定するアルゴリズムSiCECAおよびシステムCENTEを開発してきている．それを日常生活でも使うべく，スマホアプリにしてみた．SiCECAはカオス論的手法によって音声のゆらぎ成分を計算し，CEM値という謎の値を計算する．音声波形x(t)とx(t+τ)とで相平面を作り，その上での軌跡の揺れをCEM値として測る．アプリでは，10秒程度の朗読からCEM値を計算し，7段階に分けてコメントを出力する．CEM値計算は遅いのでサーバで実行．ユーザビリティ調査をしたところ，10秒程度の朗読をしなければならない点が問題になるようだ．

aitoの日記： FIT2013 9月6日　午後　音声情報処理 0

FIT2013 9月6日　午後　音声情報処理 More ログイン

スラド

FIT2013 9月6日 午後 音声情報処理 More ログイン

FIT2013 9月6日　午後　音声情報処理 More ログイン