パスワードを忘れた? アカウント作成
9608408 journal
日記

aitoの日記: 7月27日 SP・SLP研究会@遠刈田温泉 まとめ

日記 by aito

● 7月27日
・ロボット対話(9:00~10:30)
SLP-10 多人数会話ファシリテーションロボットの主導権奪取手続き
              ○秋葉巌・松山洋一・小林哲則(早稲田大)
多人数会話(3名+1体)に参加して,場の空気を読みながら対話するロボット.3人の会話に参加して,対話の場を(司会者的立場で)制御する.3人のうち,会話に参加できていない人を検知して,その人が会話に参加できるよう促す.グループの会話への参加を相互に承認されている状態を「調和状態」と定義し,非調和状態にある人を調和状態に持っていくための手続きを提案.発話とそれの返答を「隣接ペア」と定義して,それを単位にして会話に「割って入る」ためのタイミングを推定.評価は,会話を撮影したビデオを被験者に見せて主観評価.適切な手続きを定義して,POMDPでタイミングを推定する.

SP-10 音声操作ロボットの動作とユーザ発話の音響的特徴との関係の分析
              ○戸塚典子・伊藤彰則(東北大)
リアルタイムに動作するロボットを音声で操作するときに,ユーザが意図しない動作をしてしまったのかどうかを音声の韻律などから検出しようという試み.Mindstormsで作ったロボットを音声で制御してコース上を走らせ,コースから外れた場合の音声コマンドを分析.コースから外れた場合のほうが発話速度が速くなるが,F0,インテンシティは変化がない.また,コマンド間の発話間隔が短くなる.

SLP-11 音声対話インタフェースにおけるロボットエージェントの優位性の評価
              玉川聡(豊橋技科大)・○山本一公(豊田工高専/豊橋技科大)・中川聖一(豊橋技科大)
音声対話システムのキャラクタとして,実ロボットと画面上に表示されるエージェントのどっちがいいのか比較.ロボットと対面で対話する場合と,同じロボットの画像を画面上に表示する場合(実物大および携帯端末)を比較.ロボットはPhyno.タスクは豊橋技科大の建物案内.また,補助的に携帯端末を利用する(地図を表示)ことの影響,ロボットが動的にユーザのほうを向くことの影響も調べている.評価項目は,話しやすさ(自然さ,親しみやすさなど),信用性,利便性など.自然さ,親しみやすさなどは実ロボットの評価が高い.利便性は携帯端末のほうが高い.また,携帯端末に地図を表示した場合には,利便性や有効性などが高くなる.さらに,対話開始時にユーザのほうを向く動作を入れたときに,親しみやすさや楽しさなどの評価が高くなる.

・マルチモーダル(10:50~12:20)
SP-11 Articulatory features based talking heads using speech inversion
                Atef Ben-Youssef・○Hiroshi Shimodaira・David A. Braude(Univ. Edinburgh)
下平先生がイギリスからはるばる参加.最初にエジンバラのCSTRの宣伝.内容は,音声を入力してトーキングヘッドの頭の動きを推定するという内容.目標はエンタメ応用など.頭の動きには様々な要因が関係するが,ここでは音声の低レベル特徴だけから頭の動きをどの程度推定できるかを追及.文発声で音声と頭の動きを見るとそれなりに相関があるが,自然発話だと相関(正準相関分析)が低く,難しい課題.推定の枠組みはHMMで,特徴量はF0とパワーに加えて,調音特徴量を使う.音声から調音特徴を推定し(speech inversion),そこから頭部運動を推定する.音声HMMと調音特徴HMMを並列に学習しておき,新しい話者については音声HMMだけを話者適応する.そこから調音特徴量系列を推定し,それを使って頭部運動HMMから運動系列を生成する.話者が同じ内容を発話しても頭部運動の相関はそれほど高くないそうで,なかなか難しそうだ.

SLP-12 ポスター会話における聴衆のマルチモーダルな振る舞いに基づく興味・理解度の推定
              ○河原達也・林宗一郎・高梨克也(京大)
ポスターセッションを聞いている人の挙動(視線などの非言語情報,相槌や質問などの言語情報)から,その人がどの程度内容を理解しているのか,どの程度興味があるのかを推定する.1つのポスターを複数の話題単位(スライド)に分け,それぞれの単位に聴衆がどの程度興味を持っているのかを推定.質問が多い話題は興味も高いが,確認質問が多い話題は理解度が低い.踏み込んだ質問がある場合(話題に興味がある場合)は,通常と比べて相槌が多い.また,確認質問をする時は質問者はポスターを見るが,踏み込んだ質問をする時には発表者を見る傾向.相槌・視線の頻度および視線の(発表者を見ている)時間を特徴量とし,ナイーブベイズを使った単純な識別をしたところ,70%程度で興味の識別が可能だった.

SLP-13 Effect of Captioning Lecture Videos for Learning in Foreign Language
                ○Ferdiansyah Veri・Nakagawa Seiichi(Toyohashi University of Technology)
英語のオープンコースウェアなどの講義ビデオを見て英語の非ネイティブ話者が勉強するために,ビデオにキャプションをどう入れればよいか.英語のキャプションをそのまま入れる場合と,日本語に翻訳したキャプションを入れる場合を比較.英語のキャプションの入れ方は,「全部」「重要な文だけ」「重要な句だけ」「キーワードだけ」を比較.対象はMIT OpenCourseWare.評価はプリテスト・ポストテストと主観評価で,被験者は日本人+非英語(・非日本語)ネイティブ話者.なぜかテスト成績とTOEFLとの相関を見ていて,日本人はTOEFLスコアとの相関が高いが,非日本語話者(留学生?)は相関がない.主観評価ではすべての文を表示したものが高かったが,テスト成績では重要な句だけを見せた場合が高かった.

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

クラックを法規制強化で止められると思ってる奴は頭がおかしい -- あるアレゲ人

読み込み中...