パスワードを忘れた? アカウント作成
10996114 journal
日記

aitoの日記: 5/22 NL研&SLP研 まとめ

日記 by aito

■学生セッション1:自然言語解析(10:00-12:00)
(1) 係り受け解析におけるLeft-corner型遷移
     能地 宏,宮尾 祐介
人間の文処理のモデル(left to rightで逐次構文木を生成する)。従来法は句構造対象だったが、この研究では係り受けを対象とした。人間が文を理解するときの認知的負荷の性質(右枝分かれと左枝分かれは同じぐらい難しく、それよりも埋め込み文の方が難しい)と似た性質を持つ解析法としてleft-corner parserに注目して、left-corner解析を使った係り受け解析法を考案。18の言語に対して係り受け解析を行い(treebankの正解をもとに解析する)、スタックの深さの分布を調べたところ、他の解析方法に比べてスタックサイズが小さく抑えられ、また言語依存性が小さかった(ので、人の解析方法に近いと主張したいようだ)。言いたいことは比較的明確な気がするが、発表がとっ散らかっていてわかりにくかった。

  (2) ベクトルのスパース化を用いたk近傍法におけるハブの軽減
     重藤 優太郎,新保 仁,松本 裕治
ベクトル空間上での検索において、どのオブジェクトに対しても近いオブジェクト(ハブ)があると適合率の低下を引き起こす(どのクエリに対しても上位に現れるので)。セントロイドに近いオブジェクトはハブになりやすく、また元の次元が高い空間上ではハブが出現しやすい(次元圧縮では解決できない)。従来のハブ抑制法は内積を使う方法でしか有効でないので、距離ベースの方法でも使える方法を提案。手法はベクトルのスパース化(ある次元の要素を0にする)で、スパース化した後にオブジェクトとセントロイドとの距離が大きくなるような要素を0にする。提案方法の精度を対訳抽出で評価。何もしない場合に比べてハブの出現が抑制され、精度は従来法である中心化と同程度。面白い。

  (3) 盛り上がり時間帯におけるツイートの言語的特性の解析
     藤沼 祥成,横野 光,Pascual Martinez-gomez,相澤 彰子
イベントに関するツイート(サッカーとか)に関連するツイートの内容から、イベントの盛り上がり具合を推定する。ツイートの頻度ではなくて言語的特性を使うところがポイント。文字n-gram(n=7)モデルで分析したところ、盛り上がりツイートではクロスエントロピー(=log(PP))が低くなり、また漢字が少ないという特徴が得られた。「相棒」のシャワーシーンで盛り上がりがあるというのが(笑)。異なるイベントの間でも比較的同じようなやり方で盛り上がり識別が可能(分野依存性も高いが)。文字の繰り返しの重要度は(予想に反して)低かった。漢字数とクロスエントロピーは同じものを見てるんだろうか?

  (4) 統計的機械翻訳を用いた英語文法誤り訂正の結果をリランキングすることで訂正性能の改善はできるか?
     水本 智也,松本 裕治
統計的機械翻訳ベースの英語文法誤り訂正。フレーズベースの手法で10-bestを出すと、その中にはよりよい訂正が含まれている可能性が高い。そこでリランキングによって精度向上を目指す。学習データはLang-8、開発・評価データはKonan-JIEMコーパス。通常のSMTの誤り分析と、リランキングによる訂正の可能性について。残念ながら実際にリランキングするところまで行っていない。

■学生セッション2:音声言語処理(13:30-15:00)
(5) 統計的音声対話システムにおける音素系列を用いた頑健な応答選択
     佐伯 昌幸,李 晃伸
一問一答型の音声対話で、キーワードと応答文のみが与えられた場合のシステム構築法。単語列・キーワードを中間表現とする応答文選択を確率的枠組みで定式化。キーワードと応答分のペア集合からガーベージを生成し、キーワードとガーベージから応答文を選択する確率モデルを構築する。モデル化はCRF。キーワード集合からN-gramによって文を生成し、そこからCRFによって入力と応答分の対応を学習する。また頑健性を増すために、音素系列をCRFの特徴として加えた。入力として書き起こし文+音素を使うと書き起こしだけより性能が上がるが、実入力+音素認識結果だと性能が下がる。CRFの使い方について質問をしたが、やや残念な結果。

  (6) ユーザ生成型音声対話システムにおけるクリエイターとユーザの相互刺激によるインセンティブ向上の検討
     飯塚 遼,李 晃伸
MMDAgentの対話コンテンツをユーザに作らせる研究。対話システムにかかわる人を「ユーザ」と「クリエイタ」に分け、それぞれに対して異なるインセンティブを設定することでシステムの生成と利用を促進する。クリエイタ間では「コンテンツのランキング」、クリエイタ・ユーザ間では「ユーザ評価」、ユーザ間では話題共有によって利用者相互を刺激して、システム利用・コンテンツ作成を促進する。発想は普通だが、対話システム(メイちゃん)の画面に「人気の質問」とか「対話履歴」が表示されるのはなかなかいい感じ。コンテンツ作成のために対話(キーワード・応答文ペア)作成補助のWebシステムなども用意。

  (7) 車載用音声対話システムにおけるユーザ負荷を考慮した対話戦略の検討
     山岡 将綺,原 直,阿部 匡伸
カーナビでの安全性を向上させるため、ユーザが反応しやすい状態(低速運転中、一時停止中)の場合にのみ応答する対話システム。タスクは目的地設定で対話戦略はシステム主導・ユーザ主導・混合主導を切り替える。シミュレーションによってターン数やタスク達成率を測定。その結果、認識率に対するターン数の変化はどの対話戦略でも同じ(絶対的なターン数はユーザ主導が少なくシステム主導が多い)。タスク達成率は、すぐ返答する条件(ユーザ誤認識条件)ではどの対話戦略でもほぼ同じで認識率が下がると大きな影響を受けるが、余裕時発話条件ではタスク達成率の低下が少ない。主観評価実験ではラジコン操作中に対話を行う。余裕があるときのみ発話をする方式では、ユーザの感じる負担は低いが、必ずしも満足度が高いとは限らない。

■一般セッション1:自然言語解析(15:20-17:50)
(8) 形態素解析との同時最適化による歴史的資料の自動表記整理
     岡 照晃,松本 裕治
歴史的資料では、濁点無表記など表記の揺れが激しい。そのような表記ゆれを自動的に正規化するのが「自動表記整理」。ここでは文字ベースと辞書ベースの方法を併用して精度を上げる。そのために、文字ベースの素性を辞書ベースにマージし、またAugmented-loss Trainingによって品詞タグがなくても学習ができるようにした。文字ベースの手法と比べて精度は上がったが再現率はやや下がり、F値では向上。

  (9) 述部機能表現に対する意味ラベル付与
     上岡 裕大,成田 和弥,水野 淳太,乾 健太郎
「~てしまう」「~かもしれない」などの機能表現についての整理。機能表現意味ラベル付与のためのコーパスを整備し、また既存の機能表現辞書「つつじ」を拡張。事実性解析に応用して評価した。主に事実性解析への応用を意識しながら機能表現の意味ラベルを追加。識別器はCRF。どこがどの機能表現なのかを当てるタスクでは、ベースライン(最長一致)よりはよくなったのだが、そんなに性能は違わない。機能表現の意味まであてるタスクではベースラインよりだいぶ向上。事実性解析に応用したところ、正解ラベル入力に匹敵する性能が出た。

  (10)条件付きロジスティック分布を用いた重み付き多タスク学習
     濱口 拓男,新保 仁,松本 裕二
多タスク学習(複数のタスクの識別機を同時に学習する)の学習法の話だが、最初の「複数の学校での成績」の比喩がよくわからず、結局多タスク学習の前提や枠組みがよく理解できなかった。識別時にタスクラベルが得られない場合に、Mixture of Expertsと同じような考え方でタスクラベルに相当する量を推定し、さらにそのタスクラベル推定も元のマルチラベル学習の中に入れて学習する、らしい。

  (11)機械翻訳システムの詳細な誤り分析のための誤り順位付け手法
     赤部 晃一,Graham Neubig,Sakriani Sakti,戸田 智基,中村 哲
機械翻訳システムを改善するために、翻訳誤りを自動的に検出し、その重要度を自動付与する。基本的に、訳出した文中のn-gramに対して様々な重みを考えて、n-gramごとに正しいかどうかを評価して抽出する。重みとして、頻度や自己相互情報量、条件付確率、識別言語モデルの重みなどを検討。結果として、頻度と相互情報量の性能はランダム以下。条件付確率と識別言語モデルに基づく手法がよい性能だった。分析の結果、削除・並べ替え誤りの検出精度は識別言語モデルの方法がよく、それ以外は条件付確率の方法がよかった。

  (12)言語資源の追加:辞書かコーパスか
   森 信介,ニュービッグ グラム
LRECの発表内容をそのまま発表(NL研ではそのような発表を推奨しているらしい)。
コーパスベースNLPのドメイン依存性。それを改善するために言語資源を追加することを考えると、辞書項目を追加する(手軽だが限定的)ことと、コーパスを追加する(再学習が必要だがコンテキストの情報が使える)ことを比較。CRFのような手法だと系列全部に完全なアノテーションが必要だが、pointwiseな手法だと再学習したいところだけにアノテーションがあればよい。タスクは形態素解析で、システムとしてCRFベースのMeCabと、pointwiseのKyTeaを比較。実験条件は追加なし、辞書項目のみ、辞書+関連部分の再学習、コーパス追加+再学習の4つ。単純な辞書追加とコーパス追加を比較すると、辞書追加だけでもコーパス追加の80%ぐらいの性能向上が得られる。BCCWJドメインでは再学習の効果は限定的だが、レシピドメインでは再学習によって性能が上がる。また、特許ドメインで(部分的)アノテーション作業の時間と精度を調べたところ、12時間アノテーション作業を行って、一般ドメインの性能に近い性能が得られた。

この後学生奨励賞の発表。(2)の重藤さん、(6)の飯塚さんが受賞。おめでとうございます。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

長期的な見通しやビジョンはあえて持たないようにしてる -- Linus Torvalds

読み込み中...