パスワードを忘れた? アカウント作成
3152259 journal
日記

aitoの日記: 5月11日(金)NL/SLP研究会@東京工業大学まとめ

日記 by aito

【学生セッション3:学習・システム】
[9:30-12:00]
(2) 外国人の検索クエリに対する音訳手法の適用 
   辻理絵子,木村健,古宮嘉那子,小谷善行
外国人が日本語の情報を得るために英語(等)で入力した検索クエリを日本語クエリに変換する。ただし翻訳ではなくて、音で変換できる場合のみ。CMUDICTを使って英単語を音素列に直し、それを日本語の読みに自動変換。読み推定のためのモデルはBigram, HMM, CRFを検討。英語の音素と日本語のカナ文字との間でアライメントを取るのはちょっと無理がある気が。評価はなぜか主観評価。3つの手法の中ではHMMがよいが、適合率としては0.1前後。この方法では一旦単語を音素列にしてからカナ文字列にしているが、graphemeから直接変換したほうが良いのではないかと思った。

(8) 英語スペリング訂正と品詞タグ付けの結合学習
   坂口慶祐,水本智也,小町守,松本裕治
英語文の誤り自動訂正では、スペリング誤りと文法誤りの両方が同時に起きて、片方を修正するためにはもう片方の情報が必要になる。そこで両方を同時に(というか交互反復的に)学習しようという試み。最適コストの算出にはMeCabを利用。未知データへの適用時には、GNU Aspellでスペル修正候補を生成し、Google 5-gramの対数確率をコストの代わりに使う。スペリング訂正後に品詞タグを付けた場合よりもF値で0.3%ほど改善。

(9) 誤差逆伝播を利用した重み付き仮説推論の教師あり学習
   山本風人,井之上直也,渡邊陽太郎,岡崎直観,乾健太郎
文の中で省略されている背景知識や過程を推論する。方法は一階述語論理に基づくアブダクション。複数ある候補仮説に対して評価関数を適用することによって最適解を推定する。先行研究では評価関数は人手による調整を必要としたので、これを学習によって推定する。仮説が正解かどうかは、最終的な結論(最も重要なリテラル)があるかどうかだけで判定する。推論コストをニューラルネットワークの重みとしてBPで学習を行う。アブダクションに詳しくないので完全には理解できなかったが、面白い気がする。

(10)意味解析に基づくロボット指示システムAthena2011
   田村優樹,長崎達也,中野雅広,原田実
ロボットへの自然言語による指示。Athenaはもともとこの研究室で作成している枠組みで、自然言語コマンドを中間言語経由でロボットへの動作支持列に変換する。使用しているロボットはNAO。指示した動作が未知であった場合には、システムがユーザに説明を求める。ユーザが行動系列の指示を行うと、それをその動作として学習する。ある程度の汎化(右手の動作を左手に応用する等)が可能。面白いが、実際問題としてこのような「言葉による説明による動作の定義」がどこまで可能なんだろうか。

(11)意味解析に基づく討論支援システムDESSYの開発
   喜多唯,末政貴弘,原田実
討論支援システム。2名での討論の際に、どちらが優勢かをグラフ表示し、また討論内容に関連するグラフをWeb(Google画像検索)から持ってきて表示する。入力は文字入力(チャット)。討論内容評価では、話者態度「モダリティ」を得点化し、あいまいな言い方に高い評価を与える。また、討論上有利・不利なキーワードをあらかじめ選出しておいて、それらとの一致を得点化する。さらに、言明をWeb検索して、ヒット数を得点化する。最終的にSVMで得点を算出。やりたいことはわからなくもないが、ずいぶん乱暴な気がする。模擬討論に関して得点の系列を出しているが、本当の勝敗との関連の分析はまだ行なっていない。

【特別講演】 13:00-14:00
(12)「大学入試問題に解答する」ことから見える自然言語処理の課題
   宮尾祐介
東大の入試問題を機械に解かせる「人工頭脳」プロジェクトの紹介。
・入試問題の入出力のほとんどは自然言語なので、自然言語処理の役割が大きい
 (現実の入出力の様々な問題は捨象する→XML構造化テキストによる入出力)
・なぜ大学入試か?→「オープンかつクローズド」「様々な技術の協働」「人間との比較が可能」
・オープンかつクローズド
        オープン:Toy problemではない・さまざまな能力が試される
        クローズド:必要な知識が限られ、正解が存在する(参照できる解法の存在)・厳密かつ客観的な評価基準
・さまざまな人工知能技術の協働
        自然言語処理、画像認識、知識処理等
        人工知能技術と人間の能力とのギャップが見える
・人間との比較
        点数や偏差値が算出できる
        人間と人工知能の違いが客観的に見える
        一般社会へのアピール
・なぜ大学入試なのか(幼稚園や小学校ではなく)
        人間にとって簡単なこととコンピュータにとって簡単なことは全く異なる
        大学入試は「常識」の問題に立ち返るひとつの通過点
        知識・データを「どのように利用して」問題を解くかが問われる
・研究テーマ
        知識を問う問題(例えば世界史)→含意関係認識
        形式表現への写像(例えば数学)Mathematicaに変換すれば解けるが、容易ではない
        オントロジーに基づく推論(定性的推論)生物等
                「トウモロコシ」は?
        概念化・事例化
        文章・知識の要約
        言語で記述された状況の理解(難しい)英語、国語など
・知識を問う問題を解く
        「イェニチェリ」の例
        含意関係認識:現在精度は60~70%
        NTCIR9 RITEで含意関係認識のタスクを設定(センター試験の社会系科目)
                F-scoreではベースラインを大きく超えないが、得点で言うと5~6割
人工知能にとって「大学入試を解く」は興味深い
試験としての難しさと言語処理としての難しさは多くの場合異なる
現在の言語処理技術をそのまま適用できるケースは多くない

ここで休憩後に学生奨励賞の発表。
☆学生奨励賞の表彰結果
・吉野さん(京都大学)
・林さん(奈良先端大)
・山本さん(東北大)
おめでとうございます。

【一般セッション】 14:30-16:30
(13)リアルタイムクラウドソーシングとTwitter大規模コーパスを利用した対話システム
   別所史浩,原田達也,國吉康夫
非タスク志向型の対話システム(chatbot、つまり人工無能)。従来方法ではシステムが意図しないユーザ発話への対応が難しく、また拡張性が低い。DBに基づく対話システムでは、DBに存在しない発話への対応が難しい。提案法では対話用DBをtwitterから収集し、またその改良をクラウドソーシングで行う。DBを作成したらユーザ発話とDBの用例選ぶ方法を検討。距離軽量の様々なバリエーションのすべての組み合わせで評価。自然な(良い)対話対とそうでもないものを人手でラベリングし、それらをうまく分けるかどうかで評価した。また、対話システムを実装して、DBサイズとユーザ評価の関係を調べた。DBサイズは100kペアあたりがよさそう。さらに、DBに適切な応答がなかった場合、ユーザの質問を他のユーザに回すことによって代理の返答をもらう仕組みを考えた。クロールしてきたDBを使って応答した場合に「多重人格の人としゃべっているようだった」というアンケート結果は興味深い。

(14)音声情報案内システムのための統計的機械翻訳を利用した質問応答
   西村一馬,川波弘道,猿渡洋,鹿野清宏
音響学会等で何度か聞いた話だが、今回は川波先生が発表。ユーザの表現や言い回しに応じた質問応答を目指して、質問から応答を生成する翻訳モデルを学習する。今回は、原言語として用例の音声認識結果(のN-best)を利用する。N-best学習によって適切な応答の割合が増える。また、入力文をN-bestにすることも効果がある。情報伝達性よりも自然性の改善が大きい。機械翻訳を無理やり使うので、たとえば「トイレ」の訳語がトイレの場所になったりして、対応としては自然でないものになる傾向にあるようだ。

(15)日本語書き言葉を対象とした参照表現の自動省略-人間と機械処理の省略傾向の比較-
   飯田龍,徳永健伸
照応関係をどのように省略したりしなかったりすれば自然な文になるのかを検討。NAISTテキストコーパスで評価。人間の内省に基づくモデルと、2値分類に基づくモデルの2つを検討。前者は再現率は高いが精度は低く、後者はどちらもそこそこ(F値は前者より高い)。また、省略するかどうかを人間に評価させた。複数の被験者で実験したところ、人間間の省略の一致率の方が、人間対新聞の一致率より高かった。新聞特有の省略パターンがあるということらしい。

(16)物理的音節と論理的音節-言語ネットワークの量子メカニズム-
   得丸公明
おなじみ得丸さん。デジタルシステム、DNA、言語の3題話みたいな。質疑含めた持ち時間を3分ほどすぎて終了。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

UNIXはただ死んだだけでなく、本当にひどい臭いを放ち始めている -- あるソフトウェアエンジニア

読み込み中...