パスワードを忘れた? アカウント作成
8949350 journal
日記

aitoの日記: NL/SLP研究会 5月24日まとめ

日記 by aito

■一般セッション2:解析・テキスト処理(10:00-12:00)
(12)未知語を考慮した形態素解析のための単語ラティスの効率的な生成方法
   鍜治 伸裕,喜連川 優
未知語が多いテキスト(マイクロブログとか)に対して形態素解析をするときに、高速に形態素解析のための単語ラティスを作るにはどういうやり方がよいか比較。正解単語が漏れないためには網羅的なラティスを作る必要があるが、高速性を考えるとラティスは小さい必要がある。一定の長さ以下の文字列のうち文字unigramでよさげな単語候補を使う方法と、最初に単語教会の推定のn-best候補を出してから、それぞれの単語候補にn-bestで品詞候補を付与する方法を比較。比較の結果、段階的に単語教会推定と品詞推定を行ってラティスを生成する方法が計算時間・精度ともに有利だった。音声認識のデコーディングだと最初にラティスを作っておくのは不可能なので、候補を生成しながら順次スコア付けしていくのだが、形態素解析でそこまでやってもあまり意味ないのかな。

(13)k近傍法とトピックモデルを利用した語義曖昧性解消の領域適応
   新納 浩幸,佐々木 稔
識別モデルを使った語義曖昧性解消で、モデルをドメイン適応する。確率的な語義曖昧性解消問題は、語義の事前分布の推定問題と、用例で条件づけられた語義の分布推定問題に分割できる。ドメインが変わったとき、語義の事前分布は変わるが、語義の条件付き分布は不変だというのが著者の主張。ただし、異なるドメインでは条件部の現れ方が違うので、複数のドメインで真の確率分布が同じだったとしても、データがスパースなので、それぞれのドメインだけからそれを頑健に推定することは難しい(共変量シフト)。語義分布の推定についてはk-NN法を使い、データスパースネスについてはトピックモデル由来の素性を加えることで対応する。提案法で性能は向上するが、上り幅はわずか。どういう特徴量(素性)をどう使っているかの基本的な説明が省略されていたのでちょっと理解が難しかった。

(14)言語モデルを使ったクエリログからの性別推定
   坪坂 正志
ヤフーの人。検索エンジンへのクエリだけから、ユーザが男性か女性か識別する。検索結果へのターゲット広告の切り替えなどに利用。また、バナー広告ではクリックしたユーザの性別によって支払額に差があるので、性別が推定できれば広告収入を上げることができる。解析の頑健性を上げるため、文字単位のn-gram言語モデルを利用。平滑化はディリクレスムージング。クエリを単体で見るだけではなく、クッキーを利用して同じブラウザから投げられたクエリをまとめたものから計算した確率を線形補間する。n-gramの最適な長さは3だが、bigramでほとんど頭打ち。文字bigramが効くということは、単語unigramで十分なんじゃないだろうか。発表が短かったので討論が長かった。フロアから嫌儲な質問があって、ちょっと微妙な雰囲気に。

(15)Text Classification of Technical Papers Focusing on Title and Important Segments
   Thien Hai Nguyen,Kiyoaki Shirai
技術文書の自動分類。対象はACLとLRECの論文。タイトルから抽出される特徴量は、タイトルの単語bigramと、タイトルのheadの名詞句および前置詞句の中の名詞。文書自体からは、タイトル・アブストラクト・イントロ・結論の各セグメントの情報を利用する。識別方法として、ML-kNN、2値分類器をクラス数分用意する方法、識別の信頼度によって段階的に特徴量を増やしていく方法(the back-off model)などを検討。全部の情報を使う場合が最もよくて、識別方法はback-offモデルが多くの場合で最もよかった。評価指標が10種類あって、どれをどう見ていいのかよくわからなかった。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

吾輩はリファレンスである。名前はまだ無い -- perlの中の人

読み込み中...