2010年7月23日(金)SP&SLP研究会まとめ　特別講演１ | aitoの日記

aitoの日記： 2010年7月23日(金)SP&SLP研究会まとめ　特別講演１ 0

日記 by aito 2010年07月23日 15時24分

[14:30-18:00] 特別企画「音声と情報検索」(SLP) （座長：河原達也）
(SLP9) 情報検索のための確率的言語モデル
神戸大の江口先生．先日信学会に載ったサーベイ論文と同じ話題．
情報検索とは何か．図書館情報学と情報科学における｢情報検索｣の微妙な違い．
検索方法の分類：アドホック検索(普通の検索)，情報フィルタリング(推薦)，ブラウジング
アドホック検索：主題検索，既知検索(昨日の講演の「曖昧検索」と「厳密検索」
古典的な各種のモデル

ブーリアンモデル：キーワードのAND, OR検索，ランキングの機能がない
ベクトル空間モデル
古典的確率型モデル：TF-IDF利用，Okapi, BM25
TF-IDFのになっている経験則について

確率的なアプローチによる方法

クエリは文書からのランダムサンプリング，文書をモデル化（多項分布など）
クエリ尤度モデル：多項分布，ユニグラム言語モデル　Naive Bayes識別器とほぼ同じ（用途が違う）
単語の出現確率をどう推定するか．
- 単純な場合：TFを使う最尤推定
- 線形補間，ディリクレスムージング(MAP推定）スムージング定数μをどう推定するか
文書事前分布P(D)の積極的利用
- URLが短いほど文書が出現しやすい等
- 未知語が多いほど品質が低いとみなしてP(D)を推定する等
分布間距離に基づく検索モデル：
適合モデル　P(D|Q)を混合比とした文書モデルの混合分布モデル; 検索結果の上位から混合分布によりモデルを作り，それを新たなクエリとして再検索する．（擬似適合フィードバック）
確率的トピックモデル
- PLSI, LDA
- LDAの文書モデルとクエリ尤度モデルを線形結合

aitoの日記： 2010年7月23日(金)SP&SLP研究会まとめ　特別講演１ 0

2010年7月23日(金)SP&SLP研究会まとめ　特別講演１ More ログイン

スラド

2010年7月23日(金)SP&SLP研究会まとめ 特別講演１ More ログイン

2010年7月23日(金)SP&SLP研究会まとめ　特別講演１ More ログイン