aitoの日記: 2010年7月23日(金)SP&SLP研究会まとめ 特別講演1
日記 by
aito
[14:30-18:00] 特別企画 「音声と情報検索」(SLP) (座長:河原 達也)
(SLP9) 情報検索のための確率的言語モデル
神戸大の江口先生.先日信学会に載った サーベイ論文と同じ話題.
情報検索とは何か.図書館情報学と情報科学における「情報検索」の微妙な違い.
検索方法の分類:アドホック検索(普通の検索),情報フィルタリング(推薦),ブラウジング
アドホック検索:主題検索,既知検索(昨日の講演の「曖昧検索」と「厳密検索」
古典的な各種のモデル
(SLP9) 情報検索のための確率的言語モデル
神戸大の江口先生.先日信学会に載った サーベイ論文と同じ話題.
情報検索とは何か.図書館情報学と情報科学における「情報検索」の微妙な違い.
検索方法の分類:アドホック検索(普通の検索),情報フィルタリング(推薦),ブラウジング
アドホック検索:主題検索,既知検索(昨日の講演の「曖昧検索」と「厳密検索」
古典的な各種のモデル
- ブーリアンモデル:キーワードのAND, OR検索,ランキングの機能がない
- ベクトル空間モデル
- 古典的確率型モデル:TF-IDF利用,Okapi, BM25
- TF-IDFのになっている経験則について
確率的なアプローチによる方法
- クエリは文書からのランダムサンプリング,文書をモデル化(多項分布など)
- クエリ尤度モデル:多項分布,ユニグラム言語モデル Naive Bayes識別器とほぼ同じ(用途が違う)
- 単語の出現確率をどう推定するか.
- 単純な場合:TFを使う最尤推定
- 線形補間,ディリクレスムージング(MAP推定)スムージング定数μをどう推定するか
- 文書事前分布P(D)の積極的利用
- URLが短いほど文書が出現しやすい等
- 未知語が多いほど品質が低いとみなしてP(D)を推定する等
- 分布間距離に基づく検索モデル:
適合モデル P(D|Q)を混合比とした文書モデルの混合分布モデル; 検索結果の上位から混合分布によりモデルを作り ,それを新たなクエリとして再検索する.(擬似適合フィードバック) - 確率的トピックモデル
- PLSI, LDA
- LDAの文書モデルとクエリ尤度モデルを線形結合
2010年7月23日(金)SP&SLP研究会まとめ 特別講演1 More ログイン