パスワードを忘れた? アカウント作成
240235 journal

aitoの日記: 2010年7月23日(金)SP&SLP研究会まとめ 特別講演1

日記 by aito
[14:30-18:00] 特別企画 「音声と情報検索」(SLP) (座長:河原 達也)
(SLP9) 情報検索のための確率的言語モデル
神戸大の江口先生.先日信学会に載った サーベイ論文と同じ話題.
情報検索とは何か.図書館情報学と情報科学における「情報検索」の微妙な違い.
検索方法の分類:アドホック検索(普通の検索),情報フィルタリング(推薦),ブラウジング
アドホック検索:主題検索,既知検索(昨日の講演の「曖昧検索」と「厳密検索」
古典的な各種のモデル
  • ブーリアンモデル:キーワードのAND, OR検索,ランキングの機能がない
  • ベクトル空間モデル
  • 古典的確率型モデル:TF-IDF利用,Okapi, BM25
  • TF-IDFのになっている経験則について

確率的なアプローチによる方法

  • クエリは文書からのランダムサンプリング,文書をモデル化(多項分布など)
  • クエリ尤度モデル:多項分布,ユニグラム言語モデル Naive Bayes識別器とほぼ同じ(用途が違う)
  • 単語の出現確率をどう推定するか.
    • 単純な場合:TFを使う最尤推定
    • 線形補間,ディリクレスムージング(MAP推定)スムージング定数μをどう推定するか
  • 文書事前分布P(D)の積極的利用
    • URLが短いほど文書が出現しやすい等
    • 未知語が多いほど品質が低いとみなしてP(D)を推定する等
  • 分布間距離に基づく検索モデル:
    適合モデル P(D|Q)を混合比とした文書モデルの混合分布モデル; 検索結果の上位から混合分布によりモデルを作り ,それを新たなクエリとして再検索する.(擬似適合フィードバック)
  • 確率的トピックモデル
    • PLSI, LDA
    • LDAの文書モデルとクエリ尤度モデルを線形結合
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

コンピュータは旧約聖書の神に似ている、規則は多く、慈悲は無い -- Joseph Campbell

読み込み中...