パスワードを忘れた? アカウント作成
3133238 journal
日記

aitoの日記: 5月10日(木)NL/SLP研究会@東京工業大学まとめ

日記 by aito

【学生セッション1:検索・要約・対話】
[13:00-14:30]
(1) 属性-評価ペアを単位とした評判情報の要約
   菊池悠太,高村大也,奥村学
製品レビュー文書の自動要約。属性語と評価後のペア(「吸引力―強い」等)を抽出し、それをクラスタリングして代表ペアだけを選ぶことによってレビューを要約する。属性・評価ペアの抽出は係り受け解析と簡単なルールに基づいていて、あまり凝ってはいないようだ。代表ペアの抽出を「施設配置問題」として定式化。代表ペアの数を決めたとき、他のペアとの類似度が出来るだけ高い代表ペアが選ばれるよう代表選択とクラスタリングを同時に行う。類似度としては、文字列上の一致、コーパスやWeb(Google Ngram)での共起等を比較した。評価対象は掃除機のレピューデータ約14000文。類似度として、表層的な一致を用いたものが最も高性能。

(3) 述語項構造を介した文の変換と選択に基づく音声対話用言語モデルの構築
   吉野幸一郎,森信介,河原達也
椀屋さん(@caesar_wanya)。めんどくさい音声対話のための言語モデル作成のため、対象ドメインのコーパスの述語項構造解析に基づいて記述文から質問文を生成して、そこから言語モデルを学習する。話し言葉調の文体変換も行う。文生成ルールはわりと単純なもの。また、当該ドメインに対して有効な述語項構造を持つ文だけをフィルタリングする。ある述語項構造がドメインに有効かどうかはNaive Bayesで判定。固有表現をクラス化することでNaive Bayesの性能を上げる。実験対象はプロ野球。生成文をフィルタリングで絞った方がよく、プロ野球ドメインの文で言語モデルを単に適応した場合より良い。

(4) Split Head Automataによる依存構造解析
   林克彦,渡辺太郎,浅原正幸,松本裕治
文の依存構造解析において、トップダウンかつ決定的なパージング法を提案。計算量はO(n^2)(ビームサーチ利用時)。パージング自体は決定的なので、エラーを軽減するためにビームサーチを使う。解析時に、現在注目している単語の左側の子供を優先的に決定する所がポイント。決定的解析のために、次に取るべきアクションと、2単語の係り受けの適切さを統計モデルで決める。Shift-reduce法よりは遅いがそこそこ速度は速く、解析精度は他の最良の方法と同等以上。

【学生セッション2:解析・推定・コーパス】
[15:00-16:30]
(5) ヘッドライン同定のための単語重要度の提案
   宇高雅人,山村毅
ニュースのヘッドラインがニュース内容をどれだけよく表しているかを自動評価することにより、ヘッドライン作成を助けたり、いわゆる「釣り記事」を回避する手助けになったりするという研究。例として「高橋英樹逮捕」の記事が挙げられた。単語重要度を利用するが、重要度はTF-IDFではなく、TFに「コーパス内での単語の出現頻度(文書頻度でなく)の逆数の対数」を使う(TF-ITF?)。ヘッドラインの単語の重要度の平均を評価地とする。評価として、Webニュース記事からヘッドラインを当てる実験を行なった。提案の単語重要度はTF-IDFよりも高性能。かならずしも釣り記事の発見に結びついてないのではないかという指摘があった。

(6) 「やさしい日本語」作成支援のための日本語の難易度自動推定の検討
   張萌,伊藤彰則,佐藤和之
当研究室の張さん(@moe_0613)。日本語文が外国人にどれくらい理解されるかを評価する。特徴量として、文の長さや係り受けの距離、単語のレベル(日本語能力試験)、文字シンボルの種類等を利用。中国人30人の主観評価結果との相関を見た。各特徴量を線形回帰によって組み合わせることで、最終的に相関0.66ぐらいになった。主観評価の評価値が評価者によって分かれてない文だけ使ったら推定精度が上がるんじゃないかという指摘があった。

(7) 多様な文書の書き始めに対する意味関係タグ付きコーパスの構築
   萩行正嗣,河原大輔,黒橋禎夫
Web文書の書き出しの部分に対して、(暗に記述されたものも含む)意味・談話情報を詳細にタグ付けしたコーパスを作成した。文章の書き出し部分に限ることで、文のバリエーションを増やすと同時にタグ付けの労力を小さくする。文の著者と読者の情報がタグ付けされているところが特徴。著者・読者表現の出現頻度やパターンと、元がどのような文書なのかの分析が面白かった。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

ソースを見ろ -- ある4桁UID

読み込み中...