パスワードを忘れた? アカウント作成
513007 journal

tabateeの日記: 思いつきメモ 8

日記 by tabatee
(1)Wikiの1ページに一つの単語を格納して日本語入力用の辞書を作れそうな気がする。Wikipediaが数十万の記事に対して十分スケールしているので、ツール的には問題なさそう。ある人は専門用語だと思ったが別の人は一般の単語と思ったという判断を併記できればよさそう。

(2)ある程度の大きさのコーパス内の単語の頻度のヒストグラムを作り、次に、ある単語の周辺の単語のヒストグラムを作る。形が大きく異なる部分があれば、その単語どうしは関係があると考えられる。例えば「熱い」の近くには「風呂」が多く、「厚い」の近くには「本」が多いといった情報を用いて候補の優先順位を決められそう。
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • > Wikiの1ページに一つの単語を格納して日本語入力用の辞書を作れそうな気がする。

    できそうかも。 recent_updateプラグイン みたいなものと組み合わせれば辞書の更新は楽にできそうです。
    ちなみに、今C++でWikiを作っているところなので、それを転用できたらいいかも。
    --
    // Give me chocolates!
    • 素晴らしいですね。(僕が行ければ)来週ぐらいにお話を聞かせてください。

      以下は余談
      先日は政治層が××なのを見て若い人にはお勧めするのは止めたとか、フリーなinput methodに対してネガティブな事を言いましたが、最近は、この辞書の件の他にキーコードの問題や、フォーカスの扱い、surrounding textの扱い、SCIMのlibstdc++の問題といった長年スルーされてきた微妙かつ地味な問題に前進が見られるのが非常に嬉しいです。
      • 来週は微妙に忙しいかも。
        それよりも、来週末は東京に行くことになっているので、そっちに行きますわ。後でメールしますね。

        > 以下は余談
        雑談ネタとしてとっておきますf_(^^;
        --
        // Give me chocolates!
      • > 例えば「熱い」の近くには「風呂」が多く、「厚い」の近くには「本」が多いといった情報を用いて
        > 候補の優先順位を決められそう。

        以前ブログに書いたのですが、こうした仕掛けはAnthy以上にSKKで
        より素晴らしい効果を発揮するかもしれません。
        例えば、『数』と『顔』に呼応して、『多い』と『覆い』の使い分けができるようになれば、
        SKKの入力効率が劇的に向上するはずです。
        (ただ、先の例のように後ろから前に掛かる変換には対応できないという欠点はありますが...)

        ただ、問題はどうやってこうした仕掛けをSKKに組み込むかという話で、このために先の飲み会で言ったような、
        キーワードからの距離をキー入力の回数によって数えるという話が出てくるわけです。
        ただ、いざ仕様を固めようとするとなると色々なノイズを拾ってしまわないように
        ややこしいトリックを導入する必要がありそうで...orz。
        • その手法とは違いますが、skk-bayesianというのがあります。私自身は使ったことは無くて、評判も良く知らないのですが組み込み方としては参考になるんではないかと思います。
          SKKは人間が予測可能な動作をするのが重要な利点なので、「効率が劇的に向上」というのは難しい気がします。
          とりあえず、私としては連文節変換のanthyで共起関係を使うための方法として、「ヒストグラムの比較」というのがシンプルではないかなと検討中です。(それでもエントロピーとか偏微分方程式とか使うことになりそうな気がします)
          • by ek (19841) on 2006年10月24日 20時08分 (#1043981) 日記
            たいして使ったわけではないんですが、skk-bayesian で SKK の「大き/多き」問題は解決できてしまっています。

            uim でも GTK+ のテキストエリア全体の文字を取得できるようになったので、そのうち組込むかもしれません。

            実際は、SKK の場合すべて自分で操作してしまうので、それほど必要性は感じないんですけどね。

typodupeerror

弘法筆を選ばず、アレゲはキーボードを選ぶ -- アレゲ研究家

読み込み中...