tabateeの日記: 思いつきメモ 8
日記 by
tabatee
(1)Wikiの1ページに一つの単語を格納して日本語入力用の辞書を作れそうな気がする。Wikipediaが数十万の記事に対して十分スケールしているので、ツール的には問題なさそう。ある人は専門用語だと思ったが別の人は一般の単語と思ったという判断を併記できればよさそう。
(2)ある程度の大きさのコーパス内の単語の頻度のヒストグラムを作り、次に、ある単語の周辺の単語のヒストグラムを作る。形が大きく異なる部分があれば、その単語どうしは関係があると考えられる。例えば「熱い」の近くには「風呂」が多く、「厚い」の近くには「本」が多いといった情報を用いて候補の優先順位を決められそう。
(2)ある程度の大きさのコーパス内の単語の頻度のヒストグラムを作り、次に、ある単語の周辺の単語のヒストグラムを作る。形が大きく異なる部分があれば、その単語どうしは関係があると考えられる。例えば「熱い」の近くには「風呂」が多く、「厚い」の近くには「本」が多いといった情報を用いて候補の優先順位を決められそう。
いいかも (スコア:1)
できそうかも。 recent_updateプラグイン みたいなものと組み合わせれば辞書の更新は楽にできそうです。
ちなみに、今C++でWikiを作っているところなので、それを転用できたらいいかも。
// Give me chocolates!
Re:いいかも (スコア:1)
以下は余談
先日は政治層が××なのを見て若い人にはお勧めするのは止めたとか、フリーなinput methodに対してネガティブな事を言いましたが、最近は、この辞書の件の他にキーコードの問題や、フォーカスの扱い、surrounding textの扱い、SCIMのlibstdc++の問題といった長年スルーされてきた微妙かつ地味な問題に前進が見られるのが非常に嬉しいです。
Re:いいかも (スコア:1)
それよりも、来週末は東京に行くことになっているので、そっちに行きますわ。後でメールしますね。
> 以下は余談
雑談ネタとしてとっておきますf_(^^;
// Give me chocolates!
Re:いいかも (スコア:1)
OSCに行くことを考えてました。プレゼンを聞けることを楽しみにしています。
Re:いいかも (スコア:1)
OKす。OSCでお会いしましょう。
# プレゼンは...そういえば準備せな
// Give me chocolates!
Re:いいかも (スコア:1)
> 候補の優先順位を決められそう。
以前ブログに書いたのですが、こうした仕掛けはAnthy以上にSKKで
より素晴らしい効果を発揮するかもしれません。
例えば、『数』と『顔』に呼応して、『多い』と『覆い』の使い分けができるようになれば、
SKKの入力効率が劇的に向上するはずです。
(ただ、先の例のように後ろから前に掛かる変換には対応できないという欠点はありますが...)
ただ、問題はどうやってこうした仕掛けをSKKに組み込むかという話で、このために先の飲み会で言ったような、
キーワードからの距離をキー入力の回数によって数えるという話が出てくるわけです。
ただ、いざ仕様を固めようとするとなると色々なノイズを拾ってしまわないように
ややこしいトリックを導入する必要がありそうで...orz。
Re:いいかも (スコア:1)
SKKは人間が予測可能な動作をするのが重要な利点なので、「効率が劇的に向上」というのは難しい気がします。
とりあえず、私としては連文節変換のanthyで共起関係を使うための方法として、「ヒストグラムの比較」というのがシンプルではないかなと検討中です。(それでもエントロピーとか偏微分方程式とか使うことになりそうな気がします)
Re:いいかも (スコア:1)
uim でも GTK+ のテキストエリア全体の文字を取得できるようになったので、そのうち組込むかもしれません。
実際は、SKK の場合すべて自分で操作してしまうので、それほど必要性は感じないんですけどね。