Googleが「Google 日本語入力」ベータ版を公開 236
ストーリー by mhatta
いたく感心しました 部門より
いたく感心しました 部門より
Googleが日本語入力インプットメソッド「Google 日本語入力」を開発し、ベータ版の公開を開始した(ダウンロードページ)。ウェブ上の大量のデータからMapReduceを駆使して辞書や統計的言語モデルを構築という、いかにもGoogleらしい手法での実装となっている。タレコミ子がWindows Vista上で試用してみたところ、ややレスポンスは鈍いものの、長文の一括変換や文節の切り分けに関してはMS-IMEを歯牙にもかけず、ATOK 2008にも肉薄か場合によっては上回るほどの変換効率を誇っているようだ。なおGoogle Japan Blogのエントリでは、このGoogle IMEがいわゆる「20%ルール」から生まれたことなど興味深い内幕が明かされている。
現時点ではWindows版(32bitのみ)とMac版のみの公開だが、風の噂ではLinux版の開発にも着手しているとかいないとか。GoogleがIMEを出すというのはやや意外な感じもあるが、AndroidやChrome OSへの布石、競合他社への影響など、今後の展開に目が離せなくなりそうだ。
ターゲット (スコア:5, すばらしい洞察)
Unix系OSに(Linux,Mac OS X)に注力して欲しい。AndroidやChrome OSの事を考えると特に。
それと、技術的に出来るかどうかは微妙だけどiPhoneのオンスクリーンキーボードを丸ごと入れ替えるタイプが欲しい…
アルファベットと日本語が入り交じる文章打つのめんどくさいんだもの。
# rm -rf ./.
Re:ターゲット (スコア:1)
これがAndroidのマルチランゲージ対応化の布石となるといいですね。
Re:ターゲット (スコア:1)
ぐぐる的にはCJKV対応も必要な通過点の一つに過ぎないのかも。
Re:ターゲット (スコア:2)
なのでWindows版とMac OS X版同時公開だったんですよ。で、それを分かった上での話です(^^;;)
# rm -rf ./.
使ってみた (スコア:3, 参考になる)
ローマ字入力では「ゐ」も「ゑ」も「くゎ」も入力できない。
四段活用動詞が登録できない。
片仮名入力への変更がキーアサインできない。マウスで一々クリックしないといけない。
人文科学の人は使うなということですね、わかります。
Nullius addictus iurare in verba magistri
Re:使ってみた (スコア:2)
Windows版でも「うぃ(wi)」「うぇ(we)」と入力して変換すれば出ますが直接入力する方法がわかりません……。「くゎ」は「く」「ゎ」(xwa)と二文字に分けると入れられるっぽい(合拗音なのに)。
Nullius addictus iurare in verba magistri
Re:使ってみた (スコア:2)
試行錯誤の結果、「wyi」で「ゐ」、「wye」で「ゑ」が出ることがわかりました。
「くゎ」「ぐゎ」はまだわかりません……。
ローマ字テーブル変更できるようにならんかなぁ。
こちらもありがとうございました。残念ながら「Shift Kana」に割り当ててても動きませんでした……何が悪いんだろう。
Nullius addictus iurare in verba magistri
日本語の衰退 (スコア:2, すばらしい洞察)
それをIMEが変換候補に挙げるようになったら、間違った言葉が平気で使われるようになり、言葉の意味の変化がどんどん速まってしまいますね。
Re:日本語の衰退 (スコア:3, 興味深い)
まぁ、実際2ちゃん語?みたいなのは強いみたいですな。
「いいはな」って入力するだけで候補には「イイハナシダナー」が出るし。
「逝って良し」なんて「いって」でオッケー。
「本当に」って入力するだけで「本当にありがとうございました」が出てくる。
こりゃ便利だわ。そのうち「【神】Google日本語入力【変換】」とかいうスレも
立ちそうですな。
一方Appleは (スコア:2)
「らき☆すた」が辞書登録されている iPod touch の日本語入力補完が面白い [desireforwealth.com]
oja → おジャ魔女どれみ、おじゃる丸
se-ra → セーラームーン
ev → エヴァンゲリオン
他多数。一体どうなっているのだろう?
あの翻訳ができたGoogleのことだし、きっと同様の機能は実現されると信じている。
Re:一方Appleは (スコア:2)
というか、Googleには既にあるのかも。 [fc2.com]
> 威吹鬼、歌舞鬼、龍騎、頑駄無、摩亜屈、駄舞留精太頑駄無、武者荒烈駆主、司馬懿、劉備・・・・・全て一括変換が出来ただと!?
> でぃけ→ディケイドのせい
> ぱんつj→パンツじゃないから恥ずかしくないもん
> はんにん→犯人はヤス
Re:日本語の衰退 (スコア:2, おもしろおかしい)
少なくともGoogleサジェストを見る限り、第一候補が「無線LAN内臓」になりそうな気がする。
Re:日本語の衰退 (スコア:2)
やまとのことば、あやうきとほもいけるなら、やまとのことばをつかいませう。
Re:日本語の衰退 (スコア:2)
もしかして: おもひける
Re:日本語の衰退 (スコア:2)
ご指摘ありがとうございます;;大和言葉と中古と旧かな遣いが混じってむちゃくちゃですね。
>> 情けないことに、私の世代の多くは戦前の文章をまともに読めないのですよ。高々50-60年前のものを。
うーん。昭和初期でも芥川龍之介や太宰治は小学校の教科書に載ってますし、
明治文学の夏目漱石ですらです。まともに読めないんですか?
Re:日本語の衰退 (スコア:3, 参考になる)
元コメの「間違った言葉が平気で使われる」とは、旧字旧仮名→現代仮名遣いはさしてないですよね。。
仮にそうだとしても、漢字は繁体になりますが、文法も言葉の意味も変わるわけではないので、読めなくなるまでは言わないかなあと。
参考)
吾輩は猫である。名前はまだ無い。どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している
。
吾輩は猫である。名前はまだ無い。どこで生まれたか頓と見當がつかぬ。何ても暗薄いじめじめした所でニャー/\泣いて居た事丈は記憶して居る。。
Re:日本語の衰退 (スコア:2, すばらしい洞察)
2chで「いっせいにGoogleのFeedback機能使って変な言葉学習させようぜ」というスレががたちそうな・・・
そんなにライセンス読まれるのが嫌かぁ~~~っ!! (スコア:2, おもしろおかしい)
Re:そんなにライセンス読まれるのが嫌かぁ~~~っ!! (スコア:2)
# rm -rf ./.
手放しで喜(悦)こぶようなことなのかな… (スコア:2)
Re:手放しで喜(悦)こぶようなことなのかな… (スコア:2)
life is too short to hate each other.
Re:手放しで喜(悦)こぶようなことなのかな… (スコア:2)
ON/OFFのキー設定 (スコア:2, 参考になる)
Google日本語入力のOn/OffをShift + Spaceにしたいと思っていたのですが、プロパティにあるキー設定からは変えられないようです。
設定をエクスポートしてみると、以下のようにON/OFFらしき項目が末尾に記載されていますので編集してみようと思いましたが、トグル動作用の設定方法がわかりません。
とりあえず今はToggleAlphanumericModeを割り当てて使っていますが、ちょっと不便です。
運転手は運転がお仕事。笑うのはブギーポップにはできない僕らのお仕事。
XCodeの64bitモードで (スコア:2)
日本語入力できるのうれしい。
ATOKは挙動不審なんだよなー。
意外かな? (スコア:1)
IMEってのは,仮名から漢字を検索するツールだよね.
# ことえりを捨てることができて小躍りしているID
from もなか
20%で (スコア:1)
20%でこういうことを始められないとgoogleではやっていけない、ってことかも。
だからこそ、そのあとも出来る人たちが集められる環境なんだろうなぁ。
google先生の今後の展開に期待 (スコア:1)
そこまで行かなくても、仕事に使うにはちょっと暴発が怖いかな。MSIMEを使ってても、ふと気づくとtypoと誤変換のコンボで書類に飛んでもない単語を書き込んでたりするし。 それ以上にまだ見ぬだじゃれを生み出してくれそうで。
99%は上手く行くから残りの1%は知らん、もしくは、99%を99.9%にする努力ならあり得るけど個別の事例には対応しない、みたいな割り切り方がgoogleの競争力だと思うので。ATOKだとしばしば見られる「ある種の言い回しの変換でいつもつまづく」という評判→「次のバージョンでその手の言い回しを適切に扱えるアルゴリズムを追加」、みたいな対応はgoogleはやってくれなさそうなイメージ。
Re:なに! (スコア:5, おもしろおかしい)
まだだ!
「入れた手のお茶」
と出てくるのが現状だ(12/3 12時現在)
#だからなんだという話もあるが
Re:なに! (スコア:2)
Re:なに! (スコア:2)
こういう例は、前近代的な気が。フロッピーで日本語FEPを動かしていた時代ならともかく、大きな辞書を持って良ければ「淹れ立て」が辞書に定義してあれば良いのだし、一度学習すれば解決だし。
ちなみにATOK2009(月額版)の標準辞書+連文節変換の初期状態だと、一発では変換できないね。
Re:なに! (スコア:2, 参考になる)
おいおい。
昔ジャストが「入れ立てのお茶」が正しく変換できるとCMしたとき、MS-IMEは次バージョンの発表会で、「こっちは『淹れたてのお茶』と難しい漢字に変換できていけてますよ」とカウンターをいれた(つもり)だったそうな。
ところが、ジャストから「お前は日本語がわかってない」と小一時間説教され、逆にクロスカウンターをもらう羽目に。
それ以来、日本語「処理」についてはアピールしても、日本語の知識のことで勝負することはなくなったとさ。
小一時間説教の内容はこちら↓
http://web.archive.org/web/20010719145705/http://moai.justnet.ne.jp/99... [archive.org]
統計的なんたらかんたらで何でもやっちゃうと、規範性 [atok.com]は弱いので、こういうところはなおざりになっちゃうよね。
今までに書かれた世界中のプログラム全部を統計的に参考にすれば、最適なコーディングが出来る…わきゃないよ。
とはいえ、asahi.comの全記事(のみ)を対象にしたGoogle IMEとか作れば、朝日の人には理想的かつ規範性もばっちりな代物が出来そうなので(公用文とかもね)、ATOKの中の人も超危機感もってそう。
Re:多用するATOKの機能 (スコア:2, 参考になる)
最近知りましたが西暦を午前、平成は午後と考えると簡単に変換できます。
09年→21年
変な自主規制とかないのが快適 (スコア:4, 興味深い)
ATOK2009月額版を契約しているんですが、
変な自主規制があってなんだかなぁ、と思ってます。
「こびと」ってだめな言葉なのか?とか。
IMEはあくまで文字入力を助けてくれる物であって
思考に介入してきて欲しくないな。
屍体メモ [windy.cx]
Re:変な自主規制とかないのが快適 (スコア:2)
ATOK 2007では「聾者」(ろうしゃ)が変換できなかったなぁ。「啞」(おし)ならともかく、「聾者」は差別語でもなんでもないだろうに。
「気違い」も変換できなかったっけ。
Nullius addictus iurare in verba magistri
Re:変な自主規制とかないのが快適 (スコア:2, 興味深い)
10年ほどATOK使ってきてますが、一時期よりマシです。
自主規制語を登録すら出来ないように細工されてた時期があった記憶があります。
登録が出来るだけでもまだマシといいましょうか、標準で対応できるようにするにしても
メーカーにヤクザと戦う体力が無いんだなという事に気づいたのでもう諦めました。
官公庁にお客さんが多い以上、エセ同和と日教組は敵に回すと相当に厄介なんでしょうね。
金がないというのは首がないというのと同じ事というか。
自主規制語補完辞書
http://kan-chan.stbbs.net/word/pc/ngword.html [stbbs.net]
規制語が厳しくなっていった感じはしませんのでかなり古いものではありますがこちらで十分対応可能かと思われます。
それでも足りないって場合はどっかにWikiでも作って補完してくしかないでしょうね。
あの手合いのヤクザを相手にする場合、名無しで戦うほか無いでしょう。
Re:なに! (スコア:2)
いっそ、ジャストはGoogleに買収されて、一太郎もGoogle Officeのクライアントに衣替えして、
xfyとかも全部Googleにあげちゃった方がいいかもねぇ。
Re:なに! (スコア:1)
ATOK監修委員会で編纂されている部分が「webの統計でいいじゃん」なんて玉石混合が進んだり、
頻繁に新語や人名などの辞書が提供されている分も「webから直で」とか、
あげく「かなりのディスクスペースを必要とする辞書をローカルに持たずに逐次web問い合わせで良いじゃない」
なんてされてしまうことが、Webから離れたときでも最近の用語や有名になった人名を的確に変換できることが
Atokの強さの一つと思っている私としてはとても怖い。
えっと、えっと、えっと、えっと、えっと、えっと、えっと、えっと、えっと (スコア:2)
> 玉石混合
わざと書いたネタですよね。
(無粋なネタバレだったらごめんなさい)
Re:なに! (スコア:2)
Re:なに! (スコア:2)
ATOK のオープンソース化、ひいてはフリーソフトウェア化へと繋がるなら、個人的には大歓迎。
むらちより/あい/をこめて。
ついでに (スコア:1)
かわせみ [monokakido.jp]ピンチ?
Re:予測変換入力 (スコア:1)
>携帯ではメジャーだがこれまでPCで実装されなかったのはなぜ?
そりゃあ携帯ではなんだかんだ言ってもタイピング速度が遅いから。
「携帯では必需品」なのに対し「PCではあると便利かも」くらいにしかならない。
むしろ全部打ってから候補を表示させた方が無駄が無くて早いくらい。
なお予測表示とは違うと思うけれど、候補を表示する分についてはATOKでも表示は
されます。時々変な候補が表示されて苦笑したりもするけどね。
#MS-IMEに関しては、そりゃああの会社だしねえ?
Re:予測変換入力 (スコア:1)
入力数が少なくて候補として選ぶには早いときは
Tabでその時点の候補がでます。(ATOK2009)
Re:予測変換入力 (スコア:1)
(この辺を参照: http://www.atok.com/function/howto/index.html )
#これのおかげで自社名とか取引先名とかメールでよく使うあいさつのほとんども覚えてくれているから会社では[Shift]+[Enter]を使う事が多いこと多いこと・・・。
Re:予測変換入力 (スコア:1)
実装されてますよ。
世に予測変換を認識させたといってもいいPoBOXもWindows実装とかあったし、今回のGoogle日本語変換の
首謀者の一人小松氏がかつて作っていたPRIMEとか元々PC上で使うもんだし(こっちは、Windows実装は
なかったかもな?)
Re:タイムリーなところで (スコア:2, おもしろおかしい)
Re:もちろん (スコア:2, 参考になる)
http://www.google.com/support/ime/japanese/bin/answer.py?hl=jp&ans... [google.com]
ヘルプに説明ありますけど。
Re:Google検索の精度向上 (スコア:2)
日本語のページと中国語のページを見分けるのは、実用的なレベルに水準(確率)を上げることはできるけど、厳密には無理だよ。
ページに言語の情報がなくて、Unicodeで漢字だけが書かれていた場合、見分けられないもの。
Re:誰がどのような文章を書いたかバレバレ (スコア:2, 参考になる)
・入力した文字はGoogleに送信されますか。
入力した文字や文章がGoogle に送信されることはありません。
http://www.google.com/support/ime/japanese/bin/answer.py?hl=jp&ans... [google.com]
らしいですが。
# せっかくなのでパケットキャプチャして調べてみてもらえませんか?
気持ち悪いくらいに気持ちいい文章作成体験 (スコア:2, 参考になる)
オフラインでも大丈夫ですよ〜。
当方、これまでともにATOKを使用していたMacとWindows両方に入れてみましたが、
入力速度が2倍くらいになった気分(あくまで体感)。
気持ち悪いくらいに気持ちいい文章作成体験です。
省入力変換なんて今まで非実用的と思っていましたが、Google日本語入力のは違う。
二文字三文字入れると脳みその中を透視されているかのごとく自分の意図する言葉が出てくる。
すごいアルゴリズム(?)なんですかね。
仕事が出版業界なんですが、
このGoogle日本語入力はいろいろとこの業界でも引き起こしそうな一大事だと思います。