パスワードを忘れた? アカウント作成
64112 story
ソフトウェア

みんなで作る Social IME リリース 49

ストーリー by reo
あらゆる方向へ偏れば偏りはなくなる 部門より

d0novan 曰く、

ネットワークを利用した集合知的な日本語入力システム「Social IME」が正式公開されました (Social IME のプレスリリース, INTERNET Watch の記事より) 。

今のところ WindowsXP/Vista でしか使えないようですが、API が公開されているので Mac や Linux などでもフロントエンドを作れば利用できる模様。未踏ソフトウェア創造事業にも採択されたこのプロジェクト、果たして成功するでしょうか ? 個人的にはノイズが混じったりするかも知れないという懸念と、偏った変換結果が出てしまうのではないか ? という懸念がありますが、応援していきたいプロジェクトです。

タレコミ主は Mac 環境なので試すことができないのですが、ユーザからはおおむね好評を得ているようです。皆さんはこのプロジェクトとどういう風に付き合っていきたいですか ?

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • そういえばMSもユーザ辞書を共有するシステムを作るというのがあったような気がする。
    たぶん、これ [nikkeibp.co.jp]だと思う。

  • MacUIM (スコア:2, 参考になる)

    by Anonymous Coward on 2009年02月23日 13時37分 (#1519108)

    > タレコミ主は Mac 環境なので試すことができないのですが

    MacUIM (http://macuim.googlecode.com/)でSocial-IME使えますよ。

  • 「PCに常駐するクライアントソフトと、かな漢字変換を行うサーバ」で構成されるってことなんだけど、IMEそのものを作るのか・・・目的の達成のためなら、既存のIMEのための辞書と学習結果を共有するハブということでもイケそうなんだけど、辞書はともかく学習結果を共有というのは難しそうだしな。

    しかし学習結果は共有してくれなくてもいい気もする。

    --
    屍体メモ [windy.cx]
    • by Ryo.F (3896) on 2009年02月23日 11時50分 (#1519013) 日記

      学習結果は、個人のもので共有するようなものではない気がしますが、インストール直後の初期学習データとしては、各ユーザの学習情報を平均したようなものを利用しても良いような気がします。

      親コメント
      • by Anonymous Coward

        そのサーバーにぶら下がっているユーザーがどのくらい変態かが分かって、かなり問題ありそうなので止めてください。

        #『しょくしゅ』とか『せいぎ』とか…

      • by Anonymous Coward

        「各ユーザの学習情報を平均したようなもの」としてgoogleがあつめたデータをつかうIMEが開発されています。

        http://cl.naist.jp/~mamoru-k/chaime/statime.html [naist.jp]
        > Google 日本語 N グラム(200億文から抽出した N グラムで、200万 unigram, 8,000万 bigram のタイプ)

        が辞書だそうです。
        残念ながらGoogle 日本語Nグラムは売り物なのですが。

    • by Anonymous Coward

      IMEとしてみたら
      オーバーヘッドが大きくてもっさりしすぎてるし、
      キーボードショートカットはまともじゃないし、
      文節切りできないし、
      予測変換は文章を破壊していくし、
      辞書メンテナンスされずに学習っていうよりカオス状態だし、
      (顔文字登録が多すぎる。「かお」の変換候補が多すぎてカオスとか変換で出てこない)
      IMEとしては今のところ発展途上としか言いようが無いですね。

      学習としては、集合知というからには最大公約数を選択して少数の学習結果を切り捨てていかないと、候補の絞り込みがされずに使い物にならないですよ。

  • by gunner92f (21737) on 2009年02月23日 11時28分 (#1518988)
    ATOK2009との相性なのかなんなのか全く意味不明。
    以下「ほんじつはせいてんのようなきがしてならない」を変換。
    企業宣伝なども含めた不要な荒らし単語の掃除はどうやる仕組みなんだろう。放置?

    本日は晴天のような気臥龍牥渽ゆ浡瀊こう楤茶道汬こう獹ㄽ潣癮牥㵴愯楰㼯敭ふ指板ゆ敶瑲ദ芸牥敶㵲睷潳楣污椭敭挮浯牰摥ネジ㵴愯楰⼲牰摥ね時桰㽰瞳ま捥外嵲潬ふ巻獡㵥ゆ灵巣馬木獡㵥影൦ふ地浵間㵲ゆせい歮しょう漽味噌火
  • by Anonymous Coward on 2009年02月23日 11時38分 (#1518998)

    cannaとかと何が違うのん?
    ソーシャルって言えばいいってもんじゃねーぞ

    そうだ、エコの為にソーシャルサーバを用意して
    各端末はキーボードとディスプレイくらいに(以下略

    • by Anonymous Coward on 2009年02月23日 20時55分 (#1519312)

      自分も Wnn/Canna と何が違うのかと思ってググってみたら、こんなのがありました。

      未踏ソフトウェア提案説明 [keio.ac.jp](PPT):

      Canna,Wnn LAN内での辞書の共有が可能。 インターネット全体では不可能。 Ajax IME ブラウザ上でのみ動作。 パーソナライズや単語登録がない。 SKK 入力方式が特殊で使いづらい; 結論. Social IMEのようなシステムは存在しない。 ...

      Google が変換した HTML 版はこちら [72.14.235.132]。

      親コメント
      • by Anonymous Coward

        いや、cannaと全く同じというつもりはないけどね
        その程度しか差がないの?

        • by tmiura (6268) on 2009年02月24日 3時38分 (#1519455) 日記

          「その程度」っていうけど、 かな漢字変換辞書を皆(有志でなく広い裾野で)で育ててみるっていう 社会実験にはコロンブスの卵的な側面があるんじゃないのかしら。

          直感的にはあんまりうまく行きそうな気はしないんだけど、 やってみたらどんな知見が得られるかわからないし、 「ちっぽけな違い」ってのは評論家の言い草であって、 実際に手を動かしてやってみるってのが大事なんだよ、こういうのは。

          「既存のものと完全に同じではないけど」って セリフを吐いてしまった時点で、 「口惜しかったらやってみろ」って返されて終わりじゃないのかしら。

          親コメント
  • by Anonymous Coward on 2009年02月23日 11時45分 (#1519010)

    これって内容を共有しない辞書と、共有する辞書に分けられるのだろうか?

    ユーザー辞書に自分の住所を「うち」に、会社の住所を「かいしゃ」に、
    その他メールアドレスなど、多分に個人情報を含む内容を登録している私としては、
    なにからなにまで共有されてしまうと言うのだったら、使えない。

    あと、いたずらする人も居るんじゃないかと、性悪説な私
    こういうやつ [google.com]ね

    • by Anonymous Coward on 2009年02月23日 11時48分 (#1519011)
      「おれのよめ」で変換したら何が出てくる?
      親コメント
    • 地番表記を「全角で」と指定されていることが多く、入力も面倒なので
      地番まで入った自宅住所を「とうきょう」で単語登録することが多いのですが、
      これからは登録した単語がどこに保存されるのか、ネットで誰でもみれる形に
      なっていないか、、ということにも気をつけなくちゃいけませんね。

      当人が知らない間に個人情報が漏洩していたなんて騒ぎになりかねないし。

      私も自宅住所とメールアドレスだけだと思うけど、ほかにも個人情報っぽい
      長い語句を登録してたかな?
      どこかのサイトのパスワードとか。(ぉぃ

      親コメント
      • by Anonymous Coward

        >「全角で」と指定
        で、半角で入れるとご丁寧にも「全角で入力してください」とかエラーを出してくれたりしますね。
        半角で入れてることがわかってるなら変換しろよ! とか思います。ここにいる人たちはよく訓練された奴隷ばかりなので人間様が全角で入れ直してコンピュータに使われることを何とも思わないみたいですが。

    • by Anonymous Coward

      そんなインターネットで共有するんじゃなくて、イントラにサーバー置いてくらいなら
      仕事での頻出ワードがうまく使えてよいかなと。

      # Atokがブリタニカなら、これはwikipediaか

  • 変換候補にある単語が不愉快だという抗議運動が出たから削除とか、
    うるさそうな団体が騒ぎそうだからはじめから入れないとか
    いうことはないんだよね。

    • by Anonymous Coward
      「とうはと」で「東ハト」と「ToHeart」の順番を巡る。
    • by Anonymous Coward

      幾多のwikiがおかれている状況を考えれば言わずもがな

  • by moca (33770) on 2009年02月23日 20時40分 (#1519307) 日記

    去年だかにスラドに記事になったよね。。。。と思ったら
    コメント [srad.jp]だけでした。
    そのときに試したのですが、そこから特に新しいNewsはないみたいで非常に残念です。
    作者のブログに
    >まずことの経緯ですが、学生時代最後の記念にと、IT系のニュースサイトにプレスリリースを送付しました。
    とかいてあるようにたんにプレリリースを出しただけのようです。
    スラドには
    >「Social IME」が正式公開されました
    とあるのにbeta17で正式ではないですし、
    INTERNET Watchには
    >一般への公開を開始した
    とあるけど、前から普通に公開されていました。
    より多くの人に知られて辞書やソフト自身が発展すればすばらしいので喜ばしいことではあります。

    • by moca (33770) on 2009年02月23日 20時44分 (#1519308) 日記

      新らしい→新しい
      プレリリース→プレスリリース
      ですね。すみません。

      #プレビューしても一文字一句読まないとだめだ。

      親コメント
      • by Anonymous Coward

        プレビューが有ると思うからTYPOするんですよ。
        一発勝負のつもりで真剣に書けばミスも減ります。
        たぶん…

  • by Anonymous Coward on 2009年02月23日 11時04分 (#1518970)

    これは未踏なの?
    IPAは予算の使い方間違ってない?

    • by okky (2487) on 2009年02月23日 11時31分 (#1518991) ホームページ 日記

      IPAが投資するとどうしても予算が単年度になるので、継続して情報収集を続ける系のプロジェクトはどうせ途中でゴミに変わります。

      http://ossmpedia.org/ [ossmpedia.org] なんかも、すごく便利なんですが、検索できるのは 2.6.9-32EL だけだったり…
        (LXR 上には [ 2.6.16.9 ] [ 2.6.9-34.EL ] [ 2.6.9-42.EL ] とあるのですが、選択基準なども含めてよく判らん。RHEL 全部~ SuSE も全部~ Miracle も全部~ 本家も全部~ ぐらいやって、それが数年維持され続けて初めて役に立つことが判り、十年以上続けることで意味がでてくるものだろうに)

      http://alicia.sourceforge.net/ [sourceforge.net] もすごくよさそうなのだが、なんか停滞しているし…。news が 2006/3/20 ではなぁ。バグチェックスクリプト群なんかは何年もかけて収集し、共通項目を引き出してはライブラリ化していくものだろうにさ。

      もうすこし継続的に予算を割り振ることはできないのか…基本的に成果を要求する期間が短すぎる。
      別の言い方をすると「予算の使い方が目先のものに走りすぎていて貧乏臭い」。

      --
      fjの教祖様
      親コメント
      • by Anonymous Coward

        >IPAが投資すると

        投資ではないですよ。
        会社ばかりでもないでしょうし、IPAが株を持つなんてありえないので。

        • あぁ、なるほど。確かに「お金の利益を目的として」いるわけではないですしね。非常に狭い意味での投資ではないでしょう。

          でも、公共事業として生産物を獲得するため、という意味での「公共投資」ですから、結局投資です

          --
          fjの教祖様
          親コメント
    • by Anonymous Coward on 2009年02月23日 13時24分 (#1519094)

      未踏なんかより、IPAフォント [ipa.go.jp]「フォントのデザイン変更を可能とするライセンス」版の早期リリース希望。

      # 1バイト文字のキャレットがLinuxでは2バイト文字分で表示されるのはなぜ?

      親コメント
      • by Anonymous Coward on 2009年02月23日 15時36分 (#1519172)

        > # 1バイト文字のキャレットがLinuxでは2バイト文字分で表示されるのはなぜ?
        とりあえずフォントファイルを fontforge で読み込んでそのまま出力したファイルで
        置き換えてみたら直ったように見える。ちなみに変換時にかなりの数のエラーがでるが
        出力はされる。

        この件に関してIPAフォントのサイトのフォームからコメントを送ったが、全く反応なし。
        自動応答でもいいから、コメント受け取ったよ、くらいの返信はできないものかね。

        親コメント
        • by Anonymous Coward

          >自動応答でもいいから、コメント受け取ったよ、くらいの返信はできないものかね。

          次に自動応答で返信するくらいサルでも出来る、3ヶ月以内に対応するくらいできないものかね、
          というように要求をエスカレートさせるのですね、わかります。

          そもそも、非営利組織が公共に公開している成果物に関して特定個人とだけ密接に文通するのは、
          あらぬ誤解を招いたりすることもありますので、当選発表は発送でメソッドのほうが有効。

          フォームなら「サンクス」画面で最低限の返事は済んでいると考えられるし。

          • by Anonymous Coward

            > 次に自動応答で返信するくらいサルでも出来る、3ヶ月以内に対応するくらいできないものかね、
            > というように要求をエスカレートさせるのですね、わかります。
            なにか人を個人的な便宜を求めているクレーマーにしたいようだね。

            > そもそも、非営利組織が公共に公開している成果物に関して特定個人とだけ密接に文通するのは、
            > あらぬ誤解を招いたりすることもありますので、当選発表は発送でメソッドのほうが有効。
            そんなバカな。メールで情報をやりとりするだけで利権でも発生するのかいな。そもそも問い合わせを
            してきた相手と「文通」すべきでないのなら、メールアド

            • by Anonymous Coward

              とりあえずSocial IMEのことでどんだけ喧嘩してもかまわんが、
              根っこからオフトピじゃん。

              炎を上げるならタレこむか、どっか別のところでやってくれ。

      • by Anonymous Coward

        昨年の10月にライセンス改訂のための公募はしていた [ipa.go.jp]みたいなんですけどねえ。その後どうなったのかは知りません。

    • Re:未踏ソフトウェア (スコア:1, おもしろおかしい)

      by Anonymous Coward on 2009年02月23日 11時23分 (#1518983)

      ソフトウェアの開発者は自腹を切って霞を食うのが当然なのに、「つこうた」IPAから補助金をかすめ取ったのがねたましい [srad.jp]のですね。わかります。

      親コメント
      • by Anonymous Coward

        学生って書いてるから、無職の人間が開発している話とは違う。

      • by Anonymous Coward
        IPA の予算は誰が払ってるんですか?
  • by Anonymous Coward on 2009年02月23日 11時08分 (#1518974)

    http://www.social-ime.com/download.html [social-ime.com]
    このページ開いたら同意も求められずに勝手になんかダウンロードされた。

  • by Anonymous Coward on 2009年02月23日 11時38分 (#1518997)

    これもそのうち誹謗中傷罵詈雑言の嵐になって開発が止まりますか?

  • by Anonymous Coward on 2009年02月24日 10時09分 (#1519532)

    ユーザ構成によっては、2ch語, アレゲ語, アニオタ語ばかりが得意で、ビジネス, 論文作成にはさっぱり使えないなんてことになりそう。

  • by Anonymous Coward on 2009年02月26日 21時00分 (#1521258)

    変換の際には以下のような通信をしてるようです

    GET /api/?method=convert&string=%E3%81%8A%E3%82%8C%E3%81%AE%E3%82%88%E3%82%81&user=noname&charset=UTF-16LE&application=notepad.exe HTTP/1.1
    User-Agent: Social IME
    Host: www.social-ime.com
    Connection: Keep-Alive

    入力時に使用していたプログラムファイル名も送信してるので、プログラムによって変換候補を変える予定でもあるのかな?

typodupeerror

にわかな奴ほど語りたがる -- あるハッカー

読み込み中...