パスワードを忘れた? アカウント作成
14905 story
Google

Google、大規模日本語データの公開を検討 31

ストーリー by kazekiri
最大のデータ 部門より

JonMoo 曰く、

3/20の言語処理学会内にて、Googleが主催する大規模日本語データ公開に関する特別セッションというのがあるらしい。Googleでは、日本語の言語処理研究推進のため大規模日本語データの公開を検討しており、その仕様を決定するために現場の研究者/技術者の皆様の声を吸い上げたいということのようだ。 ここで思い出したが、つい先日にYahoo! Japanが Yahoo!知恵袋のデータを情報関連技術研究コミュニティに対して無償で提供するというニュースがあった。 この時は、書き言葉と話し言葉の中間的存在としてブログやQ&Aサイトなどのテキスト情報が急増しており、これを研究対象として利用できることで研究の幅が広がるということだったが、Googleのデータも非常に多様かつ巨大な情報の塊を研究対象にできるというのは意義のあることだと思う。これを使って、どんな研究ができるだろう?

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by Anonymous Coward on 2007年03月16日 13時10分 (#1127022)
    Googleが提供するってことはWebページをクロールした結果が元になると思うんだけど、著作権などはどういう扱いになるんでしょうか?
    自分が書いた駄文がデータに入るのはかまわないけど、Googleが権利を主張するようなことがあればなんとなく納得いかない。
    • by Anonymous Coward on 2007年03月16日 14時45分 (#1127101)
      何を提供してもらえるのか解かりませんがコーパスを提供してくれるのかな、という気がします。
      むしろ言語処理学会で何が欲しいの?とか聞く可能性も高い気がしますけど。
      コーパスは簡単に言うと単語と様々な付属情報(品詞や活用、出現率等々)ですが、
      貴方の文章は単語と付属する情報の内の出現率等の数値に影響は与えても文章そのものは収録されないと思います。
      それに著作権がどう程度影響するかとかはまた別問題ですが・・・

      もっとも提供されたコーパスを使うほうもライセンスにはかなり気をつけないといけなくて、
      google-dicを使ってマルコフ連鎖で文章作ったけど、著作権どーなるの?
      google-dicを基にしてwikipediaからコーパス作ったけど、再配布のライセンスは?
      google-dicの関与した文章をwikipediaに投稿されたらGFDL違反になったりするの?
      google-dicの一部に歌詞から生成されたコーパスが入っていたので、JASRACから人が来ました。
      googleはRosette使っているらしい。google-dicはRosetteの辞書から作成されたわけで、Rosetteの辞書の著作権は継承される?Free?
      様々な派生物が生成されますので線を引くのが難しいのですよね。

      とはいえ、コーパスを公開してくれるのはそれだけで神です。
      親コメント
      • by Anonymous Coward on 2007年03月16日 17時44分 (#1127188)
        著作権は感情や主張の表現に与えられるものなので、単語レベルの情報を元にして何かを作ったならば、元になった著作物の権利は関係なくなると思われます。元の著作物の主張や感情などを引き継いでいるとは考えられないからです。
        親コメント
        • 単語レベルであっても、データとしての集合を利用した場合は真っ白とはいえなくなります。
          ある電子辞書の見出しだけ使ってみました、とかいう場合。

          筋通すなら、素直にgoogleのデータ使ってます宣言して、
          データ加工して作るツールということにしておいて、使う人が個々に処理とか。

          加工したデータに権利主張するなら、きちんと権利処理すればいいんじゃないでしょうか。
          先方の事情も聞ければやるべきことも見えるんじゃない?

          どれも面倒ならひたすら黙って使えばいいんじゃない?
          わざわざつつくから面倒になる。
          • by Anonymous Coward on 2007年03月16日 22時34分 (#1127279)
            それは提供しようとしているデータの著作権についての話だと思います。
            データベースは、少なくとも日本では著作物として認められていますので、それを利用する場合には許諾が必要になる場合がありえます。
            元記事は、データベースの元になった著作物の著作権はデータベースから作ったものには及ばないということです。
            親コメント
        • 著作権法は著作物にしか適用されませんが、一般的なライセンス契約というのは、もっと幅広いものです。結局のところ著作権が問題なのではななく、「~に同意しない限り見せないよ」というライセンスは結べるわけで、著作権が問題になるのは、そのライセンスを基にしてできた著作物の二次著作物からです。

          例えば、私が300年前の先祖の肖像画を持っていたとして、「他に誰にも見せないようにするなら美術館入場料500円で写真を撮ってもいいよ」という契約を結んだ場合、その肖像画の一次著作権は切れているので、その写真をどう複写したところで著作権的
    • 文章を利用できる範囲でぶつ切りにしちゃえば、身元不明になるでは?
      親コメント
    • by gbgb (33441) on 2007年03月16日 18時16分 (#1127202)
      著作権ではなく情報として所有権を主張するんじゃないですかね
      親コメント
      • > 著作権ではなく情報として所有権を主張するんじゃないですかね
        どういう法的根拠のある権利ですか、それ。
        # 公開されてるwebサイトの情報を参照したら「俺の情報の権利を侵害」とか変なメールが来たことがあるなあ。
    • 検索ボックスに入力されたキーワードも元になりそうな気がするんだけど、著作権などはどういう扱いになるんでしょうか?

      入力されたキーワードの著作権は Google のものになるとか、そういう断りは無いよね?
      • 単純にその辺の権利について知らないので質問なんですが、
        そもそも、検索を行うために入力したキーワードに著作権って発生するんですか?

        ニュースの見出しですら著作物とは認められなかったわけで。
        親コメント
        • 著作権は問題ないでしょうが、プライバシー権の問題は生じるでしょうね。
          たとえIPアドレス等と関連づけられていなくても、キーワードから個人を特定することが可能である場合もありますし。
          •  でもGoogleは、Privacy Policyの中で「収集したnon-personal informationについてはサードパーティと共有するかも」と言ってます [google.com]ね。
             先日ニュース [itmedia.co.jp]で出た「検索過去ログの匿名化」とも関係するのでしょうか……。
  • 考えられる研究 (スコア:1, 参考になる)

    by Anonymous Coward on 2007年03月16日 12時48分 (#1127005)
    構文解析プログラムの性能向上
    例はあればあるほど良い
    日本語かな漢字エンジンの性能向上
    AnthyはWikipediaを活用してるんだっけか?
    スペルチェッカー
    公開されるデータが全て正しい日本語で書かれてないと意味がないかも


    # オープンソースで日本語に使えるスペルチェッカーが欲しいのでAC
    • by Anonymous Coward on 2007年03月16日 13時34分 (#1127038)
      まず一番応用が利きそうなのは、KAKASIやChaSenのような形態素解析(日本語の分かち書き)の辞書としてかもしれませんね。
      うまくup-to-dateでGoogleのデータを取得できるならば、流行の単語などを取り入れやすいかも。

      かな漢字変換は、さらに読みとか品詞なんかの情報を補完する必要があるんでしょうね。
      さすがにGoogleのクローリングや検索キーワードの記録から、そこまでの正確な情報を抽出するのは難しいでしょうが、
      それでもたたき台の元データとしては役に立つハズ。

      これらのデータを元に、オンラインでCGM的にユーザが品詞や読みなどを登録できるような仕組みを付け加えて、
      (アンチウィルスソフトのパターンファイルみたいに)ユーザのIME辞書を定期的に追加・更新できるようなIMEとエコシステム、誰か作ってくれませんかね?
      名付けて「毎日みんなが賢くする日本語変換」みたいなw
      親コメント
    • Re:考えられる研究 (スコア:2, すばらしい洞察)

      by akiraani (24305) on 2007年03月16日 13時35分 (#1127040) 日記
      情報大航海プロジェクト [srad.jp]で利用する。
      --
      しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
      親コメント
    • 正しくない日本語も含めて、日本語がどの様に変化しつつあるのかを
      研究するための基礎データとするとかは駄目?
      親コメント
      • by Anonymous Coward
        だめどころか、日本語学の分野では一番多いテーマだと思います。
        # 卒論が楽になってうらやましい…
    • by Anonymous Coward
      > 公開されるデータが全て正しい日本語で書かれてないと意味がないかも
      有償無償によらず公開されている辞書データなどを用いて評価、分類くらい
      してるんではないかと思う。
    • GoogleやYahoo経由で取得しなくても出来るような気が。
  • by Anonymous Coward on 2007年03月16日 21時54分 (#1127270)
    考えられる「アレゲ」研究。

    1.ネカマの特定方法
    1.アニメの台詞の伝播具合からみるネット内での情報伝達
    1.ブログ炎上のメカニズムと野次馬の集まり具合

    #以下アレゲ議論が続く(予定)

    • ネタにマジレスっぽいですが、世の中結構色々な研究があるもんでして、

      1.ネカマの特定方法
       ネカマとは限定しませんが、文体などから性別を判断する研究があります。
       しかも英語、日本語ともあり、対象もブログからEメールまで様々。

      1.アニメの台詞の伝播具合からみるネット内での情報伝達
      1.ブログ炎上のメカニズムと野次馬の集まり具合
       SNSやブログのトラックバックに着目して情報の広まり具合やブログで旬のワードを特定するような研究は存在してます。
       しかもちょっと前まで流行ってたました。

      基本的にネタをちょっとまじめに取り扱えば研究になってしまうので、
      「こんなネタは研究されてないだろう」ってことはそうそう無いですね。
      親コメント
  • by Anonymous Coward on 2007年03月17日 15時56分 (#1127449)
    Webのコーパスは(やろうと思えば)自前で集められるわけだし。
typodupeerror

長期的な見通しやビジョンはあえて持たないようにしてる -- Linus Torvalds

読み込み中...