Google、大規模日本語データの公開を検討

Google、大規模日本語データの公開を検討 31

ストーリー by kazekiri 2007年03月16日 12時11分
最大のデータ部門より

JonMoo 曰く、

3/20の言語処理学会内にて、Googleが主催する大規模日本語データ公開に関する特別セッションというのがあるらしい。Googleでは、日本語の言語処理研究推進のため大規模日本語データの公開を検討しており、その仕様を決定するために現場の研究者/技術者の皆様の声を吸い上げたいということのようだ。ここで思い出したが、つい先日にYahoo! Japanが Yahoo!知恵袋のデータを情報関連技術研究コミュニティに対して無償で提供するというニュースがあった。この時は、書き言葉と話し言葉の中間的存在としてブログやQ&Aサイトなどのテキスト情報が急増しており、これを研究対象として利用できることで研究の幅が広がるということだったが、Googleのデータも非常に多様かつ巨大な情報の塊を研究対象にできるというのは意義のあることだと思う。これを使って、どんな研究ができるだろう？

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索31コメント Log In/Create an Account

各種権利はどうなるの (スコア:2, 興味深い)

by Anonymous Coward on 2007年03月16日 13時10分 (#1127022)

Googleが提供するってことはWebページをクロールした結果が元になると思うんだけど、著作権などはどういう扱いになるんでしょうか?
自分が書いた駄文がデータに入るのはかまわないけど、Googleが権利を主張するようなことがあればなんとなく納得いかない。
- Re:各種権利はどうなるの (スコア:3, 興味深い)
  
  by Anonymous Coward on 2007年03月16日 14時45分 (#1127101)
  
  何を提供してもらえるのか解かりませんがコーパスを提供してくれるのかな、という気がします。
  むしろ言語処理学会で何が欲しいの？とか聞く可能性も高い気がしますけど。
  コーパスは簡単に言うと単語と様々な付属情報(品詞や活用、出現率等々)ですが、
  貴方の文章は単語と付属する情報の内の出現率等の数値に影響は与えても文章そのものは収録されないと思います。
  それに著作権がどう程度影響するかとかはまた別問題ですが・・・
  
  もっとも提供されたコーパスを使うほうもライセンスにはかなり気をつけないといけなくて、
  google-dicを使ってマルコフ連鎖で文章作ったけど、著作権どーなるの？
  google-dicを基にしてwikipediaからコーパス作ったけど、再配布のライセンスは？
  google-dicの関与した文章をwikipediaに投稿されたらGFDL違反になったりするの？
  google-dicの一部に歌詞から生成されたコーパスが入っていたので、JASRACから人が来ました。
  googleはRosette使っているらしい。google-dicはRosetteの辞書から作成されたわけで、Rosetteの辞書の著作権は継承される？Free？
  様々な派生物が生成されますので線を引くのが難しいのですよね。
  
  とはいえ、コーパスを公開してくれるのはそれだけで神です。
  
  シェア
  
  親コメント
  - Re:各種権利はどうなるの (スコア:1, 参考になる)
    
    by Anonymous Coward on 2007年03月16日 17時44分 (#1127188)
    
    著作権は感情や主張の表現に与えられるものなので、単語レベルの情報を元にして何かを作ったならば、元になった著作物の権利は関係なくなると思われます。元の著作物の主張や感情などを引き継いでいるとは考えられないからです。
    
    シェア
    
    親コメント
    - Re:各種権利はどうなるの (スコア:0)
      
      by Anonymous Coward
      
      単語レベルであっても、データとしての集合を利用した場合は真っ白とはいえなくなります。
      ある電子辞書の見出しだけ使ってみました、とかいう場合。
      
      筋通すなら、素直にgoogleのデータ使ってます宣言して、
      データ加工して作るツールということにしておいて、使う人が個々に処理とか。
      
      加工したデータに権利主張するなら、きちんと権利処理すればいいんじゃないでしょうか。
      先方の事情も聞ければやるべきことも見えるんじゃない?
      
      どれも面倒ならひたすら黙って使えばいいんじゃない?
      わざわざつつくから面倒になる。
      - Re:各種権利はどうなるの (スコア:1, すばらしい洞察)
        
        by Anonymous Coward on 2007年03月16日 22時34分 (#1127279)
        
        それは提供しようとしているデータの著作権についての話だと思います。
        データベースは、少なくとも日本では著作物として認められていますので、それを利用する場合には許諾が必要になる場合がありえます。
        元記事は、データベースの元になった著作物の著作権はデータベースから作ったものには及ばないということです。
        
        シェア
        
        親コメント
    - Re:各種権利はどうなるの (スコア:0)
      
      by Anonymous Coward
      
      著作権法は著作物にしか適用されませんが、一般的なライセンス契約というのは、もっと幅広いものです。結局のところ著作権が問題なのではななく、「～に同意しない限り見せないよ」というライセンスは結べるわけで、著作権が問題になるのは、そのライセンスを基にしてできた著作物の二次著作物からです。
      
      例えば、私が300年前の先祖の肖像画を持っていたとして、「他に誰にも見せないようにするなら美術館入場料500円で写真を撮ってもいいよ」という契約を結んだ場合、その肖像画の一次著作権は切れているので、その写真をどう複写したところで著作権的
- Re:各種権利はどうなるの (スコア:1)
  
  by aminosan (33301) on 2007年03月16日 13時25分 (#1127032) ホームページ
  
  文章を利用できる範囲でぶつ切りにしちゃえば、身元不明になるでは？
  
  シェア
  
  親コメント
  - Re:各種権利はどうなるの (スコア:1)
    
    by odz (33623) on 2007年03月16日 13時46分 (#1127050)
    
    そういう問題ではないでしょ。
    
    シェア
    
    親コメント
    - Re:各種権利はどうなるの (スコア:2, おもしろおかしい)
      
      by Anonymous Coward on 2007年03月16日 14時20分 (#1127079)
      
      いやそういう問題。
      ディズニーは黒丸3つに著作権を主張してくるけど、さすがに黒丸1つには主張してこない。
      
      シェア
      
      親コメント
      - そんな境界線を探ってどうする (スコア:1, おもしろおかしい)
        
        by Anonymous Coward on 2007年03月16日 17時50分 (#1127193)
        
        ●　●
        　▽
        
        シェア
        
        親コメント
      - Re:各種権利はどうなるの (スコア:1)
        
        by Elbereth (17793) on 2007年03月18日 23時56分 (#1127810)
        
        >ディズニーは黒丸3つに著作権を主張してくるけど
        
        「…」とか「∵」はどうなんだろうか
        
        シェア
        
        親コメント
- Re:各種権利はどうなるの (スコア:1)
  
  by gbgb (33441) on 2007年03月16日 18時16分 (#1127202)
  
  著作権ではなく情報として所有権を主張するんじゃないですかね
  
  シェア
  
  親コメント
  - Re:各種権利はどうなるの (スコア:0)
    
    by Anonymous Coward
    
    > 著作権ではなく情報として所有権を主張するんじゃないですかね
    どういう法的根拠のある権利ですか、それ。
    # 公開されてるwebサイトの情報を参照したら「俺の情報の権利を侵害」とか変なメールが来たことがあるなあ。
- Re:各種権利はどうなるの (スコア:0)
  
  by Anonymous Coward
  
  検索ボックスに入力されたキーワードも元になりそうな気がするんだけど、著作権などはどういう扱いになるんでしょうか？
  
  入力されたキーワードの著作権は Google のものになるとか、そういう断りは無いよね？
  - Re:各種権利はどうなるの (スコア:1)
    
    by tanji (6368) on 2007年03月16日 14時37分 (#1127097) ホームページ
    
    単純にその辺の権利について知らないので質問なんですが、
    そもそも、検索を行うために入力したキーワードに著作権って発生するんですか?
    
    ニュースの見出しですら著作物とは認められなかったわけで。
    
    シェア
    
    親コメント
    - Re:各種権利はどうなるの (スコア:0)
      
      by Anonymous Coward
      
      著作権は問題ないでしょうが、プライバシー権の問題は生じるでしょうね。
      たとえIPアドレス等と関連づけられていなくても、キーワードから個人を特定することが可能である場合もありますし。
      - Re:各種権利はどうなるの (スコア:0)
        
        by Anonymous Coward
        
        　でもGoogleは、Privacy Policyの中で「収集したnon-personal informationについてはサードパーティと共有するかも」と言ってます [google.com]ね。
        　先日ニュース [itmedia.co.jp]で出た「検索過去ログの匿名化」とも関係するのでしょうか……。
考えられる研究 (スコア:1, 参考になる)

by Anonymous Coward on 2007年03月16日 12時48分 (#1127005)

構文解析プログラムの性能向上
例はあればあるほど良い
日本語かな漢字エンジンの性能向上
AnthyはWikipediaを活用してるんだっけか？
スペルチェッカー
公開されるデータが全て正しい日本語で書かれてないと意味がないかも

# オープンソースで日本語に使えるスペルチェッカーが欲しいのでAC
- Re:考えられる研究 (スコア:2, 参考になる)
  
  by Anonymous Coward on 2007年03月16日 13時34分 (#1127038)
  
  まず一番応用が利きそうなのは、KAKASIやChaSenのような形態素解析（日本語の分かち書き）の辞書としてかもしれませんね。
  うまくup-to-dateでGoogleのデータを取得できるならば、流行の単語などを取り入れやすいかも。
  
  かな漢字変換は、さらに読みとか品詞なんかの情報を補完する必要があるんでしょうね。
  さすがにGoogleのクローリングや検索キーワードの記録から、そこまでの正確な情報を抽出するのは難しいでしょうが、
  それでもたたき台の元データとしては役に立つハズ。
  
  これらのデータを元に、オンラインでCGM的にユーザが品詞や読みなどを登録できるような仕組みを付け加えて、
  （アンチウィルスソフトのパターンファイルみたいに）ユーザのIME辞書を定期的に追加・更新できるようなIMEとエコシステム、誰か作ってくれませんかね？
  名付けて「毎日みんなが賢くする日本語変換」みたいなｗ
  
  シェア
  
  親コメント
- Re:考えられる研究 (スコア:2, すばらしい洞察)
  
  by akiraani (24305) on 2007年03月16日 13時35分 (#1127040) 日記
  
  情報大航海プロジェクト [srad.jp]で利用する。
  
  --
  しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
  
  シェア
  
  親コメント
- Re:考えられる研究 (スコア:1)
  
  by narunaru (30931) <reversethis-{pj. ... {ta} {isohakim}> on 2007年03月18日 1時15分 (#1127601)
  
  正しくない日本語も含めて、日本語がどの様に変化しつつあるのかを
  研究するための基礎データとするとかは駄目？
  
  シェア
  
  親コメント
  - Re:考えられる研究 (スコア:0)
    
    by Anonymous Coward
    
    だめどころか、日本語学の分野では一番多いテーマだと思います。
    # 卒論が楽になってうらやましい…
- Re:考えられる研究 (スコア:0)
  
  by Anonymous Coward
  
  > 公開されるデータが全て正しい日本語で書かれてないと意味がないかも
  有償無償によらず公開されている辞書データなどを用いて評価、分類くらい
  してるんではないかと思う。
- 研究というより試作開発っぽいと思うけど (スコア:0)
  
  by Anonymous Coward
  
  GoogleやYahoo経由で取得しなくても出来るような気が。
考えられる研究（ネタ部門） (スコア:1, 興味深い)

by Anonymous Coward on 2007年03月16日 21時54分 (#1127270)

考えられる「アレゲ」研究。

1.ネカマの特定方法
1.アニメの台詞の伝播具合からみるネット内での情報伝達
1.ブログ炎上のメカニズムと野次馬の集まり具合

＃以下アレゲ議論が続く（予定）
- Re:考えられる研究（ネタ部門） (スコア:1)
  
  by rail (29920) on 2007年03月17日 1時38分 (#1127318) 日記
  
  ネタにマジレスっぽいですが、世の中結構色々な研究があるもんでして、
  
  1.ネカマの特定方法
  　ネカマとは限定しませんが、文体などから性別を判断する研究があります。
  　しかも英語、日本語ともあり、対象もブログからEメールまで様々。
  
  1.アニメの台詞の伝播具合からみるネット内での情報伝達
  1.ブログ炎上のメカニズムと野次馬の集まり具合
  　SNSやブログのトラックバックに着目して情報の広まり具合やブログで旬のワードを特定するような研究は存在してます。
  　しかもちょっと前まで流行ってたました。
  
  基本的にネタをちょっとまじめに取り扱えば研究になってしまうので、
  「こんなネタは研究されてないだろう」ってことはそうそう無いですね。
  
  シェア
  
  親コメント
検索クエリーのデータをくれ (スコア:0)

by Anonymous Coward on 2007年03月17日 15時56分 (#1127449)

Webのコーパスは（やろうと思えば）自前で集められるわけだし。
- Re:つまり、 (スコア:0)
  
  by Anonymous Coward
  
  萌え単語の調査による日本制服(但しＲくんを除く)をきぼんぬ
  - Re:つまり、 (スコア:0)
    
    by Anonymous Coward
    
    未だに「ブロンズパロット制服」でググる人が居るって話ですか？

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

Google、大規模日本語データの公開を検討 31

Google、大規模日本語データの公開を検討 More ログイン

各種権利はどうなるの (スコア:2, 興味深い)

Re:各種権利はどうなるの (スコア:3, 興味深い)

Re:各種権利はどうなるの (スコア:1, 参考になる)

Re:各種権利はどうなるの (スコア:0)

Re:各種権利はどうなるの (スコア:1, すばらしい洞察)

Re:各種権利はどうなるの (スコア:0)

Re:各種権利はどうなるの (スコア:1)

Re:各種権利はどうなるの (スコア:1)

Re:各種権利はどうなるの (スコア:2, おもしろおかしい)

そんな境界線を探ってどうする (スコア:1, おもしろおかしい)

Re:各種権利はどうなるの (スコア:1)

Re:各種権利はどうなるの (スコア:1)

Re:各種権利はどうなるの (スコア:0)

Re:各種権利はどうなるの (スコア:0)

Re:各種権利はどうなるの (スコア:1)

Re:各種権利はどうなるの (スコア:0)

Re:各種権利はどうなるの (スコア:0)

考えられる研究 (スコア:1, 参考になる)

Re:考えられる研究 (スコア:2, 参考になる)

Re:考えられる研究 (スコア:2, すばらしい洞察)

Re:考えられる研究 (スコア:1)

Re:考えられる研究 (スコア:0)

Re:考えられる研究 (スコア:0)

研究というより試作開発っぽいと思うけど (スコア:0)

考えられる研究（ネタ部門） (スコア:1, 興味深い)

Re:考えられる研究（ネタ部門） (スコア:1)

検索クエリーのデータをくれ (スコア:0)

Re:つまり、 (スコア:0)

Re:つまり、 (スコア:0)

スラド