Google、大規模日本語データの公開を検討 31
ストーリー by kazekiri
最大のデータ 部門より
最大のデータ 部門より
JonMoo 曰く、
3/20の言語処理学会内にて、Googleが主催する大規模日本語データ公開に関する特別セッションというのがあるらしい。Googleでは、日本語の言語処理研究推進のため大規模日本語データの公開を検討しており、その仕様を決定するために現場の研究者/技術者の皆様の声を吸い上げたいということのようだ。 ここで思い出したが、つい先日にYahoo! Japanが Yahoo!知恵袋のデータを情報関連技術研究コミュニティに対して無償で提供するというニュースがあった。 この時は、書き言葉と話し言葉の中間的存在としてブログやQ&Aサイトなどのテキスト情報が急増しており、これを研究対象として利用できることで研究の幅が広がるということだったが、Googleのデータも非常に多様かつ巨大な情報の塊を研究対象にできるというのは意義のあることだと思う。これを使って、どんな研究ができるだろう?
各種権利はどうなるの (スコア:2, 興味深い)
自分が書いた駄文がデータに入るのはかまわないけど、Googleが権利を主張するようなことがあればなんとなく納得いかない。
Re:各種権利はどうなるの (スコア:3, 興味深い)
むしろ言語処理学会で何が欲しいの?とか聞く可能性も高い気がしますけど。
コーパスは簡単に言うと単語と様々な付属情報(品詞や活用、出現率等々)ですが、
貴方の文章は単語と付属する情報の内の出現率等の数値に影響は与えても文章そのものは収録されないと思います。
それに著作権がどう程度影響するかとかはまた別問題ですが・・・
もっとも提供されたコーパスを使うほうもライセンスにはかなり気をつけないといけなくて、
google-dicを使ってマルコフ連鎖で文章作ったけど、著作権どーなるの?
google-dicを基にしてwikipediaからコーパス作ったけど、再配布のライセンスは?
google-dicの関与した文章をwikipediaに投稿されたらGFDL違反になったりするの?
google-dicの一部に歌詞から生成されたコーパスが入っていたので、JASRACから人が来ました。
googleはRosette使っているらしい。google-dicはRosetteの辞書から作成されたわけで、Rosetteの辞書の著作権は継承される?Free?
様々な派生物が生成されますので線を引くのが難しいのですよね。
とはいえ、コーパスを公開してくれるのはそれだけで神です。
Re:各種権利はどうなるの (スコア:1, 参考になる)
Re:各種権利はどうなるの (スコア:0)
ある電子辞書の見出しだけ使ってみました、とかいう場合。
筋通すなら、素直にgoogleのデータ使ってます宣言して、
データ加工して作るツールということにしておいて、使う人が個々に処理とか。
加工したデータに権利主張するなら、きちんと権利処理すればいいんじゃないでしょうか。
先方の事情も聞ければやるべきことも見えるんじゃない?
どれも面倒ならひたすら黙って使えばいいんじゃない?
わざわざつつくから面倒になる。
Re:各種権利はどうなるの (スコア:1, すばらしい洞察)
データベースは、少なくとも日本では著作物として認められていますので、それを利用する場合には許諾が必要になる場合がありえます。
元記事は、データベースの元になった著作物の著作権はデータベースから作ったものには及ばないということです。
Re:各種権利はどうなるの (スコア:0)
例えば、私が300年前の先祖の肖像画を持っていたとして、「他に誰にも見せないようにするなら美術館入場料500円で写真を撮ってもいいよ」という契約を結んだ場合、その肖像画の一次著作権は切れているので、その写真をどう複写したところで著作権的
Re:各種権利はどうなるの (スコア:1)
Re:各種権利はどうなるの (スコア:1)
Re:各種権利はどうなるの (スコア:2, おもしろおかしい)
ディズニーは黒丸3つに著作権を主張してくるけど、さすがに黒丸1つには主張してこない。
そんな境界線を探ってどうする (スコア:1, おもしろおかしい)
▽
Re:各種権利はどうなるの (スコア:1)
「…」とか「∵」はどうなんだろうか
Re:各種権利はどうなるの (スコア:1)
Re:各種権利はどうなるの (スコア:0)
どういう法的根拠のある権利ですか、それ。
# 公開されてるwebサイトの情報を参照したら「俺の情報の権利を侵害」とか変なメールが来たことがあるなあ。
Re:各種権利はどうなるの (スコア:0)
入力されたキーワードの著作権は Google のものになるとか、そういう断りは無いよね?
Re:各種権利はどうなるの (スコア:1)
そもそも、検索を行うために入力したキーワードに著作権って発生するんですか?
ニュースの見出しですら著作物とは認められなかったわけで。
Re:各種権利はどうなるの (スコア:0)
たとえIPアドレス等と関連づけられていなくても、キーワードから個人を特定することが可能である場合もありますし。
Re:各種権利はどうなるの (スコア:0)
先日ニュース [itmedia.co.jp]で出た「検索過去ログの匿名化」とも関係するのでしょうか……。
考えられる研究 (スコア:1, 参考になる)
# オープンソースで日本語に使えるスペルチェッカーが欲しいのでAC
Re:考えられる研究 (スコア:2, 参考になる)
うまくup-to-dateでGoogleのデータを取得できるならば、流行の単語などを取り入れやすいかも。
かな漢字変換は、さらに読みとか品詞なんかの情報を補完する必要があるんでしょうね。
さすがにGoogleのクローリングや検索キーワードの記録から、そこまでの正確な情報を抽出するのは難しいでしょうが、
それでもたたき台の元データとしては役に立つハズ。
これらのデータを元に、オンラインでCGM的にユーザが品詞や読みなどを登録できるような仕組みを付け加えて、
(アンチウィルスソフトのパターンファイルみたいに)ユーザのIME辞書を定期的に追加・更新できるようなIMEとエコシステム、誰か作ってくれませんかね?
名付けて「毎日みんなが賢くする日本語変換」みたいなw
Re:考えられる研究 (スコア:2, すばらしい洞察)
しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
Re:考えられる研究 (スコア:1)
研究するための基礎データとするとかは駄目?
Re:考えられる研究 (スコア:0)
# 卒論が楽になってうらやましい…
Re:考えられる研究 (スコア:0)
有償無償によらず公開されている辞書データなどを用いて評価、分類くらい
してるんではないかと思う。
研究というより試作開発っぽいと思うけど (スコア:0)
考えられる研究(ネタ部門) (スコア:1, 興味深い)
1.ネカマの特定方法
1.アニメの台詞の伝播具合からみるネット内での情報伝達
1.ブログ炎上のメカニズムと野次馬の集まり具合
#以下アレゲ議論が続く(予定)
Re:考えられる研究(ネタ部門) (スコア:1)
1.ネカマの特定方法
ネカマとは限定しませんが、文体などから性別を判断する研究があります。
しかも英語、日本語ともあり、対象もブログからEメールまで様々。
1.アニメの台詞の伝播具合からみるネット内での情報伝達
1.ブログ炎上のメカニズムと野次馬の集まり具合
SNSやブログのトラックバックに着目して情報の広まり具合やブログで旬のワードを特定するような研究は存在してます。
しかもちょっと前まで流行ってたました。
基本的にネタをちょっとまじめに取り扱えば研究になってしまうので、
「こんなネタは研究されてないだろう」ってことはそうそう無いですね。
検索クエリーのデータをくれ (スコア:0)
Re:つまり、 (スコア:0)
Re:つまり、 (スコア:0)