1,000万語分の日本語書き言葉均衡コーパス公開 39
ストーリー by yoosee
なにに使うと楽しいですかね 部門より
なにに使うと楽しいですかね 部門より
ultrageek 曰く、
INTERNET Watchの記事によれば、 国立国語研究所が、「現代日本語書き言葉均衡コーパス」のデータの一部にあたる 約1,000万語分を試験公開したそうだ。 公開されたデータは、政府刊行白書とYahoo!知恵袋の2種類を元にしたもの。2011年の完成時には1億語を越えるデータを目標としている。
検索デモをツンツンとやってみたが、 書き言葉がズラズラでてきて面白いのだが、何か利用法はあるだろうか。
検索デモをツンツンとやってみた? (スコア:5, おもしろおかしい)
>検索デモをツンツンとやってみたが
ultrageek:か、かんちがいしないでよね、別に国語研究なんかに興味ないんだからね!
システム:ツンデレキターッ
ultrageek:ちょ…ちょっと!な、なに嬉しそうな顔してるのよ!
と、まあこんな風にツンツンとやったわけですね。
ultrageek さんって、相当病んでますよね。
#どうみても病人は自分です、本当にありがとうございました
ツンデレで検索してみた (スコア:0)
0 件の結果が見つかりました。そのうち 0 件を表示しています。
何に使うか (スコア:1)
Googleだと実験のたびに結果が変わってしまうので比較ができないのです。
NLP (スコア:1)
今晩は静かです.
予測変換 (スコア:0)
当然各社独自のコーパスを持っているはずですが。
"孫"と入力した後あの人の名前が予測候補に出るわけですな。
Re:予測変換 (スコア:1, おもしろおかしい)
Re:予測変換 (スコア:1)
「全然」 (スコア:1)
こういう間違った使い方が広まりつつあるような言葉を検索してみるとか。
#あ、リアルタイムに現在を反映している訳じゃないからダメかw
お役所言葉 (スコア:1)
下ネタ (スコア:1, おもしろおかしい)
Re:「全然」 (スコア:1)
シュミレーション:43件
内臓:かなり内蔵の誤変換が多い
確立:意外と確率の誤変換は少ないがいくつかあり
こういった毒入りの部分はちまちまと手で除くのかなぁ
Re:「全然」 (スコア:1)
私の好きな某作家(林○さん.この方は国語の専門家だけれど...)や某映画監督など,
少し調べてみると,コーパスでは文法的な間違いは取り除いて良いらしいと理解したのですが,それを除く作業はすごく大変な労力が必要になりそうですね.
Re:「全然」 (スコア:0)
Re:「全然」 (スコア:0)
「全然~肯定文」というのは、日本語として全然大丈夫です。
明治以前から使われている用法で、夏目漱石の本などにも全然普通に出てきます。
Re:「全然」 (スコア:0)
この手の表現の例としては辞書等にも『ぼっちゃん』の台詞が
使われていたりしますが、例としては著しく不適切です。
台詞というものは漱石自身の言葉ではなく、『ぼっちゃん』なら
こう言うだろうと考えた言い回しですから。
# 漱石が書いた方言を根拠に"正しい"方言を論ずる人はいない。
# 辞書編纂時に調査したものの、例としては相応しくないものしか
# 見付けられなかった。つまり、そういう使い方はされていなかった。
# と言うのが真相ではないかと妄想中。
Re:「全然」 (スコア:1)
ふさわしい日本語とそうでない日本語はどうやって見分けるのでしょうか?
何って (スコア:0)
計画概要のところに書いてあるようなことでは?
コーパスって (スコア:0)
検索しても出てこないぞ
英語のコーパスはあると便利ですが‥‥ (スコア:2, 興味深い)
「・・・弁当を・・」という文章が主にヒットしました.
『的を』と入力してみた.『射る』が検索されることを期待した.
「・・・目的を・・」という文章が主にヒットしました.
『どんだけ』と入力してみた.(いえ,ちょっと昨今の使い方についていけなかったので.)
3件の結果がでましたが,役に立ちませんでした.
検索のシステムにも改良の余地はあるでしょうが,現時点ではgoogleで使い方を調べたい語句をクォーテーションで囲んで検索した方がよっぽど有用です.
Re:英語のコーパスはあると便利ですが‥‥ (スコア:3, おもしろおかしい)
「・・・冷蔵庫に牛乳が・・」という文章が主にヒットしました.
『どんより』と入力してみた.
「・・・そばがすきだ・・」という文章が主にヒットしました.
『うってかわって』と入力してみた.
「・・・彼は麻薬を・・」という文章が主にヒットしました.
Re:英語のコーパスはあると便利ですが‥‥ (スコア:2, 参考になる)
ちゃんと注意書き読もうよ。
正式版は態素解析・構文解析されるはずだから、使えるようになるでしょう。
読んでませんでした...(ので,読んでみました) (スコア:1)
データのもととなる文章も今後追加されていくそうなので,正式版をみてみろということですね.
でも,完成は2011年.
・オンライン公開1(無償)
簡単な語の検索のみ,出力件数に制約(500件まで)
・オンライン公開2(有償:年間3000円程度)
高度な検索インターフェイスを提供,全出力をダウンロード可.
・データ全体の公開(アカデミック利用20万円程度)
利用契約を締結した後,DVD等で配布
(説明資料より)
というわけで,活用しようとすると有償なんですね.無償版でも十分使えるようにして欲しいですね.
Re:読んでませんでした...(ので,読んでみました) (スコア:1)
今やBNCはXMLデータベースになっていて、クライアントソフトで検索できるわけですが。
# 1000万語なんてのはコーパスとしては赤ちゃんみたいなもんです
Re:英語のコーパスはあると便利ですが‥‥ (スコア:2, 興味深い)
というかこういう単純なやり方で上手くいかないのが日本語を計算機で扱う上で問題となっていて、
何をするにもまず日本語は単語に分割する必要があります。
単語に分割する為にはまずどんな単語があるかを調べる必要があるのですが、
そこで今回のようなシステムが役に立ちます。
例えば「猫」で検索すると前後の文字がかなりバラバラになっているから「猫」で単語になりそうだとか、
逆に「索」で検索すると前の文字は殆ど「検」になってるから「索」は単語じゃ無さそうだけど
「検索」という単語がありそうだとかがわかります。
こんな感じの学習は前もって(100%正しいかどうか定かでない)単語に分割されてると難しいので、
とりあえず文字単位での全文検索で公開ってのは普通だと思いますよ。
Re:英語のコーパスはあると便利ですが‥‥ (スコア:1, 参考になる)
おそらく勘違い…というと言いすぎですが、なんというか感覚のずれがあります。
今回のメインは「無作為なデータの蓄積」が無償で公開されたことなのですよ。
私が研究していた範囲では、検索方法はSQLでLIKE検索程度で十分でした。
(拾いたいデータが拾えない方が問題なので)
Web上の言語のみ、しかも企業が他の目的でインデキシングしてしまったデータでは
ごく一部の何かWebに関する研究を除いては殆ど使えないと思います。
このデータに対する検索エンジンがあったら確かに便利だと思いますけど。
つまり (スコア:0)
Re:コーパスって (スコア:1)
何するもの?
口語の使い方文例スタックってこと?
「キモい」とか「欧米かヨ」みたいな言葉がどう使われているのか
を調べるターゲットって事なのかなぁ?
Re:コーパスって (スコア:5, 参考になる)
これから形態素解析やら日本語入力の辞書とかが出来たりします。あとは人口無能とか。
大量の文章から前後の単語(あるいは品詞)の接続の頻度を抽出して辞書を作ります。
それらを新しい文章適用するわけです。
日本語入力で「かのかわ」は「彼の川」が正解ですが賢い辞書が無いと、香の川、蚊の川、彼の皮(!)、とかになります。
また、検索エンジンでメイドと入れてもホームメイドやマーメイドがかからないものそのお陰です。
特定の単語が現れる文章に非常に高い確率で表れる単語を集めれば文章同士の類似性が解りますね。
ほぼ無限の言語資源と演算能力があればチューリングテストで解らないヤツが出来るのではないかと夢想。
これらの事をするためには特定分野に偏らない大量の良質な文章が必要だったりします。
そいうものは元来新聞ぐらいしかなく、利用は高価だったようです。
また、ライセンス的にクリーンでないとせっかく作っても再配布に制限がついたりするんですよね。
ですから、このコーパスを直接使わなくても将来必ずどこかでその恩恵を受けると思います。
個人的には税金を投入するのはとても良いことだと思います。
この辺はインターネットの発展と共に超絶重要な分野になったと思いますが、微妙にマイナーですよね・・・
#以前IPADICのライセンス調べててICOTまで突き当たったとき、色々考えさせられました。
Re:コーパスって (スコア:3, 参考になる)
アメリカで独自の発達をみせた言語学の一分野があって
統計的手続きによって、語の結合に何らかの法則性が発見・検証できないか
マイニングするためのデータ群
それがコーパスですね
演繹的というよりは帰納的で、
モンテカルロ法っぽいともいえるでしょうか?
ヨーロッパ言語学の繊細さからすれば、物量に頼った
およそエレガントでない作戦ですが、
円周率の求め方の歴史 [wikipedia.org]などとも同様に
単純な作業はコンピュータとの相性も良いので、
この研究成果は、毎日使ってる日本語入力FEPにも
すぐさま反映されうる、ナイスなインパクトをもった一大事件だと思います
//庭には二羽鶏が居る
Re:コーパスって (スコア:2, 興味深い)
今ではむしろヨーロッパの方がコーパス言語学が盛んだと聞きました。
記憶があいまいなので調べてみましたが以下が参考になるかと思います。
言語理論と言語資料 —コーパスとコーパス以外のデータ [tohoku.ac.jp]
日本では計量国語学会がありますし、
英語やその他外国語研究の方々がコーパスを使っている場合もあります。
ただし言語学としての日本語研究ではなお少数であり、あくまで補助的に利用している感じがします。
今迄日本語の大規模なコーパスは存在しなかった、もしくは気軽に入手できなかったので、
なかなか本格的な研究がやりづらかったという事情はあるかと思います。
そういう意味ではこのコーパス構築のニュースはとても意義深いものだと思います。
今までは言語学者や国語学者が個々に自前簡易コーパスを構築していたわけです。
だから計量的研究を始めるためにはその膨大な構築コストに直面して、
やっぱ面倒だなぁ、それくらいなら内省だけでも十分じゃない? と思っちゃったり。
最近は「日本語話し言葉コーパス」とか出来ましたが、今回は書き言葉なので期待はより大きいと思います。
20万円くらいならお買い得な感じ?
Re:コーパスって (スコア:2, 興味深い)
Re:コーパスって (スコア:1, 参考になる)
例えば音声認識装置の性能(認識率)を評価したりするには,多くの発話を集めた音声コーパスが必要になるんです.
(音声コーパスの場合は,集めた音声データにラベルをつける必要はありますが)
Re:コーパスって (スコア:1)
http://ja.wikipedia.org/wiki/%E3%82%B3%E3%83%BC%E3%83%91%E3%82%B9 [wikipedia.org]
妖精哲学の三信
「だらしねぇ」という戒めの心、「歪みねぇ」という賛美の心、「仕方ない」という許容の心
Re:コーパスって (スコア:1)
"コーパス" と "言語" でぐぐったら山ほど出てきましたけど.
一例 [wikipedia.org]
Re:コーパスって (スコア:0)
# 確かに出てこない。
関連があるかもだストーリー (スコア:0)
こちらの続報はまだ?
日本語を変えるチャンス? (スコア:0)
お国の動向 (スコア:0)
厚生白書 [mhlw.go.jp]
デジタルコンテンツと競争政策に関する研究会の開催について [jftc.go.jp]
っと、検索結果をコピペしてGoogleで検索すると、お国がどんな考えをしているかわかるツールとして使えますね。
# つまらないコメントなのでAC。
これで翻訳ソフトの精度が上がる? (スコア:0)