gooが自然文検索に対応 70
ストーリー by yoosee
検索業界への楔となるか 部門より
検索業界への楔となるか 部門より
reona-s 曰く、 "ITmediaニュースの記事「gooが自然文検索に対応」によれば、goo の検索サービスが、10月4日から自然文検索に対応した(プレスリリース)。同社は 2004年2月から同機能の実証実験をしていた。
検索結果ページの右側に「文章で検索する」と言うチェックボックスが出来ており、チェックすることで自然文検索が出来る。同社によると、自然文検索の提供は、国内ポータルとしては初だそうだ。
元祖ロボットのgooだが、果たして非常に難しい日本語の自然文検索の新機能は、ユーザの目的とする情報を的確に掴めるのだろうか。
また、goo ユーザにとって充分有用で興味深い新機能となるのだろうか。"
検索「結果」ページかっ! (スコア:5, すばらしい洞察)
気づかなかったし、改めて見てもないなぁ・・・
と思ってタレコミ文を読み直したら、
検索結果ページにってちゃんと書いてあった。
って事は、なんでもいいから、一言検索
しないと、自然文検索できないわけで・・・。
なんで?
普通にトップページに載せればいいのに。
ひょっとして、最初に検索した一言で、
自然文の解釈が変わるとか??
# そか。まず自分でやってみればいいんだ。
Re:検索「結果」ページかっ! (スコア:1, 興味深い)
いじめどころ (スコア:4, 興味深い)
・否定・除外
「コーヒー以外の眠気が覚める飲み物は何?」
・ポインタ
「ニクソンの2代後のアメリカ大統領は誰?」
・選択
「水星、金星、火星のうち、最も大きい惑星はどれ?」
あたり。
結果を見る限り、形態素解析をかけてキーワードを抽出してるくらい?
工夫は、インデックス化するときに単語をカテゴライズしてる程度か。
自然文検索を謳うには、微妙。
ミリオネアに使えないじゃないか (スコア:1)
という問題は、検索かければ簡単に答えが出ます。
ですが、
「次の4つのうち、~でないものは、どれ?」
という問題は、選択肢を1つずつ調べるしか
ないので、30秒では間に合わないんですよ。
gooの自然文検索が使えたらなぁ・・・。
1000万円で宝くじ買って1億円にして隠居するのに。
Re:ミリオネアに使えないじゃないか (スコア:0)
ヘルプしただけのあなたの懐には御礼程度しか入らないのでは?
隠居生活には程遠いですねぇ
Re:ミリオネアに使えないじゃないか (スコア:0)
電話の先に音声入力→goo
Re:いじめどころ (スコア:1)
Re:いじめどころ (スコア:0)
茶筅食わせただけって感じですね。
微妙どころかJAROに通報レベルだと思います。
むかーし、意味解析レベルでそれなりの結果が出せるものをgooの近所でやってたんだけどなぁ……
ATに全部もってっちゃったのかな?
Re:いじめどころ (スコア:1)
スラッシュドットはまともなホームページですか? [goo.ne.jp]
スラッシュドット まとも ホームページ [goo.ne.jp]
とか比べちゃうと、やっぱりがっくり来ますね。
ちゃんと「は」とか「な」とかをとってるけど、当たり前っちゃ当たり前だし。
ということで、アレゲ的には形態素解析を独自アルゴリズムで非常に高速高精度でやってるぜとか、ajaxで分割してるんだぜとかじゃないと盛り上がらないよなぁ。
Re:いじめどころ (スコア:2)
>>gooの近所でやってたんだけどなぁ……
>そういったものを使用しているからこそNTTの名を冠して
>
それにしてはあまりにも検索結果がしょぼいですが。
屍体メモ [windy.cx]
非常に難しい日本語の自然文検索 (スコア:3, 興味深い)
これだと、なおさら難しい事になるかもしれません
Very difficult Japanese natural sentence retrieval
VerydifficultJapanesenaturalsentenceretrieval …
言語の特性を考えると、「人間が分かち書きをしている」状態であるand検索の方が
より望ましい結果を得られそうですね
分かち書きをしない言語ってあと何が有るのかな?
Re:非常に難しい日本語の自然文検索 (スコア:2, すばらしい洞察)
昔は韓国語もそうだったはずですが、
表意文字である漢字を排除して表音文字であるハングルのみにしてしまったので
分かち書きしないと理解に支障を来たすようになりました。
日本語が分かち書きしないのは、
機能語を担う平仮名と、漢字の混合がうまくいっているからです。
だから、平仮名のみで書いた「不自然な」文章を自然文処理させようとするのは、
栓抜きで缶詰を開けるようなもので、難しくてあたりまえです。
それを根拠に何かを語ろうとするほうが間違いです。
Re:非常に難しい日本語の自然文検索 (スコア:1, 参考になる)
日本統治前の公文書は全部漢文、日本統治中がハングル漢字交じり文。
戦後もしばらくはハングル漢字交じりだったので、当時の新聞(朴政権の頃とか金大中拉致事件の頃)は何となく読めたりするのがとてもおもしろい。
漢文も最近の簡字体のは全く読めなかったりするのだけど、繁字体なら文意とか読み取れたりするし、そういう意味じゃ漢字を使った文章って凄いなぁと思う。
ところがこれがコンピュータ様に読んでもらったり意味を理解してもらおうとするとなぜかとっても難しい事になってしまうのが不思議でしかたありません。
みんな子供の時代を持っている (スコア:1, 余計なもの)
当たり前だけど、忘れる事
漢字で物事を学び始める「こども」は存在しないのですよ
みんな「ひらがな」で勉強を始めるのよね
学んでしまうと忘れるんだけど
「最低でも9年間国語を学んだ」大人の場合、
> 平仮名のみで書いた「不自然な」文章
というのはほとんど考えられませんが、
子供達が検索した結果だと思われるlogでは、けっこう「ひらがな」が多いです。
もし理解できないなら、小学校の教科書でも眺めてみてください。
貴方は間違いなく、その過程を通り抜けているはずです。
例えば、「炭疽菌」、「炭そ菌」、「炭そきん」、「たんそきん」
栓抜きしか持っていない子供が、缶詰を食べられるようにするのは大変です。
非常に難しい日本語の自然文検索、でしょ?
Webが「それを使う全ての人」に開かれている事も、
たまにでいいから考えてみて欲しいな、と思います。
漢字が自由に扱えるという「貴方にとってのあたりまえ」が、
ちっとも当たり前で無い人が、子供に限らず沢山いる事に気づきますよ。
(もっとも、今回の例は極端なものです。
ゲームのコメントでさえも、ちゃんと「ひらがなの分かち書き」がされていますから)
> それを根拠に何かを語ろうとするほうが間違いです。
何を根拠にして、何かを語ろうとしているか、これなら理解できますか?
Re:みんな子供の時代を持っている (スコア:1)
> 貴方は間違いなく、その過程を通り抜けているはずです。
> 例えば、「炭疽菌」、「炭そ菌」、「炭そきん」、「たんそきん」
> 栓抜きしか持っていない子供が、缶詰を食べられるようにするのは大変です。
> 非常に難しい日本語の自然文検索、でしょ?
小学校の教科書のような文章は、日本語の自然文といってよいものでしょうか?
日本語ではあるけど、自然文とは言いがたいと思いますが。
日本語の自然文 (スコア:1, 興味深い)
私の所は「英文の科学記事」を「日本文の科学記事」に置き換えていますが、時々「ねったいうりん」なんていうキーワードで検索されていたりします。要は変換ミスで、文章中にひらがなが入り込んでいたりするのです orz
日本語には「話し言葉」と「書き言葉」があって、延々と溝がうまらないままきています。(身近で見られる例としてニュースに付加される字幕が有りますね) また例に出した「tansokinn」という言葉では、一つの音でしかないものの表記に、「炭疽菌」・「炭そ菌」・「炭そきん」・「たんそきん」があったりします。
自然文検索の鍵は、「入力された自然文から検索に必要な部分を判定・選択する」ロジックなわけですが、「自然文」というのは結局は「音としての日本語」なんじゃないのかな、と思っていたりします。
例えば、Googleで「ちきゅうおんだんか」を探すと、「21,000 件」が検索結果として表示されます。そして同じページに表示されているもしかして:地球温暖化のリンクを辿ると、「2,310,000 件」が貴方を待っています。これが例えば「地球おんだん化」で探しても、もしかして:地球温暖化が表示されるレベルになったら凄いのになぁ、と思っています。残念だけど、まだそこまではフォローされてないみたい。
「ねったいうりん」でしか検索できない子どもが、「熱帯雨林」の記載を理解できるかどうか、という部分は …
私は身体的な特性が普通の人とは異なっていたので、「百科事典読書」という極端に変則的な形で知識を得ていました。知識の習得というのは「足りないピースをかき集めてくる過程」なので、子どもに限らず「読者が持っている知識量・レベル」によって、文章の理解は変わるのだと思います。ルビが自動的につくような「キッズgoo」なんかだと、研究論文でさえもちゃんと読めるようにはなります。理解というのはまた別の作業ですが、漢字が読めないから百科事典が使えないわけでは無い、というのと同じレベルの話だと思います。
# 検索語の「所属カテゴリ」がもっと明確に出ているとなお嬉しいなぁ
Re:非常に難しい日本語の自然文検索 (スコア:2, 興味深い)
ハイバネーション(=冬眠)中。 押井徳馬(・(T)・)
Re:非常に難しい日本語の自然文検索 (スコア:2, 興味深い)
フェニキア語とも子音だけ(22音)だったと、ニュートンで読んだ気がします。
そう考えると、文章は昔に比べてずっと読みやすく進化しているんですねー。
Re:非常に難しい日本語の自然文検索 (スコア:2, 参考になる)
古代のラテン語でもスペースはなく、分かち書きは7-8世紀に確立した [keio.ac.jp]という資料を見つけた。
なぜスペースがなかったかというと、言語は音声が主と考えられていたからで、この頃になってはじめて文章を読むという行為が確立されたからだと。視覚と聴覚の両方をもってする言語の使用は優れた人だけの技であったろうし、スペースの発明のおかげで書物によって知識を広めることができるようになったわけだ。
Re:非常に難しい日本語の自然文検索 (スコア:2, 参考になる)
オフトピですが、これはヘブライ語やアラビア語のようなセム系言語が、3つの子音の組み合わせで語根を作り、母音で派生語を作るという性質を持っていることも関係していると思います。
アラビア語の例)
k-l-mという語根からkalima(単語)、kalam(言葉)
k-t-bという語根からkataba(書く)、kitab(本)、katib(作家)、makitab(机)
Re:非常に難しい日本語の自然文検索 (スコア:0)
なんか不思議な気もするんだけども、もともと母音の数が少ない(3つだっけ)のもあるんかな?
#生齧りなのでAC
Re:非常に難しい日本語の自然文検索 (スコア:1, 興味深い)
そもそも「文字を読む」のが特殊技能だったんでしょうけど
そもそも、「自分が何を知らないのか」を認識できないと捜し物は出来ないんですけどね。
Re:非常に難しい日本語の自然文検索 (スコア:2, 興味深い)
# 書く方が努力してしまう
中の人 (スコア:1)
自然文検索・・というより、形態素解析の上、名詞っぽいので検索をかけているようにもみえますが。
Re:中の人 (スコア:1)
日本語を扱うプロは出てこないんでしょうか? (スコア:1)
ジャストシステム (スコア:2, 興味深い)
データベースに導入しているケースが多いよ。
ATOKを作る技術とか言うレベルじゃなく、とっくに高度な技術を養ってますよ。海外企業と提携はしてたけど。
Re:日本語を扱うプロは出てこないんでしょうか? (スコア:1, 参考になる)
Re:日本語を扱うプロは出てこないんでしょうか? (スコア:1)
ATOKとかとは処理量が違いますし・・・。
まあ、基礎の部分は同じだと思いますから、
期待したいところではありますが・・・。
Re:日本語を扱うプロは出てこないんでしょうか? (スコア:1)
ATOKなどのかな漢字変換に求められるのは、
こんなふうに(変換)こんな風に
きれぎれに(変換)切れ切れに
へんかんされても(変換)変換されても
ちゃんとただしい(変換)ちゃんと正しい
にほんごになるという(変換)日本語になるという
ところですが、日本語で書かれた文章を分かち書きするとか文意を解析するとかというのは、漢字かな混じりで、一文が丸ごとそろっていることを前提とした問題です。
同じような基礎技術を使ってある程度までは両方の問題を同じように扱えますが、それでは精度95%とかを超えたレベルで戦い抜くには全く不足です。そこはモジュールの再利用性とかを気にしていたのでは到達できない世界です。
ただし、日本語そのものを長年研究し製品化していることによるアドバンテージがあるので、Justsystemの自然言語処理は精度ではかなりいい線行ってます。
# ただしそれとWeb検索とはまた全然別のハナシ
Re:日本語を扱うプロは出てこないんでしょうか? (スコア:1)
黴菌、ばいきん、どっちで検索しても [srad.jp]同じ結果が得られる、というのも便利そう。
ていうか、そこまでやってくれないと自然言語検索とは言いたくないなぁ。
Re:日本語を扱うプロは出てこないんでしょうか? (スコア:0)
自然言語処理って学問分野も有るわけで。。
スラッシュドットはまともなホームページですか? (スコア:1)
あれ?昔・・・ (スコア:1)
Re:あれ?昔・・・ (スコア:2, 興味深い)
TVCMで「東京でうまいラーメン屋は?」みたいな検索をさせてた筈。
こういう自然文っぽい検索を売りにしていた都合から、WiseNutを採用するに当たって、この種のクエリに対応できるよう調整を求められたみたいです。それでLycos Japanで使われていたWiseNutはsoft quote検索だったという話。
Re:あれ?昔・・・ (スコア:1)
たしか「夕日は何故赤いの?」みたいな検索をかけてたはず。
最初はMacOS内部で日本語解析しているのか?と色めいたんだけど、サーチエンジン側で処理している、ってオチだったんだよね。
あんとき使ってたサーチエンジンってinfoseekだったのかな?
Re:あれ?昔・・・ (スコア:1)
つMacOS8.6が出た当時の記事 [ascii24.com]
内容検索用インデックスとかを生成するのに使ってます。V-Twinによる検索はそれ以前からCyberdogのメーラ等に載ってましたけど、当時は形態素解析が出来なかったので日本語はいまいちでした。
検索用に入力した文章に対しても形態素解析を適用していたかどうかは不明ですけどね。
Re:あれ?昔・・・ (スコア:1)
楽天、インフォシークでグーグルの検索サービスを提供 - CNET Japan [cnet.com]
確か、Infoseekって当時から国内のポータルサイトだった気がしますが違いましたっけ?
Re:あれ?昔・・・ (スコア:1)
毎日コミュニケーションズが「Gotcha」という検索サイトをオープンしてました。(確か2000年頃だったと思う)
自然な文章で検索できるというのが謳い文句でしたが、まともに使えた覚えがありません。
これより (スコア:1)
たとえば、「黴菌」という言葉を検索したら「ばい菌」か「ばいきん」か「バイキン」を含む検索結果はかえってこないでしょう?だから、たまに同じ言葉を4つの書き方で打って4回も検索しなきゃいけないんだorz
Re:これより (スコア:2, 興味深い)
英語は動詞の活用程度(play, plays, played)なので規則性があり、
割と簡単に表記ゆれを修正できますが(不規則動詞等はありますが)、
日本語の送り仮名や助詞の使い方は遥かにパターンが多くて厳しいです。
昔から、同義語(ばい菌、黴菌、virus等)を集約して検索することと
多義語(appleなど、Macとリンゴの複数の意味を持つ単語)を区別して検索する
技術に関してはさまざまな研究がなされていますが、未だに満足のいく
結果が出ていない気がします。
特に多義語の区別が難しく、たとえばUNIXのyesというコマンドの使い方を
googleで調べようとするとかなりうまくAND検索をしないといけません。
そういう意味では、vivisimo [vivisimo.com]などは検索結果の
クラスタリング [vivisimo.com]をうまくやっていて優秀な検索エンジンだと思います。
googleにもクラスタリング機能つかないかな。
Re:これより (スコア:1)
>同じ言葉を4つの書き方で打って4回も検索しなきゃいけないんだ
OR検索しましょう。
Re:これより (スコア:1)
ほい
黴菌 OR ばい菌 OR ばいきん OR バイキン [google.co.jp]
Re:これより (スコア:1)
試したさ、 (スコア:1, 興味深い)
「検索はURLだけでなく“答え”を直接表示する時代に」 [impress.co.jp]
こういうのを再度期待 (スコア:1)
検索コーディネーター的な (スコア:0)
こういう感じ [goo.ne.jp]で。
Re:検索コーディネーター的な (スコア:0)
Re:自然言語処理 (スコア:0)
正式サービスになるとみんな辛口だよね。
Re:自然言語処理 (スコア:1)