パスワードを忘れた? アカウント作成
10961 story

gooが自然文検索に対応 70

ストーリー by yoosee
検索業界への楔となるか 部門より

reona-s 曰く、 "ITmediaニュースの記事「gooが自然文検索に対応」によれば、goo の検索サービスが、10月4日から自然文検索に対応した(プレスリリース)。同社は 2004年2月から同機能の実証実験をしていた。
検索結果ページの右側に「文章で検索する」と言うチェックボックスが出来ており、チェックすることで自然文検索が出来る。同社によると、自然文検索の提供は、国内ポータルとしては初だそうだ。

元祖ロボットのgooだが、果たして非常に難しい日本語の自然文検索の新機能は、ユーザの目的とする情報を的確に掴めるのだろうか。 また、goo ユーザにとって充分有用で興味深い新機能となるのだろうか。"

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by hpn_smile (11442) on 2005年10月06日 8時31分 (#809645) 日記
    普段gooをホームページに設定してるのに
    気づかなかったし、改めて見てもないなぁ・・・
    と思ってタレコミ文を読み直したら、
    検索結果ページにってちゃんと書いてあった。

    って事は、なんでもいいから、一言検索
    しないと、自然文検索できないわけで・・・。
    なんで?
    普通にトップページに載せればいいのに。

    ひょっとして、最初に検索した一言で、
    自然文の解釈が変わるとか??

    # そか。まず自分でやってみればいいんだ。
    • by Anonymous Coward on 2005年10月06日 8時45分 (#809654)
      一度検索して、まったく結果が出て来なくて、あの小さな「文章で検索する」にチェックを入れてみようと思いつく検索初心者なんて、いないんでは?
      親コメント
  • by Anonymous Coward on 2005年10月06日 9時44分 (#809694)
    この種の処理のいじめどころは、

    ・否定・除外
            「コーヒー以外の眠気が覚める飲み物は何?」
    ・ポインタ
            「ニクソンの2代後のアメリカ大統領は誰?」
    ・選択
            「水星、金星、火星のうち、最も大きい惑星はどれ?」

    あたり。

    結果を見る限り、形態素解析をかけてキーワードを抽出してるくらい?
    工夫は、インデックス化するときに単語をカテゴライズしてる程度か。
    自然文検索を謳うには、微妙。
  • by Anonymous Coward on 2005年10月06日 8時52分 (#809658)
    ひじょうにむずかしいにほんごのしぜんぶんけんさく
    これだと、なおさら難しい事になるかもしれません

    Very difficult Japanese natural sentence retrieval
    VerydifficultJapanesenaturalsentenceretrieval …

    言語の特性を考えると、「人間が分かち書きをしている」状態であるand検索の方が
    より望ましい結果を得られそうですね

    分かち書きをしない言語ってあと何が有るのかな?
    • by Anonymous Coward on 2005年10月06日 9時04分 (#809665)
      中国語は正式には分かち書きをしなかったような。
      昔は韓国語もそうだったはずですが、
      表意文字である漢字を排除して表音文字であるハングルのみにしてしまったので
      分かち書きしないと理解に支障を来たすようになりました。

      日本語が分かち書きしないのは、
      機能語を担う平仮名と、漢字の混合がうまくいっているからです。
      だから、平仮名のみで書いた「不自然な」文章を自然文処理させようとするのは、
      栓抜きで缶詰を開けるようなもので、難しくてあたりまえです。
      それを根拠に何かを語ろうとするほうが間違いです。
      親コメント
      • by Anonymous Coward on 2005年10月06日 11時02分 (#809765)
        >昔は韓国語もそうだったはずですが、
        日本統治前の公文書は全部漢文、日本統治中がハングル漢字交じり文。
        戦後もしばらくはハングル漢字交じりだったので、当時の新聞(朴政権の頃とか金大中拉致事件の頃)は何となく読めたりするのがとてもおもしろい。
        漢文も最近の簡字体のは全く読めなかったりするのだけど、繁字体なら文意とか読み取れたりするし、そういう意味じゃ漢字を使った文章って凄いなぁと思う。
        ところがこれがコンピュータ様に読んでもらったり意味を理解してもらおうとするとなぜかとっても難しい事になってしまうのが不思議でしかたありません。
        親コメント
      • by Anonymous Coward on 2005年10月06日 14時23分 (#809857)
        > 機能語を担う平仮名と、漢字の混合がうまくいっているからです。

        当たり前だけど、忘れる事
        漢字で物事を学び始める「こども」は存在しないのですよ
        みんな「ひらがな」で勉強を始めるのよね
        学んでしまうと忘れるんだけど

        「最低でも9年間国語を学んだ」大人の場合、
        > 平仮名のみで書いた「不自然な」文章
        というのはほとんど考えられませんが、
        子供達が検索した結果だと思われるlogでは、けっこう「ひらがな」が多いです。

        もし理解できないなら、小学校の教科書でも眺めてみてください。
        貴方は間違いなく、その過程を通り抜けているはずです。
        例えば、「炭疽菌」、「炭そ菌」、「炭そきん」、「たんそきん」
        栓抜きしか持っていない子供が、缶詰を食べられるようにするのは大変です。
        非常に難しい日本語の自然文検索、でしょ?

        Webが「それを使う全ての人」に開かれている事も、
        たまにでいいから考えてみて欲しいな、と思います。
        漢字が自由に扱えるという「貴方にとってのあたりまえ」が、
        ちっとも当たり前で無い人が、子供に限らず沢山いる事に気づきますよ。
        (もっとも、今回の例は極端なものです。
        ゲームのコメントでさえも、ちゃんと「ひらがなの分かち書き」がされていますから)

        > それを根拠に何かを語ろうとするほうが間違いです。
        何を根拠にして、何かを語ろうとしているか、これなら理解できますか?
        親コメント
        • > もし理解できないなら、小学校の教科書でも眺めてみてください。
          > 貴方は間違いなく、その過程を通り抜けているはずです。
          > 例えば、「炭疽菌」、「炭そ菌」、「炭そきん」、「たんそきん」
          > 栓抜きしか持っていない子供が、缶詰を食べられるようにするのは大変です。
          > 非常に難しい日本語の自然文検索、でしょ?

          小学校の教科書のような文章は、日本語の自然文といってよいものでしょうか?
          日本語ではあるけど、自然文とは言いがたいと思いますが。
          親コメント
          • by Anonymous Coward on 2005年10月07日 6時11分 (#810168)
            自分が持っている分でしか闘えない、というのは有るような気がしますね。

            私の所は「英文の科学記事」を「日本文の科学記事」に置き換えていますが、時々「ねったいうりん」なんていうキーワードで検索されていたりします。要は変換ミスで、文章中にひらがなが入り込んでいたりするのです orz

            日本語には「話し言葉」と「書き言葉」があって、延々と溝がうまらないままきています。(身近で見られる例としてニュースに付加される字幕が有りますね) また例に出した「tansokinn」という言葉では、一つの音でしかないものの表記に、「炭疽菌」・「炭そ菌」・「炭そきん」・「たんそきん」があったりします。

            自然文検索の鍵は、「入力された自然文から検索に必要な部分を判定・選択する」ロジックなわけですが、「自然文」というのは結局は「音としての日本語」なんじゃないのかな、と思っていたりします。

            例えば、Googleで「ちきゅうおんだんか」を探すと、「21,000 件」が検索結果として表示されます。そして同じページに表示されているもしかして:地球温暖化のリンクを辿ると、「2,310,000 件」が貴方を待っています。これが例えば「地球おんだん化」で探しても、もしかして:地球温暖化が表示されるレベルになったら凄いのになぁ、と思っています。残念だけど、まだそこまではフォローされてないみたい。

            「ねったいうりん」でしか検索できない子どもが、「熱帯雨林」の記載を理解できるかどうか、という部分は … 

            私は身体的な特性が普通の人とは異なっていたので、「百科事典読書」という極端に変則的な形で知識を得ていました。知識の習得というのは「足りないピースをかき集めてくる過程」なので、子どもに限らず「読者が持っている知識量・レベル」によって、文章の理解は変わるのだと思います。ルビが自動的につくような「キッズgoo」なんかだと、研究論文でさえもちゃんと読めるようにはなります。理解というのはまた別の作業ですが、漢字が読めないから百科事典が使えないわけでは無い、というのと同じレベルの話だと思います。

             # 検索語の「所属カテゴリ」がもっと明確に出ているとなお嬉しいなぁ
            親コメント
    • 古典ギリシャ語は分かち書きせず続けて書いたらしいです。
      --
      ハイバネーション(=冬眠)中。 押井徳馬(・(T)・)
      親コメント
      • by nox_dot (11614) on 2005年10月06日 10時43分 (#809749) 日記
        ギリシャ語はどうかわかりませんが、ヘブライ語は、昔は母音もなくて子音だけで書いていたらしいですね。旧約聖書を原文で読んでいた友人に教えてもらいました。

        フェニキア語とも子音だけ(22音)だったと、ニュートンで読んだ気がします。

        そう考えると、文章は昔に比べてずっと読みやすく進化しているんですねー。
        親コメント
        • by gigo (21150) on 2005年10月06日 10時59分 (#809764)

          古代のラテン語でもスペースはなく、分かち書きは7-8世紀に確立した [keio.ac.jp]という資料を見つけた。

          なぜスペースがなかったかというと、言語は音声が主と考えられていたからで、この頃になってはじめて文章を読むという行為が確立されたからだと。視覚と聴覚の両方をもってする言語の使用は優れた人だけの技であったろうし、スペースの発明のおかげで書物によって知識を広めることができるようになったわけだ。

          親コメント
        • by Acha. (9497) on 2005年10月06日 15時15分 (#809882)
          > ギリシャ語はどうかわかりませんが、ヘブライ語は、昔は母音もなくて子音だけで書いていたらしいですね。旧約聖書を原文で読んでいた友人に教えてもらいました。

          オフトピですが、これはヘブライ語やアラビア語のようなセム系言語が、3つの子音の組み合わせで語根を作り、母音で派生語を作るという性質を持っていることも関係していると思います。
          アラビア語の例)
          k-l-mという語根からkalima(単語)、kalam(言葉)
          k-t-bという語根からkataba(書く)、kitab(本)、katib(作家)、makitab(机)
          親コメント
        • たしか、アラビア文字って、子音しか表記しない(できない)んじゃなかったっけ?
          なんか不思議な気もするんだけども、もともと母音の数が少ない(3つだっけ)のもあるんかな?

          #生齧りなのでAC
      • by Anonymous Coward on 2005年10月06日 10時22分 (#809730)
        昔の聖書もだそうです
        そもそも「文字を読む」のが特殊技能だったんでしょうけど

        そもそも、「自分が何を知らないのか」を認識できないと捜し物は出来ないんですけどね。
        親コメント
    • by bku (27778) on 2005年10月06日 11時30分 (#809781)
      検索エンジンが上手く変換してくれるだろうかと、書く方が考えて入力してしまう。これと同じことを、外国とメールをやりとりしている人に聞いたことがある。翻訳ソフトを使っているので、誤翻訳しないような日本語で入力するクセが付くとのこと。

      # 書く方が努力してしまう
      親コメント
  • by 9g (26115) on 2005年10月06日 9時01分 (#809663)
    冴子先生内蔵か?

    自然文検索・・というより、形態素解析の上、名詞っぽいので検索をかけているようにもみえますが。
  • Justsystemとかこの分野に参入しないのかな? ATOKを造る技術を使って文意解釈エンジン造れば最強日本語エンジンになりそうな気がするんだけど。
  • 検索結果 [goo.ne.jp] これでは、分からなかった。
  • by cobonzu (17398) on 2005年10月06日 10時45分 (#809754) 日記
    昔の Infoseek って、こーゆーの謳ってなかったでしたっけ?
    • by Acha. (9497) on 2005年10月06日 15時58分 (#809899)
      Infoseekがどうだったかは忘れたけど、Lycos Japanが謳ってたのは覚えてます。
      TVCMで「東京でうまいラーメン屋は?」みたいな検索をさせてた筈。

      こういう自然文っぽい検索を売りにしていた都合から、WiseNutを採用するに当たって、この種のクエリに対応できるよう調整を求められたみたいです。それでLycos Japanで使われていたWiseNutはsoft quote検索だったという話。
      親コメント
    • MacOSに付属しているSherlock初登場のデモでやってたと思う。
      たしか「夕日は何故赤いの?」みたいな検索をかけてたはず。
      最初はMacOS内部で日本語解析しているのか?と色めいたんだけど、サーチエンジン側で処理している、ってオチだったんだよね。
      あんとき使ってたサーチエンジンってinfoseekだったのかな?
      親コメント
      • by mavelick (14949) on 2005年10月06日 13時24分 (#809836)
        Sherlockが載ったころのMacOSから内部で形態素解析してますよ。
        MacOS8.6が出た当時の記事 [ascii24.com]
        内容検索用インデックスとかを生成するのに使ってます。V-Twinによる検索はそれ以前からCyberdogのメーラ等に載ってましたけど、当時は形態素解析が出来なかったので日本語はいまいちでした。
        検索用に入力した文章に対しても形態素解析を適用していたかどうかは不明ですけどね。
        親コメント
    • by Yappo (5920) on 2005年10月06日 12時40分 (#809820) 日記
      即同じ事を思ったのでニュースソースを探してきました。

      楽天、インフォシークでグーグルの検索サービスを提供 - CNET Japan [cnet.com]

      確か、Infoseekって当時から国内のポータルサイトだった気がしますが違いましたっけ?
      親コメント
    • by Xegnyph (9041) on 2005年10月06日 22時56分 (#810055)
      Infoseek のとは別ですが、
      毎日コミュニケーションズが「Gotcha」という検索サイトをオープンしてました。(確か2000年頃だったと思う)
      自然な文章で検索できるというのが謳い文句でしたが、まともに使えた覚えがありません。
      親コメント
  • by quobobo (23737) on 2005年10月06日 10時46分 (#809756)
    仮名(送りがな、読みがな、ふりがな、カタカナ)を上手に分析して検索する検索サービスがほしい。

    たとえば、「黴菌」という言葉を検索したら「ばい菌」か「ばいきん」か「バイキン」を含む検索結果はかえってこないでしょう?だから、たまに同じ言葉を4つの書き方で打って4回も検索しなきゃいけないんだorz
    • Re:これより (スコア:2, 興味深い)

      by platinum (28415) on 2005年10月06日 23時08分 (#810061)
      表記ゆれを集約するのは英語よりかなり難しいのです。
      英語は動詞の活用程度(play, plays, played)なので規則性があり、
      割と簡単に表記ゆれを修正できますが(不規則動詞等はありますが)、
      日本語の送り仮名や助詞の使い方は遥かにパターンが多くて厳しいです。

      昔から、同義語(ばい菌、黴菌、virus等)を集約して検索することと
      多義語(appleなど、Macとリンゴの複数の意味を持つ単語)を区別して検索する
      技術に関してはさまざまな研究がなされていますが、未だに満足のいく
      結果が出ていない気がします。

      特に多義語の区別が難しく、たとえばUNIXのyesというコマンドの使い方を
      googleで調べようとするとかなりうまくAND検索をしないといけません。

      そういう意味では、vivisimo [vivisimo.com]などは検索結果の
      クラスタリング [vivisimo.com]をうまくやっていて優秀な検索エンジンだと思います。
      googleにもクラスタリング機能つかないかな。
      親コメント
    • by yamashow (14193) on 2005年10月06日 11時45分 (#809786)
      多くの検索エンジンは、ある程度の表記の揺れは吸収してくれていると思いますよ。

      >同じ言葉を4つの書き方で打って4回も検索しなきゃいけないんだ

      OR検索しましょう。
      親コメント
  • 試したさ、 (スコア:1, 興味深い)

    by Anonymous Coward on 2005年10月06日 12時07分 (#809799)
    ちょっと前に試したけれども、これってウラでどんなにすごいことしてようと、result が他の検索方法と一緒じゃぁ意味なくない?そういう意味、Microsoft の纏め方はうまいと思うな。文章の意味が分かってんなら、答えが解るか解らないかは言える筈でしょ。

    「検索はURLだけでなく“答え”を直接表示する時代に」 [impress.co.jp]
  • もしかして: ふたなりプリキュア
  • by Anonymous Coward on 2005年10月06日 8時15分 (#809640)
    機能に絞ったのかな。

    こういう感じ [goo.ne.jp]で。
typodupeerror

アレゲはアレゲを呼ぶ -- ある傍観者

読み込み中...