パスワードを忘れた? アカウント作成
6180 story

Amazon.comが書籍の電子テキストを提供開始の噂 19

ストーリー by Oliver
本の総合商店 部門より

yh 曰く、 "本家発。Amazon.comが数千冊にものぼる紙版書籍の電子テキストをオンラインで提供すべく大手出版社数社と交渉中だと、NYTimes(要無料登録)が伝えている。
この機能は"Look Inside the Book II"と呼ばれ、今秋にもスタートするらしい。Amazon.comでは既に書籍の数ページをオンラインで読めるようにしているが、これを拡張して本文全体を検索可能なものとし、利用者が与えた検索語付近の数ページを閲覧可能とするもの。書籍をまるまる一冊読むことはできず、利用者が読みたい本を探し出しやすくするというマーケティング手法のようだ。
出版社に死蔵されている電子テキストのおもしろい有効活用法かもしれない。日本でもやってくれないかな。"

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by 37A (12754) on 2003年07月22日 19時27分 (#363776) ホームページ 日記
    >利用者が与えた検索語付近の数ページを閲覧可能とするもの。

    これをやっちゃうと、オンラインの辞書になりますね。
    さすがに、そういうのは省いて公開するのかな?
    --

    ----------------------------------------
    You can't always get what you want...
    • by Anonymous Coward
      知りたい単語の載ってない辞書を買いたいと思う人はいないでしょうから
      辞書を省かれるとやっぱり困ります。
  • by pick (6811) on 2003年07月22日 21時22分 (#363837)
    CNET Japanの記事です。
    http://blog.cnetnetworks.jp/umeda/archives/000530.html

    slashdot.jpを見ている多くの人は調べたいことがあるときにGoogleで検索すると思いますが、Amazonで本の中身を検索できるようになったら、Amazonで調べるようになるかもしれませんね。

    • by yum (9430) on 2003年07月23日 0時43分 (#363955)
      ページに出現する任意のキーワードがその本にとって
      重要なものなのかそうでないのか、
      なんらかの重みづけを付与してやらないと
      ヒットは多いが探索に時間がかかってしょうがないって
      ことになりそう。

      Google はページの被参照数を重みづけに使ってるんですよね。
      検索キーワードから購入に到達した率とかで
      評価をすればけっこう実用的になるのかな?
      親コメント
  • by GSone (8994) on 2003年07月23日 0時44分 (#363956) 日記
    電子書籍がまるまる買えるという話かと思った。
    いやあね、いまiPodを持っているんですけど、テキストビューアーがついているわけです。 

    iTunes"Book"Storeで電子書籍を購入

    iTunesを本棚がわり

    iPodで電車でも読める

    なんて素敵なことが実現したら…いいなあ。
    • by Average (3404) on 2003年07月23日 9時51分 (#364081) 日記
      多分電子データでの閲覧って不正流通とかのハナシもあるし、あんまし積極的にはならないんじゃないかと。

      個人的にはこれによって注文した本が電子データから直接製本して本屋で手渡される、オンデマンド出版が盛んになってくれないかなー、なんて思いますけど。

      今の流通だと、3ヶ月以上たった重版されない本は極端に入手性が悪くなりません?
      ハヤカワSFの目録落ちとかで、結構イタイのが落ちていたりとか・・・・・<微妙に論点がずれてる
      --
      -----------------
      #そんなワタシはOS/2ユーザー:-)
      親コメント
  • どのように著作権のことをクリアしているのか知らないが和書を購入するときに目次や索引などを見れなくて困る。amazon.co.jpの見解を知っている人いますか?
  • それだけ。
  • by Anonymous Coward on 2003年07月22日 19時25分 (#363774)
    立ち読み感覚で、各章の頭数ページ読ませてくれないかなー、と思ったことはあるのですが、
    これは検索で引っかかったとこの前後だから、もちょっと広がりますね。

    あとはランダムに数ページづつ読めると、本屋に行く必要なくなるんだけど…
  • by Anonymous Coward on 2003年07月22日 19時32分 (#363782)
    インデックスが公開されているような本だと、検索語を上手く選べば、本全体を読むことができそう。
    # さすがに検索回数に上限はありますか。
    • Re:検索語次第で。 (スコア:2, おもしろおかしい)

      by L.Nizah (7804) on 2003年07月23日 0時45分 (#363958)
      色々と工夫して全部読もうとして、そして気が付く

      「……買った方がコスト低いんじゃないか?」

      毎度、一名様お買い上げ~
      親コメント
    • by Anonymous Coward on 2003年07月22日 19時56分 (#363790)
      同じ事を考えてたけど先に投稿されて悔しいので、自動巡回スクリプトの作り方をシミュレーションしてみる。

      1. 検索語よりも後ろの部分が多く表示される場合
       ◎ターゲット作品の「はじめに」もしくは「目次」を検索する
       ↓検索結果の中でターゲット作品のものを表示させ、表示させたページの後方に存在する特徴的な文字列をとりだし、検索する
       ●以下、本が終わるまで繰り返す

      2. 検索後よりも前の部分が多く表示される場合
       ◎ターゲット作品の「奥付」を検索する
       ↓検索結果の中でターゲット作品のものを表示させ、表示させたページの前方に存在する特徴的な文字列をとりだし、検索する
       ●以下、本が終わるまで繰り返す

      ってなわけで、特徴的な文字列を探し当てられないと、そこで迷走しそうなアルゴリズムしか思いつきません(いや、私の限界なだけですが)
      検索結果の表示の時に、対象書籍の表示させる位置情報が見える形になっていたら、それほど考えずにすむのかもしれませんが…
      例えば、
        hoge.cgi?ISBN=xx-xxxx-xxxxxx-x&page=xxx&searchWords=...
      のように…。
      って、んなアホはやらないだろうなぁ。

      また、「特徴的な文字列」が、小説の登場人物のような、特定書籍中で繰り返し記述される文字列だと、これもこれで迷走しそうです。
      さて、全文を引っ張ってこれそうな書籍って、どんなものでしょうか…。

      # 外国人が見た日本の一世紀 [amazon.co.jp]みたいな作品なら、結構簡単に全文見れそうですけどね…。
      親コメント
      • 検索結果をテキストではなく画像データで出せば、
        自動文字列抽出にはかなり強いかも。

        それとも、こういうことを考える執念深い人達の世界では、
        画像からのOCRなんぞ私の想像の及びもつかないレベルまで
        達しちゃってたりしますか?
        親コメント
        • > 検索結果をテキストではなく画像データで出せば、
          > 自動文字列抽出にはかなり強いかも。

          画像であっても活字なら余裕のよっちゃんで認識できますです。
          もちろんchaoticな手書きフォントとか開発されたら辛いですけど、そんなサーバに負荷かけるようなことしなくても、いろんな回避策は考えられるでしょう。

          ・検索はメアドが必要な会員制とする
          ・検索は社会保険番号が必要な会員制とする
          ・検索はカード番号が必要な会員制とする

          ・ある会員IDはある書籍IDをある時間内に有限回しか閲覧できないとする
          ・ある会員IDのある時間内の検索件数を制限する
          ・あるIPアドレスがある時間内に使用できる会員IDの数を制限する

          ・絶対にヒットしないページを作る(たとえば検索対象は奇数ページのみとか、もちろんあらかじめDBに入れないってことです)
          ・絶対にヒットしないsentenceを作る(たとえば先頭から数えて素数番目のセンテンスは表示されないとか、もちろんあらかじめDBに入れないってことです)

          わずか数分でも結構思いつくわけで、鼬ごっこかも知れませんけど、事前に複数人で長時間考えておく+対処療法+規約でしばる+悪質なものには訴訟、で全然問題なっちゃんだと思いますです。
          親コメント
      • >同じ事を考えてたけど先に投稿されて悔しいので、自動巡回スクリ
        >プトの作り方をシミュレーションしてみる。

        なんで、こうすぐにシステムの裏をかくようなことに頭が向くかな?(^^;
        楽しすぎるぞ!! /.er

        でも、これがもとでコンテストとか始まっちゃたらどう責任とるんだ(爆)。
        • by Anonymous Coward
          選書に必要な限度、だったら「IP単位の転送量が書籍全体の10%か30ページ分のどっちかを越えたら2日待ち」で防げちゃいそうな。

          #いや、単なる転送量制限なんだが…。
      • >さて、全文を引っ張ってこれそうな書籍って、どんなものでしょうか…。

        辞書

        でも、とってくる必要もまたなかったりして。
      • 数字をキーにしたらページ番号が引っかかって
        労せず全ページ見られたりして。
typodupeerror

海軍に入るくらいなら海賊になった方がいい -- Steven Paul Jobs

読み込み中...