Amazon.comが書籍の電子テキストを提供開始の噂 19
ストーリー by Oliver
本の総合商店 部門より
本の総合商店 部門より
yh 曰く、 "本家発。Amazon.comが数千冊にものぼる紙版書籍の電子テキストをオンラインで提供すべく大手出版社数社と交渉中だと、NYTimes(要無料登録)が伝えている。
この機能は"Look Inside the Book II"と呼ばれ、今秋にもスタートするらしい。Amazon.comでは既に書籍の数ページをオンラインで読めるようにしているが、これを拡張して本文全体を検索可能なものとし、利用者が与えた検索語付近の数ページを閲覧可能とするもの。書籍をまるまる一冊読むことはできず、利用者が読みたい本を探し出しやすくするというマーケティング手法のようだ。
出版社に死蔵されている電子テキストのおもしろい有効活用法かもしれない。日本でもやってくれないかな。"
辞書は… (スコア:1)
これをやっちゃうと、オンラインの辞書になりますね。
さすがに、そういうのは省いて公開するのかな?
----------------------------------------
You can't always get what you want...
Re:辞書は… (スコア:0)
辞書を省かれるとやっぱり困ります。
Amazonで調べもの (スコア:1)
http://blog.cnetnetworks.jp/umeda/archives/000530.html
slashdot.jpを見ている多くの人は調べたいことがあるときにGoogleで検索すると思いますが、Amazonで本の中身を検索できるようになったら、Amazonで調べるようになるかもしれませんね。
Re:Amazonで調べもの (スコア:1)
重要なものなのかそうでないのか、
なんらかの重みづけを付与してやらないと
ヒットは多いが探索に時間がかかってしょうがないって
ことになりそう。
Google はページの被参照数を重みづけに使ってるんですよね。
検索キーワードから購入に到達した率とかで
評価をすればけっこう実用的になるのかな?
なんだあ… (スコア:1)
いやあね、いまiPodを持っているんですけど、テキストビューアーがついているわけです。
iTunes"Book"Storeで電子書籍を購入
↓
iTunesを本棚がわり
↓
iPodで電車でも読める
なんて素敵なことが実現したら…いいなあ。
Re:なんだあ… (スコア:1)
個人的にはこれによって注文した本が電子データから直接製本して本屋で手渡される、オンデマンド出版が盛んになってくれないかなー、なんて思いますけど。
今の流通だと、3ヶ月以上たった重版されない本は極端に入手性が悪くなりません?
ハヤカワSFの目録落ちとかで、結構イタイのが落ちていたりとか・・・・・<微妙に論点がずれてる
-----------------
#そんなワタシはOS/2ユーザー:-)
っていうかamazon.co.jpもLook insideしてくれ! (スコア:1)
Re:っていうかamazon.co.jpもLook insideしてくれ! (スコア:1)
#ただ、いちいち別のページを開くのは面倒だし、
全部の本が出ていないという点では使いにくいと思う。
これで絶版がなくなるとよいなぁ。 (スコア:1)
わりとよいかも (スコア:0)
これは検索で引っかかったとこの前後だから、もちょっと広がりますね。
あとはランダムに数ページづつ読めると、本屋に行く必要なくなるんだけど…
検索語次第で。 (スコア:0)
# さすがに検索回数に上限はありますか。
Re:検索語次第で。 (スコア:2, おもしろおかしい)
「……買った方がコスト低いんじゃないか?」
毎度、一名様お買い上げ~
悪用手法をシミュレーション (スコア:1, 興味深い)
1. 検索語よりも後ろの部分が多く表示される場合
◎ターゲット作品の「はじめに」もしくは「目次」を検索する
↓検索結果の中でターゲット作品のものを表示させ、表示させたページの後方に存在する特徴的な文字列をとりだし、検索する
●以下、本が終わるまで繰り返す
2. 検索後よりも前の部分が多く表示される場合
◎ターゲット作品の「奥付」を検索する
↓検索結果の中でターゲット作品のものを表示させ、表示させたページの前方に存在する特徴的な文字列をとりだし、検索する
●以下、本が終わるまで繰り返す
ってなわけで、特徴的な文字列を探し当てられないと、そこで迷走しそうなアルゴリズムしか思いつきません(いや、私の限界なだけですが)
検索結果の表示の時に、対象書籍の表示させる位置情報が見える形になっていたら、それほど考えずにすむのかもしれませんが…
例えば、
hoge.cgi?ISBN=xx-xxxx-xxxxxx-x&page=xxx&searchWords=...
のように…。
って、んなアホはやらないだろうなぁ。
また、「特徴的な文字列」が、小説の登場人物のような、特定書籍中で繰り返し記述される文字列だと、これもこれで迷走しそうです。
さて、全文を引っ張ってこれそうな書籍って、どんなものでしょうか…。
# 外国人が見た日本の一世紀 [amazon.co.jp]みたいな作品なら、結構簡単に全文見れそうですけどね…。
Re:悪用手法をシミュレーション (スコア:1)
自動文字列抽出にはかなり強いかも。
それとも、こういうことを考える執念深い人達の世界では、
画像からのOCRなんぞ私の想像の及びもつかないレベルまで
達しちゃってたりしますか?
Re:悪用手法をシミュレーション (スコア:1)
> 自動文字列抽出にはかなり強いかも。
画像であっても活字なら余裕のよっちゃんで認識できますです。
もちろんchaoticな手書きフォントとか開発されたら辛いですけど、そんなサーバに負荷かけるようなことしなくても、いろんな回避策は考えられるでしょう。
・検索はメアドが必要な会員制とする
・検索は社会保険番号が必要な会員制とする
・検索はカード番号が必要な会員制とする
・ある会員IDはある書籍IDをある時間内に有限回しか閲覧できないとする
・ある会員IDのある時間内の検索件数を制限する
・あるIPアドレスがある時間内に使用できる会員IDの数を制限する
・絶対にヒットしないページを作る(たとえば検索対象は奇数ページのみとか、もちろんあらかじめDBに入れないってことです)
・絶対にヒットしないsentenceを作る(たとえば先頭から数えて素数番目のセンテンスは表示されないとか、もちろんあらかじめDBに入れないってことです)
わずか数分でも結構思いつくわけで、鼬ごっこかも知れませんけど、事前に複数人で長時間考えておく+対処療法+規約でしばる+悪質なものには訴訟、で全然問題なっちゃんだと思いますです。
Re:悪用手法をシミュレーション (スコア:0)
>プトの作り方をシミュレーションしてみる。
なんで、こうすぐにシステムの裏をかくようなことに頭が向くかな?(^^;
楽しすぎるぞ!! /.er
でも、これがもとでコンテストとか始まっちゃたらどう責任とるんだ(爆)。
防止策 (スコア:0)
#いや、単なる転送量制限なんだが…。
Re:悪用手法をシミュレーション (スコア:0)
辞書
でも、とってくる必要もまたなかったりして。
Re:悪用手法をシミュレーション (スコア:0)
労せず全ページ見られたりして。