データをすべてファイル名扱いにして高速検索を実現?

データをすべてファイル名扱いにして高速検索を実現? 187

ストーリー by mhatta 2008年01月21日 7時30分
memcachedとかtmpfsとか… 部門より

ITproに、「既存のDB技術と一線を画し、高速検索を実現する」というふれこみのデータ検索技術が紹介されている。 HOWSという企業が開発した「ISSEI」というVisualBasicで開発されたシステムらしいのだが、高速検索性を最優先とするために、OSの基本機能であるファイル名検索に目を付け、そこで検索対象となるファイルに含まれるデータそのものを全て「ファイル名」として管理することにしたということだ。ファイルに含まれるデータそのものを、62進数(アルファベット大小文字+数字で26*2+10=62ということか?)の文字列に変換し、それらをファイル名の集合体として別途管理するらしい。確かにこの方法であれば、HDDのファイル本体にはアクセスすることがないとも言えるわけだが、記事の最後にあるように「次はOSメーカーと共同開発し、ISSEIをOSの標準機能として盛り込みたい。最終的にはISSEI専用チップをメーカーと開発するのが目標だ」という方向が望まれるような、画期的技術と言ってよいものだろうか。

ちなみに、この手法を応用(?)してどんなデータも圧縮率100%のファイル圧縮ツールを作った人もいます。

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索187コメント Log In/Create an Account

ファイル名を見ただけで (スコア:5, すばらしい洞察)

by virtual (15806) on 2008年01月21日 8時00分 (#1283757)

ダウンロードしたことになるのですね。
笑いどころ (スコア:5, おもしろおかしい)

by Anonymous Coward on 2008年01月21日 8時53分 (#1283769)

＞ストップウオッチを片手に
なんという手作業

＞ISSEIはマイクロソフトの「VisualBasic」で開発した。
（中略）
＞処理の高速性を最優先し
(;｀･ω･)

＞最終的にはISSEI専用チップをメーカーと開発するのが目標だ
そこまでするなら、この手法を取っている意味が無くなるのでは･･･？
- - Re:笑いどころ (スコア:2, おもしろおかしい)
    
    by IZUMI162i6 (27633) <izumi@puni.moe> on 2008年01月21日 12時26分 (#1283874) ホームページ
    
    むしろストップウォッチで正確に計測する技術を売りにしていくのかも。
    
    --
    ◆IZUMI162i6 [mailto]
    
    シェア
    
    親コメント
一方MSは･･･ (スコア:5, おもしろおかしい)

by Anonymous Coward on 2008年01月21日 9時58分 (#1283796)

ファイルシステムをDBにした。 [wikipedia.org]

･･･いや、しようとした。
それはCAS (スコア:5, 興味深い)

by okky (2487) on 2008年01月21日 11時47分 (#1283852) ホームページ日記

Content-addressable storage
ahref=http://en.wikipedia.org/wiki/Content-addressable_storagerel=url2html-10207 [slashdot.jp]http://en.wikipedia.org/wiki/Content-addressable_storage>

そのものでございますな。『オブジェクト』と言う名のバイト列を見つけ出すのに、そいつが保持しているデータそのものを利用する、という。

# 普通は高速に検索するために「ファイル名」に相当する部分には
# ハッシュ値を使い、ファイル名そのものにデータを乗っけたりは
# しないものですが…

EMC の Centera とか、Tivoli Storage managerとか、
Linus の git とかも CAS の一種です。

CAS のいい所は、一度書いたら「データを変更できない」事。
データを変更しようとすると「別のファイル名」になってしまう。

…と言うわけで。多分この特許は通らないか、通るとしたらよほど
審査官が間抜けだと思います。日本語版にはまだ無いとはいえ、
ほぼ同案が Wikipedia に載っているんですから。

--
fjの教祖様
いっそのこと (スコア:4, 参考になる)

by Anonymous Coward on 2008年01月21日 8時53分 (#1283768)

ファイルシステムなんかなくしちゃえ！
なんて論議もありましたっけ。

論者曰く、現在のCPUが直接管理できるメモリアドレスは十分に広大であるので、それをカバーできる大きさの、かつ速く不揮発の主記憶装置さえあれば、ファイルシステムなど不要であるという論議です。

# さて、現実性は。
- Re:いっそのこと (スコア:1)
  
  by kicchy (4711) on 2008年01月21日 10時08分 (#1283807)
  
  >論者曰く、現在のCPUが直接管理できるメモリアドレスは十分に広大であるので、
  >それをカバーできる大きさの、かつ速く不揮発の主記憶装置さえあれば、ファイルシステムなど不要であるという論議です。
  
  ファイルの便利なところは、情報にシステム上で一意な名前がつけられるところだと思うのです。
  現在のOSのまま、ファイルシステムがなくなっちゃうとデータのやり取り手段を
  なんとかしなくてはいけなくなりますね・・・・
  
  # 名前の管理サービスみたいなものになるのかね？
  
  シェア
  
  親コメント
Visual Basic 製ということは…… (スコア:4, すばらしい洞察)

by Stealth (5277) on 2008年01月21日 9時47分 (#1283790)

Visual Basic 製と言う事は NTFS 上で利用する事になると思うのですが……。

肥大化した MFT によりディスク領域が圧迫され、しかも別途デフラグソフトを購入しないとデフラグが出来ない (OS 標準のデフラグは MFT の整理をしない) 物が出来上がったと言う事ですか。

RDB でもフルテキストインデックスとか、今時サポートしていない方がレアだと思うんですけどねぇ。

NTFS なら小さなファイルなら MFT に突っ込んじゃうのだし、それこそ Windows Desktop Search や Google Desktop Search と連動させてデータを小さなファイルとして保持させ、検索自体は WDS や GDS とかに任せた方が効率的なんじゃないかと思う。

多少データが増えたところで、単なるミラーリング & インデックス再生成程度で環境移行も出来ちゃうし。

つーかこれ、書庫ファイルでバックアップ取ろうにも zip とかじゃファイル名は圧縮されないから tar + gzip/bzip2 とかじゃないと悲惨だよね。NTFS 上に Unicode ファイル名で記録すると約 32,000 文字とか使えちゃうから、下手な fs 上じゃ展開できないんじゃない?

# 説明されたのに金を出した客の方がすごいと思う。
- Re:Visual Basic 製ということは…… (スコア:5, 参考になる)
  
  by Account-mochi Coward (34881) on 2008年01月21日 10時50分 (#1283829) 日記
  
  「1ディレクトリの中には10万以上のファイルを置かないようにしましょう」 [microsoft.com]とMSが推奨してるんですが、そっち方面から見ても問題がありそうな。
  
  %temp%の中に大量に一時ファイルを作って後片付けしない行儀の悪いツールをデバッグしたことがありますが、場所が場所だけに何をやらせても遅くなってて大変でした。
  
  --
  署名スパムがウザい？アカウント作って非表示に設定すればスッキリさ。
  
  シェア
  
  親コメント
  - NTFSでのファイル名のサーチって速いんだ (スコア:2)
    
    by shojin (28072) on 2008年01月21日 15時14分 (#1283956) 日記
    
    従来のファイルシステムでは、ファイル名の検索を線形に行っていたのでそんなに速くならず、その欠点を避けるためにsquid [1] で深いディレクトリを掘るという構成をとっていたのを思い出します。最近のファイルシステムはファイル名をインデックス化して高速にファイルの検索が出来るようにしている [2] らしいですが、このネタはそれを利用したということなのでしょうか。
    幾ら工夫したとはいえ、RDBがファイルシステムに負けるのは信じられないですが。
    
    [1] http://www.squid-cache.org/ [squid-cache.org]
    [2] Ian Dowse, David Malone:
    Recent Filesystem Optimisations in FreeBSD,
    USENIX 2002 Annual Technical Conference, Freenix Track,
    Pp. 245–258, June 10-15, 2002
    
    シェア
    
    親コメント
NTFS (スコア:4, 興味深い)

by sayuporn (33927) on 2008年01月21日 14時58分 (#1283950) 日記

このCTOがWindowsしかしらなくて、MySQLとかSQLiteとか使いたくなかった、
苦肉の策なんじゃないかなあ（私なら50万円くらいでごにゃごにゃ）。

NTFSは検索は速いですけど追加と削除が遅いですね。
NTFSでハードリンク張りまくってバックアップとって、
いざ削除しようとしたら100万ファイルくらいの削除に2ヶ月かかりました。
マジで。
ネットワーク上では (スコア:3, 参考になる)

by Anonymous Coward on 2008年01月21日 7時36分 (#1283753)

RFC1776 [imasy.or.jp] （アドレスにデータが全部入ってる）と
RFC1924 [ocn.ne.jp] （IPv6アドレスを文字で短く表現）の合わせ技で同じことが出来るかな？

どちらも4月1日発行モノ。
- Re:ネットワーク上では (スコア:2, 興味深い)
  
  by Anonymous Coward on 2008年01月21日 8時34分 (#1283762)
  
  大昔 TSSを使っていた頃ディスク容量の割り当てを突破するのにファイルの内容自体は空でいっぱいファイルを作ってそのカタログで情報を記憶させるというネタを思い出したよ。
  この記事もプログラムの改修を最小限に押さえて高速化を図るのにOSが持っている効率的なアルゴリズムを活用したとかいう話ならわかるけど、何と言うかCTOがアルゴリズムとか知らない頭悪い人に見えてしまう。
  
  シェア
  
  親コメント
- data URI (スコア:1)
  
  by Livingdead (18685) on 2008年01月21日 9時05分 (#1283771) ホームページ日記
  
  The "data" URL scheme [ietf.org]
  よーし，これですべてのデータがブックマークに入るぞ！
  いや，ジョークRFCではなくて，これはちゃんと機能するものです．念のため．
  
  --
  屍体メモ [windy.cx]
  
  シェア
  
  親コメント
これとちがう? (スコア:3, 興味深い)

by Anonymous Coward on 2008年01月21日 8時34分 (#1283763)

増井俊之さんの
Unix Magazine「インターフェイスの街角」
1999年11月号「シグナチャを用いた超お手軽検索システム」
と根本的思想は一緒?なのかしら?
ストップウオッチ… (スコア:2, すばらしい洞察)

by kcg (26566) on 2008年01月21日 8時47分 (#1283766) ホームページ日記

詐欺にしちゃ１００万円程度しか集められなかったようですが、技術的な優位性や先進性があると本気で思っているのだとしたら情けない話です。
開発するほうも、それで満足してしまう顧客も、日経の記者も。

これで高速化できてしまうような質の社内システムとやらがはびこっているのが現実と言うことですか。
- Re:ストップウオッチ… (スコア:2, 興味深い)
  
  by Offtopics (34135) on 2008年01月21日 17時10分 (#1284028)
  
  契約した顧客からもらった金で開発したものを「次はOSメーカーと共同開発し～」とか言っちゃっていいんでしょか。
  そういう契約だったのかしらん？
  
  シェア
  
  親コメント
- - 個人が満足してるならいいけど (スコア:3, おもしろおかしい)
    
    by kcg (26566) on 2008年01月21日 9時41分 (#1283789) ホームページ日記
    
    ウンコ食わされてた人が腐った飯を食えるようになったからって満足してちゃ社会の健全性としてはイカンと思うわけです。
    
    シェア
    
    親コメント
  - Re:ストップウオッチ… (スコア:3, 参考になる)
    
    by motamota (30138) on 2008年01月21日 12時17分 (#1283871)
    
    でも、実用上の不具合が発生してもこの会社には対応できないかもしれませんね。
    ＯＳのファイル検索機能の不具合であって、うちでは対応できません、なんて事にならないかな。
    ＯＳメーカー側もそんな目的外使用に対応してくれるかどうか。
    
    シェア
    
    親コメント
Web2.0時代の技術らしい (スコア:2, おもしろおかしい)

by Anonymous Coward on 2008年01月21日 10時07分 (#1283806)

「Web2.0時代を迎え、今後企業はさまざまなチャネルから、データを大量に収集・蓄積しなくてはならない。データがあっても、それらを素早く検索・抽出して業務に役立てなければ意味がない。」（HOWS「ISSEI（イッセイ）」：ITproより）

＃素早く考えすぎたのだろう．
62進数… (スコア:2, 興味深い)

by taka2 (14791) on 2008年01月21日 11時51分 (#1283857) ホームページ日記

MIMEのBase64のように、あと2文字足して64進数にした方が便利だと思うんだが、それすら思いつかなかったでしょうか?

実際には、Base64は A-Za-z0-9+/を使うため、/をファイル名に使えないので、ファイル名への符号化には使えないんだが、
Imap4ではメールボックス名をファイル名に使っても問題ないように、
メールボックス名は/の代わりに,を使うUTF-7(UnicodeをBase64で表現する方式)の修正版 [www.lins.jp]で表現する仕様になってます。

#パスワード(というか復活の呪文的なもの)に「lとIと1」「Oとo」「9とQ」といった紛らわしい文字を使わないようにした37進数での符号化を使ったことがありますが、コードが無駄に複雑になってしまいました。
#もうちょっと減らして32進数にしとけばよかったと気付いた時のは後の祭り…
62進数エンコード (スコア:2, すばらしい洞察)

by lynnlynn (15967) on 2008年01月21日 12時15分 (#1283869)

attrib を使えばあと2bit容易に足せたのに...
みんなナンダカンダ言ってるけど (スコア:2, 興味深い)

by tarosuke (2403) <webmaster@tarosuke.net> on 2008年01月21日 13時16分 (#1283905) 日記

quickHackとしては上出来なような気がする。顧客も満足してるみたいだし。
# 技術的には自慢できるようなもんはないがな。
みんな普通にやってることじゃ？ (スコア:2, 参考になる)

by Anonymous Coward on 2008年01月21日 13時43分 (#1283917)

画像データを集めるのが趣味なので、膨大なファイルの中から同じ画像がすでにあるかどうかを探すのに、画像ファイルすべてのMD5値のリストを作って、それを検索してチェックしています。中身が同じなのに名前が違ったりして、ファイル名が役に立たないことが多いから。

＃さすがに、見た目同じでデータ的に違うものは無理だけど。JPEGで再圧縮かけたやつとか。

あと、そのファイルの中から壁紙として使うものを、別のディレクトリにシンボリックリンクで集めたりしてますが、そのシンボリック名にMD5値を使っています。こっちは異なるディレクトリに中身の違う同名のファイルがあった場合への対策ですが。

ファイル名にファイルの内容を直接反映させたり結びつけたりなんて、普通にみんなやってることじゃないんですか？
技術というよりは (スコア:1, 興味深い)

by Anonymous Coward on 2008年01月21日 8時35分 (#1283764)

技術と似ているなんか違うもの、という感じがしないでもない。
- Re:技術というよりは (スコア:3, 興味深い)
  
  by Tsann (15931) on 2008年01月21日 11時28分 (#1283845)
  
  その理由について庄司副社長は、「現在主流のRDBが限界に近付いているから」と述べる。「RDBを使えばデータを効率よく管理できるが、大量のデータを自由かつ高速検索できるようにするには、膨大なコストと手間がかかるといった短所もある」と指摘する。
  VBという言語を悪く言うつもりはないですが、VB使いというのは往々にして他の言語を知らない井の中の蛙的なイメージがあります。たとえばストアドプロシージャ（という別言語）にも手を出せない、とか。そんな中でRDBを使いこなせないレベルの人の視線で見つけた技術と呼べるのかもしれません。
  
  ところで言われているようにRDBって限界なのでしょうか？
  
  シェア
  
  親コメント
  - Re:技術というよりは (スコア:3, 参考になる)
    
    by Ryo.F (3896) on 2008年01月21日 14時54分 (#1283947) 日記
    
    そんな中でRDBを使いこなせないレベルの人の視線で見つけた技術と呼べるのかもしれません。
    そうなのかなぁ。シャレだと信じたいけど。
    ところで言われているようにRDBって限界なのでしょうか？
    限界、っつーか、元々向き不向きがあるよね、ってだけだと思います。
    そもそも、構造化不十分な(あるいは、まったく構造化されていない)テキストデータを扱うような場合、それを二次元の表に格納しても、ほとんど得はありません。テキストファイルの中身をMS-Excelに貼り付けるようなもの。
    たとえば、全文検索が目的なら、RDBより接尾辞木に格納した方がマシ。元々データ構造の目的が違うんだから。
    
    ただ、既成のRDB製品はたくさんあって、RDB技術者がたくさんいるので、目的外使用だけどRBDが使われていて、それでも性能は上げなきゃいけないから、RDBにいろんなデータ構造(インデックス)をくっつけて誤魔化しています。
    まあ、その誤魔化しは、そこそこ巧く行ってるので、まだまだRDBは限界とは言えないんじゃないかな。
    
    シェア
    
    親コメント
- Re:技術というよりは (スコア:2, おもしろおかしい)
  
  by vn (10720) on 2008年01月21日 8時47分 (#1283765) 日記
  
  擬術。
  
  シェア
  
  親コメント
  - Re:技術というよりは (スコア:2, おもしろおかしい)
    
    by Anonymous Coward on 2008年01月21日 10時00分 (#1283798)
    
    むしろ欺術かもしれない
    
    シェア
    
    親コメント
    - Re:技術というよりは (スコア:2, おもしろおかしい)
      
      by ksiroi (24990) on 2008年01月21日 14時01分 (#1283923) 日記
      
      偽術だったら話題性抜群ですよ。
      
      あ、あれ、いつの間に年明けたんですか・・・？
      
      シェア
      
      親コメント
20年くらい前に (スコア:1, 参考になる)

by Anonymous Coward on 2008年01月21日 9時07分 (#1283772)

Ah!Ski か ascii.net で見かけたネタのようだ。
- Re:20年くらい前に (スコア:2, 参考になる)
  
  by Anonymous Coward on 2008年01月21日 10時32分 (#1283822)
  
  THcomp [thcomp.org] ですな。
  
  シェア
  
  親コメント
一言で説明すると (スコア:1)

by narunaru (30931) <{mikahosi} {at} {abox9.so-net.ne.jp}> on 2008年01月21日 9時08分 (#1283774)

オンメモリデータベースの出来損ないってことですかね？

ディスクの管理領域はメモリにキャッシュされている率が高く、そこをストレージ領域に使った場合は確かに高速にアクセスできるでしょう。オンメモリデータベースで難しい、不揮発性メモリとの同期の部分をOS任せにできるので実装も楽になるかな？でも、人に自慢げに話せる実装ではなく、恥ずかしくて人に言えない類の実装だと思うんだけどねぇ。
- Re:一言で説明すると (スコア:3, すばらしい洞察)
  
  by tnk (13707) on 2008年01月21日 16時57分 (#1284016)
  
  >オンメモリデータベースの出来損ないってことですかね？
  
  いや，WindowsのIndex Serviceを使用していると，ファイル名による検索が
  高速化されることに気がついて，それをRDBのかわりにつかった検索システムを
  構築した，ということではないかと。
  
  問題は，そのIndex Serviceの内部で使われている技術がRDBの技術そのもので
  あることを知らずに，「DB技術の限界を超える」とかいってしまっているところ。
  
  シェア
  
  親コメント
あれ (スコア:1)

by 127.0.0.1 (33105) on 2008年01月21日 9時31分 (#1283783) 日記

何かこんな話ついこの前あったような。
- Re:あれ (スコア:2, おもしろおかしい)
  
  by Anonymous Coward on 2008年01月21日 9時48分 (#1283792)
  
  １９８０年代 [wikipedia.org]をついこないだ
  と呼ぶのは老化の始まりかもしれないですね・・・・
  
  シェア
  
  親コメント
- Re:あれ (スコア:1)
  
  by 127.0.0.1 (33105) on 2008年01月21日 9時37分 (#1283786) 日記
  
  カレンダー型ファイルマネージャNemo [srad.jp]
  
  >Nemoは「初心者にとって階層フォルダ構造の概念は理解しにくい」という
  >前提に立って開発されており、フォルダ分けせずに一カ所にまとめておいた
  >ファイルに対し、タイムスタンプ、ファイルタイプ、ラベルなどの属性を
  >使ってアクセスするという方法を提案しているようです。
  
  ちょっと違ったなぁ。
  
  シェア
  
  親コメント
- Re:え？ (スコア:5, おもしろおかしい)
  
  by Anonymous Coward on 2008年01月21日 9時39分 (#1283788)
  
  試しにやってみた。 12MBのファイルが0Bのサイズのディレクトリに。中を見ると長い名前のファイルがいっぱい！ディレクトリをさらにLhaplusなどで圧縮するとサイズが22MBになりました。ちゃんちゃん
  
  シェア
  
  親コメント
  - 逆切れしてみる (スコア:1)
    
    by Tatenon (20311) on 2008年01月21日 10時05分 (#1283804) 日記
    
    ファイル名がファイルサイズに含まれていないファイルシステムの方が悪い！
    
    # 発想の転換といえば聞こえはいいが。
    # 調子に乗ってハードディスクの中のデータを全部これで１００％圧縮しようとして、途中でハードディスクが一杯になってしまって？？？な人なんているのだろうか。
    # 実行形式（EXEやCOM）を圧縮した後で、実行できないことに気付く奴はさすがにもう居ないとは思うが。
    
    シェア
    
    親コメント
    - - Re:逆切れしてみる (スコア:2, おもしろおかしい)
        
        by phenix (31258) on 2008年01月21日 11時47分 (#1283853)
        
        私も思い出しました。
        小学生の頃、雑誌付録のエロい(小学生基準なので今思うとお色気程度ですが)ゲームを
        どうやって隠そうかと思い、大量のディレクトリを作って深いところにインストールしようとしたら
        HDDが満タンに・・・。
        そのときディレクトリもディスク容量食うんだってことに気付きました・・・。
        
        シェア
        
        親コメント
        
        Re:逆切れしてみる (スコア:3, 参考になる)
        
        by Anonymous Coward on 2008年01月21日 11時57分 (#1283860)
        
        逆にね、MS-DOS の頃、MO にすごい大量のファイルを保存するとき、
        ディレクトリがフラグメンテーション起こした途端、ものすごいパフォーマンスダウンしやがったんですよ。
        
        で、解決策は、予め全ファイルをサイズ０で作成しといて
        （この時点でディレクトリは連続したクラスタを占有できる）
        改めて各ファイルを上書き保存する、と。ああ懐かしい。
        
        シェア
        
        親コメント
- Re:安けりゃよい (スコア:5, 興味深い)
  
  by okky (2487) on 2008年01月21日 13時37分 (#1283914) ホームページ日記
  
  ・データを見つけるのと、ファイルを見つけるのが等価になってしまっている。
  
  に尽きるのではないかと。
  
  1) Security 上の問題がある。
  普通なら「ファイルが open できなきゃ安全」なはずのデータが全部曝されている。何しろ、ファイル名を変更できればデータ変更は出来るわけですから。
  
  2) PATH 名検索が死ぬほど遅いと思う。
  例えば、データ中に "fjの教祖様" が入っているレコードが欲しければ、
  "*fjの教祖様*" という PATH を探すことになるのだろう。が、
  それは結局 O(n) の検索になるんじゃないのか?
  
  完全一致ならば HASH とか NTFS の path 名が平衡木管理になっているのとかで
  DBMSでindex を張った状態と同じになるのだろうが、任意の
  「真ん中のデータ」が一致しているのを探すのに必要な処理は、
  馬鹿正直なサーチぐらいしか実装されていないと思うんだ、NTFSには。
  
  これは根本原理に問題があると言うことなので、救いがたい。
  
  3) Transaction 処理ができないのでは…
  いや、これは VB で書いている部分で頑張るのかもしれないが…。
  重たそうだな。
  
  4) で、実際のところ、ファイルを open して中身を検索して close して…を繰り返すのとどっちが早いのさ??!
  ここで比較するべきなのは、ファイルを open/close する部分を
  非同期システムコールで実装して、同時に複数走らせた場合。
  旧来の同期型 open/close だと一度に1つのファイルしか開けない/閉じれない
  のでそこが重たくなるが…。うーむ。本当に早いか?? これ…
  
  と言うわけで、大いに疑問だ。DBMSの事もファイルシステムの事も本質的に判っているとは思えない…。
  
  --
  fjの教祖様
  
  シェア
  
  親コメント
  - 画期的な (スコア:3, すばらしい洞察)
    
    by pam (35548) on 2008年01月21日 14時45分 (#1283941)
    
    情報漏洩の手段
    
    シェア
    
    親コメント
  - Re:安けりゃよい (スコア:2, 参考になる)
    
    by Stealth (5277) on 2008年01月21日 18時38分 (#1284104)
    
    んー、どうでしょうね。
    
    1) Security 上の問題がある。
    
    ACL でフォルダに対して適切な制限が与えられていれば、ディレクトリリストの一覧は取れません。
    
    ただ、OS 側がインデックス化しているためインデックスの問い合わせ権限があると情報が取れる可能性はあり。
    
    2) PATH 名検索が死ぬほど遅いと思う。
    
    そこは Windows Index Search が頑張るところなので。
    
    3) Transaction 処理ができないのでは…
    
    それは用途が違うからどうでもいいんです。
    
    4) で、実際のところ、ファイルを open して中身を検索して close して…を繰り返すのとどっちが早いのさ??!
    
    これって locate や find と grep のどっちが早いの? って話ですよ。
    
    シェア
    
    親コメント
- Re:安けりゃよい (スコア:2, すばらしい洞察)
  
  by Offtopics (34135) on 2008年01月21日 13時09分 (#1283899)
  
  例で出てる中で言うと、スケーラビリティは後からはどうしようもない場合が多く、仕様追加という話ではないってのはあると思う。
  
  シェア
  
  親コメント
- - Re:他の記事 (スコア:4, すばらしい洞察)
    
    by okky (2487) on 2008年01月21日 16時47分 (#1284004) ホームページ日記
    
    「膨大なコストと手間がかかる」（市販のRDB製品で構築するとなると数千万円かかる）のを改善（自社製品だと1/10の価格で出せますよ、と）しただけじゃないですか？
    
    えー、本当かなぁ。
    
    PostgreSQLでも MySQLでもインストールして、index まじめに張るだけジャン??
    # そりゃ Oracle 入れればそういう金額になるけどさ。
    
    ベースのソフトは無料だし、たかが数M entry に対して数百万もかけてチューンして良いなら、これぐらいの性能は普通に出ると思うんだが…。
    
    --
    fjの教祖様
    
    シェア
    
    親コメント
- - - Re:ntfsにバグがあったとしたら？ (スコア:2, 参考になる)
      
      by emk (30939) on 2008年01月21日 22時25分 (#1284258) 日記
      
      ただ、制限上大文字と小文字が違うだけのファイル名は同一ディレクトリに存在できない、というのもありますが。
      
      そんな制限ありませんよ。大文字と小文字を区別するようにパラメータ指定して作成すると同居できますが、大文字と小文字を区別するようにパラメータ指定して開かない限り片方しか開けなくなるので普通やらないだけです。
      
      ついでにそのパラメータを指定すると予約デバイス名とかぶるファイル名も作成できます。もちろん同じパラメータを指定しない限り開けません。
      
      シェア
      
      親コメント
      - Re:ntfsにバグがあったとしたら？ (スコア:3, 参考になる)
        
        by Stealth (5277) on 2008年01月21日 23時15分 (#1284289)
        
        それは API で利用可能であるかどうかという意味での話であって、技術資料として出ている制限事項 [microsoft.com]とは別の話です。
        
        "Do not use the following reserved device names for the name of a file:..." と "Do not assume case sensitivity. ..." の辺り。
        
        どちらも「普通やらない」とか「普通に操作できない」とかではなく、制限事項に当てはまります。
        
        シェア
        
        親コメント
- Re:Ajax builderで一躍脚光を浴びるベンチャー企業だそうですよ (スコア:2, 参考になる)
  
  by Ane5 (34298) on 2008年01月22日 8時11分 (#1284387)
  
  Web屋にとっては「またHOWSか」でこの手の話題はおしまいだったりします。
  アドバルーン大好きなのはいいけど、アドバルーンすら作れてないわー
  
  シェア
  
  親コメント
- - - - MADO(QUOVIS) (スコア:2, 参考になる)
        
        by kmra (33703) on 2008年01月22日 0時04分 (#1284322) 日記
        
        「MADO」（後の「QUOVIS」）を作った人ですね
        http://sdc.sun.co.jp/developers/spf/log/names.html#sa [sun.co.jp]
        
        結構使われていたみたいなのですごいのかなと思ってました。
        
        シェア
        
        親コメント

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

データをすべてファイル名扱いにして高速検索を実現? More ログイン

ファイル名を見ただけで (スコア:5, すばらしい洞察)

笑いどころ (スコア:5, おもしろおかしい)

Re:笑いどころ (スコア:2, おもしろおかしい)

一方MSは･･･ (スコア:5, おもしろおかしい)

それはCAS (スコア:5, 興味深い)

いっそのこと (スコア:4, 参考になる)

Re:いっそのこと (スコア:1)

Visual Basic 製ということは…… (スコア:4, すばらしい洞察)

Re:Visual Basic 製ということは…… (スコア:5, 参考になる)

NTFSでのファイル名のサーチって速いんだ (スコア:2)

NTFS (スコア:4, 興味深い)

ネットワーク上では (スコア:3, 参考になる)

Re:ネットワーク上では (スコア:2, 興味深い)

data URI (スコア:1)

これとちがう? (スコア:3, 興味深い)

ストップウオッチ… (スコア:2, すばらしい洞察)

Re:ストップウオッチ… (スコア:2, 興味深い)

個人が満足してるならいいけど (スコア:3, おもしろおかしい)

Re:ストップウオッチ… (スコア:3, 参考になる)

Web2.0時代の技術らしい (スコア:2, おもしろおかしい)

62進数… (スコア:2, 興味深い)

62進数エンコード (スコア:2, すばらしい洞察)

みんなナンダカンダ言ってるけど (スコア:2, 興味深い)

みんな普通にやってることじゃ？ (スコア:2, 参考になる)

技術というよりは (スコア:1, 興味深い)

Re:技術というよりは (スコア:3, 興味深い)

Re:技術というよりは (スコア:3, 参考になる)

Re:技術というよりは (スコア:2, おもしろおかしい)

Re:技術というよりは (スコア:2, おもしろおかしい)

Re:技術というよりは (スコア:2, おもしろおかしい)

20年くらい前に (スコア:1, 参考になる)

Re:20年くらい前に (スコア:2, 参考になる)

一言で説明すると (スコア:1)

Re:一言で説明すると (スコア:3, すばらしい洞察)

あれ (スコア:1)

Re:あれ (スコア:2, おもしろおかしい)

Re:あれ (スコア:1)

Re:え？ (スコア:5, おもしろおかしい)

逆切れしてみる (スコア:1)

Re:逆切れしてみる (スコア:2, おもしろおかしい)

Re:逆切れしてみる (スコア:3, 参考になる)

Re:安けりゃよい (スコア:5, 興味深い)

画期的な (スコア:3, すばらしい洞察)

Re:安けりゃよい (スコア:2, 参考になる)

Re:安けりゃよい (スコア:2, すばらしい洞察)

Re:他の記事 (スコア:4, すばらしい洞察)

Re:ntfsにバグがあったとしたら？ (スコア:2, 参考になる)

Re:ntfsにバグがあったとしたら？ (スコア:3, 参考になる)

Re:Ajax builderで一躍脚光を浴びるベンチャー企業だそうですよ (スコア:2, 参考になる)

MADO(QUOVIS) (スコア:2, 参考になる)