(オープン)ソースコードを検索! 59
ストーリー by mhatta
何事もリサイクルが大事 部門より
何事もリサイクルが大事 部門より
esus1曰く、"japan.linux.comの記事「Koders.com:(オープン)ソースコードの高速検索」で、Kodersというソースコード検索サイトの紹介と、Koders.comの創始者であり主任アーキテクトであるDarren Rushのインタビューが掲載されています。このKoders、基本は検索エンジンですがkoders.comは検索サイトとして運営されています。
検索方法は至って簡単で、キーワードを入力し検索対象のプログラミング言語とソースコードライセンスを選択するだけです。
タレコミ人が利用してみたところ、キーワードに日本語をサポートしていることを発見したのですが、インデックスされたソースコードが少ないのかキーワードがまずいのか結果は良くありません。
検索対象のソースコードはオープンソースで、Web上で自己プロモートをしていて、匿名アクセスを認めるプロジェクトのものがインデックスされているようです。日々増え続けるプロジェクトをインデックスに含める準備は整っているとのことで、サイトにはフィードバックのフォームが設けられています。
期待されるツールであることは間違いありません。開発者のみなさんどうぞお試しあれ。"
んーと (スコア:4, おもしろおかしい)
サイト一発で実現しましたかそうですか
みんつ
Re:んーと (スコア:1)
わざとらしい(?)意図と前提付けに基づいて
ソフトをケーカク生産するという筋書きよりも、
既に出来たものを(今時のCPUによる)それなりに強力な検索で
探しまくるほうが、強い、と。
そういう意味では、FREEソフト全体とInternet全体が
Σに勝利したわけですね。
スラド民の一人として嬉しく思います。
#強制でないことが望ましいのでG7。日の丸もね。
世界規模ソースコード検索エンジン (スコア:3, 参考になる)
未踏ソフトウェア創造事業の「世界規模ソースコード検索エンジン」です。
http://namazu.org/~satoru/pub/mito2004i/
こっちはまだ一般にサービスとして公開などはされていないはずですが
比較するとどうなんでしょうね。
Re:世界規模ソースコード検索エンジン (スコア:0)
投稿時間が1分差だと、スコアの違いからIDのコメントのほうが
目につきやすいのは仕方無いんじゃないですかね。
Re:世界規模ソースコード検索エンジン (スコア:0, オフトピック)
モデレートするときに、「ほぼ同じ内容で現在のスコアが高いコメント」の方をさらに プラスするってのは、おかしな話ですよね。
モデレータがコメントの内容を見ていないって事でしょ。
Re:世界規模ソースコード検索エンジン (スコア:2, 参考になる)
おかしくないっしょ。
モデレートってのは、「すばらしいコメントにあげるごほうび」ではなくって、
「数多くのコメントをお手軽に読みたい人のための道しるべ」
と考えるべきなんじゃないの?
(モデレート時には「活発な議論を促すように云々」ってな注意書きが
表示されてなかったっけ)
そういうときに重複した情報は無駄だから、一方のスコアを上げて
他方を「余計なもの」としてスコアを下げる。
最初から一方のスコアが高いなら、そちらの方が道しるべとしては
便利だからさらにスコアを上げればいい。
道しるべを余計に作ってもしょうがないっしょ。
# mishimaは本田透先生を熱烈に応援しています
Re:モデレート(オフトピ:-1) (スコア:2, すばらしい洞察)
「有用な AC のコメントを見やすいところに汲み上げる人」
ということで十分役に立つと思うぞ。
> 不正を防ぐ意味で重要なポイントだと思う。
それは不正でもなんでもないでしょ。
もちろん、「モデレーションはごほうび」と思ってる人だと
「手柄を横取りされた!」と息巻くかも知れんけどね。
もし「どちらがコピペしたのか」が重要な場合でも、
書き込み時刻を見ればコピペしたのはどっちかすぐ判断できるし。
特に困らないんじゃないかなぁ。
# mishimaは本田透先生を熱烈に応援しています
Re:モデレート(オフトピ:-1) (スコア:1, すばらしい洞察)
そうされると何かまずいんですか?
ID持ちのスコアは一応ボーナスとか罰符とかの仕組みが有るけど、
多くの読者にとってはストーリの読み易さより優先して考える程の事ではない
というか比べ物にもならんですが。
Re:モデレート(オフトピ:-1) (スコア:1)
>ということで十分役に立つと思うぞ。
じゃあ、ACのコメントで目ぼしいのを見つけたら、
片っ端から自分名義で投稿し直すことで、
ポイントを荒稼ぎすることも、出来てしまうわけだ(^^;
…というのは冗談ですが、
その論法はちょっと何かが変だと思いますよ。
>もちろん、「モデレーションはごほうび」と思ってる人だと
>「手柄を横取りされた!」と息巻くかも知れんけどね。
ご褒美などと露骨に思うほどでないにしても、
やっぱり何か割り切れないものを感じると思いますね。
というか、つまりは露骨なACとIDとの間の差別待遇ってわけですね。
#ここで「それは待遇ではない」と強弁することは可能ですけど、ね。
まあそれもそれで1つの道なのでしょう。
ただ、それを誰かに狭量と呼ばれるリスクは自己責任の範疇ですが。
Re:モデレータが (スコア:0)
代理報復もとい、厳正な審査のうえ不公正にしといたよ。
(オープン)ソースコードに日本語を書く人は少ない (スコア:3, 興味深い)
「おまじない」とか「ねんのため」の英語表現(どんなだろう?)で検索したり、f*ck とか a**hole とか、汚い罵り文句で検索すると面白いかも。
Re:(オープン)ソースコードに日本語を書く人は少な (スコア:1)
# ニュースで見かけたときはFIXME [koders.com]とかifdef DEBUG [koders.com]を真っ先に検索に掛けたりしました。
Re:(オープン)ソースコードに日本語を書く人は少な (スコア:1)
Re:(オープン)ソースコードに日本語を書く人は少な (スコア:1)
> f*ck とか
fsck になりました。
なんで「汚い罵り文句」なの? って思った。
Re:(オープン)ソースコードに日本語を書く人は少な (スコア:1)
> タレコミ人さんの例でいえば、"ソート" ではなく "sort" で探さないとだめでしょう。
わかっちゃいたけどツッコミどころの無いタレコミ文もそれはそれでつまらなかったりするので。。。と言い訳してみる(w
作者の検索 [koders.com]なんか刺激的?(「コメントを当てにした検索は…」ってツッコミはなしで。)
日本語検索の問題 (スコア:0)
全文検索の主流ってなに? (スコア:1)
n-Gram とかはどうなってんだろうな~とか。
#無知をさらけ出したいのでID
屍体メモ [windy.cx]
Re:全文検索の主流ってなに? (スコア:1)
うろ覚えですが、例えばMitakeSearchがソレをやってるんじゃありませんでしたっけ?
辞書方式は限度が有ると思っています。
用語集をロクにメンテしてないプロジェクト(藁)でNamazuを使って、地獄を見ましたんです。
「業務で使ってる、あの単語が、全然ヒットしないやん!」というお叱りを頻繁に受けるんですが、
「じゃあ検索させたい単語を挙げてください。そうすれば辞書に追記しときますから」と返答したら、
相手はダンマリになってしまう、という…。とほほ。
#しかもNamazuって、ちょうど不味いことに、
#単語1つづつなら検索できるんだけど、複数の単語の所定の並びを検索できないんだよね。
#だから個々の単語が辞書に収録されてても、それの並びが出てくる個所を、狙い撃ちで検索できない。
#2つか3つの一般語の並びから成る業務用語とかが、全滅するんだ。
#いっぽうで人間は、一般語の並びから成る語を別途登録しないとならないという状況を、感覚的に受け入れにくいみたいで。
まあデスマなプロジェクトはどうでもいいんですが、
外向きの検索エンジンで、どんな単語を検索語とするか判ったものじゃないという状況では、
同じように辞書方式は破綻しやすいと思います。
N-Gram(どういうのか知らないけど)とか
SuffixArray(かな?)とか、
ああいう非辞書な方式のほうが、将来が有ると思ってます。
どうもそれっぽい (スコア:1, 興味深い)
ところが、「オーディオをひとつのプロジェクトからもうひとつののプロジェクトに貼り付けするときに」で検索 [koders.com]すると上記ファイルがヒットします。
つまり (スコア:1, 参考になる)
デリミタから次のデリミタまでの間の
「オーディオをひとつのプロジェクトからもうひとつのの
プロジェクトに貼り付けするときに」
をひとつの単語とみなしてしまっている。
したがって、kodersのインデクサは日本語のような
分かち書きしない言語には対応していないと推測される、
ということですな。
Re:つまり (スコア:1)
たしか、日本語プログラム言語「ひまわり」(だったと記憶していますが)は、
分かち書きしない「より自然な」日本語チックな文法に
傾倒しようとしてらっしゃるらしいですね。
個人的にはあまり好きでない方向性だと思っています。
ツールへの負担が大きすぎるから。
負担ってゆーか、(計算機の命である)確実性すら下がっちゃいませんかね。
最もインテリジェントで柔軟な人間ですら稀に単語の境界を読み違えて困るというのに、
計算機にそれをさせようなんて、無謀じゃないのか?と。
それよか、
むしろ人間は多少のスペースが入ろうが入るまいが支障なく読み書きできるんだから、
人間のほうが多少譲歩すりゃいいのに。
#やっぱりドリトルのほうが美しいと思うのでG7
閑話休題。
んでもって、今回また一つ、分かち書き無しに対応してない有力ツール(だよね)が出た、と。
ただまあ、さっきも書いたように、コメントとかは特別扱いしてくれると嬉しいんですけどね。
それこそ日本語とかにも。
あと、単語分割を前提としない検索方式を採用してくれると、もっと話は簡単だったかと。
#SuffixArrayくらいしか思いつかないのでG7。
#SAを運用するには、元のファイルの4倍ないし8倍のディスクを用意する「だけ」(定数倍って奴ね)でOKなのでしたよね。
Re:つまり (スコア:1)
>#SuffixArrayくらいしか思いつかないのでG7。
SuffixArrayは、このファイルのどこにソレがあるのかを高速検出するための
手法であって、ここで求められているのは、どのファイルにソレがあるのかを
検出する手法であるたべさ。
IN EARTH AND SKIE AND SEA STRANGE THYNGES THER BE.
これとどう違うのかな (スコア:2, 興味深い)
------------------------- Excess and Obsolete
SPARS Project (スコア:1, 参考になる)
http://sel.ics.es.osaka-u.ac.jp/SPARS/index.html.ja
Javaのソースしか検索できないようですが.
K? (スコア:1)
Re:K? (スコア:1)
KDE環境で動くものは頭文字をKにするから
その辺りのノリなんじゃない?
Darren RushでKDE関係をコダったけど
彼のソースは出てこなかった.
やなぎ
字面じゃなく論旨を読もう。モデレートはそれからだ
Re:K? (スコア:1)
(で、他に適当なのを探したけど空いているのも見付からなかったとか)
Re:K? (スコア:1)
・コードのことをドイツ語で Kode と書く。
・er をつけて男性名詞を作ることができる。
・s をつけて複数名詞にすることができる。
ドイツ語として Koders というのがありなのかどうかはわからんです。
# この手の K を見つけると、全部ドイツ語に見える…… orz
ドイツ語ちゅう事は (スコア:0)
Re:ドイツ語ちゅう事は (スコア:1)
最近のドイツ語は、er なんかを英語読むことも多いらしいです。
er の読み方の例としては、super がズーパー、Finger がフィンガーとか。
Kode はコートかコーデと読むようなことを辞書に書いてあるので、
コーテースかコーデースとなるのかも。
そもそも Koders がドイツ語としてありかどうかはやっぱり不明。
Koderen の方がなぜかドイツ語っぽく見える。いや、俺にそう見えるだけなんだけど。
Re:K? (スコア:1)
Re:K? (スコア:0)
最もよく使われる語は? (スコア:1, 興味深い)
ってことで、調べてみました。思いつくままにいろんな語を入力して、ヒット数が多かったものを紹介。
呼び方による宗派 (スコア:3, 興味深い)
■ this 454,949
■ self 28,452
まぁコメント中の英単語としても this の方が出現頻度が多いだろうからなぁ…
■ base-class 22,862
■ super-class 1,631
意外。C++ のコード量が多いのか?というより俺が意図したような
検索ができていないだけの気がするなぁ。
■ remove 68,209
■ delete 75,625
僅差ですね。俺も関数名決めるときにどっちにしようか悩みます。
■ pred succ 124
■ last next 36,342
double-linked list 作るときによく使いますが、pred,succ 組の惨敗。
last,next は perl の制御構文にも含まれてるからか。
■ load save 32,187
■ load store 7,703
みなさんロード・ストアとか言いませんかそうですか。
■ temp 25,004 / curr 3,920 / temp curr 671
■ tmp 31,041 / cur 12,370 / tmp cur 2,687
3 文字チームの圧勝。ただ、みんな temp だけは割と使うらしい。
# mishimaは本田透先生を熱烈に応援しています
Re:呼び方による宗派 (スコア:1)
> ■ this 454,949
> ■ self 28,452
>まぁコメント中の英単語としても this の方が出現頻度が多いだろうからなぁ…
thisとselfは、多くの場合、
名前のつけ方というより、言語選択の結果だったりしないかな?
thisはJavaとC++「の予約語」が稼ぎ頭みたいな。
うーん。これって、コメントの中と外とを別々に検索できることが
大事なのでしょうね。
てゆーか、言語種を限定した運用をするメリットといえば、
コメントをコメントだと認識することくらいしか、思い浮かばないです。
そうしないなら、単なる全文検索エンジンにソースを放り込むだけで充分な気がする。
つまりは、sourceforgeとかのソースをgoogleが検索できれば、それで済むんじゃないかな?と。
#Web経由のCVSの中のソースを「直リンク」する習慣が、我々(^^;に有れば、それでいいのかな?
Re:最もよく使われる語は? (スコア:1)
ストップワードがあるようです。if, of, in, a, to は検索できませんでした。
Re:最もよく使われる語は? (スコア:1)
してほしいところですね。要望出しとくか。
最もよく使われているソースは(違 (スコア:1)
Oliver圧勝。
ライセンスが。。 (スコア:1)
プルダウンに現れないものはまだ一つも登録されていないということなんでしょうか。
BSDが一つもないってどうなんだ?
It's not who is right, it's who is left.
Koders自体のソースコードは? (スコア:0)
クリックすると (スコア:0)
というダイアログが出てくるのがむかつく。
Re:クリックすると (スコア:2, おもしろおかしい)
って意味と受け取れば、すばらしい機能かと思いました。
hello world (スコア:0)
Re:hello world (スコア:1)
前向きな人が多いみたいですね。
あぅ (スコア:0)
Re:あぅ (スコア:0)
Re:あぅ (スコア:2, 参考になる)
Barr:プログラミング言語を選びますか。
Rush:いいえ。現在、15のプログラミング言語をサポートしています。
Java、C、C++を始めとする人気の各言語のほか、
LISPやScheme、その他あまり知られていない言語もいくつか含みます。
言語サポートはしているみたいです。
登録してあげれば良いんじゃないの?
Re:あぅ (スコア:1)
Smalltalkも無い・・・
Re:あぅ (スコア:0)
Re:このプロジェクトが検索できない! (スコア:1, 参考になる)
というか、こんな状態で公開してフィードバックを下さい [koders.com]なんてことをしたら、 フィードバックの嵐になってしまうような気がする。