古文書を読んで画像認証

古文書を読んで画像認証 40

ストーリー by mhatta 2007年10月03日 9時00分
アイデア賞モノだがほんとに大丈夫なのかな部門より

BBC Newsの記事より。人間には読めるがコンピュータに読めない画像の文字列CAPTCHAは、ブログなどへの広告宣伝業者よけとして、あちこちで使われているソリューションである。試算によると、この文字列を解読するのに人間が使用している時間は一日あたり15万時間にも及ぶという。
この人間の処理能力をもっと有効に活用できないかと、カーネギーメロン大学のLuis von AhnはreCAPTCHAという新しいソリューションを考案した。
古書からスキャンしたデータは、かすれや印刷不良などOCRによって読めない文字を多量に含んでおり、古書のデジタル化は人手に頼る部分がどうしてもできてしまう。そこで機械が読めなかった文字列画像をCAPTCHAに利用して、解読時間を有効活用しようという仕組みだ。
そもそも機械が正答を知らない文字列画像を表示するのに、どうやって機械ではなく人間が解読して入力してきたと判別するのかというのが気になる点であるが、解読済みの文字列とまだ読めていない文字列をあわせて送信し、解読済みの部分が正しく入力されてきたら残りの文字列も正しく応答されてきた、と判別する仕組みだという。
公式ページによるとMediaWiki用のプラグインやPHPのサンプルコードも用意しているようだ。

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索40コメント Log In/Create an Account

アルファベットならでは (スコア:2, おもしろおかしい)

by Tatenon (20311) on 2007年10月03日 9時19分 (#1228253) 日記

もしも漢字だったりすると、認識できても読みがわからず入力できないという事態が。

『橄欖』
「かんらん・・かな？・・・観覧、かんらん、カンラン。え？違うのか？へ、変換できん・・・」

# 「∀」が「たーんえー」で変換できずにしばらく悩んださ。
- Re:アルファベットならでは (スコア:1)
  
  by TarZ (28055) on 2007年10月03日 9時38分 (#1228268) 日記
  
  『橄欖』
  「かんらん・・かな？・・・観覧、かんらん、カンラン。え？違うのか？へ、変換できん・・・」
  
  あれ？　合っているんじゃないの？　観覧、かんらん、カンラン…た、確かに変換できない。
  もしかして、いわゆる「なぜかへんかんできない」パターンで、間違えて覚えてた！？((（;゜Д ゜）))
  
  # …「カンランガン」だと出ました。:-D
  
  シェア
  
  親コメント
- Re:アルファベットならでは (スコア:1)
  
  by Ryo.F (3896) on 2007年10月03日 10時00分 (#1228278) 日記
  
  漢字だと略字の方が普及している上に、草書だったりすると平仮名すら読めん、なんてこともあったり。
  
  他にも、正仮名遣いが読めないなんてことになったり、楷書平仮名でもゐとかゑが読めん(あるいは、入力できん)、等など…
  ＃こっちは高校で習ってる筈だけどねえ。
  
  シェア
  
  親コメント
  - 鶯の身をさかさまに初音かな (スコア:1)
    
    by SteppingWind (2654) on 2007年10月03日 13時31分 (#1228468)
    
    「これは達筆すぎて読めないな.」
    
    ということで, あいかわらず連続殺人は防げないのでした.
    
    シェア
    
    親コメント
  - Re:アルファベットならでは (スコア:0)
    
    by Anonymous Coward
    
    江戸時代に書かれた「武江年表（のコピー）」を見たことありますけど、マジ読めませんね。
    漢字なのか、平仮名なのかさえ判別できません。場所によっては１文字なのか２文字なのかさえ分かりません。
    
    むしろスキャンして機械的に認識してくれるツールが欲しい、と思いましたよ、ええ。
    - Re:アルファベットならでは (スコア:1)
      
      by gigo (21150) on 2007年10月03日 12時21分 (#1228397)
      
      言語が一文字ずつに分解できるというのは、印刷術が広まってきた時の現実的要求ではないでしょうか。活版印刷では、ある程度の個数の活字で言語が表現できないといけないという。
      
      日本で活版印刷が普及したのは明治以降、一般人が書く文字では、つい最近のことですね。話しことばではそもそも文字と文字の区切りは曖昧というかそれ自体近似的なものですから、印刷・パソコン以前の書きことばが話しことばを写したものであれば、文字の区切りも分かりにくいのも当然でしょう。
      
      シェア
      
      親コメント
      - Re:アルファベットならでは (スコア:1)
        
        by Ryo.F (3896) on 2007年10月03日 14時05分 (#1228487) 日記
        
        言語が一文字ずつに分解できるというのは、印刷術が広まってきた時の現実的要求ではないでしょうか。
        (活版)印刷が文字を一文字づつ分解することを要求した、というのはその通りでしょうけど、文字が一文字づつ分解可能というのは、印刷の影響ではないでしょう。なぜなら、それ以前にも一文字づつ分解した字はあったし、一文字づつ分解して書かれたテキストもあったのですから。隷書体はその一例。
        
        シェア
        
        親コメント
        
        Re:アルファベットならでは (スコア:1, おもしろおかしい)
        
        by Anonymous Coward on 2007年10月03日 17時24分 (#1228596)
        
        学生時代は１０分前の授業のノートすら解読不能だった。
        
        シェア
        
        親コメント
    - Re:アルファベットならでは (スコア:1)
      
      by soy_milk (26202) on 2007年10月03日 23時52分 (#1228759) 日記
      
      漢字なのか、平仮名なのかさえ判別できません。
      
      頻出する「候」なんて、下手をするとただの点（「ヽ」みたいな字形）で書かれたりしますしね。
      
      読み下すには文脈を手がかりにするしかない部分があるので、どの部分を出題するかも難題のような気がします。分かち書きがされていない（というか普通は草書）ので機械的には切れませんし、「意味上はここからここまでがひとまとまり」と判断できるなら、そのときは既に読めているということですし。
      
      あと、変体仮名 [wikipedia.org]なんかはどうする、という問題もありますね。そもそも Unicode や JIS ではコードが振られていませんし。
      # TRONコードには収録されているようですが……
      
      シェア
      
      親コメント
    - Re:アルファベットならでは (スコア:0)
      
      by Anonymous Coward
      
      江戸時代どころか昭和初期産まれの祖母の手紙の崩し字すら読むのに一苦労ですよ
      
      戦前の女学校では教養の一環として習わせられたそうで
      - モノによるでしょ (スコア:1, 参考になる)
        
        by Anonymous Coward on 2007年10月03日 11時17分 (#1228339)
        
        1000年ちょっと前のもの [google.co.jp]（写本だけど）でもそこそこ読めるのがあるくらいだし。
        
        シェア
        
        親コメント
  - Re:アルファベットならでは (スコア:0)
    
    by Anonymous Coward
    
    草書体の話を出すならば、アルファベットでも筆記体や特殊な装飾文字は
    古文書ならなおさら読めないという問題がありますよね。
これはアイディア賞もの (スコア:2, すばらしい洞察)

by TarZ (28055) on 2007年10月03日 9時42分 (#1228270) 日記

実際にどれくらいの有効か、といった評価は必要ですが、アイディアとしては素晴らしいですね。

ネットで情報を探していると、古い文書（昔の特許情報とか論文とか）をスキャンしたPDFに行き着くことがよくあります。
その文書にたどり着くまでには検索エンジンを使うわけですが、現状だと、人が入力したタイトルくらいしかキーワードとして拾えないことが多いです。

今回のアイディアが有効なら、ようやく、内容にまで踏み込んだ検索が実現する可能性が見えてきたことになりますね。

_{## ぐう。投稿の2分間隔制限にひっかかったぜ。}
- Re:これはアイディア賞もの (スコア:3, 興味深い)
  
  by soltiox (25610) on 2007年10月03日 13時52分 (#1228477) 日記
  
  このアイディアの副産物として、認証を破りたい悪者の中の人が、
  どんな古文書もたちどころに解読してしまう、
  スーパーOCRソフトを開発してくれるかもしれませんね。
  
  // レイミー・メモも解読できちゃうかも：)
  
  シェア
  
  親コメント
- Re:これはアイディア賞もの (スコア:0)
  
  by Anonymous Coward
  
  オープンソース界隈でwiki使って翻訳してるのと何が違うの?
  - Re:これはアイディア賞もの (スコア:3, すばらしい洞察)
    
    by Anonymous Coward on 2007年10月03日 10時29分 (#1228296)
    
    興味が無い人の労力も搾取動員できる
    
    シェア
    
    親コメント
    - Re:これはアイディア賞もの (スコア:3, おもしろおかしい)
      
      by Yak! (32970) on 2007年10月03日 13時02分 (#1228442) ホームページ日記
      
      エログリッド [google.co.jp]も使えば完璧ですね！
      # いや、公的用途には無理でしょうけども。
      
      シェア
      
      親コメント
    - Re:これはアイディア賞もの (スコア:0)
      
      by Anonymous Coward
      
      テクノコアによる搾取だ
本来の目的とは外れてしまわないか (スコア:2, すばらしい洞察)

by dagama (34698) on 2007年10月03日 10時22分 (#1228288)

意味のある（であろう）文字列を使用してしまうと、
推測が可能になってしまうので、機械的に処理されてしまうケースが出てくるかも。
- Re:本来の目的とは外れてしまわないか (スコア:2, すばらしい洞察)
  
  by Anonymous Coward on 2007年10月03日 14時32分 (#1228502)
  
  >推測が可能になってしまうので、機械的に処理されてしまうケースが出てくるかも。
  
  機械的に処理できるロジックが出来ればそれはそれで素晴らしいような・・・
  
  シェア
  
  親コメント
文字列と画像が正しく対応しているのをチェックして (スコア:1, すばらしい洞察)

by Anonymous Coward on 2007年10月03日 9時05分 (#1228248)

という問いを(予め解っている正解も付けて)出題すれば、
だんだんと正答率は上がっていく気がする。

# 猫認証とかゲイツ認証 [captcha.jp]みたいに。
- Re:文字列と画像が正しく対応しているのをチェックして (スコア:1, すばらしい洞察)
  
  by Anonymous Coward on 2007年10月03日 9時25分 (#1228257)
  
  正答率を上げるようにする工夫は必ずしも必要ないんじゃないですかね。
  テスト期間中に正解率が何％かというデータを得たら、同じ文字列の解読が何度行われたら
  信頼性のある解読結果になるかを概算して、同じ解読がｎ回行われたら解読されたとする
  統計的なアプローチでいいと思います。
  例えばＮ回の試行でｎ回入力された回答Ｘとｍ回入力された回答Ｙがあり、ｎ＝ｍの仮説が
  危険率99%で棄却されたら有意に大きいＸを正解とする、といった形で。
  
  シェア
  
  親コメント
  - Re:文字列と画像が正しく対応しているのをチェックして (スコア:3, すばらしい洞察)
    
    by Anonymous Coward on 2007年10月03日 9時57分 (#1228276)
    
    解読済みの部分は機械的に解読済み、ってことだと思うので、利用者側が機械的なツールを導入すると、同じアルゴリズムで間違える、という例が出てくるのではないでしょうか。そうなると、まさにnoisy minorityなわけで、もはや統計は信用できない、という事態になる可能性が…。
    
    ただ、人力で解読済みな部分をベースに、「人力で解読した」部分を広げていくことは出来るかもしれません。
    ・An-1の部分が人力で解読されているならば、Anも人力で解読されている。
    ・A0は人力で解読されている。
    
    ・よって、Anは人力で解読されている。
    
    まあ、機械的に解読できる範囲が途中で広がらない、という前提を全面的に信頼している点では綱渡りですが。
    
    シェア
    
    親コメント
根本的な問題があるような・・・ (スコア:1, 興味深い)

by Anonymous Coward on 2007年10月03日 9時46分 (#1228272)

機械で読めるということは、人間でも読めるという決めつけはどうだろうと思うんだ。
いや、もちろん逆パターンのが遙かに多いのは事実だけどね・・・
- Re:根本的な問題があるような・・・ (スコア:0)
  
  by Anonymous Coward
  
  「機械で読めた」ことを確認するために、最低でも一度は人間が機械の判読結果に目を通しているでしょうから、大丈夫でしょう。
  
  所詮機械では「文字として判読した」だけですから、果たしてそれが意味の通る文章として「正しく」判読されたかどうかは、
  結局は人間が再確認せざるを得ないわけですから。
  
  機械に読ませるのは、全くのゼロの状態から人間が判読するより、時間労力的に多少マシなだけだと思います。
4ヶ月以上前のニュース (スコア:1, 参考になる)

by Anonymous Coward on 2007年10月03日 10時56分 (#1228313)

カーネギーメロン大学，画像認証を書籍デジタル化に活用するサービス「reCAPTCHA」 [nikkeibp.co.jp]
- - Re:お約束 (スコア:1)
    
    by necop (6252) on 2007年10月03日 12時31分 (#1228407) 日記
    
    ４ヶ月前はまだ/.を知らなかったという可能性
    
    シェア
    
    親コメント
ぜひサンプルに使って欲しい (スコア:1, おもしろおかしい)

by Anonymous Coward on 2007年10月04日 0時22分 (#1228768)

俺のノートへの殴り書き
自分でも解読できない部分が多いんだよ…
有効利用？ (スコア:0)

by Anonymous Coward on 2007年10月03日 9時35分 (#1228265)

> 解読済みの文字列とまだ読めていない文字列をあわせて送信し、
> 解読済みの部分が正しく入力されてきたら残りの文字列も正しく応答されてきた、と判別する仕組みだという。

それは "解読の時間を有効利用している" のではなく、"ついでに余計な手間を取らせている" と言うのでは？
人間がCAPTCHA解読に掛ける総時間の15万時間にその未解読の部分を読む時間分が増える訳ですから。

# いや別にアイデアにケチを付けるのではなくて、もう少し良い方式はないかなと思ってしまった次第であります。
- Re:有効利用？ (スコア:0)
  
  by Anonymous Coward
  
  なんで？
  CAPTCHAに使われてきたデータの一部を、古文書から抽出したデータに
  置き換えるだけなんだから、解読にかかる手間はいままでとかわらないでしょ。
  - Re:有効利用？ (スコア:0)
    
    by Anonymous Coward
    
    解読済みの部分が正しく入力されたことを確認できる時点で
    本来のCAPTCHAの目的は達成されるわけで。
    
    strlen(解読済みの部分＋解読させる部分) > strlen(従来のCAPTCHAのデータ)
    
    なら、余計な作業を強いることに。
    
    strlen(解読済みの部分＋解読させる部分) <= strlen(従来のCAPTCHAのデータ)
    
    なら、従来のCAPTCHAデータにムダがあったということかな。
  - Re:有効利用？ (スコア:0)
    
    by Anonymous Coward
    
    例えばタレコミのリンク先を見ると、2つの単語が表示されています。
    1つの単語入力でよかったのが2つの単語入力になっていて、一方は本来必要のない作業というわけで、余分な労力をかけているだけです。
    その他のオーバーヘッド(リンクをクリックして単語を表示する等)という作業は増えていないので、解読する、という作業を(captchaと同じインタフェースで)行うのに比べれば「ユーザー」の労力は減るので、有効利用と言えなくもないのかも...(単語を抜き出してcaptchaのインタフェースに取り入れる労力を考慮するとどうだろう、とは思うけど。自動化できるのかな。)
古書と古文書 (スコア:0)

by Anonymous Coward on 2007年10月03日 10時08分 (#1228282)

タレコミ文だけだとまったく混同しているようだが？
- Re:古書と古文書 (スコア:1)
  
  by soy_milk (26202) on 2007年10月04日 0時21分 (#1228767) 日記
  
  そうお考えなら、どう混同しているか指摘した方がよいのではないですか？＞古書と古文書
  要するに、いわゆる「古書」は日本史学などでいう古文書（こもんじょ）には含まれない、ということですよね。
  
  ただ、BBCの記事では“old books and manuscripts”などと書かれていて、タイトルの「古文書」は「古史料」くらいが妥当かなとも思いますが、ちらっと拾い読みした感じではそんなに古い史料の OCR までは（まだ）考えていないように思えますので、「古書」でいいのではないでしょうか。
  
  いずれにせよこの場合は「古文書」はあまり正確な言いかたではないでしょうね。
  
  よく分からん、という方はWikipedia の説明 [wikipedia.org]あたりを読んでいただければよいかと。
  
  シェア
  
  親コメント
フィルタ機能として活用 (スコア:0)

by Anonymous Coward on 2007年10月03日 10時59分 (#1228317)

古文書（とか、日本語とか、何とか語とか）を読めないような人はサービスの対象外です、
ということでサービス対象者を限定する手段にも利用できそうですね。

このような文字列判別ってたいていカラフルな文字を判別する必要がありますが、
色覚異常の人を排除しているのではないかと心配です。
- Re:フィルタ機能として活用 (スコア:1)
  
  by TarZ (28055) on 2007年10月03日 11時16分 (#1228337) 日記
  
  このような文字列判別ってたいていカラフルな文字を判別する必要がありますが、
  色覚異常の人を排除しているのではないかと心配です。
  
  それは一概には言えないのでは。
  
  例えばこんなの：色盲はカラー・カモフラージュ条件で有利 [kyoto-u.ac.jp]
  
  戦争で、敵兵士の迷彩を見破るのに色覚異常を持つ人が活用された、なんて伝説も聞きます。こちらが事実かどうかは不明ですが。
  
  シェア
  
  親コメント
  - Re:フィルタ機能として活用 (スコア:0)
    
    by Anonymous Coward
    
    前期旧石器「発見」で名を成した「神の手」の人について、考古学者のエラいひとが、「彼は色覚異常を持っており、そのため健常者には知覚できない微妙な土質の差を見分けて発見にいたるのでは？」などという無邪気な憶測を、真っ当な書籍に載せていたりします。今見ると脱力してしまいますが。
    - Re:フィルタ機能として活用 (スコア:0)
      
      by Anonymous Coward
      
      > などという無邪気な憶測を、真っ当な書籍に載せていたりします。今見ると脱力してしまいますが。
      まあ、典型的に、間違った前提条件から導き出される、誤った憶測ですな。
      前提と憶測の結びつけ方自体は悪くないと思いますが。
- Re:フィルタ機能として活用 (スコア:1)
  
  by Tig3r (17335) on 2007年10月03日 14時46分 (#1228509) 日記
  
  > このような文字列判別ってたいていカラフルな文字を判別する必要がありますが、
  > 色覚異常の人を排除しているのではないかと心配です。
  
  交通信号とか家電の電源ランプとか抵抗のカラーコードとかに散々排除されまくって
  おりますので、今更気になりません。
  
  --
  -- Tig3r on the hedge
  
  シェア
  
  親コメント

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

アルファベットならでは (スコア:2, おもしろおかしい)

Re:アルファベットならでは (スコア:1)

Re:アルファベットならでは (スコア:1)

鶯の身をさかさまに初音かな (スコア:1)

Re:アルファベットならでは (スコア:0)

Re:アルファベットならでは (スコア:1)

Re:アルファベットならでは (スコア:1)

Re:アルファベットならでは (スコア:1, おもしろおかしい)

Re:アルファベットならでは (スコア:1)

Re:アルファベットならでは (スコア:0)

モノによるでしょ (スコア:1, 参考になる)

Re:アルファベットならでは (スコア:0)

これはアイディア賞もの (スコア:2, すばらしい洞察)

Re:これはアイディア賞もの (スコア:3, 興味深い)

Re:これはアイディア賞もの (スコア:0)

Re:これはアイディア賞もの (スコア:3, すばらしい洞察)

Re:これはアイディア賞もの (スコア:3, おもしろおかしい)

Re:これはアイディア賞もの (スコア:0)

本来の目的とは外れてしまわないか (スコア:2, すばらしい洞察)

Re:本来の目的とは外れてしまわないか (スコア:2, すばらしい洞察)

文字列と画像が正しく対応しているのをチェックして (スコア:1, すばらしい洞察)

Re:文字列と画像が正しく対応しているのをチェックして (スコア:1, すばらしい洞察)

Re:文字列と画像が正しく対応しているのをチェックして (スコア:3, すばらしい洞察)

根本的な問題があるような・・・ (スコア:1, 興味深い)

Re:根本的な問題があるような・・・ (スコア:0)

4ヶ月以上前のニュース (スコア:1, 参考になる)

Re:お約束 (スコア:1)

ぜひサンプルに使って欲しい (スコア:1, おもしろおかしい)

有効利用？ (スコア:0)

Re:有効利用？ (スコア:0)

Re:有効利用？ (スコア:0)

Re:有効利用？ (スコア:0)

古書と古文書 (スコア:0)

Re:古書と古文書 (スコア:1)

フィルタ機能として活用 (スコア:0)

Re:フィルタ機能として活用 (スコア:1)

Re:フィルタ機能として活用 (スコア:0)

Re:フィルタ機能として活用 (スコア:0)

Re:フィルタ機能として活用 (スコア:1)