古文書を読んで画像認証 40
ストーリー by mhatta
アイデア賞モノだがほんとに大丈夫なのかな 部門より
アイデア賞モノだがほんとに大丈夫なのかな 部門より
BBC Newsの記事より。人間には読めるがコンピュータに読めない画像の文字列CAPTCHAは、ブログなどへの広告宣伝業者よけとして、あちこちで使われているソリューションである。試算によると、この文字列を解読するのに人間が使用している時間は一日あたり15万時間にも及ぶという。
この人間の処理能力をもっと有効に活用できないかと、カーネギーメロン大学のLuis von AhnはreCAPTCHAという新しいソリューションを考案した。
古書からスキャンしたデータは、かすれや印刷不良などOCRによって読めない文字を多量に含んでおり、古書のデジタル化は人手に頼る部分がどうしてもできてしまう。そこで機械が読めなかった文字列画像をCAPTCHAに利用して、解読時間を有効活用しようという仕組みだ。
そもそも機械が正答を知らない文字列画像を表示するのに、どうやって機械ではなく人間が解読して入力してきたと判別するのかというのが気になる点であるが、解読済みの文字列とまだ読めていない文字列をあわせて送信し、解読済みの部分が正しく入力されてきたら残りの文字列も正しく応答されてきた、と判別する仕組みだという。
公式ページによるとMediaWiki用のプラグインやPHPのサンプルコードも用意しているようだ。
アルファベットならでは (スコア:2, おもしろおかしい)
『橄欖』
「かんらん・・かな?・・・観覧、かんらん、カンラン。え?違うのか?へ、変換できん・・・」
# 「∀」が「たーんえー」で変換できずにしばらく悩んださ。
Re:アルファベットならでは (スコア:1)
あれ? 合っているんじゃないの? 観覧、かんらん、カンラン…た、確かに変換できない。
もしかして、いわゆる「なぜかへんかんできない」パターンで、間違えて覚えてた!?(((;゜Д ゜)))
# …「カンランガン」だと出ました。:-D
Re:アルファベットならでは (スコア:1)
他にも、正仮名遣いが読めないなんてことになったり、楷書平仮名でもゐとかゑが読めん(あるいは、入力できん)、等など…
#こっちは高校で習ってる筈だけどねえ。
鶯の身をさかさまに初音かな (スコア:1)
「これは達筆すぎて読めないな.」
ということで, あいかわらず連続殺人は防げないのでした.
Re:アルファベットならでは (スコア:0)
漢字なのか、平仮名なのかさえ判別できません。場所によっては1文字なのか2文字なのかさえ分かりません。
むしろスキャンして機械的に認識してくれるツールが欲しい、と思いましたよ、ええ。
Re:アルファベットならでは (スコア:1)
言語が一文字ずつに分解できるというのは、印刷術が広まってきた時の現実的要求ではないでしょうか。活版印刷では、ある程度の個数の活字で言語が表現できないといけないという。
日本で活版印刷が普及したのは明治以降、一般人が書く文字では、つい最近のことですね。話しことばではそもそも文字と文字の区切りは曖昧というかそれ自体近似的なものですから、印刷・パソコン以前の書きことばが話しことばを写したものであれば、文字の区切りも分かりにくいのも当然でしょう。
Re:アルファベットならでは (スコア:1)
Re:アルファベットならでは (スコア:1, おもしろおかしい)
Re:アルファベットならでは (スコア:1)
頻出する「候」なんて、下手をするとただの点(「ヽ」みたいな字形)で書かれたりしますしね。
読み下すには文脈を手がかりにするしかない部分があるので、どの部分を出題するかも難題のような気がします。分かち書きがされていない(というか普通は草書)ので機械的には切れませんし、「意味上はここからここまでがひとまとまり」と判断できるなら、そのときは既に読めているということですし。
あと、変体仮名 [wikipedia.org]なんかはどうする、という問題もありますね。そもそも Unicode や JIS ではコードが振られていませんし。
# TRONコードには収録されているようですが……
Re:アルファベットならでは (スコア:0)
戦前の女学校では教養の一環として習わせられたそうで
モノによるでしょ (スコア:1, 参考になる)
Re:アルファベットならでは (スコア:0)
古文書ならなおさら読めないという問題がありますよね。
これはアイディア賞もの (スコア:2, すばらしい洞察)
ネットで情報を探していると、古い文書(昔の特許情報とか論文とか)をスキャンしたPDFに行き着くことがよくあります。
その文書にたどり着くまでには検索エンジンを使うわけですが、現状だと、人が入力したタイトルくらいしかキーワードとして拾えないことが多いです。
今回のアイディアが有効なら、ようやく、内容にまで踏み込んだ検索が実現する可能性が見えてきたことになりますね。
## ぐう。投稿の2分間隔制限にひっかかったぜ。
Re:これはアイディア賞もの (スコア:3, 興味深い)
どんな古文書もたちどころに解読してしまう、
スーパーOCRソフトを開発してくれるかもしれませんね。
// レイミー・メモも解読できちゃうかも :)
Re:これはアイディア賞もの (スコア:0)
Re:これはアイディア賞もの (スコア:3, すばらしい洞察)
搾取動員できるRe:これはアイディア賞もの (スコア:3, おもしろおかしい)
# いや、公的用途には無理でしょうけども。
Re:これはアイディア賞もの (スコア:0)
本来の目的とは外れてしまわないか (スコア:2, すばらしい洞察)
推測が可能になってしまうので、機械的に処理されてしまうケースが出てくるかも。
Re:本来の目的とは外れてしまわないか (スコア:2, すばらしい洞察)
機械的に処理できるロジックが出来ればそれはそれで素晴らしいような・・・
文字列と画像が正しく対応しているのをチェックして (スコア:1, すばらしい洞察)
だんだんと正答率は上がっていく気がする。
# 猫認証とかゲイツ認証 [captcha.jp]みたいに。
Re:文字列と画像が正しく対応しているのをチェックして (スコア:1, すばらしい洞察)
テスト期間中に正解率が何%かというデータを得たら、同じ文字列の解読が何度行われたら
信頼性のある解読結果になるかを概算して、同じ解読がn回行われたら解読されたとする
統計的なアプローチでいいと思います。
例えばN回の試行でn回入力された回答Xとm回入力された回答Yがあり、n=mの仮説が
危険率99%で棄却されたら有意に大きいXを正解とする、といった形で。
Re:文字列と画像が正しく対応しているのをチェックして (スコア:3, すばらしい洞察)
ただ、人力で解読済みな部分をベースに、「人力で解読した」部分を広げていくことは出来るかもしれません。
・An-1の部分が人力で解読されているならば、Anも人力で解読されている。
・A0は人力で解読されている。
・よって、Anは人力で解読されている。
まあ、機械的に解読できる範囲が途中で広がらない、という前提を全面的に信頼している点では綱渡りですが。
根本的な問題があるような・・・ (スコア:1, 興味深い)
いや、もちろん逆パターンのが遙かに多いのは事実だけどね・・・
Re:根本的な問題があるような・・・ (スコア:0)
所詮機械では「文字として判読した」だけですから、果たしてそれが意味の通る文章として「正しく」判読されたかどうかは、
結局は人間が再確認せざるを得ないわけですから。
機械に読ませるのは、全くのゼロの状態から人間が判読するより、時間労力的に多少マシなだけだと思います。
4ヶ月以上前のニュース (スコア:1, 参考になる)
Re:お約束 (スコア:1)
ぜひサンプルに使って欲しい (スコア:1, おもしろおかしい)
自分でも解読できない部分が多いんだよ…
有効利用? (スコア:0)
> 解読済みの部分が正しく入力されてきたら残りの文字列も正しく応答されてきた、と判別する仕組みだという。
それは "解読の時間を有効利用している" のではなく、"ついでに余計な手間を取らせている" と言うのでは?
人間がCAPTCHA解読に掛ける総時間の15万時間にその未解読の部分を読む時間分が増える訳ですから。
# いや別にアイデアにケチを付けるのではなくて、もう少し良い方式はないかなと思ってしまった次第であります。
Re:有効利用? (スコア:0)
CAPTCHAに使われてきたデータの一部を、古文書から抽出したデータに
置き換えるだけなんだから、解読にかかる手間はいままでとかわらないでしょ。
Re:有効利用? (スコア:0)
本来のCAPTCHAの目的は達成されるわけで。
strlen(解読済みの部分+解読させる部分) > strlen(従来のCAPTCHAのデータ)
なら、余計な作業を強いることに。
strlen(解読済みの部分+解読させる部分) <= strlen(従来のCAPTCHAのデータ)
なら、従来のCAPTCHAデータにムダがあったということかな。
Re:有効利用? (スコア:0)
1つの単語入力でよかったのが2つの単語入力になっていて、一方は本来必要のない作業というわけで、余分な労力をかけているだけです。
その他のオーバーヘッド(リンクをクリックして単語を表示する等)という作業は増えていないので、解読する、という作業を(captchaと同じインタフェースで)行うのに比べれば「ユーザー」の労力は減るので、有効利用と言えなくもないのかも...(単語を抜き出してcaptchaのインタフェースに取り入れる労力を考慮するとどうだろう、とは思うけど。自動化できるのかな。)
古書と古文書 (スコア:0)
Re:古書と古文書 (スコア:1)
そうお考えなら、どう混同しているか指摘した方がよいのではないですか?>古書と古文書
要するに、いわゆる「古書」は日本史学などでいう古文書(こもんじょ)には含まれない、ということですよね。
ただ、BBCの記事では“old books and manuscripts”などと書かれていて、タイトルの「古文書」は「古史料」くらいが妥当かなとも思いますが、ちらっと拾い読みした感じではそんなに古い史料の OCR までは(まだ)考えていないように思えますので、「古書」でいいのではないでしょうか。
いずれにせよこの場合は「古文書」はあまり正確な言いかたではないでしょうね。
よく分からん、という方はWikipedia の説明 [wikipedia.org]あたりを読んでいただければよいかと。
フィルタ機能として活用 (スコア:0)
ということでサービス対象者を限定する手段にも利用できそうですね。
このような文字列判別ってたいていカラフルな文字を判別する必要がありますが、
色覚異常の人を排除しているのではないかと心配です。
Re:フィルタ機能として活用 (スコア:1)
それは一概には言えないのでは。
例えばこんなの:色盲はカラー・カモフラージュ条件で有利 [kyoto-u.ac.jp]
戦争で、敵兵士の迷彩を見破るのに色覚異常を持つ人が活用された、なんて伝説も聞きます。こちらが事実かどうかは不明ですが。
Re:フィルタ機能として活用 (スコア:0)
Re:フィルタ機能として活用 (スコア:0)
まあ、典型的に、間違った前提条件から導き出される、誤った憶測ですな。
前提と憶測の結びつけ方自体は悪くないと思いますが。
Re:フィルタ機能として活用 (スコア:1)
> 色覚異常の人を排除しているのではないかと心配です。
交通信号とか家電の電源ランプとか抵抗のカラーコードとかに散々排除されまくって
おりますので、今更気になりません。
-- Tig3r on the hedge