パスワードを忘れた? アカウント作成
245682 journal

Torisugariの日記: 活字拾いごっこ 2

日記 by Torisugari

私の記憶が確かなら、『銀河鉄道の夜』の主人公の職業は「活字拾い」なるものだったと思います。つまり、原稿を元に活版を作成するアルバイトですね。機械化・及びデジタル化が進んだ昨今では、ジョバンニさながらの活字拾いは姿を消しつつあるのかもしれませんが、この広い社会のどこかでは、だれかがこの職に相当する作業を行っているはずです。例えば、マンガのセリフを貼る人とか。よく知らないのですが。

こういった仕事は、従来、印刷業でしかできないし、また、それ以外では意味の無いものでした。しかし、今ではウェブを使っていれば、当たり前のようにこの作業が要求されます。すなわち、CAPTCHAというやつです。ある程度難読化された視覚情報を文字コードに変換するのが、いかに大変か、もはや議論の余地もないでしょう。しばらくすれば、一定の書法に基づいた手書き文字をある程度の精度で認識できるOCRは、開発されると思います。しかし、逆に、既存の手書き文字をある程度の精度で認識するOCRの開発は、なかなか難しいのではないでしょうか。

そこで、この困難さを笠に着て、自主的にCAPTCHAを行う遊び、「活字拾いごっこ」あるいは「ソリティア・キャプチャ」を提案します。

遊び方

  1. 字の書いてある画像(なるべく手書きが望ましい)を用意する。
  2. 画像を読みながら、その通りに字を入力する。
  3. 出来上がったら、それを眺めてニヤニヤする。
  4. (上級編)他人が入力したデータのあら捜しをする。

字の書いてある画像の入手法は、俄かには思いつかないかもしれませんが、例えば、奈良女がスキャンしている坂本龍門文庫など、まとまった量があっておすすめです。

我々は、現在、急速に膨張する文字コード群、とりわけ、Unicode/UCSに包まれて生きています。それは、とりもなおさず、我々に使える字体・フォントの数が増えて行っていることを意味します。漢字ひとつをとってみても、今まで代用字で諦めていたものが、フォントまで含めて簡単に入手できるようになっている、ということです。入力には未だ難がありますけれど、この状況は、過去の世代にも未来の世代にも味わい得ない、我々現代人だけの特権でしょう。

まあ、そういった御託はともかくとして、とりあえず、私もやってみました。

ファーヴニルの箴言

ちなみに、画像のソースはhttp://www.am.hi.is:8087/です。あと、まともに表示するにはMedieval Unicode Font Initiative準拠のフォント、例えばJunicodeなどのインストールが必要です。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by Anonymous Coward on 2010年08月12日 10時13分 (#1808638)

    マンガの吹出しは活字ではなく写植でしたがそれはさておいて、
    提案されたゲームにおいて、原稿から文字を読み取る作業は共通していますが、その後の、読み取った文字を拾う作業が抜けています。
    旧来は活字にしろ写植にしろ基本的に、表形式で並んだ文字の中から必要な字を拾って植えるという作業を行っていたわけですが、これは現在の仮名漢字変換とは決定的に異なる作業です。
    幸い今ではフルHD解像度のモニターも決して珍しいものではなくなっています。ここはひとつ、画面を埋め尽くす細かい文字の中から目的の一文字一文字を探して拾うという作業を必須の要素として組み入れることを提案いたします。

    • 実際にやってみるとわかりますけど、画像の中身が一定以上古い場合、どうしたって「拾う」ことになります。

      例えば、『王の写本』の場合、キーボードで入力できるのは全体の3割くらいで、残りの文字はCollation Chart [unicode.org]などから1文字ずつコピペしたり、M.U.F.I.の合字の表を眺めて16進の参照入力して作成しています。尤も、そういうことをしなくて良いように、各国は正書法や常用漢字を定めているわけですが、そこを敢えてマニアックな文字コードを使ってなるべく正確に表現しよう、というのがこの遊びの本質ですからね。

      漢字の場合は、Glyph Wiki [glyphwiki.org]のように便利なサイトがありますけど、それでもやっぱり、同じ部首の字が何百と並んでいるのを見ると、「ああ、今、私は字を拾っているな」という実感が持てることは請け合いです。

      ですから、IMEにとって既知な字すら「拾う」のは、何と言うか、ちょっと上級者向け過ぎませんかね。とはいえ、欧米人のように漢字の読み方が分からない人たちがこの遊びをすれば、ほぼ、そういう状況になってしまうと思いますけど……。そうですね、出題者と回答者のように完全にホストとゲストが分かれる遊びにするのなら、漢字の表を用意してあげるのはアリかもしれません。ただ、たとえフルHDでも、部首索引なしで探すのはムリだと思いますよ。あ、「第1水準までしか使わない」といった縛りを入れたら、うーん、どうだろう。

      私としては、難易度調整は画像の選び方で行う方が良いと思います。まだ未トライですが、楔形文字 [wikipedia.org]とかなら、「拾う」感覚に関してはバッチリだと思います。

typodupeerror

人生unstable -- あるハッカー

読み込み中...