パスワードを忘れた? アカウント作成
11628790 journal
日本

yasuokaの日記: NDLサーチの異体字テーブル

日記 by yasuoka

長坂和茂の『書誌データベースの異体字処理―谷と穀は同じ字か―』(大学図書館問題研究会誌, 第38号 (2014年8月), pp.15-23)を読んでみた。CiNii Books、NDL-OPAC、国立国会図書館サーチ(NDLサーチ)について、異体字処理がどうなっているか調査した論文で、第6章までは楽しく読めた。だが、第7章「NDLサーチ再調査」(pp.20-21)に入って、妙にアヤシイ内容になってしまい、正直かなりめげた。

JIS第1水準から第4水準までの文字の中から、繁体字と日本漢字の関係にある文字を選択した。具体的には、国(第1水準漢字)と圀(第2水準)、朗(第1水準)と朗(第2水準)、銭(第1水準)と錢(第3水準)、虚(第1水準)と虛(第3水準)、猫(第1水準)と貓(第4水準)、隲(第2水準)と騭(第3水準)の合計6セットの文字の組み合わせを用いた。

「朗」は第3水準、「錢」は第2水準なので、いきなり間違ってしまっている。それでも、これが結果に影響を与えないなら、まだ何とか持ちこたえるのだが、以下の始末である。

NDLサーチでは、第1水準と第2水準の範囲にあるものだけが同じ文字として扱われ、第3水準、第4水準のものは全て別の文字として扱われていた。具体的には、第1水準と第2水準の組み合わせである「国と圀」及び「朗と朗」の組み合わせのみが同じ文字扱いで、それ以外は全て、別の文字として扱っていた。

私(安岡孝一)もNDLサーチを調べてみたのだが、長坂の結果と違って、「国と圀」「朗と朗」に加えて「銭と錢」も同じ文字扱いとなっている。どうやらNDLサーチでは、第1・第2水準漢字の異体字テーブルに加えて、CJK互換漢字の正規化がおこなわれているようだ。そのあたり、長坂が「朗」(U+F929)なんていう微妙な漢字をあえて選んだ意図は不明だが、もう少し細かく調査すべきだったと思う。ウチの全国漢籍データベースの異体字処理も含め、ぜひ再挑戦してほしい。

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
typodupeerror

ナニゲにアレゲなのは、ナニゲなアレゲ -- アレゲ研究家

読み込み中...