umqの日記: バイト列に意味はあるのか(010)
日記 by
umq
ふたつまえの記事で、互換等価は「既存の規格との相互変換を可能にするために便宜的に用意した」と書きました。
記憶を頼りに書く(≡あとでちゃんと調べて書きたい)と、Unicode は図形に符号を振るのではなく、文字に符号を振ることにして、字体の違いはたとえば Variation Selector(古くは Variation Tag: U+FE00-FE0F, U+E0100-E01EF)で切替える、ということだったと思う。
そういう方針であれば、「文字の海、ビットの舟」特別編24で正規等価ではなく互換等価ではないのかと言われている文字が正規等価であるというのも、理解できなくはない。
# とはいえ、アルファベットの大文字小文字はバリエーションじゃないのか、とか、どうしようもないしがらみもあったりするので、これから de facto としてどういう風におさめていくのかは気になるところです。
Unicode の文字データベースには、正規等価、互換等価の他にもいろいろな属性が含まれていて、特に漢字については、Unicode Han Database に同じ文字の違う表現について参照できるように情報がまとめられている。
この情報をうまく使えば、
齋藤さんと斎藤さんと齊藤さんと斉藤さんといった書き分けを集めたりできるかもしれないし、
「機械」で検索して「机械」もヒットするような検索インデクスを作ることもできるかもしれない。
[ひとつまえ]
バイト列に意味はあるのか(010) More ログイン