umq (4421) の日記

○ ◎ ●

NLS って難しい(B)

umq による 2004年08月27日 14時45分 の日記 (#246089)

YamaKen さんのメモ: CP20932 と CP51932 の件、続きへの反応。

■ 変換時の考慮(ちょっと私の調べていたこと) Shift-JIS から EUC-JP 等へコードの変換を行う必要があるが面倒くさいとか不可逆のため無理、という場合、一旦 ISO-2022-JP のような「双方で変換かのうなブツのリストに入っている」コードを介するのがよい様子。(フグ本の P.427 にサンプルがある様子。言語はなんだろう。開発は不慣れな畑のものでよくわかりませんが。)
変換のロジック等はその前後に載ってます。(消化不足のため内容まで今ココではかけません。(T_T))

CJKV(所謂ふぐ本)で扱っている文字コード変換は,規格上のコードポイントの変換を行うもので,非常にプリミティブというか,文字コード間の違いを理解するのにはよいが,所謂機種依存文字の扱い等は考慮されていない。
また,これらのサンプルは,同じ著者が以前に書いた Understanding Japanese Information Processing(日本語情報処理)で書かれたものと同じなので,Unicode 系のエンコードには対応していない。
著者のページで件のサンプルコードは公開されている。サンプルの処理系は C と perl である。

「日本語情報処理」と「CJKV」のいずれも日本語訳を持っているが,漢字圏のデータの扱いについて広く言及されており,大変重宝している。

[ひとつまえ]

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

日本発のオープンソースソフトウェアは42件 -- ある官僚

処理中...