パスワードを忘れた? アカウント作成
13097560 journal
日記

Junosの日記: 『Software Design』2016年12月号第2特集「文字コード攻略マニュアル」で気になるところ 2

日記 by Junos

http://gihyo.jp/magazine/SD/archive/2016/201612

 すでに安岡先生の指摘があり、訂正も出ましたが、まだ気になるところはあるので簡単にメモ。

- ゼロからはじめる文字コード

* 2016年の記事でIVD / IVSに触れられないのはおおきな瑕疵かと。UTF-8の項で「ひらがなや漢字が3バイトで表現される」という不正確な表現が出てくる一因になっています。
* JIS X 0208ではギリシャ文字やキリル文字、罫線なども扱えます。
* UNICODEもJISで規格化されています(JIS X 0221)。そういえばISO/IEC 10646は出てこない……
* Microsoftが「OEMメーカーに対してJIS X 0208の拡張を許していた」とありますが、MS-DOS時代の日本語文字の取りあつかいは漢字ROMが主流で、MSが許す・許さないという話とは違うのではないかと。

- HTMLと文字コード

* 「指定した文字コードに存在しない文字を表現するには」、「Shift-JISをcharset属性に指定していると、JIS X 0213に含まれる第3水準漢字などが扱えません」とありますが、JIS X 0213にShift_JIS-2004が挙げられているのを取りあげないのはまあいいとして、そのあとの「文字参照を使う」であつかう方法を挙げているのですから、正確に表現できていません。「文字集合」と「文字符号化方式」と「文字コード」の使い分けがうまくできていないからですね。

- Javaと文字コード

* char型と「文字」の使い分けがうまくできていません。そのためか、「Unicodeでの文字数の概念」というよくわからない表現が出てきます。

- MySQLと文字コード

* 「latin1(ISO 8859-1)」が突然登場します。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • さっき「お詫びと訂正」(Software Design, 2017年1月号, p.184)を読んだのですけど、これだけたくさんの「訂正」があると、どれが「訂正」できていて、どれが「訂正」しきれていないのか、正直よくわからなくて…。まあ「初心者が書いた」初心者向けの記事だったということでしょうか。

    •  訂正が多いように見えるのは登場回数の多い「0x8F未満」を丁寧に「0x7F以下」に直しているからで、全体としては安岡先生の指摘の範囲にとどまります。

      「初心者」というよりは、Web系の開発で得た知見を体系的に整理したり勉強したりせずにアウトプットした印象です。たぶん仲間内では文字コードにくわしい人間ということになっているのだと思います。

       技術評論社は文字コードで本も出している [gihyo.jp]のですから、私も編集者の責任がおおきいと思います。というか、どうしてこんな人選になったのかが謎……

      親コメント
typodupeerror

あつくて寝られない時はhackしろ! 386BSD(98)はそうやってつくられましたよ? -- あるハッカー

読み込み中...