1byteカナ文字の流行はいかがなものか? 204
ストーリー by yourCat
日本流AAには必須? 部門より
日本流AAには必須? 部門より
Yasuda曰く、 "私は余り技術的な事には詳しくないのですが、「インターネットでは1byteカナ文字は使用しない」というのが昔は通説だったと思います。しかし某巨大掲示板の影響か、最近、様々な掲示板で使用されているのを見ます。
以前から1byteカナ文字の使用されているサイトなどはよくあったりもしたのですが、最近のこの風潮、皆さまはどう思われます?また、現在ではその辺りの事情はどうなっているのでしょうか?"
RFC1468およびRFC1554ではISO-2022-JP (2) を正式な日本語エンコーディングとし、JIS X 0201カタカナ群、いわゆる1byteカナ (半角カナ) はその埒外だった。それ以来メールやニューズグループでは1byteカナが敬遠されてきた。しかし日本語webページの普及、およびShift JISユーザーが大挙してインターネットに傾れ込んできた結果、現在では一定の市民権を得るに至ったように見える。
とはいえ半角カナの統一された実装方法がなく、今でもトラブルの原因になりやすい。またShift JIS住人側でも、Internet Explorerの日本語自動判別のためにwebページでは半角カナを使う方がいいという迷信があったり、逆にMacでは半角カナはオプション扱いで出荷時設定ではオフになっているなど、さまざまな混乱が見られる。
ここらでもう一度半角カナの存在を見直すのもいいだろう。
話を混ぜるのはやめよう (スコア:5, 参考になる)
技術的な視点:
Mail と NetNews で MIME を使わない場合:
日本語のメッセージには ISO-2022-JP を使うから
いわゆる「半角カナ」(JIS X 0201の右半分)は使えない。
独自で使えるようにしてある実装はあるが、それは違反。
MIME を使う場合:
いわゆる「半角カナ」を利用できるエンコーディングであれば
普通に使うことができる
WWW の場合:
MIME と同様
ちなみに、各地の掲示板などで、「半角カナは化けるから
使用禁止」とあったのは、
a. 仕様の不備
(FORM のコードの指定方法が以前は未定義だった)
b. a. に基づく一部の古いブラウザの実装の不備やバグ
(最近のは大丈夫です)
c. 掲示板のプログラムが腐ってる
(今でも腐ってるのけっこうあると思います…)
によってじっさいに化けていたからなわけですが、
今ではもう無視できる話です。
文字コード概念での視点:
現在主流の文字コードは、原則的には文字を字形でなく、
その意味で規定し、名前を割り当てる。
ISO-2022 系のエンコーディングでは、複数の文字集合を
組み合わせて使う場合、同じ文字(同じ名前の文字)
については、原則としては互換目的以外では、
コードを割り当てる領域の番号が小さいものを使う
ことになっている。「全角英数字」や「半角カナ」
を互換目的以外に使うべきではない
Unicode でも「互換文字」である部分の文字は
原則として使うべきではない。化けるようなプログラムはステ。
現実:
文字を意味でとらえる概念はまったくもって一般的に
なっていない。みな「字形」をそのよりどころとしている。
MIME をフルサポートしてるメーラ/ニュースリーダが普及
しきってるわけではないのが現状。少なくともメールにおいて
は、ISO-2022-JP 以外を使うのはまだ非現実的。
よって少なくともこの分野においては使うべきではない。
WWW においてはその点の問題はほぼ存在しないから、
コンテンツ作成者の主義主張の問題次第。
私見:
文字の意味的には同じだから、文字幅などの字形には意味が
無いというのは正論だが現実を見ていない。実装がある前の
論理的な話ならともかく、現実には、いわゆる「半角カナ」
を半角で表示しない実装はほぼ無く、そうなるとそこに意味
が生じてしまうのは必然である。
実際、パソコン通信時代からある「半角カナ」を利用した用語
群には、「半角カナであること自体に意味がこめられている」
のが共通のお約束。そういった背景を把握せずに機械的に非難
するのは無粋。
半角カナなどの互換文字と、「はしご高」などの異体字
は、厳密には方向性は違うけど、目にみえる実際の問題として
は同種。後者の文字コードとしての割り当てを願う人は、
前者に文句をつける筋合いは無いはず(藁
世間は確実に「文字を増やす」方向に動いており、その中で
「半角カナ」という意味をもってしまったものが消えるとは
とうてい思えない。
ついで。2ch の AA は、そもそも「MSゴシック依存」であり、
半角カナ以前。気にするほうが間抜け。
Re:話を混ぜるのはやめよう (スコア:2, すばらしい洞察)
で、お決まりの突っ込み……どうして「MS」「P」が全角英字なんだー。
鵜呑みにしてみる?
Re:話を混ぜるのはやめよう (スコア:3, すばらしい洞察)
Re:話を混ぜるのはやめよう (スコア:1)
カナや英数字の二重コード問題はJIS C 6226-1978の策定ミス [asahi.com]であることが明白(リンク先はISO646だが、シングルバイトのカナも同じ構想があった。)。とはいえ、今となってはひらがなの不在や原稿用紙との対応に欠けるという弱点を持ったX0201のカナをフェードアウトさせるのが筋。過去データを読む以外の意義しかない。文芸するならPNGですべき。
当方が対応を異ならせる理由としては、こんなもの。
Re:話を混ぜるのはやめよう (スコア:1)
そもそも様々なOSで閲覧されるWebにおいて、特定のOSにのみ存在するフォントに依存するものを作る、というのがいかがなものかと思いますね。今ならモナーフォントというのも一応ありますが、「MS Pゴシックアート」が最初に作られたころにはそんなものはなかったでしょうから、色々な環境の人がいる、ということに対する配慮が足りなかったとは言えるでしょう。
Re:話を混ぜるのはやめよう (スコア:2, すばらしい洞察)
Windowsのメモ帳はISO-2022-JPやEUC-JPに対応していないくせに、IEでソースを表示するときにメモ帳を使うのは間抜けですね。ISO-2022-JPやEUC-JPで書かれたHTMLだと必ず文字化けするわけですから(メモ帳に渡す前にShift_JISに変換するというのならまだわかるが)。Netscape Navigatorはかなり昔からISO-2022-JPやEUC-JPのページのソースをちゃんと表示させることができていました。
MSはメモ帳をISO-2022-JPやEUC-JPに対応させる気はないんだろうな...(sigh)
Re:話を混ぜるのはやめよう (スコア:2, 参考になる)
逸般的な世界では半角カナで書くことにはそれ相応の意味があったのです。
基本的には、揶揄や自虐といった感情をこめる場合、それから単純に度合いが
強いことを示す場合などに使われていました。「顔文字」に準ずる位置づけを担っていたわけです。
パソコン通信が閉じていたのはその事通りですが、ある程度人が移動
するのと、「辞書」という形での文化流出によって、インターネット前夜の段階で、一定以上の
範囲で、この「半角カナ」を駆使する独特の用語群が共通して使われるようになっていました。
それの一部はそのままインターネットにももちこまれています。ただ、当初は「半角カナ禁止」の
影響で駆逐され気味だったものが、2ch の台頭により、新しい顔文字や用語と併せて復権した
感があります。コメント投稿者の指摘はその点正しいですね。
もっとも、当時に比べてネット人口は圧倒的に増加しているわけで、そのパソコン通信由来で
あった意味をこめて使っている人がはたしてどの程度いるのかは不明ですが…
この種の半角カナの用法のある程度まとまった資料としては「通信用語の基礎知識」の「波動編」
を通読すると……って消えてるし(汗) うーん。現在の版から検索したらかなりの用語が消えてますね。
従来は「(ぉ」の部分に、半角カナを含めた活用があったはず……おねがいGoogleどん!……ハケーン
古い版の該当部はこうでした(波動用語の基礎知識'95)
#(ォ [オ] 〔単漢字〕
おいおい、のように自分にツッコミを入れるときに用いる.
【用例】X68030での不都合を修正したら, 000機種で不都合
した(ぉ
【用例】>>俺んち北海道~
>夏休みにでも襲撃しますので流氷見に連れていっ
>て下さいね~(
夏に流氷なんかねぇ~~~~~~~~(笑)
※全角よりも半角, ひらがなよりもカタカナ, 更に大カタカ
ナよりも小カタカナのほうが, より気持ちのこもった表現
になる. (お→(オ→(ぉ→(ォ→ (オ → (ォ
現在の版で該当項目がどうなっているのかは、ご自分でご確認ください。
どーしてもおいかけていろいろ調査してみたければ、この用語集の古い版などを探して
みてください。少なくとも2000年ごろまではいろいろと載っていたと記憶しています
ま、「半角カナ」を単純に否定することは、こういったある種の「文化」をまるごと否定する
ことにつながる、ということはご理解いただけるのではないでしょうか。技術的に無理なら、
しょうがないけど技術的に可能となると、この概念は下手すると永劫に消えないのではないか
と思います。マジで。
根本的に… (スコア:4, すばらしい洞察)
いわゆる「半角カナ」が横幅狭いのはたまたま慣例的にそういうデザインのフォントにしている場合が多い、というだけのこと。
いわゆる「全角」フォントでも幅狭のものは当然できるのだしね。
過去との互換のために残してあるものは新規に使うことが無いようにすべきだと思う。
Re:根本的に… (スコア:2)
> そういうデザインのフォントにしている場合が多い、
> というだけのこと。
> いわゆる「全角」フォントでも幅狭のものは当然できるのだしね。
Windows標準で使われてるフォントは差が小さいので、
半角と全角を混同しやすくて困ってます。
[udon]
Re:根本的に… (スコア:1)
掲示板にRFC1468も、いかがなものかと。 (スコア:3, すばらしい洞察)
ここでの「インターネット」はMailでもNetNewsもなく、 htmlの話だと思うのですが、それなら、 まずw3cにあたるべきではないかと‥‥
これらを見る限り、「html文書に"Halfwidth Katakana"を 用いること」は、html的にはなんら問題ではないかと思います
などというのは別の話です
「Mail, NetNewsでは、」と頭に付けとかないと、これはですね、きわめてですね、誤解を招きかねない表現でありまして、斯様な表現をですね、用いることはですね、こう、いかがなものかと。
Re:掲示板にRFC1468も、いかがなものかと。 (スコア:2, 参考になる)
確かにMail/NewsとWebは状況がバラバラだが、繋げて仕事せざるをえない環境もあるわけだし、未だにMIMEだけメールには強い拒否反応があるわけですし。
Re:おかあさんに話すように正直に (スコア:1)
携帯電話 (スコア:2, すばらしい洞察)
限られたスペースにより多くの情報を表示させるには1byteのカナ文字は有効ですから。
Re:携帯電話 (スコア:2, すばらしい洞察)
そういう問題ならJIS X0208のカタカナを漢字の半分の幅で表示する、という方法でも十分ではないだろうか。わざわざJIS X0201にしなければならない理由にはならないと思います。
Re:携帯電話 (スコア:2, 参考になる)
日本語のwindowsには数年前から、2byteカタカナが多少狭い幅になっている、
というデザインのフォントが搭載されているんでしたよね。
つまり、そういう手でで済むじゃん、という(^^;。
あとケータイについては、表示幅だけじゃなく通信データ量が半分だから、
という理由も言われていたような気がしますが、
そんなもん圧縮すりゃいい(それこそカタカナが連続してれば
効率的に圧縮できるはずなので)じゃんとか思ったりします。
従来からあるハンカクカナを「安易に」受けいれてしまった結果だろうなとは感じます。
独自の閉じた情報網ならいざしらず、インタネに繋がったのならば、
それなりの配慮をしてくれよーって。
オフトピ(だろうか?):
どうして(少なくとも)MSIMEには、「半角仮名をいっさい打てないようにする」
という設定が、存在しないんだろう?
win+msimeな環境を当てがわれたときに俺が最初にする作業は、
msimeの変換デフォルト挙動の設定をいじって、できるだけ
半角仮名が出にくくなるようにする、という作業。
なんか毎回やるのはスマートじゃないなあ。なんとかならんかこれ?
IME (スコア:3, 参考になる)
ATOKには、「インターネット用設定」というものがあります。自分では使っていないので詳しいことは分からないのですが、半角カナは出ない、機種依存文字も出ない、というものらしい。
MSIMEもそれくらいしてくれてもバチが当たらないとは思うのだが(Outlook Expressから起動したら強制的にそのモードにするとか)。
IME (スコア:2, 参考になる)
>という設定が、存在しないんだろう?
IME2000なら、「プロパティ」→「オートコレクト」で、
少なくとも変換で半角カタカナが出ない設定にはできるはずだけど。
#多分、IME-97も一緒。
#F8で半角カタカナは出ちゃうけど。
半角記号が (スコア:2, 参考になる)
MS-IME2000で試してみました。
半角カナに含まれる記号 「」・、。 などが英字記号と同グループとして扱われているので設定をいじるのに手間がかかります。
具体的には
でグループ化されています。
ツリーを開けば個別に指定できるので大きな問題ではないのですが、これでは半角カナに該当する記号がどれなのか、予備知識or資料が無いととても無理。
また候補一覧で半角カナは候補に現れないように設定しても半角カナ記号は平気で候補に出てきます。
そんなわけでMS-IME2000は「半角カナコードを使わないようにする」という考え方は持っていないようです。
うじゃうじゃ
Re:携帯電話 (スコア:2, 参考になる)
モードシフトのコードが2byte付加されるから、2~3文字の半角カナを入れまくると、却って通信データ量が増えます。
携帯の次に貢献したのは (スコア:2, すばらしい洞察)
じゃ、その次はやっぱりWindowsですか? 95/98/NTだと「スタート」の文字は確か半角だし、アクセサリの中のアイコン名も軒並み半角カナのはず。
でもWin2000以降であっさり方針転換してくれやがったので、NT4とWin2kの混在したネットワーク環境で、ユーザープロファイルをサーバー上のホームディレクトリに置くと、アクセサリの中身が見事に全角・半角で二重化されてしまいます。
ま、MSらしいといえば、全くその通りなんですが。
消し込み予定 (スコア:2, 参考になる)
ただ、Unicodeの実体参照やISO 2022で強引に指示することはできちゃうわけで。
#ただし、そこでモノタイプ保証を要求されたって、わたしゃ知りませんって。
文字コードのハンドリング云々以前に (スコア:2, すばらしい洞察)
ひらがな・漢字から急に字幅が変わると読みづらいとかで嫌うとか、
人間の感覚的な理由で嫌う人の割合も実際には大きいと思われるのですが...
いかがなもんでしょう?
#えぇ、私も貧乏臭い・読みづらい・顧客に読ませる代物じゃないと
#叫んで半角カナ撲滅運動を社内でやってました。MS-Wordファイルの
#設計書からも抹消する勢いで...
Re:文字コードのハンドリング云々以前に (スコア:1)
それはさておき、ここで議論されている方々はメールでの問題とhtmlでの問題の本質的な違いを理解されているでしょうけど、私の経験では、メールで1byteカナが使えないことを知らなかったり、そもそも1byteカナとは何か知らないという方も少なくないように見受けられます。
そういった現状を考えると、掲示板で使ってもOKかどうかという問題以前に、とりあえず日本語変換プログラムの側で、デフォルトの設定では1byteカナが出ないようにすべきではないでしょうか。
# MUA側で直せばいいという意見もあるのかもしれませんが…
あと、携帯電話に関しても、今どきの音源やらJava VMやらCCDカメラやら搭載した端末はどうやっても「限られたリソース」には見えませんので、何も1byteカナを使う必然性は無いように思います。
Re:文字コードのハンドリング云々以前に (スコア:1)
# ってかそれよりデフォルトをテキストメールにしてほしいような。
IMEもデフォルトで半角カナ出さないですよね?
携帯電話のディスプレイの大きさを考えれば半角カナを使う
必然性は十分あると思います。
Re:文字コードのハンドリング云々以前に (スコア:1)
日本語の文字を表すのに使うエンコーディングが、メールでは慣習として ISO-2022-JP に決まっているのに対し、 Web では作成者の意向により SHIFT_JIS や EUC-JP なども選べるという点が本質的に違うということでしょうか。だとしたら、なぜそのように違うのでしょう。識者なり私見のある人なりの意見を聞きたいです。
鵜呑みにしてみる?
Re:文字コードのハンドリング云々以前に (スコア:1)
今もあるかどうかは知りませんが、漢字コードを変換するプロキシサーバというのがあります。そういうものの存在を考えると、JIS X0201カナ入りのShuft_JISあるいはEUC-JPのページをISO-2022-JPに変換するとき困ったことになるので、やはりJIS X0201カナは避けた方が無難、ということにならないでしょうか。
仮にWebページにJIS X0201カナが入っていたら、たとえWebではそれが合法だとしても、Webページの内容をコピーアンドペーストしてメールで送ることができなくて不便である、という説明をどこかで見たことがあります。
半角カナ使用者保護運動 (スコア:2, 参考になる)
ずっと更新が止まっているのですが、「半角カナを使ってはいけない」という意見をめぐる議論をまとめて解説している人がなかなかいないので、このページやここから辿れるいろいろなページに期待しています。
鵜呑みにしてみる?
あると苦労も発生するけれども、なくても困る (スコア:2, すばらしい洞察)
という点での合意が成り立っていないことが問題点?
「ここでは、半角カナを使わないでね」とか
「ここでは、半角カナ歓迎!」といった前提なしに
一方だけが利用をすれば、
論争になることは必死<どちらが正しいかはともかく
Copyright (c) 2001-2014 Parsley, All rights reserved.
PHP 4.0.6以降なら (スコア:1)
すれば幸せになれる?
- Ryuzi Kambe -
Re:PHP 4.0.6以降なら (スコア:1)
じゃ駄目ですか?
#mbstring 関数を有効にしてコンパイルする必要がありますが
ひとつおふとぴな質問。
FORMなどから半角カナを入力された場合、
エラーとして処理するのと、全角に変換してエラーにしないのは
どちらの方がシアワセでしょう?
Re:PHP 4.0.6以降なら (スコア:1)
「半角カナが使用されているようです。カタカナは全角で入力して下さい」というように表示してエラーにするのが教育的にはいいように思う。
それもそうだな (スコア:1)
……気を付けるか。
ウェブの外でも (スコア:1)
英文字では、細長く見せたり、太く見せたり、というフォントが数多くありますけど、日本語では殆ど、プロポーショナルフォントでも、正方形の1マスに1文字というスタイルが原則に成っていると思います。
そう言う意味では、Microsoftが全角カナでもかなり細身に見える「MS UI Gothic」を作ったのは、なかなかに良い判断だったと思います。
略して書かれるよりは、半角カナでフル表記の方が嬉しいけど、どうもしっくり来ない。
そうれはそうと、EUC-JPでは、半角カナは3バイトだったはず……。
Re:ウェブの外でも (スコア:1)
鵜呑みにしてみる?
Re:ウェブの外でも (スコア:1)
EUC-JPの半角カナは2バイトでした。(0x8E + 0xA1~0xDF)
Re:ウェブの外でも (スコア:1)
文字コードEUC-JPで作成したDBに半角カナを格納しようとしてはまったことがあります…(フィールドサイズがたりなくて)
Re:ウェブの外でも (スコア:1)
ロータスノーツなんかで使われてるLMBCSでは、 いわゆる半角カナやフツウの日本語も1文字3byteです。
というより、 濁点が文字から離れてるのがどうにもダサく感じます。 ワープロ(特にMSのオフィス製品)でDTPソフトのように 字幅が狭められれば半角カナの需要は減るかなあ。
Re:ウェブの外でも (スコア:1)
# MS ゴシックとMS UIゴシックの
# フォントファイルは分けてくれないかなぁ > MS
Re:ウェブの外でも (スコア:1)
> そう言う意味では、Microsoftが全角カナでもかなり細身に
> 見える「MS UI Gothic」を作ったのは、なかなかに良い
> 判断だったと思います。
私の場合、「MS UI Gothic」のおかげで今自分が全角カナを入力しているのか、半角カナを入力しているのか、判断するのに苦労するようになっちゃいました(私の目が悪いだけという話も…)。
私が使っているWindows98SEでは極力「MS UI Gothic」を排除するように設定を変更しているのですが、どうしても駆逐出来ない部分が…(泣)。
Atok使いのぼやき (スコア:1)
…使うと変換精度落ちるんだよね
何とかしてほしいなぁ
#なら 使うなってのはナシね
#やっぱ 顔文字とか考えるとあってもいいと思う
半角カタカナのこと? (スコア:1)
私の環境ではその"1byteカナ"のコードが見つからないので,"半角カタカナ”って事で書きます.
#jis, euc, sjis の半角カタカナはすべて2byteコードです.
#od コマンドあたりで確認できます.
#1byteカナって違うものかしら?
作成されたプログラムの都合や管理人の好みで,半角カタカナは禁止になっていたりしますが,RFCは「事実上標準」となる指標となっているだけで,技術の上では準拠する義務はないですよね.掲示板のプログラムとブラウザが対応しているのであれば,利用できる文字が増えて良いでしょう.但し,半角カタカナが表示されず,内容を確認できないユーザが居るとなると,やや気が利かないページってことです.
私は,半角カタカナの使用は人の好き好きで良いと思います.
もし自分の掲示板で半角カタカナを表示したくない人がいるなら,自分でCGIを直すか,書き込みする人にお願いすれば良いだけの事です.
#私は,半角カタカナ禁止の理由に"RFC"(特にネチケット)を引き合いに出す事の方が,
#気になります.自分の言葉で断りを書けば良いのに・・・
メールのネットニュースだと,昔はコードに関係なくヘッダに“日本語”を入れただけで怒られましたが,それはプログラムがまだ対応してなくて,端末画面(やktermとか)全体が化けてしまい,操作不能になったからです.
他にjisなどの漢字コードに制限したり,いろいろありましたよね.
CGIだと処理の関係上不具合を起こす事もありましたが,今はそうでもないですよね.
ついでに・・もしiモードメールで半角カタカナを使う人は,ちょっとのお金でもケチるなら濁音や鼻濁音は全角入力をお奨めします.半角カタカナでは“カ゛”となってそれぞれ2byte(計4byte)です.“ガ”なら2byteで済みます.
kero
Re:半角カタカナのこと? (スコア:1)
1byteカナとか半角カナとか言われますが、どのように呼ぶのも「これならバッチリ!」という感じがしないんですよね。
私は、半角カナと呼んでます。1byteカナだと、コード系により異なるからです。
私の記憶だと、
- JIS(7bit)で1バイト+エスケープシーケンス、
- SJISで1バイト、
- EUCで3バイト
なんですが(親コメントとは違いますが)。
なら、プロポーショナルな世界で半角カナってどういう意味だ、ということにもなりますが、どちらの呼び方も欠点があるなら、歴史もあり広く使われている方を選びます。
半角カナという用語に依存のある人の意見は多数あり、まあ説得力のあるのもありますが、一番笑えたのは「写植業界にそんな言葉はない」というものですね。ここはそんな業界じゃない:-P。
Re:半角カタカナのこと? (スコア:1)
技術的には、JIS X0201カナ、と呼ぶのが一番いいでしょう。一般の人には通じそうにないのが残念ですが。あと、EUC-JPだと2バイトですね。
半角カタカナは負担である (スコア:1)
半角カナが存在しているがために、それを正しく扱えるようにする、あるいはエラー処理をする、というように何らかの対処をしなければなりません。半角カナなるものが存在するだけで、日本語を扱うアプリケーションの開発者にとって負担が増えてしまいます。
開発者でない一般ユーザでも、半角カナというものが存在していなかったら、うっかりメールで半角カナを使ってしまって叱られる、ということもなかったことでしょう。
JIS X0208ができて、それをコンピュータで扱えるようになった段階でJIS X0201をobsoletedにして、絶滅していてくれた方が、みんなハッピーでいられたと思います。
Re:半角カタカナのこと? (スコア:1)
# 当然、社内では「余計なお世話」という罵声が...
半角カナですか? (スコア:1)
Re:半角カナですか? (スコア:2, おもしろおかしい)
# つながってなければ「EBCDIK?どうぞお好きに」
# なんですけどねぇ...
Re:半角カナですか? (スコア:2, 興味深い)
Re:CGIプログラマとしては (スコア:2, 参考になる)
hidden と それ以外の input, textarea とで違う文字コードで
送られるという話を聞いています。
確か、hidden は form があるページのエンコードで送信され、
それ以外はsjisでエンコードされるとかだったと。
元情報を探したのですが、見つからず・・・。
確かMacIE3くらいだったはずなので、
もう無視してもいいかもしれません(^^;
以前、アンケートフォームを仕事で作ったときには
ふりがなに半角カナのみを書く人がいたので
確実に全角が入力される住所で文字コードの判定をして、
それをふりがなに適用していました。
ちなみに、hidden に漢字コード判定用の文字列を埋め込むなら
「入口」や「美乳」なんかがsjisとeucの判定用として有名 [asahi-net.or.jp]ですよね。