開発中の PHP 6、UTF-16 化に失敗。開発ブランチも 5.3 系に巻き戻し

開発中の PHP 6、UTF-16 化に失敗。開発ブランチも 5.3 系に巻き戻し 77

ストーリー by reo 2010年03月19日 12時30分
決断には勇気を要したことだろう部門より

ある Anonymous Coward 曰く、

PHP の次期メジャーバージョンと見られている PHP6 では、内部的には文字列をすべて UTF-16 で処理するという方針が決定していたのだが、これが頓挫した模様 (マイコミジャーナルの記事) 。
PHP 開発者である Johannes Schlüter 氏による 2010/3/12 付けのブログ記事、"Future of PHP 6" によれば、数カ月前から PHP のコア開発者の多くから「PHP エンジン内部を Unicode 化するというアプローチは正しくないのでは、最初からやり直したほうがよいのでは」という議論が行われていたらしい。
「処理系内部ではすべての文字を Unicode で処理する」というアプローチは Java や Ruby、Python、Perl などですでに採用されているのだが、PHP の開発者らの結論は「プログラムにおいてすべての入出力時に変換処理を行うのはパフォーマンスの点でよろしくなく、実装も複雑になり、後方互換性もなくなる。いっぽうで多くのユーザーが受ける恩恵は非常に小さい」とのことで、とりあえずは現在行われていた PHP エンジンの UTF-16 化はすべて白紙に戻されるようだ。

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索77コメント Log In/Create an Account

めんどくさいね (スコア:2)

by kcg (26566) on 2010年03月19日 23時20分 (#1735967) ホームページ日記

もうすべての文字にGUIDを割り当てて管理したらいいんじゃないですかね。
文字は創造したり誤記が広まったりして進化してきたのでしょうから
コンピュータ上でも皆が新しい文字をどんどん創造できるような仕組みが良い気がします。
- Re:めんどくさいね (スコア:1)
  
  by coffe_ata (31369) on 2010年03月20日 21時30分 (#1736302) 日記
  
  ISO/IEC 10036 (JIS X 4165)で登録してるグリフと識別番号が、そんな感じじゃなかったでしたっけ？
  
  シェア
  
  親コメント
Ruby の内部エンコーディング (スコア:1)

by nimu.akh (37694) <reversethis-{moc.ohoz} {ta} {3hz.umin}> on 2010年03月18日 16時48分 (#1735178) 日記

http://itpro.nikkeibp.co.jp/article/COLUMN/20090223/325328/?ST=securit... [nikkeibp.co.jp] を見るに1.8まではバイト列、1.9はオブジェクト毎に指定可能となっているけど。
- Rubyが内部すべてUnicode? (スコア:0, フレームのもと)
  
  by Anonymous Coward
  
  あのCSI派のすくつ(←なぜか変換できない)がいつの間にUnicode化されたんでしょうか。はつみみです。
  と思ったらアレたま中に既出だったので、タレコミ人と編集者はRuby M17N の設計と実装 [rubyist.net]でも一億回読み返せ。
  - Re:Rubyが内部すべてUnicode? (スコア:1, 参考になる)
    
    by Anonymous Coward on 2010年03月19日 17時28分 (#1735796)
    
    Tokyo Ruby Kaigi のなるせさんのビデオ [ustream.tv]もいいよ。
    それにしてもCSIで良く頑張ってるなぁと思う。かなり大変だと思うんだけど。
    
    シェア
    
    親コメント
  - Re: (スコア:0, オフトピック)
    
    by Anonymous Coward
    
    「巣窟(そうくつ)」
    変換できないってネタだよね？
    - Re:Rubyが内部すべてUnicode? (スコア:1)
      
      by Anonymous Coward on 2010年03月19日 16時03分 (#1735742)
      
      2chのネタですね。
      ○○(←何故か変換できない）【なぜかへんかんできない】[成句] [media-k.co.jp]
      
      シェア
      
      親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      それを言うのは野暮ってもんですよ。
      
      # とはいえ、巣窟とす(ryでは既に微妙に意味(ニュアンス)が違ってきているような気がしないでもない。
      # 言葉って生き物ですねぇ。
おまえが言うな (スコア:1, おもしろおかしい)

by Anonymous Coward on 2010年03月19日 13時06分 (#1735658)

＞後方互換性もなくなる
PHPに後方互換性なんてあったの？
- Re:おまえが言うな (スコア:1)
  
  by might (194) on 2010年03月19日 13時55分 (#1735685) ホームページ
  
  ある程度はありますよ。そりゃ。
  
  シェア
  
  親コメント
- Re:おまえが言うな (スコア:1)
  
  by firewheel (31280) on 2010年03月19日 14時51分 (#1735712)
  
  アプリよりは、ライブラリ実装の制約かもしれない。
  
  シェア
  
  親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  あるよ。
  むしろ邪魔な互換性が一杯ある。
当面、ライブラリレベルでやれってことね (スコア:1)

by funya (14942) on 2010年03月19日 15時23分 (#1735728)

Perl は :utf8 を付けなければ後方互換性は保たれている実装なので、
そう言う問題は出なかった。なので、後方互換性に失敗したってこと
なんでしょう。

現状でも、mb_convert_encoding しまくれば良いとも言えるので、
ちょっとみっともないぐらい。PHPプログラマはそういう細かいことは
気にしないってことだな。

メールの扱いとかでも、すぐにencodeは混在しちゃうから、必ず
使うことになるし。
- Re:当面、ライブラリレベルでやれってことね (スコア:2, 参考になる)
  
  by Anonymous Coward on 2010年03月19日 17時03分 (#1735780)
  
  LLの場合、バイト列と文字列がごっちゃになりがちで、実際Perlの:utf8はかなりバッドノウハウの温床になっていて使いにくいので、基本バイト列として扱って文字列として扱う時は関数使うか別途クラスを立ち上げろ、というのは相応に理にかなった対応だとは思います。
  UTF-16はサロゲートペア問題があるためUNICODEの内部表現としては今となっては必ずしもベストではなく、結局文字列表現として何文字か数えるのに専用関数で数えて下さいみたいなことになるなら、バイト列にUTF-8で突っ込んで専用関数で取り扱えばいいじゃん、というのは原始的ですが間違いは少ないと言えます。
  
  シェア
  
  親コメント
UTF8でいいぢゃない。 (スコア:1)

by rti (659) on 2010年03月19日 23時36分 (#1735975) ホームページ

もう文字コードはUTF8でいいぢゃないって思う。
膨大な血を流してUTF16にする利点ってあんまりないと思う。
全部UTF8にしてUTF8を超高速に扱う方法をみんなで考えたほうが幸せになれる気がする。

--
by rti.
- Re:UTF8でいいぢゃない。 (スコア:1)
  
  by funya (14942) on 2010年03月21日 14時11分 (#1736501)
  
  中味に触らないなら、それが簡単かな。ただ、regex とかのライブラリがそろってない。
  
  速度的には理論的にはUTF16が速いとは思うが、あんまり関係ないしね。
  
  シェア
  
  親コメント
- - Re:UTF8でいいぢゃない。 (スコア:1)
    
    by gk-hyn (7889) on 2010年03月20日 15時45分 (#1736135)
    
    つサロゲートペア
    いまどきUCS2ってなら、それはそれで反対しませんけど。
    
    シェア
    
    親コメント
  - - Re:UTF8でいいぢゃない。 (スコア:1)
      
      by kicchy (4711) on 2011年06月27日 14時18分 (#1977312)
      
      んじゃ、この文書の100万文字目を取ってきてくれ。
      # 解決は無理な問題もあると思うぞ。
      # UTF-8のコーディング自体に手を入れないでは
      
      シェア
      
      親コメント
MANIFESTO (スコア:0)

by Anonymous Coward on 2010年03月19日 12時32分 (#1735626)

マニフェストどおりじゃなくていいんですか！
- 思想の問題なら、もっと早い段階で判断すべきだったのでは？ (スコア:0)
  
  by Anonymous Coward
  
  技術的に無理だと言うなら仕方ないと思うが、スタンスが間違ってたと言う話になるなら、何でもっと早めにそれらについて討議しなかったのか？と感じる。結局無駄な時間を費やしてしまうことになる。日頃から十分な議論を行うよう、今後に期待したい。
  - 「ソフトウエア設計とはなにか」 (スコア:2, すばらしい洞察)
    
    by firewheel (31280) on 2010年03月19日 14時35分 (#1735703)
    
    ソフトウエア開発は単純な組み立て作業ではなく複雑な設計作業そのものだから。
    設計作業が終わるまで見えてこない物というのはあるものです。
    って、いったい何度繰り返したらエライ人は理解してくれるようになるんだろう。
    
    シェア
    
    親コメント
    - Re:「ソフトウエア設計とはなにか」 (スコア:2, すばらしい洞察)
      
      by Anonymous Coward on 2010年03月19日 15時55分 (#1735741)
      
      そうなんだよね。
      流れ作業にまで落ちた「製造」に該当するのはCDのプレスとかに
      なると思うんだけど、なかなか理解が得られない。
      
      シェア
      
      親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      あなたが技術職を引退し、あなた自身かその教え子が現場を掌握する立ち場を受け持ったときです。
  - えっと (スコア:1, すばらしい洞察)
    
    by Anonymous Coward on 2010年03月19日 13時01分 (#1735653)
    
    基地移転問題の事ですか？
    
    シェア
    
    親コメント
    - Re:えっと (スコア:1, すばらしい洞察)
      
      by Anonymous Coward on 2010年03月19日 15時18分 (#1735726)
      
      ずっと討議はしてたんじゃないの? 野党だったから聞く耳持ってもらえなかっただけで。
      
      シェア
      
      親コメント
  - Re:思想の問題なら、もっと早い段階で判断すべきだったのでは？ (スコア:1)
    
    by Ryu-TK (1420) on 2010年03月19日 13時07分 (#1735659)
    
    これから UCS 正規化方式に切り替えるなら、UTF-16 ではなく UTF-32 を採用したほうがマシですかね。固定長ですし。
    現状で UTF-16 を採用するメリットって何も無いような…
    
    シェア
    
    親コメント
    - Re:思想の問題なら、もっと早い段階で判断すべきだったのでは？ (スコア:3, 参考になる)
      
      by Anonymous Coward on 2010年03月19日 13時16分 (#1735668)
      
      UTF-32でも可変長が避けて通れない(日本に限ってもIVS [nikkeibp.co.jp]とか)なんていい加減常識になったと思ってたんだけど、なんでまだこんなこと言う人がいるの?
      
      シェア
      
      親コメント
      - Re:思想の問題なら、もっと早い段階で判断すべきだったのでは？ (スコア:5, 参考になる)
        
        by T.Sawamoto (4142) on 2010年03月19日 14時11分 (#1735692)
        
        合成文字もありますしね。簡単な文字列処理ならともかく、エディタ等では合成された文字を1文字として認識できないとまずいですから。
        大作：「立て、ジャイアントロボ！」
        ＧＲ：「ま゛っ」　←　U+309B : 独立した濁点
        ＧＲ：「ま゙っ」　←　U+3099 : 合成用濁点
        ブラウザ次第ではありますが、上記のＧＲの台詞をマウスで選択したとき、上は「ま」と濁点が別々の文字、下は1つの文字として扱われているはず。
        
        シェア
        
        親コメント
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        Windows7RC では Firefox/Chrome とも１文字として扱われるものの、「ま　゛」のように仮名と濁点の間に大きな空間が開きますね。まだまだ不完全な感じ。一方 IE8 は隣接するものの、今度は「っ」の上にはみ出して表示されるという不具合が。また選択すると「ま」のみが反転されて、濁点は消えてなくなります。そのままメモ帳に濁点つきでコピペできるところを見ると、文字通り濁点が仮想的なマス目からはみ出て描画されているのかも。ちなみにメモ帳での表示が一番自然に見えました。
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.6; ja; rv:1.9.3a4pre) Gecko/20100318 Minefield/3.7a4pre
        合字されました。
        Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.6; ja-JP-mac; rv:1.9.2) Gecko/20100115 Firefox/3.6
        合字されましたが、濁点は文字の左上につきました。
        Safari 4.0.5 (6531.22.7)
        合字されませんでした。
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        > Safari 4.0.5 (6531.22.7)
        > 合字されませんでした。
        
        うちのSafari(同じversion)ではうまくいってます。
        何が違うんだろ。
      - Re:思想の問題なら、もっと早い段階で判断すべきだったのでは？ (スコア:2, 参考になる)
        
        by Anonymous Coward on 2010年03月19日 13時50分 (#1735682)
        
        http://www2.xml.gr.jp/log.html?MLID=xmlmoji&N=1260 [xml.gr.jp]
        > 　これだけPCの容量が大きくなったのだから32bitにしてもいいじゃないか、と
        > いう意見がありますが、これは一種の錯誤です。
        続きはリンク先をどうぞ。
        最近ではスマートフォンとかiPadとかネットブックとかの、PCよりメモリ要求が厳しい端末も無視できませんからなおさらですね(主要なWebブラウザはどれも内部エンコーディングにUTF-16を採用しています。これは理由のないことではありません)。
        UTF-32にしても固定長で処理が済むわけでは全然なく、メリットはありません。UTF-32だろうと(サロゲートペアを無視した)UCS-2だろうとWindows←→Mac OS X間のファイル共有を実装しようとするだけで文字合成(「タ,U+3099←→ダ」とか)の考慮は必須です。
        UTF-8やUTF-16は定義域をU+10FFFFまでに制限している限り1コードポイントのサイズが4バイトを超えることはありませんから、UTF-32はメモリの無駄遣いでしかありません。ISO/IEC 10646でもUnicodeとの相互運用性向上のため、U+10FFFFを超える範囲は「永久予約」とされました。
        
        シェア
        
        親コメント
        
        Re:思想の問題なら、もっと早い段階で判断すべきだったのでは？ (スコア:2)
        
        by naruse (12596) on 2010年03月19日 16時06分 (#1735743) ホームページ日記
        
        あれ、リンク先、OS だったら wchar_t は当時でも 32bit が主流だと思うんだけどなぁ。
        > 主要なWebブラウザはどれも内部エンコーディングにUTF-16を採用しています。
        > これは理由のないことではありません
        これはそれぞれのエンコーディングを机上に並べて評価したと言うより、
        依存先のライブラリや、プロジェクトの起点が UTF-16 だったからという理由じゃないですかね。
        IE なら Windows、WebKit なら fork 元の KHTML の親プロジェクトの KDE、
        Firefox なら Mozilla Project と。
        どれも UTF-32 が生まれる前から存在するプロジェクトなので、まぁそうなりますよね。
        というか、UCS-2 時代から存在するコードからすると UTF-8 すら新参になるため、
        その資産を生かそうとすると UTF-16 以外選択肢にならなくなってしまうと。
        そういえば、JavaScript は所々に UTF-16 前提の仕様が入ってますね。
        
        シェア
        
        親コメント
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        > あれ、リンク先、OS だったら wchar_t は当時でも 32bit が主流だと思うんだけどなぁ。
        でも__STDC_ISO_10646__は主流じゃなかったと思いますけど。
        まあ、
        >> 私の感想は「ああ、余裕のある組織なんだな」。お
        >> そらく余裕の無いところは意地でMacを使い続ける余裕はなく、お客さんが
        >> WindowsならWindowsにしないとやってられないのだろうな、と思いました。
        なんて書いてるような人だからWindows以外眼中に無いのは確かでしょうけど。本人は否定してますけど視点がものすごくWindowsに偏向してますから。
        > どれも UTF-32 が生まれる前から
        UCS-4は当時からあったのですからいくらなんでもその主張は無理があるでしょう。
      - Re:思想の問題なら、もっと早い段階で判断すべきだったのでは？ (スコア:2)
        
        by 90 (35300) on 2010年03月19日 17時27分 (#1735795) 日記
        
        いっそ全面固定長のUTF-128を…
        # zipでよく潰れそう
        
        シェア
        
        親コメント
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        現在Unicodeには「か」と合成済みの「が」と濁点が3種類も(合成用のU+3099、合成済みのU+309B、半角濁点)入ってますけど、これは正規化などの「問題」を引き起こすとしてむしろ非難されてますよね。ハングルも合成済みのと「合理的な」組み合わせ式のとKS X 1001互換用の3種類入ってました。
        どうして単純にビット数を増やして何でもかんでも固定長に突っ込めばすべてが解決するという単純な頭の人が後を絶たないのか本当に不思議でなりません。すごい文字コード [srad.jp]でも使っててください。
        
        Re:思想の問題なら、もっと早い段階で判断すべきだったのでは？ (スコア:2)
        
        by 90 (35300) on 2010年03月19日 20時46分 (#1735909) 日記
        
        固定長であることとは関係しないのでは? たとえばUTF-32を一文字64bitの、余りは0埋めした固定長として扱う、とか。
        
        シェア
        
        親コメント
        
        Re:思想の問題なら、もっと早い段階で判断すべきだったのでは？ (スコア:1)
        
        by .wii (33675) on 2010年03月20日 14時56分 (#1736118)
        
        もうビットマップでいいよ・・・
        
        シェア
        
        親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      現状で UTF-16 を採用するメリットって何も無いような…
      WindowsやMac OS X(Cocoa)と互換性が高くなるというメリットがあります。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    NHK夜9時の人の口調が頭に浮かぶのはわたしだけかなあ。
つまるところ後方互換性 (スコア:0)

by Anonymous Coward on 2010年03月19日 13時01分 (#1735654)

最初からUnicodeの言語はなんの問題もないわけだし、つまるところ後方互換性の問題の問題でしょ。
「サニタイズ」なんて謎のジャーゴンが繁殖するタイプの言語に多くを求めてもしょうがない。
# HTMLのcontentにはstringを使わず別の型を定義すりゃいいのに。
&uump;をググッたら (スコア:0)

by Anonymous Coward on 2010年03月19日 14時12分 (#1735693)

もしかして: ü 上位 2 件の検索結果
と言われたよ
- Re: (スコア:0)
  
  by Anonymous Coward
  
  RSSのdescriptionにそのまま入っていて、invalidなRSSになっています。
  RSSリーダがエラーになるので直してほしいです。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  PHP勉強してて、RSSリーダーつくるのにスラドのRSS使わせてもらってました。
  んで、simplexml_load_file()が失敗するので、なんでかなあと思ってたのですが…そういうことでしたか。
  ちなみに、こんなエラーがでております。
  
  Entity 'uump' not defined
  
  以上です。
文字コード (スコア:0)

by Anonymous Coward on 2010年03月19日 14時22分 (#1735696)

過去のしがらみ(作ったときにはそれで問題ないけど)で後から苦労するのはコンピュータ業界の定番なので
数年後の事を予測して困らない方式で作ってくれていればどれでもいいよ。
はぁ (スコア:0)

by Anonymous Coward on 2010年03月19日 15時51分 (#1735740)

>いっぽうで多くのユーザーが受ける恩恵は非常に小さい
開発人の脳内は
ユーザー　＝　欧米1バイト文字圏ユーザー
ってことかね。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  失礼な。
  ユーザー　≒　欧米1バイト文字圏ユーザー
  ぐらいの認識はあるよ。たまにＴシャツに「スーパーサイヤ人」と書きたくなったりするもん。
良かった、グダグダは日本だけじゃないんだ！ (スコア:0)

by Anonymous Coward on 2010年03月19日 17時54分 (#1735817)

ちょっぴり安心した。
- Re:良かった、グダグダは日本だけじゃないんだ！ (スコア:1, おもしろおかしい)
  
  by Anonymous Coward on 2010年03月19日 20時22分 (#1735896)
  
  けどよ、アイツらぐだぐだになったのをやり直せるんだぜ？
  
  シェア
  
  親コメント
  - Re:良かった、グダグダは日本だけじゃないんだ！ (スコア:1)
    
    by t-wata (10969) on 2010年03月20日 0時28分 (#1735991) 日記
    
    おもしろおかしいが付いてるけど、やり直す決断をするってのはすごいことだと思うけど。
    最初の決断が間違いだった、ってことを、それなりの労力を、期間を払った後に認めないといけないわけだから。
    これができずに、最初の決断の正当性を主張し、ぐだぐだなものを気合や精神論で無理やり乗り切る方が実際多いんじゃない？
    
    シェア
    
    親コメント

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

めんどくさいね (スコア:2)

Re:めんどくさいね (スコア:1)

Ruby の内部エンコーディング (スコア:1)

Rubyが内部すべてUnicode? (スコア:0, フレームのもと)

Re:Rubyが内部すべてUnicode? (スコア:1, 参考になる)

Re: (スコア:0, オフトピック)

Re:Rubyが内部すべてUnicode? (スコア:1)

Re: (スコア:0)

おまえが言うな (スコア:1, おもしろおかしい)

Re:おまえが言うな (スコア:1)

Re:おまえが言うな (スコア:1)

Re: (スコア:0)

当面、ライブラリレベルでやれってことね (スコア:1)

Re:当面、ライブラリレベルでやれってことね (スコア:2, 参考になる)

UTF8でいいぢゃない。 (スコア:1)

Re:UTF8でいいぢゃない。 (スコア:1)

Re:UTF8でいいぢゃない。 (スコア:1)

Re:UTF8でいいぢゃない。 (スコア:1)

MANIFESTO (スコア:0)

思想の問題なら、もっと早い段階で判断すべきだったのでは？ (スコア:0)

「ソフトウエア設計とはなにか」 (スコア:2, すばらしい洞察)

Re:「ソフトウエア設計とはなにか」 (スコア:2, すばらしい洞察)

Re: (スコア:0)

えっと (スコア:1, すばらしい洞察)

Re:えっと (スコア:1, すばらしい洞察)

Re:思想の問題なら、もっと早い段階で判断すべきだったのでは？ (スコア:1)

Re:思想の問題なら、もっと早い段階で判断すべきだったのでは？ (スコア:3, 参考になる)

Re:思想の問題なら、もっと早い段階で判断すべきだったのでは？ (スコア:5, 参考になる)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:思想の問題なら、もっと早い段階で判断すべきだったのでは？ (スコア:2, 参考になる)

Re:思想の問題なら、もっと早い段階で判断すべきだったのでは？ (スコア:2)

Re: (スコア:0)

Re:思想の問題なら、もっと早い段階で判断すべきだったのでは？ (スコア:2)

Re: (スコア:0)

Re:思想の問題なら、もっと早い段階で判断すべきだったのでは？ (スコア:2)

Re:思想の問題なら、もっと早い段階で判断すべきだったのでは？ (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

つまるところ後方互換性 (スコア:0)

&uump;をググッたら (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

文字コード (スコア:0)

はぁ (スコア:0)

Re: (スコア:0)

良かった、グダグダは日本だけじゃないんだ！ (スコア:0)

Re:良かった、グダグダは日本だけじゃないんだ！ (スコア:1, おもしろおかしい)

Re:良かった、グダグダは日本だけじゃないんだ！ (スコア:1)