パスワードを忘れた? アカウント作成
339454 story
ソフトウェア

Samba、内部文字コードを今度こそ固定化か ? 48

ストーリー by reo
早すぎたんだ、 部門より

ある Anonymous Coward 曰く、

高橋基信氏のだめだめ日記によれば、現在は unix charset パラメータに依存する Samba の内部文字コードを、固定化するという議論が開発チームで起きているようだ。

これについては 2004 年の議論において既に高橋氏が UTF-16 を内部文字コードとして使用することを主張していたのだが、当時は置き去りになったことである。内部コードが可変であるのは望ましくないことであるので、今度こそうまく進んでもらいたいものである。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by iwakuralain (33086) on 2011年06月27日 11時47分 (#1977157)

    UTF-32とかUTF-64とかUTF-128とかまでいっとこうぜ

    #四天王で弱いやつ順に行くよりは手っ取り早い
    #誰が最弱文字コードか?とか互換性とかは気にしない

    • Re: (スコア:0, すばらしい洞察)

      by Anonymous Coward

      そろそろ文字コードの話になるたびに具体的なことを何も考えずに64だの128だのドヤ顔で言い出す連中を何とかしようぜ。せめてすごい文字コード [srad.jp]程度の芸当は見せてください。
      ちなみにFirefoxは5.0でUTF-32サポートを廃止したけどほとんど誰も話題にしてないね。まあ所詮そんなもの。

    • by Anonymous Coward

      UCS-XXにした方がよりネタらしい気が。

  • by witch (3127) on 2011年06月27日 11時14分 (#1977137) 日記

    1DogYear(死語)ですね…。
    マルチバイト文字コードにまつわるトラブルに関しては日本が進んでいるのかな。
    i18nに関わる人たちに感謝。

    • Re:7年か (スコア:2, すばらしい洞察)

      by Anonymous Coward on 2011年06月27日 11時26分 (#1977144)

      進んではいると思いますが、最近は「UTF-8で万全」と思っている人を説得しなきゃいけない、という別の苦労が出てきてる気が。

      だめだめ日記でも言及されてるMac OS Xでの問題(カタカナの合成字絡み)などは、その一つではないかと。

      親コメント
      • Re:7年か (スコア:3, 興味深い)

        by shesee (27226) on 2011年06月27日 11時52分 (#1977165) 日記
        まあMac UTF8の濁点の正規化問題もありますが、LinuxとしてはUTF16以降はエンディアンまで考慮しなければならないのでUTF8でよくね?という主張ももっともだと思うんですよ。
        親コメント
      • by Anonymous Coward

        64だの128だの言ってる人たちが濁点の正規化問題をどうするつもりなのかもぜひ尋ねておきたいところです(きっと何も考えていないけど)。
        TRONコードは、少なくとも仮名+濁点については合成済みのものを全部用意する方向で対応するみたいですね。

        • by Anonymous Coward

          ハングルも、合成済みのものがすべて用意されています。やったね :-)
          おかげで、一部の漢字はBMPから追い出され、UTF-16、UTF-8
          ともになら4バイトの辺境へと追いやられました。

    • Re:7年か (スコア:2, すばらしい洞察)

      by matto (35031) on 2011年06月27日 19時28分 (#1977515)
      49 dog yearsだと思うんだが。
      親コメント
  • なんで?重くなるから? utf-8よりはマシだと思うけど。
    • by Anonymous Coward on 2011年06月27日 12時23分 (#1977188)
      「UTF-8が採用された」んじゃなくて「(UTF-8とは限らない)unix charsetをそのまま使う」という(当時の)現状維持が選ばれたんです。UTF-8が採用されていたら、今さら「やっぱりUTF-16にしようず」なんて蒸し返されていなかったと思いますよ。
      親コメント
      • ですね。

        当時は、まず文字コードを固定(UTF-8でよいので)した上で、Windows側からはUTF-16で流れてくるし、UTF-8より、2バイトもしくは4バイト固定のUTF-16の方がUTF-8より文字列関連の処理は簡単なはずという議論を行いたかったんですが、そもそもなんで固定するのという議論だけで力尽きました。

        まぁ、UTF-16とか、ASCIIとの互換性がなくなる符号化形式の採用は、かなりハードルが高いですね。向こうの人は、自分たちが普段使っているASCIIの文字列が**読めなく**なる符号化形式というのは、頭で理解しても、いざ議論となると拒否反応を示す感じです。まぁしょうがないかなとも思いますが。

        ということでID

        親コメント
  • Samba5? (スコア:1, 興味深い)

    by Anonymous Coward on 2011年06月27日 12時06分 (#1977173)

    Samba4.0.0が現状alpha版。
    いまから内部システムコードを変更するなんてあり得ないから、
    実装されるのはSamba5から?

    Samba3.0のリリースが確か2004年でしたから、
    この調子だと、2020年頃になっちゃいそうですね。

    • Re:Samba5? (スコア:2, 興味深い)

      by monyo (6525) on 2011年06月27日 23時33分 (#1977681) ホームページ

      まぁ、現状 Samba の内部文字コードを定義する unix charset パラメータのデフォルト値は UTF-8 で、かつそれをそのまま使っているケースがかなり多いと思いますので、その意味では UTF-16 に変更するよりは、ある意味枯れているという見方もできるかも知れません。

      いずれにしても、今のところターゲットは Samba4 のようです。DC の機能以外の完成度はまだそんなレベル。

      親コメント
  • もういっそのこと (スコア:1, おもしろおかしい)

    by Anonymous Coward on 2011年06月27日 14時05分 (#1977293)

    全世界英語以外使用禁止でいいよ

  • by Anonymous Coward on 2011年06月27日 10時39分 (#1977120)

    Sambaだけ違う振る舞いしていてもあまり意味ないよな。
    2004年の段階ではまだEUC-JPのディストリが多くて難しかったのかな

    • by Anonymous Coward

      日本内部(日本語ディストリ)の話じゃなくて、「マルチバイト文字文化のことなんか知ったことかー」って
      欧米圏から無視された、って感じに読めた>リンク先

      • by Angelica (23122) on 2011年06月27日 11時37分 (#1977152) 日記

        こんだけ多言語対応用の環境が揃っている昨今でも、未だに「日本語を入力すると文字が化ける」「日本語を含むパスにアクセスできない」とかのソフトが新規されちゃうくらい、アメリカ辺りの「ASCIIでおk」は強いですし。

        とはいえ日本人は日本人で、CJK対応の分野ではめちゃくちゃ貢献してますけど、今度はBIDI対応を置き去りにしがちでアラビアンな方々から「ぬおおおおおおお」って言われるという。

        結局、実際に自分が使うもんじゃないと、別にいいよ面倒くせえ、で済まされちゃうんですよねー。

        親コメント
        • ああ、パパスは確かに西アジアっぽい顔ですね。

          親コメント
        • by Anonymous Coward
          仕事で使っているLinux上のアプリのいくつかがLANG=Cじゃないと動かないので困ります。
          文字化けするならまだしも、起動すらしてくれないし。
          • by Anonymous Coward
            そのアプリを、LANG=Cで起動すればいいのでは?
            • そのアプリを、LANG=Cで起動すればいいのでは?

              だから、日本語使えなくて困ってるよ、って話では?

              親コメント
              • by Anonymous Coward

                なくて困るような(しかも代替品が手当てできない)アプリで、
                かつ、日本語が使えないと困るというものがあるという状況が想像できなかった。
                例えば、どんなものがある?
                システム管理ツールとかで(なおかつそれが必須で)日本語が使えないと
                アウトなものってあるんだろうか?
                技師がアホすぎてメッセージが日本語で出ないとだめとか、
                壊れたファイルシステムを解析するのにパス名が化けるとかその程度?

              • by s02222 (20350) on 2011年06月27日 15時03分 (#1977359)
                動画のエンコーダで日本語ファイル名が通らないのがあった。

                GUIで選択したファイルのファイル名がウィンドウ内で文字化けして読めなくなるのはともかく、いざ処理を開始しようとするとファイルが見つからずに転けるというのはどういう内部処理なんだろうと不思議だった。コマンドラインで指定したファイル名が理解出来ないというならまだ分からんでも無いんだけど。

                しょせんお遊びなのでファイル名を変更してからエンコード、その後ファイル名を戻す、みたいな適当な使い方したけど。
                親コメント
              • by Anonymous Coward

                Vegas なんて、プリレンダリングしたら、中間ファイルを日本語ファイル名で書くくせに、
                そのファイルの読み込みに失敗するなんて事がありましたぜ。プリレンダリングできねーの。

                結局、試用期間が終わって破棄してしまいましたが、最近のは治ったのかなー?

              • by Anonymous Coward
                だから、「仕事で使っているLinux上のアプリのいくつかが」
                と言っているのに。自分は全然別人だけど。

                あなたのようにフリーウェアと一般的に売られているソフトで仕事のすべてが完結してしまう人って少ないのよ。
          • by Anonymous Coward
            M-x compile
            LANG=C make
            しないと、C-x r ` で飛んでくれなかったりね。
            入りますディレクトリ、みたいな。
        • by Anonymous Coward

          Adobe Flashも多言語対応を謡いながら、その文化で生きてますよね。
          マルチバイト文字列に1バイトおきに0x00を挿入してUTF-16に変換した気分になるコード。
          SWFがUTF系になった頃からずっと存在するバグですが、さっき確認した最新版でも残ってました。
          発症条件が少々特殊で発症条件を満たす例も年々減り続けてるはずですが…なんというか
          初遭遇時に逆アセンブルにハマってたので軽い気分で確認したらこのクソコード。

          このバグを自力で撤去できない限り、Adobeはセキュリティホールの温床を抜け出すきっかけすら得られないと勝手に思ってます。

    • by Anonymous Coward

      2004年というとFedora Core 1~3にかけての時代か…。

      #暗黒な思い出が…

  • by Anonymous Coward on 2011年06月27日 11時25分 (#1977143)

    「ようやく追い付いてきた」とかかなり勘違いしているようですが、
    実際問題、7年前の時点でSambaがUTF-16固定で実装されてたら、重すぎてユーザ激減してたでしょ?

    考えてもごらんよ?
    例えばMule-2.3が現役の頃、あえてMule使ってた人なんてごく少数で、殆どの人達は日本語のDemacsやMg使ってたっしょ?
    俺はjvim使ってたかな……

    マルチリンガルという理想を貫く精神は立派だと思いますけど、マルチリンガルって結構重い処理なので
    実際に実装する時は使用するハードウェアとのトレードオフ、という現実的な問題がつきまとうわけですよ

    ましてやSambaなんてサーバ屋さん御用達ソフトの筆頭のひとつだからね
    「バージョンアップしたら文字コード周りが重くなって性能落ちた」なんて事になったら、皆して古いSamba使っちゃうわけ
    そうなったら本末転倒でしょ?

    • by Anonymous Coward on 2011年06月27日 11時42分 (#1977155)

      Windows NTは1996年にUTF-16(まあ当時はUCS-2だったけど)固定でしたが?
      2004年ですら遅すぎたくらい

      親コメント
    • by Anonymous Coward
      どちらにせよトラブルよけのためには通信部にはUTF-16使うしかなかったと思うんだ。
      # 共有にファイル置くとファイル名化けるんだなんてことで呼ばれたくない
      # un*x側のファイル名を sjisで保存なんてしないですよね?

      保存ファイル名に UNICODE系使わないとどっちにしろコード変換がおきる罠
    • by Anonymous Coward

      >実際問題、7年前の時点でSambaがUTF-16固定で実装されてたら、重すぎてユーザ激減してたでしょ?

      7年前の議論は、Samba4に向けてどうしようって議論ですよ。
      つまり、正式リリースされるのは数年後ということを前提にした論争。

    • by Anonymous Coward

      オフトピで恐縮ですが...

      >>例えばMule-2.3が現役の頃、あえてMule使ってた人なんてごく少数で、殆どの人達は日本語のDemacsやMg使ってたっしょ?

      それはOSによるでしょう。
      自分はテキスト処理は既にLinuxに移行していたので
      メールもmule-2.3+mew-1.06という環境でした。
      だからソース書きなんかもmuleだったと思います。

      この頃(恐らく1996年頃)ってWindows95がそこそこ普及して
      CPUパワーもそれなりに上がっていたので
      Emacs/Muleが使いたいならFreeBSDやLinuxに
      移行していた人もそれなりにいたのでは?

  • by Anonymous Coward on 2011年06月27日 11時43分 (#1977156)

    やっぱり結局㍉

    • by Anonymous Coward
      全部Windowsで構築すればいいよな。
  • by Anonymous Coward on 2011年06月27日 13時44分 (#1977273)
    1.9とかいろいろめんどい
    • by nyagy (17036) on 2011年06月29日 11時51分 (#1978559)

      そういう意味では、UTF-8化が完了しているperlは進んでいるなぁと思うんですが、言語としての人気はさっぱりになってしまいましたね。なんでなんだろう。perlでのUTF-8の扱いも癖はありますけど、流儀を覚えてしまえばそれほど苦労ではないと個人的には思ってます。(ヘビーに使ってる人にとっては違う感想かもしれませんが)

      しかも、perlってメイン開発者が日本人じゃないのに。これについては、小飼弾氏の功績はもっと評価されていいんじゃないかと思うのです。

      親コメント
      • by hjmhjm (39921) on 2011年06月29日 23時49分 (#1978985)

        言語としての人気はさっぱりになってしまいましたね。

        PythonやRubyなどの勢いに押されていますが、さっぱりということもないのでは。
        まだまだバージョンアップが続いているのは需要があるからですよね。

        perlってメイン開発者が日本人じゃないのに。

        Larryさんは日本文化に理解があるみたいなので、そのせいもあったのでしょうか。

        親コメント
    • by Anonymous Coward

      force_encodingしないとほとんど使い物にならないしな。

typodupeerror

「科学者は100%安全だと保証できないものは動かしてはならない」、科学者「えっ」、プログラマ「えっ」

読み込み中...