Unicode の surrogates pair についてその1

とりあえず、一発目がなぜこのネタなのか？ってのは置いておいて。。。

Vista で Unicode の surrogates pair を容易に扱えるようになったのでその検証。

MSDN だと下記で解説されているんですが、

Surrogates and Supplementary Characters

難しいところをすっ飛ばして、簡潔に説明すると Unicode (UTF-16) は 1文字2Byte で構成されるんですが、それを 4Byte まで拡張するしくみ。

ここまで読んでぎょっとした人もいるかも知れませんが、そんなに心配する必要は正直ないです。

というのは、surrogates pair は通常の API で扱う場合、文字長が2文字として扱われるからです。

とりあえず、検証したところ lstrlenW はもちろんのこと、legacy の VB の Len とかも surrogates pair を扱う場合、1文字で 2 を返します。

また、Vista の Explorer で surrogates pair を扱ってみたんですが、強制的に 512Byte に収められる仕様は健在のようで、そういう buffer を扱う場合も依然と同じ方法で問題ないでしょう。

lstrlenW の reference には WCHAR 単位の count を返すとなっているので、問題はないわけですが、VB とかの Len に関しては文字数を返すとなっているので注意が必要です。

# VB6.0 はどうしようもないのは当然としても、Office 2007 VBA help が文字数となっているのは正直どうかと思いますが。。。

ただ、正直言ってこれが影響を与える部分は表示と密接に係る部分に限定されるので、前述のとおりあまり影響はないでしょう。

投稿日時 : 2007年2月15日 0:57

# re: Unicode の surrogates pair についてその1 2007/02/15 0:57 ちゃっぴ

記事のネタうつしました。

# re: Unicode の surrogates pair についてその1 2007/02/15 12:04 とっちゃん

>WCHAR 単位の count を返すとなっているので
ここは、英文の方ですよね？
日本語の方は歴史的な経緯から「文字数を」となってますよｗ
これ、実際は文字数ではなく、WORD数を返すなんですよねぇｗ

やっぱりMSDNの誤訳として直してもらうように働きかける方がいいのかなぁ？
でも元の英文自体わかりづらい(文字数とも読めてしまう)からなぁ...ｗ

長らく Shift-JIS と付き合ってきた人にとっては、UNICODEのサロゲートペア問題は
「char でやってたことを wchar_t でもやれってことなのね...フッ」
で終わりですけどねｗ
＃半角全角の方がずっと根の深い問題...ｗ

# re: Unicode の surrogates pair についてその1 2007/02/15 12:42 かずくん

> 「char でやってたことを wchar_t でもやれってことなのね...フッ」
そんな人に、decomposition formを持ち出したら、発狂するかもね。

# re: Unicode の surrogates pair についてその1 2007/02/15 15:41 とっちゃん

いわゆる合成文字とかの方っすね。＞decompsition form(探して出てこなくて焦ったですよ。Normalization Form Decomposition(NFD) の方が通じるかとｗ)
こっちは、日本語文字しか扱ってこなかった人たちにはよくわかってないって人多いっすね。

逆にヨーロッパ圏の人にはなじみが深いのではないかとｗ
こちらは逆にサロゲートペアのほうが難しいんだろうなぁという気はしますけどｗ
#たぶん海外製のツール類のローカライズ版は.NET だからおｋで済ませちゃってる可能性が...ｗ
#StringInfo 使って操作なんて普通しないしｗ

# re: Unicode の surrogates pair についてその1 2007/02/15 16:23 中博俊

Officeやらが文字数といっているのは歴史的経緯上仕方がない。
/UnicodeがUTF-16相当なのも歴史的経緯上どうしようもない
＃ほんの10年ほどですが（ｗ

合成文字に関しては日本語においても、濁音、半濁音や音符などがあるのでいたって有名な話でみんなが把握している問題ですね。
＃大嘘ですがorz

とりあえず/Unicode32 で wchar_tがunsigned longになるように訴えて行きましょう。（現状そんなことするとえらいことになるけど（＾＾；；）

# re: Unicode の surrogates pair についてその1 2007/02/16 0:34 ちゃっぴ

いやぁ。すごい人の書き込みに正直ビビりまくりです。

私なんぞ、C/C++ はとりあえず、なんとか読める程度で、
非常に簡単なのしかできませんから。。。

> いわゆる合成文字とかの方っすね。＞decompsition form(探して出てこなくて焦ったですよ。Normalization Form Decomposition(NFD) の方が通じるかとｗ)

私も調べちゃいました(^^ゞ
でてこないでてこない。。。
Vista になるまでこのこと自体も知らなかったし。

> とりあえず/Unicode32 で wchar_tがunsigned longになるように訴えて行きましょう。（現状そんなことするとえらいことになるけど（＾＾；；）

それは私も考えたんですけど、FileSystem から何から何まで作り直して、API をもう 1組追加ですか？

こんどは何になるんでしょうね。
Wide の後だから Ultra Wide とかで lenstrU とか(笑)

Post Feedback

タイトル	タイトルを入力してください
名前	名前を入力してください
Url:
コメントコメントを入力してください
名前をブラウザに記憶する

ちゃっぴの監禁部屋

ニュース

記事カテゴリ

書庫

日記カテゴリ

Communities

Personal Information

コメント

Post Feedback