中の技術日誌ブログ

C#とC++/CLIと
VBと.NETとWindowsで戯れる
 

目次

Blog 利用状況

ニュース

自己紹介

東京でソフトウェアエンジニアをやっています。
お仕事大募集中です。
記事執筆や、講師依頼とかでも何でもどうぞ(*^_^*)
似顔絵 MSMVPロゴ
MSMVP Visual C# Since 2004/04-2013/03

記事カテゴリ

書庫

日記カテゴリ

00-整理

01-MSMVP

Unicodeの結合文字はNormalizationとイコールではない

http://blogs.wankuma.com/naka/archive/2008/01/30/119963.aspx

かずくんにコメントをもらいました

http://www.unicode.org/Public/UNIDATA/NormalizationTest.txt

これじゃないの?ってやつです。

ファイルでかいので注意

このファイルに関してはノーマライゼーションについてのデータです。

Unicode正規化に関して説明できるほどには詳しくないので以下のページを見てください。

http://homepage1.nifty.com/nomenclator/unicode/normalization.htm

INPUT; NFC; NFD; NFKC; NFKD  の順に並んでいます。
30AC;30AC;30AB 3099;30AC;30AB 3099; # (ガ; ガ; カ??; ガ; カ??; ) KATAKANA LETTER GA

30ACは、統合すると30AC、分離すると30AB 3099、互換統合変換すると30ACで互換分離変換すると30AB 3099となります。

この互換変換て言うのは従来まででよくつかわれているコードなどにマッピングするというような意味で

24B6;24B6;24B6;0041;0041; # (?; ?; ?; A; A; ) CIRCLED LATIN CAPITAL LETTER A

サークルAはAと同じ意味だからAとみなすということを意味します。

3300;3300;3300;30A2 30D1 30FC 30C8;30A2 30CF 309A 30FC 30C8; # (?; ?; ?; アパート; アハ??ート; ) SQUARE APAATO

こんなデータもありますね。

4文字で1つの意味をあらわすアパートは、互換変換すると、4文字になります。(互換分離変換だと5文字)

ということで引き続き結合文字のリスト探しています。

投稿日時 : 2008年1月30日 20:40

コメントを追加

No comments posted yet.
タイトル
名前
URL
コメント