http://blogs.wankuma.com/naka/archive/2008/01/30/119963.aspx
かずくんにコメントをもらいました
http://www.unicode.org/Public/UNIDATA/NormalizationTest.txt
これじゃないの?ってやつです。
ファイルでかいので注意
このファイルに関してはノーマライゼーションについてのデータです。
Unicode正規化に関して説明できるほどには詳しくないので以下のページを見てください。
http://homepage1.nifty.com/nomenclator/unicode/normalization.htm
INPUT; NFC; NFD; NFKC; NFKD の順に並んでいます。
30AC;30AC;30AB 3099;30AC;30AB 3099; # (ガ; ガ; カ??; ガ; カ??; ) KATAKANA LETTER GA
30ACは、統合すると30AC、分離すると30AB 3099、互換統合変換すると30ACで互換分離変換すると30AB 3099となります。
この互換変換て言うのは従来まででよくつかわれているコードなどにマッピングするというような意味で
24B6;24B6;24B6;0041;0041; # (?; ?; ?; A; A; ) CIRCLED LATIN CAPITAL LETTER A
サークルAはAと同じ意味だからAとみなすということを意味します。
3300;3300;3300;30A2 30D1 30FC 30C8;30A2 30CF 309A 30FC 30C8; # (?; ?; ?; アパート; アハ??ート; ) SQUARE APAATO
こんなデータもありますね。
4文字で1つの意味をあらわすアパートは、互換変換すると、4文字になります。(互換分離変換だと5文字)
ということで引き続き結合文字のリスト探しています。