【文字コード】日本語って難しい

投稿日 : 2009年11月29日 23:00

色んな意味で日本語って難しいですね(^^;)

今、サンプルとして入力制限できるテキストコントロールを作ってます。
条件としては、「Shift-JIS」にエンコードしても文字化けしない事!です。
で、方向としては、どこかのタイミングで、制限したい文字列を
「""(空文字)」で置換しちゃえばOKかな、と。
置換といえば、「正規表現」って事で、調査開始♪

サロゲートは「Cs」でヒットしそうなんだけど、
(こんなカンジ?Regex.Replace("(入力文字列)", "[\p{Cs}]", ""))
結合文字とかShift-JISだと文字化けしそうなのを制限するのが
難しそう。。。
とりあえず、参照先だけφ(..)メモメモ

Unicode Consortium
JIS X 0213:2004 対応と新日本語フォント「メイリオ」について
Windows 7 互換性情報
Windows Vista 互換性情報
文字クラス
System.Text.RegularExpressions 名前空間
Regex.Replace メソッド
System.Globalization 名前空間
CharUnicodeInfo クラス
UnicodeCategory 列挙体

フィードバック

# re: 【文字コード】日本語って難しい

2009/11/30 3:07 by 中 博俊
全部表つくらないとだめぽですよー

# re: 【文字コード】日本語って難しい

2009/11/30 13:01 by どんぐま
> 中 博俊 さん
コメントありがとうございます。

変換テーブルが必要ってことですよね?

マイクロソフトの資料と「にらめっこ」しながら
手作業で作らないとダメなら、方針を変えようかな...

入力値を1文字ずつ「Shift-JIS」に変換して、
変換できないものを除外すればOK...かなぁ

↓拝見しました。
Unicodeの結合文字
http://blogs.wankuma.com/naka/archive/2008/01/30/119963.aspx
コメントの入力
タイトル
名前
Url
コメント