Normalizer in Java

同僚に、「JavaのNormalizer.NFCとかって何?」と聞かれたので、調べてみました。 ITproの櫻庭さんの解説がわかりやすいかも、と思ったんですが、

互換合成 Normalize Function Compativle Composite (NFKC)

とかって、スペルミスもあるし、そもそも原典と違うじゃん、ということに気付いて。

Normalization Form D (NFD) Canonical Decomposition
Normalization Form C (NFC) Canonical Decomposition,followed by Canonical Composition
Normalization Form KD (NFKD) Compatibility Decomposition
Normalization Form KC (NFKC) Compatibility Decomposition,followed by Canonical Composition

Canonical Equivalent(正準等価性)が「か+゛」=「が」 Compatibility Equivalent(互換等価性)が「ｶ」=「カ」なので、

「Canonical Decomposition」(正準分解)を「「が」→「か+゛」にすること」
「Canonical Composition」(正準合成)を「「か+゛」→「が」にすること」
「Compatibility Composition」(互換合成)を「「ｶ」を「カ」とすること」

と読めばいいのでは?

だから例えば、「NFKC」は、「「ｶ」を「カ」としてから「か+゛」→「が」にすること」

気を付けたいのは、「Compatibility Composition」というのはない! ということですね。だからよく読むと、各所にある日本語の解説は怪しいかも、です。

文字コード地獄秘話第3話：後戻りの効かないUnicode正規化の解説が良さげです。

groovy:000> import java.text.*
===> java.text.*
groovy:000> str = "ç¥ã¨ï¨ãã²Â¼ã"
===> ç¥ã¨ï¨ãã²Â¼ã
groovy:000> println(Normalizer.normalize(str, Normalizer.Form.NFD))
ç¥ã¨ç¥ãã²Â¼ã
===> null
groovy:000> println(Normalizer.normalize(str, Normalizer.Form.NFC))
ç¥ã¨ç¥ãã²Â¼ã
===> null
groovy:000> println(Normalizer.normalize(str, Normalizer.Form.NFKD))
ç¥ã¨ç¥ã¢ãã¼ã(æ)1â4ã
===> null
groovy:000> println(Normalizer.normalize(str, Normalizer.Form.NFKC))
ç¥ã¨ç¥ã¢ãã¼ã(æ)1â4ã
===> null

u-ryo's blog

various information for coding...

Comments