Note that \N{U+...} forces character semantics
Karl Williamson [Thu, 25 Feb 2010 19:36:53 +0000 (12:36 -0700)]
pod/perlunicode.pod

index 6ede1a4..ae13a33 100644 (file)
@@ -146,14 +146,15 @@ If you use a Unicode editor to edit your program, Unicode characters may
 occur directly within the literal strings in UTF-8 encoding, or UTF-16.
 (The former requires a BOM or C<use utf8>, the latter requires a BOM.)
 
-Unicode characters can also be added to a string by using the C<\x{...} or C<\N{U+...}>
-notations.  The Unicode code for the desired character, in hexadecimal,
-should be placed in the braces. For instance, a smiley face is
+Unicode characters can also be added to a string by using the C<\N{U+...}>
+notation.  The Unicode code for the desired character, in hexadecimal,
+should be placed in the braces, after the C<U>. For instance, a smiley face is
 C<\N{U+263A}>.
 
-For characters below 0x100 you may get byte semantics instead of
+Alternatively, you can use the C<\x{...}> notation for characters 0x100 and
+above.  For characters below 0x100 you may get byte semantics instead of
 character semantics;  see L</The "Unicode Bug">.  On EBCDIC machines there is
-the additional problem with the C\x{...} form in that the value for such characters gives the EBCDIC
+the additional problem that the value for such characters gives the EBCDIC
 character rather than the Unicode one.
 
 Additionally, if you