Slight update tweaks on perlunicode.pod.
[p5sagit/p5-mst-13.2.git] / pod / perlretut.pod
index 2960950..869a422 100644 (file)
@@ -710,9 +710,12 @@ indicated below it:
     /(ab(cd|ef)((gi)|j))/;
      1  2      34
 
-so that if the regexp matched, e.g., C<$2> would contain 'cd' or 'ef'.
-For convenience, perl sets C<$+> to the highest numbered C<$1>, C<$2>,
-... that got assigned.
+so that if the regexp matched, e.g., C<$2> would contain 'cd' or 'ef'. For
+convenience, perl sets C<$+> to the string held by the highest numbered
+C<$1>, C<$2>, ... that got assigned (and, somewhat related, C<$^N> to the
+value of the C<$1>, C<$2>, ... most-recently assigned; i.e. the C<$1>,
+C<$2>, ... associated with the rightmost closing parenthesis used in the
+match).
 
 Closely associated with the matching variables C<$1>, C<$2>, ... are
 the B<backreferences> C<\1>, C<\2>, ... .  Backreferences are simply
@@ -1746,74 +1749,12 @@ C<\P>, like C<\p{L}> for Unicode 'letters', or C<\p{Lu}> for uppercase
 letters, or C<\P{Nd}> for non-digits.  If a C<name> is just one
 letter, the braces can be dropped.  For instance, C<\pM> is the
 character class of Unicode 'marks', for example accent marks.
-Here is the list as of Unicode 3.1.0 (the two-letter classes) and
-Perl 5.8.0 (the one-letter classes):
-
-   L  Letter
-   Lu Letter, Uppercase
-   Ll Letter, Lowercase
-   Lt Letter, Titlecase
-   Lm Letter, Modifier
-   Lo Letter, Other
-   M  Mark
-   Mn Mark, Non-Spacing
-   Mc Mark, Spacing Combining
-   Me Mark, Enclosing
-   N  Number
-   Nd Number, Decimal Digit
-   Nl Number, Letter
-   No Number, Other
-   P  Punctuation
-   Pc Punctuation, Connector
-   Pd Punctuation, Dash
-   Ps Punctuation, Open
-   Pe Punctuation, Close
-   Pi Punctuation, Initial quote
-       (may behave like Ps or Pe depending on usage)
-   Pf Punctuation, Final quote
-       (may behave like Ps or Pe depending on usage)
-   Po Punctuation, Other
-   S  Symbol
-   Sm Symbol, Math
-   Sc Symbol, Currency
-   Sk Symbol, Modifier
-   So Symbol, Other
-   Z  Separator
-   Zs Separator, Space
-   Zl Separator, Line
-   Zp Separator, Paragraph
-   C  Other
-   Cc Other, Control
-   Cf Other, Format
-   Cs Other, Surrogate
-   Co Other, Private Use
-   Cn Other, Not Assigned (Unicode defines no Cn characters)
-
-Additionally, because scripts differ in their directionality
-(for example Hebrew is written right to left), all characters
-have their directionality defined:
-
-   BidiL   Left-to-Right
-   BidiLRE Left-to-Right Embedding
-   BidiLRO Left-to-Right Override
-   BidiR   Right-to-Left
-   BidiAL  Right-to-Left Arabic
-   BidiRLE Right-to-Left Embedding
-   BidiRLO Right-to-Left Override
-   BidiPDF Pop Directional Format
-   BidiEN  European Number
-   BidiES  European Number Separator
-   BidiET  European Number Terminator
-   BidiAN  Arabic Number
-   BidiCS  Common Number Separator
-   BidiNSM Non-Spacing Mark
-   BidiBN  Boundary Neutral
-   BidiB   Paragraph Separator
-   BidiS   Segment Separator
-   BidiWS  Whitespace
-   BidiON  Other Neutrals
-
-For the the full and latest information see the latest Unicode standard.
+For the full list see L<perlunicode>.
+
+The Unicode has also been separated into various sets of charaters
+which you can test with C<\p{In...}> (in) and C<\P{In...}> (not in),
+for example C<\p{InLatin}>, C<\p{InGreek}>, or C<\P{InKatakana}>.
+For the full list see L<perlunicode>.
 
 C<\X> is an abbreviation for a character class sequence that includes
 the Unicode 'combining character sequences'.  A 'combining character
@@ -1825,6 +1766,9 @@ S<C<COMBINING RING> >, which translates in Danish to A with the circle
 atop it, as in the word Angstrom.  C<\X> is equivalent to C<\PM\pM*}>,
 i.e., a non-mark followed by one or more marks.
 
+For the the full and latest information about Unicode see the latest
+Unicode standard, or the Unicode Consortium's website http://www.unicode.org/
+
 As if all those classes weren't enough, Perl also defines POSIX style
 character classes.  These have the form C<[:name:]>, with C<name> the
 name of the POSIX class.  The POSIX classes are C<alpha>, C<alnum>,