Re: [PATCH] Fix RT#19049 and add relative backreferences
[p5sagit/p5-mst-13.2.git] / pod / perl595delta.pod
1 =head1 NAME
2
3 perldelta - what is new for perl v5.9.5
4
5 =head1 DESCRIPTION
6
7 This document describes differences between the 5.9.4 and the 5.9.5
8 development releases. See L<perl590delta>, L<perl591delta>,
9 L<perl592delta>, L<perl593delta> and L<perl594delta> for the differences
10 between 5.8.0 and 5.9.4.
11
12 =head1 Incompatible Changes
13
14 =head2 Tainting and printf
15
16 When perl is run under taint mode, C<printf()> and C<sprintf()> will now
17 reject any tainted format argument. (Rafael Garcia-SUarez)
18
19 =head2 Removal of the bytecode compiler and of perlcc
20
21 C<perlcc>, the byteloader and the supporting modules (B::C, B::CC,
22 B::Bytecode, etc.) are no longer distributed with the perl sources. Those
23 experimental tools have never worked reliably, and, due to the lack of
24 volunteers to keep them in line with the perl interpreter developments, it
25 was decided to remove them instead of shipping a broken version of those.
26 The last version of those modules can be found with perl 5.9.4.
27
28 However the B compiler framework stays supported in the perl core, as with
29 the more useful modules it has permitted (among others, B::Deparse and
30 B::Concise).
31
32 =head2 Removal of the JPL
33
34 The JPL (Java-Perl Linguo) has been removed from the perl sources tarball.
35
36 =head1 Core Enhancements
37
38 =head2 Regular expressions
39
40 =over 4
41
42 =item Recursive Patterns
43
44 It is now possible to write recursive patterns without using the C<(??{})>
45 construct. This new way is more efficient, and in many cases easier to
46 read.
47
48 Each capturing parenthesis can now be treated as an independent pattern
49 that can be entered by using the C<(?PARNO)> syntax (C<PARNO> standing for
50 "parenthesis number"). For example, the following pattern will match
51 nested balanced angle brackets:
52
53     /
54      ^                      # start of line
55      (                      # start capture buffer 1
56         <                   #   match an opening angle bracket
57         (?:                 #   match one of:
58             (?>             #     don't backtrack over the inside of this group
59                 [^<>]+      #       one or more non angle brackets
60             )               #     end non backtracking group
61         |                   #     ... or ...
62             (?1)            #     recurse to bracket 1 and try it again
63         )*                  #   0 or more times.
64         >                   #   match a closing angle bracket
65      )                      # end capture buffer one
66      $                      # end of line
67     /x
68
69 Note, users experienced with PCRE will find that the Perl implementation
70 of this feature differs from the PCRE one in that it is possible to
71 backtrack into a recursed pattern, whereas in PCRE the recursion is
72 atomic or "possessive" in nature. (Yves Orton)
73
74 =item Named Capture Buffers
75
76 It is now possible to name capturing parenthesis in a pattern and refer to
77 the captured contents by name. The naming syntax is C<< (?<NAME>....) >>.
78 It's possible to backreference to a named buffer with the C<< \k<NAME> >>
79 syntax. In code, the new magical hash C<%+> can be used to access the
80 contents of the buffers.
81
82 Thus, to replace all doubled chars, one could write
83
84     s/(?<letter>.)\k<letter>/$+{letter}/g
85
86 Only buffers with defined contents will be "visible" in the hash, so
87 it's possible to do something like
88
89     foreach my $name (keys %+) {
90         print "content of buffer '$name' is $+{$name}\n";
91     }
92
93 Users exposed to the .NET regex engine will find that the perl
94 implementation differs in that the numerical ordering of the buffers
95 is sequential, and not "unnamed first, then named". Thus in the pattern
96
97    /(A)(?<B>B)(C)(?<D>D)/
98
99 $1 will be 'A', $2 will be 'B', $3 will be 'C' and $4 will be 'D' and not
100 $1 is 'A', $2 is 'C' and $3 is 'B' and $4 is 'D' that a .NET programmer
101 would expect. This is considered a feature. :-) (Yves Orton)
102
103 =item Possessive Quantifiers
104
105 Perl now supports the "possessive quantifier" syntax of the "atomic match" 
106 pattern. Basically a possessive quantifier matches as much as it can and never
107 gives any back. Thus it can be used to control backtracking. The syntax is 
108 similar to non-greedy matching, except instead of using a '?' as the modifier
109 the '+' is used. Thus C<?+>, C<*+>, C<++>, C<{min,max}+> are now legal
110 quantifiers. (Yves Orton)
111
112 =item Backtracking control verbs
113
114 The regex engine now supports a number of special purpose backtrack
115 control verbs: (*THEN), (*PRUNE), (*MARK), (*SKIP), (*COMMIT), (*FAIL)
116 and (*ACCEPT). See L<perlre> for their descriptions. (Yves Orton)
117
118 =item Relative backreferences
119
120 A new syntax C<\R1> ("1" being any positive decimal integer) allows
121 relative backreferencing. This should make it easier to embed patterns
122 that contain backreferences. (Yves Orton)
123
124 =back
125
126 =head2 The C<_> prototype
127
128 A new prototype character has been added. C<_> is equivalent to C<$> (it
129 denotes a scalar), but defaults to C<$_> if the corresponding argument
130 isn't supplied. Due to the optional nature of the argument, you can only
131 use it at the end of a prototype, or before a semicolon.
132
133 This has a small incompatible consequence: the prototype() function has
134 been adjusted to return C<_> for some built-ins in appropriate cases (for
135 example, C<prototype('CORE::rmdir')>). (Rafael Garcia-Suarez)
136
137 =head2 UNITCHECK blocks
138
139 C<UNITCHECK>, a new special code block has been introduced, in addition to
140 C<BEGIN>, C<CHECK>, C<INIT> and C<END>.
141
142 C<CHECK> and C<INIT> blocks, while useful for some specialized purposes,
143 are always executed at the transition between the compilation and the
144 execution of the main program, and thus are useless whenever code is
145 loaded at runtime. On the other hand, C<UNITCHECK> blocks are executed
146 just after the unit which defined them has been compiled. See L<perlmod>
147 for more information. (Alex Gough)
148
149 =head2 readpipe() is now overridable
150
151 The built-in function readpipe() is now overridable. Overriding it permits
152 also to override its operator counterpart, C<qx//> (a.k.a. C<``>). (Rafael
153 Garcia-Suarez)
154
155 =head2 UCD 5.0.0
156
157 The copy of the Unicode Character Database included in Perl 5.9 has
158 been updated to version 5.0.0.
159
160 =head1 Modules and Pragmas
161
162 =head2 New Core Modules
163
164 =over 4
165
166 =item *
167
168 C<Locale::Maketext::Simple>, needed by CPANPLUS, is a simple wrapper around
169 C<Locale::Maketext::Lexicon>. Note that C<Locale::Maketext::Lexicon> isn't
170 included in the perl core; the behaviour of C<Locale::Maketext::Simple>
171 gracefully degrades when the later isn't present.
172
173 =item *
174
175 C<Params::Check> implements a generic input parsing/checking mechanism. It
176 is used by CPANPLUS.
177
178 =item *
179
180 C<Term::UI> simplifies the task to ask questions at a terminal prompt.
181
182 =item *
183
184 C<Object::Accessor> provides an interface to create per-object accessors.
185
186 =back
187
188 =head2 Module changes
189
190 =over 4
191
192 =item C<base>
193
194 The C<base> pragma now warns if a class tries to inherit from itself.
195
196 =item C<warnings>
197
198 The C<warnings> pragma doesn't load C<Carp> anymore. That means that code
199 that used C<Carp> routines without having loaded it at compile time might
200 need to be adjusted; typically, the following (faulty) code won't work
201 anymore, and will require parentheses to be added after the function name:
202
203     use warnings;
204     require Carp;
205     Carp::confess "argh";
206
207 =back
208
209 =head1 Utility Changes
210
211 =head1 Documentation
212
213 =head1 Performance Enhancements
214
215 =head1 Installation and Configuration Improvements
216
217 =head2 C++ compatibility
218
219 Efforts have been made to make perl and the core XS modules compilable
220 with various C++ compilers (although the situation is not perfect with
221 some of the compilers on some of the platforms tested.)
222
223 =head2 Ports
224
225 Perl has been reported to work on MidnightBSD.
226
227 =head1 Selected Bug Fixes
228
229 PerlIO::scalar will now prevent writing to read-only scalars. Moreover,
230 seek() is now supported with PerlIO::scalar-based filehandles, the
231 underlying string being zero-filled as needed.
232
233 study() never worked for UTF-8 strings, but could lead to false results.
234 It's now a no-op on UTF-8 data. (Yves Orton)
235
236 The signals SIGILL, SIGBUS and SIGSEGV are now always delivered in an
237 "unsafe" manner (contrary to other signals, that are deferred until the
238 perl interpreter reaches a reasonably stable state; see
239 L<perlipc/"Deferred Signals (Safe Signals)">).
240
241 When a module or a file is loaded through an @INC-hook, and when this hook
242 has set a filename entry in %INC, __FILE__ is now set for this module
243 accordingly to the contents of that %INC entry.
244
245 =head1 New or Changed Diagnostics
246
247 =head2 Variable length character upgraded in print
248
249 This new UTF-8 warning indicates a situation where a non-Unicode string is
250 sent to a UTF-8 output layer, but given what the string contains, encoding
251 problems such as double UTF-8 encoding might arise. See L<perldiag>.
252
253 =head1 Changed Internals
254
255 The anonymous hash and array constructors now take 1 op in the optree
256 instead of 3, now that pp_anonhash and pp_anonlist return a reference to
257 an hash/array when the op is flagged with OPf_SPECIAL (Nicholas Clark).
258
259 =head1 Known Problems
260
261 =head2 Platform Specific Problems
262
263 =head1 Reporting Bugs
264
265 If you find what you think is a bug, you might check the articles
266 recently posted to the comp.lang.perl.misc newsgroup and the perl
267 bug database at http://rt.perl.org/rt3/ .  There may also be
268 information at http://www.perl.org/ , the Perl Home Page.
269
270 If you believe you have an unreported bug, please run the B<perlbug>
271 program included with your release.  Be sure to trim your bug down
272 to a tiny but sufficient test case.  Your bug report, along with the
273 output of C<perl -V>, will be sent off to perlbug@perl.org to be
274 analysed by the Perl porting team.
275
276 =head1 SEE ALSO
277
278 The F<Changes> file for exhaustive details on what changed.
279
280 The F<INSTALL> file for how to build Perl.
281
282 The F<README> file for general stuff.
283
284 The F<Artistic> and F<Copying> files for copyright information.
285
286 =cut